资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第八章 自然语言处理,古埃及关于语言起源的故事,希腊史学家希罗多图斯的,载有一段埃及的故事,:,古埃及的一位国王曾为探究人类最初的语言词汇到底是什么而采取出人意料的办法。有一次,一个孩子降生,他就下令让一个牧人把孩子放到荒郊野外,命令他不许和孩子说任何话,还要一边放羊,一边照顾这个孩子,等这个孩子说第一个词时马上来报告。一年多以后,孩子说出第一个词汇,bekos,。国王立即召集学者研究这个词的出处,后来发现是弗吉里亚语中面包的意思,国王就认为人类最早开始说的词就是面包。,一次科学实验,巴别塔,据,圣经,创世记第,11,章记载,是当时人类联合起来兴建,希望能通往天堂的高塔。为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通,计划因此失败,人类自此各散东西。,内容提纲,8.1,自然语言处理概述,8.2,自然语言处理的基本技术,8.3,自然语言处理技术路线,8.4,实例与系统演示,8.1,自然语言处理概述,基本语言学知识,自然语言处理概念,自然语言理解,研究目标,研究内容,NLP,应用,发展历史,自然语言的概念,什么是,自然语言,语言是人类交际的工具,是人类思维的载体,人造语言:编程语言,包括,C+,BASIC,等,世界语,自然语言:,形式:,口语、书面语、手语,语种:汉语、英语、日语、法语,语言学,是研究语言规律的科学,网络语言,“,昨晚,我的,JJ,带着他的青蛙,BF,到我家来吃饭。在饭桌上,,JJ,的,BF,一个劲儿地对我妈妈,PMP,,说她年轻的时候一定是个漂亮,MM,,那酱紫真是好,BT,,,7456,”,JJ:,姐姐 酱紫,:这样子,BF:boy friend,青蛙:长相不好的男朋友,PMP:,拍马屁,MM,:妹妹,BT,:变态,7456,:气死我了,语言,词汇,语法,词,熟语,词法,句法,词素,构形法,构词法,词组构造法,造句法,语言,词汇,语法,词,熟语,词法,词素,句法,构形法,构词法,词组构造法,语言,词汇,语法,词,熟语,词法,词素,造句法,句法,构形法,构词法,词组构造法,语言,词汇,语法,词,熟语,词法,词素,语言的构成,自然语言处理的层次,语音分析,:从语音流中区分出一个一个声音单元,-,音素,词法分析,:从句子中切分出单词、找出词汇的各个词素,确定单词的词性、词义等。,句法分析,:对句子和短语的结构进行分析,找出词、短语等的相互关系及在句子中的作用等。,语义分析,:识别一句话所表达的实际意义。,语用分析,:研究语言所在的外界环境对语言使用所产生的影响。,语义与语用,同一词语在不同的,“,语境,”,中具有不同,“,语义,”,例如:中国奥运史上十大女杰的精彩,“,转身,”,病毒,计算机领域:计算机病毒,医学领域:生物学病毒,自然语言处理的概念,自然语言处理,(,Natural Language Processing,NLP,),也称,自然语言理解,或,计算语言学,;,主要研究如何让机器进行自然语言信息处理,即人类语言活动中,信息成分的,发现,、,提取,、,存储,、,加工,与,传输。,NLP,是计算机科学、语言学、人工智能与数学等学科的交叉学科和边缘学科。,计算语言学是从计算角度处理语言,将人们对语言的结构规律的认识用精确的、形式化的、可计算的方式(计算模型)加以表示。,中文信息处理,中文信息处理的研究内容是利用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括:对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。,自然语言理解的困难,自然语言具有多样性,(不同语种、不同地域、不同人群),自然语言具有进化性,自然语言的模糊性,自然语言的歧义性,处理歧义问题是,NLP,的,核心问题,。自然语言处理过程就是各种歧义现象的消解过程。,机器能够理解人的语言吗?,很难!,什么是理解?,结构主义:机器的理解机制与人相同(白盒),问题:人类语言理解机理尚未清楚,功能主义:机器的表现与人相同即可(黑盒),图灵测试,如果通过自然语言的问答,一个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能,给计算机输入一段自然语言文本,如果计算机能,问答,(question-answering),机器能正确地回答输入 文本中的有关问题;,文摘生成,(summarizing),机器有能力产生输入文本 的摘要;,复述,(paraphrase),机器用不同的词语和语句复述输入文本;,翻译,(translation),机器把一种语言,(,源语言,),翻译为 另一种语言,(,目标语言,),理解自然语言的准则,自然语言处理的研究目标,弱人工智能目标,:建立一个足够精确的语言数学模型使计算机通过编程来完成自然语言的相关任务。如:听、读、写、说,释义,翻译,回答问题等,;,强人工智能目标,:让用户能通过自然语言与计算机自由对话;,NLP,研究内容,应用系统,数字图书馆、电子商务、,电子政务、远程教育、语言学习,基础研究,分词、词性标注、短语切分、,句法分析、语义分析、篇章理解等,应用技术研究,自动问答、机器翻译、信息检索、,文本挖掘、自动校对、信息抽取,资源建设,语料库资源建设,语言学知识库建设,语言学家,NLP,研究者,软件企业,NLP,的应用,NLP,应用前景,据统计,日常工作中,80%,的信息来源于语言,处理文本的需求在不断增长,文本是人类知识最大的存储源,并且文本的数量在不停地增长,电子邮件、新闻、网页、科技论文、,用户抱怨信,NLP,典型应用,智能搜索引擎、自动问答、信息获取、语义网,语音识别,文字识别、输入法,机器翻译,自动文摘,跨语言检索,文本分类、文本聚类、文本分析(结构、内容、情感)、文本挖掘(主题跟踪:人物跟踪,企业跟踪,),、文本过滤,2013,年,973,重点支持方向,互联网环境中文信息处理与深度计算的基本理论与方法,研究互联网规模中文深度计算的理论与模型,包括中文信息表示理论与模型、句子与篇章的结构分析和语义理解等方法;,研究言语多通道感知机理,包括多言语识别、翻译、合成与融合、开放式多类型语言知识大规模获取与组织等方法;,研究中文信息所承载中国文化元素的获取、传承和呈现等方法;,构建大规模中文文本语义体系和语料库,开发相应软件系统原型。,文本校对,正确的用法,错误的用法,正确的用法,错误的用法,执著,执着,其他,其它,思维,思惟,想像,想象,唯一,惟一,好像,好象,唯心,惟心,侍者,恃者 伺者,磨炼,磨练,承事,承侍,历事练心,历事炼心,降伏,降服,做主,作主,调伏,调服,做一位智者,作一位智者,噩梦,恶梦,叫做,叫作,摄受,摄授,NLP,应用趋势,智能接口,功能:,把现实世界中的信息送入电子世界,主要成果,拼音输入、手写输入、语音合成、语音输入,手机输入,知识处理,功能:,对于已进入电子世界中的信息进行加工处理获得知识,知识经济的时代已经到来!,知识就是力量,知识就是财富,百度爱问、百度文库、新浪爱问、,VC,知识库,NLP,的历史,20,世纪,50,年代起步,机器翻译、自动文摘,50-60,年代采用模式匹配的方法,60,年代衰落,70-80,年代采用面向受限域的深入理解的方法,90,年代至今统计方法占主流,随着互联网的发展而复苏,互联网为,NLP,提供了市场需求和试验数据,统计语言模型和机器学习方法推动了,NLP,近来的主要发展:主要集中于海量网络信息的处理,8.2 NLP,的基本技术,词法分析,句法分析,语义分析,词法分析,词法分析目的是从句子中切分出单词,找出词汇的各个,词素,,从中获得单词的语言学信息并确定单词的,词性,词性,:,名词、动词、形容词、介词等,词的构成,:,动宾,动补,偏正,主谓,如,:,开学,生病,加深,认清,原油,火热,头痛,人造,自动分词,:,汉语处理的难题之一,用程序从句子中切分出单词,自动分词,主要分词算法,:,1.,基于词表的分词,-,最大匹配 即“长词优先”原则,来进行分词,2.,基于统计的分词,分词的难点,歧义字段处理,未登入词处理,:,人名识别,地名识别,译名识别,新词识别,分词歧义,例:南京市长江大桥,南京,|,市长,|,江大桥,南京市,|,长江,|,大桥,例:我们研究所有东西,我们,-,研究所,-,有,-,东西,(交叉歧义),我们,-,研究,-,所有,-,东西,把手放在桌上,把,-,手,-,放在,-,桌上,(组合歧义),把手,-,放在,-,桌上,分词的难点之一:未登录词,新词,名词:,斑竹、大虾、面瓜、菜鸟、美眉、陶吧、,911,、白骨精,动词:,打的、埋单、买单、给力,形容词:,酷、小资、爽,命名实体,时间、地名、人名、组织机构名,商标、公司名、电话号码、电子邮件地址,等等,合成词,简称,派生词,三个代表、十六大,牛市、熊市,微博,语法分析,/,句法分析,S,NP VP,V NPPP,Miss Smith put two books on this dining table.,目的,:,分析句子结构,找出词,短语在句中的相互关系以及各自的作用,并用层次结构来加以表示,词义消歧,机器翻译中最难的问题之一是词义的二义性(歧义性)问题。,比如,Bush,一词可以是美国总统的名字,也可以是灌木丛。,一个实用的方法是使用互信息。,互信息,(Mutual Information),是信息论里一种有用的信息度量,它是指两个事件集合之间的相关性,首先从大量文本中找出和总统布什一起出现的互信息最大的一些词,比如总统、美国、国会、华盛顿等等,当然,再用同样的方法找出和灌木丛一起出现的互信息最大的词,比如土壤、植物、野生等等。有了这两组词,在翻译,Bush,时,看看上下文中哪类相关的词多就可以了,。,理解一段文字所需的,NLP,基本技术,文本预处理,:文本格式转换、,HTML-TXT,转换、,文件合并,噪音信息过滤,句子切分,:把段落切分成一个个句子,分词,;把句子分成一个个单词,词性标注,(Part-of-Speech Tagging),:名词、动词、形容词等,句法分析,:句子的句法结构,词义消歧,(Word Sense Disambiguation),语义关系分析,;,指代消解,(Anaphora Resolution),;,篇章理解,;,自动摘要生成,;,8.2 NLP,研究技术路线,NLP,语言模型,NLP,两大流派:,理性主义和经验主义,NLP,两大技术路线:统计学习方法与人工规则方法;,计算模型,NLP,语言模型,理性主义,语言学家,N.Chomsky,认为人类生成合乎文法的语句的能力是生来具有的,为此他提出一种称为生成句法,(Generative Grammar),的理论;,通过一组有限的规则作用于一个有限的词汇上,从而本能地生成无限的可接受的、合乎文法的句子,理性主义试图去描写人脑中的语言模型,分析模型:基于规则的方法,;,人工规则方法,处理系统,规则,语言学,语义学,认知科学,人工智能,写规则,自然语言输入,处理结果,中医古文卷名篇名标注,String str=bufReader.readLine();,while,(str!=,null,),/,卷名标注,if,(str.startsWith(,卷 第,),str=#+str;,/,篇名标注,if,(str.startsWith(,“,篇第,),str=*+str;,printWriter.println(str);,str=bufReader.readLine();,黄帝内经,-,素问,规则方法的优点,语言学规则是人智慧的结晶,具有很好的描述能力和生成能力;,能有效地处理句法分析中的长距离依存关系等困难问题;,能够,处理,句子中长距离的主语和谓语动词之间的,一致关系,;,规则方法的缺点,基于规则方法的语言模型一般比较脆弱、鲁棒性很差,语言是极其复杂的现象,人类总结的规则不完备、不一致,规则多了相互冲突,难以对抗复杂的语言现象,基于规则的方法难以机器自动学习需要语言学家等参与,劳动强度大,成本昂贵。,自然语言是不断发展变化的,规则方法应变能力弱;,经验主义,行为心理学家,B.F.Skinner,提出另一种语言理论。,这个理论认为人类语言能力的获得来自于学习,语言是通过不断地实践而,“,约定俗成,”,的结果。这就是自然语言形成的经验主义解释;,经验主义试图去刻画真实世界的语言现象,统计模型:基于统计的方法,“,数据驱动,”,(Data Driven),:从数据中学习,(Learning From Data),的方法;,从数据中统计语言规律,统计学习方法,学习系统,预测系统,概率模型,统计学习,建立模型,自然语言输入,自然语言输入,预测,基于统计的研究方法,设定一个语言模型,推导出参数值,最大熵模型(,Maximun Entropy Modeling),隐马尔科夫模型,(Hidden Markov Model),支持向量机,(SVM),贝叶斯算法,(Bayes),条件随机场,几大要素,数学基础,统计算法,训练语料,概率统计方法的缺点,人的语言运用不是一个随机的过程,是有规律可循,用统计模型作为语言模型并不精确;,建立语料库的人工成本;,与语料库质量密切相关:数据稀疏问题;,数据稀疏:真实世界存在,但在语料库中出现概率很小;,自然语言处理,统计学习,人工规则,语料库,语言学,统计学习方法与人工规则方法的关系,混合模型,=,规则,+,统计,8.4 NLP,实例与系统演示,一个简单的英汉机器翻译实例,输入英文句子:,Miss Smith put two books on this dining table.,形态分析,(Morphological Analysis),Miss,Smith,put(+ed),two,book+s,on,this,dining table,.,句法分析,(,Syntactic Analysis,),S,NP VP,V NPPP,Miss Smith put two books on this dining table.,词汇转换,Miss,小姐,Smith,史密斯,put(+ed),放,two,两,book+s,书,on,在,上面,this,这,dining table,.,餐桌,短语转换,(,调序,),小姐史密斯,放两书在,上面这餐桌,史密斯小姐,放两书在,这餐桌上面,生成,史密斯小姐放两书在这餐桌上面,史密斯小姐(把)两(本)书放在这(张)餐桌上面,最终翻译结果,英文:,Miss Smith put two books on this dining table.,中文:史密斯小姐把两本书放在这张餐桌上面,系统演示,计算所汉语词法分析系统,ICTCLAS,文本自动分类系统,Google,、,Baidu,和有道的统计机器翻译系统,此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢,
展开阅读全文