ImageVerifierCode 换一换
格式:PPT , 页数:50 ,大小:578KB ,
资源ID:10282831      下载积分:14 金币
验证码下载
登录下载
邮箱/手机:
图形码:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/10282831.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请。


权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4009-655-100;投诉/维权电话:18658249818。

注意事项

本文(第八章-自然语言处理教案资料.ppt)为本站上传会员【a199****6536】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

第八章-自然语言处理教案资料.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第八章 自然语言处理,古埃及关于语言起源的故事,希腊史学家希罗多图斯的,载有一段埃及的故事,:,古埃及的一位国王曾为探究人类最初的语言词汇到底是什么而采取出人意料的办法。有一次,一个孩子降生,他就下令让一个牧人把孩子放到荒郊野外,命令他不许和孩子说任何话,还要一边放羊,一边照顾这个孩子,等这个孩子说第一个词时马上来报告。一年多以后,孩子说出第一个词汇,bekos,。国王立即召集学者研究这个词的出处,后来发现是弗吉里亚语中面包的意思,国王就认为人类最早开始说的词就是面包。,一次科学实验,巴别塔,据,圣经,创

2、世记第,11,章记载,是当时人类联合起来兴建,希望能通往天堂的高塔。为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通,计划因此失败,人类自此各散东西。,内容提纲,8.1,自然语言处理概述,8.2,自然语言处理的基本技术,8.3,自然语言处理技术路线,8.4,实例与系统演示,8.1,自然语言处理概述,基本语言学知识,自然语言处理概念,自然语言理解,研究目标,研究内容,NLP,应用,发展历史,自然语言的概念,什么是,自然语言,语言是人类交际的工具,是人类思维的载体,人造语言:编程语言,包括,C+,BASIC,等,世界语,自然语言:,形式:,口语、书面语、手语,语种:汉语、英语、日

3、语、法语,语言学,是研究语言规律的科学,网络语言,“,昨晚,我的,JJ,带着他的青蛙,BF,到我家来吃饭。在饭桌上,,JJ,的,BF,一个劲儿地对我妈妈,PMP,,说她年轻的时候一定是个漂亮,MM,,那酱紫真是好,BT,,,7456,”,JJ:,姐姐 酱紫,:这样子,BF:boy friend,青蛙:长相不好的男朋友,PMP:,拍马屁,MM,:妹妹,BT,:变态,7456,:气死我了,语言,词汇,语法,词,熟语,词法,句法,词素,构形法,构词法,词组构造法,造句法,语言,词汇,语法,词,熟语,词法,词素,句法,构形法,构词法,词组构造法,语言,词汇,语法,词,熟语,词法,词素,造句法,句法,构

4、形法,构词法,词组构造法,语言,词汇,语法,词,熟语,词法,词素,语言的构成,自然语言处理的层次,语音分析,:从语音流中区分出一个一个声音单元,-,音素,词法分析,:从句子中切分出单词、找出词汇的各个词素,确定单词的词性、词义等。,句法分析,:对句子和短语的结构进行分析,找出词、短语等的相互关系及在句子中的作用等。,语义分析,:识别一句话所表达的实际意义。,语用分析,:研究语言所在的外界环境对语言使用所产生的影响。,语义与语用,同一词语在不同的,“,语境,”,中具有不同,“,语义,”,例如:中国奥运史上十大女杰的精彩,“,转身,”,病毒,计算机领域:计算机病毒,医学领域:生物学病毒,自然语言处

5、理的概念,自然语言处理,(,Natural Language Processing,NLP,),也称,自然语言理解,或,计算语言学,;,主要研究如何让机器进行自然语言信息处理,即人类语言活动中,信息成分的,发现,、,提取,、,存储,、,加工,与,传输。,NLP,是计算机科学、语言学、人工智能与数学等学科的交叉学科和边缘学科。,计算语言学是从计算角度处理语言,将人们对语言的结构规律的认识用精确的、形式化的、可计算的方式(计算模型)加以表示。,中文信息处理,中文信息处理的研究内容是利用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括:对字、词、短语、句、篇章的输入、输出、识别、转换、压

6、缩、存储、检索、分析、理解和生成等各方面的处理技术。,自然语言理解的困难,自然语言具有多样性,(不同语种、不同地域、不同人群),自然语言具有进化性,自然语言的模糊性,自然语言的歧义性,处理歧义问题是,NLP,的,核心问题,。自然语言处理过程就是各种歧义现象的消解过程。,机器能够理解人的语言吗?,很难!,什么是理解?,结构主义:机器的理解机制与人相同(白盒),问题:人类语言理解机理尚未清楚,功能主义:机器的表现与人相同即可(黑盒),图灵测试,如果通过自然语言的问答,一个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能,给计算机输入一段自然语言文本,如果计算机能,问答,(questio

7、n-answering),机器能正确地回答输入 文本中的有关问题;,文摘生成,(summarizing),机器有能力产生输入文本 的摘要;,复述,(paraphrase),机器用不同的词语和语句复述输入文本;,翻译,(translation),机器把一种语言,(,源语言,),翻译为 另一种语言,(,目标语言,),理解自然语言的准则,自然语言处理的研究目标,弱人工智能目标,:建立一个足够精确的语言数学模型使计算机通过编程来完成自然语言的相关任务。如:听、读、写、说,释义,翻译,回答问题等,;,强人工智能目标,:让用户能通过自然语言与计算机自由对话;,NLP,研究内容,应用系统,数字图书馆、电子商

8、务、,电子政务、远程教育、语言学习,基础研究,分词、词性标注、短语切分、,句法分析、语义分析、篇章理解等,应用技术研究,自动问答、机器翻译、信息检索、,文本挖掘、自动校对、信息抽取,资源建设,语料库资源建设,语言学知识库建设,语言学家,NLP,研究者,软件企业,NLP,的应用,NLP,应用前景,据统计,日常工作中,80%,的信息来源于语言,处理文本的需求在不断增长,文本是人类知识最大的存储源,并且文本的数量在不停地增长,电子邮件、新闻、网页、科技论文、,用户抱怨信,NLP,典型应用,智能搜索引擎、自动问答、信息获取、语义网,语音识别,文字识别、输入法,机器翻译,自动文摘,跨语言检索,文本分类、

9、文本聚类、文本分析(结构、内容、情感)、文本挖掘(主题跟踪:人物跟踪,企业跟踪,),、文本过滤,2013,年,973,重点支持方向,互联网环境中文信息处理与深度计算的基本理论与方法,研究互联网规模中文深度计算的理论与模型,包括中文信息表示理论与模型、句子与篇章的结构分析和语义理解等方法;,研究言语多通道感知机理,包括多言语识别、翻译、合成与融合、开放式多类型语言知识大规模获取与组织等方法;,研究中文信息所承载中国文化元素的获取、传承和呈现等方法;,构建大规模中文文本语义体系和语料库,开发相应软件系统原型。,文本校对,正确的用法,错误的用法,正确的用法,错误的用法,执著,执着,其他,其它,思维,

10、思惟,想像,想象,唯一,惟一,好像,好象,唯心,惟心,侍者,恃者 伺者,磨炼,磨练,承事,承侍,历事练心,历事炼心,降伏,降服,做主,作主,调伏,调服,做一位智者,作一位智者,噩梦,恶梦,叫做,叫作,摄受,摄授,NLP,应用趋势,智能接口,功能:,把现实世界中的信息送入电子世界,主要成果,拼音输入、手写输入、语音合成、语音输入,手机输入,知识处理,功能:,对于已进入电子世界中的信息进行加工处理获得知识,知识经济的时代已经到来!,知识就是力量,知识就是财富,百度爱问、百度文库、新浪爱问、,VC,知识库,NLP,的历史,20,世纪,50,年代起步,机器翻译、自动文摘,50-60,年代采用模式匹配的

11、方法,60,年代衰落,70-80,年代采用面向受限域的深入理解的方法,90,年代至今统计方法占主流,随着互联网的发展而复苏,互联网为,NLP,提供了市场需求和试验数据,统计语言模型和机器学习方法推动了,NLP,近来的主要发展:主要集中于海量网络信息的处理,8.2 NLP,的基本技术,词法分析,句法分析,语义分析,词法分析,词法分析目的是从句子中切分出单词,找出词汇的各个,词素,,从中获得单词的语言学信息并确定单词的,词性,词性,:,名词、动词、形容词、介词等,词的构成,:,动宾,动补,偏正,主谓,如,:,开学,生病,加深,认清,原油,火热,头痛,人造,自动分词,:,汉语处理的难题之一,用程序从

12、句子中切分出单词,自动分词,主要分词算法,:,1.,基于词表的分词,-,最大匹配 即“长词优先”原则,来进行分词,2.,基于统计的分词,分词的难点,歧义字段处理,未登入词处理,:,人名识别,地名识别,译名识别,新词识别,分词歧义,例:南京市长江大桥,南京,|,市长,|,江大桥,南京市,|,长江,|,大桥,例:我们研究所有东西,我们,-,研究所,-,有,-,东西,(交叉歧义),我们,-,研究,-,所有,-,东西,把手放在桌上,把,-,手,-,放在,-,桌上,(组合歧义),把手,-,放在,-,桌上,分词的难点之一:未登录词,新词,名词:,斑竹、大虾、面瓜、菜鸟、美眉、陶吧、,911,、白骨精,动词

13、打的、埋单、买单、给力,形容词:,酷、小资、爽,命名实体,时间、地名、人名、组织机构名,商标、公司名、电话号码、电子邮件地址,等等,合成词,简称,派生词,三个代表、十六大,牛市、熊市,微博,语法分析,/,句法分析,S,NP VP,V NPPP,Miss Smith put two books on this dining table.,目的,:,分析句子结构,找出词,短语在句中的相互关系以及各自的作用,并用层次结构来加以表示,词义消歧,机器翻译中最难的问题之一是词义的二义性(歧义性)问题。,比如,Bush,一词可以是美国总统的名字,也可以是灌木丛。,一个实用的方法是使用互信息。,互信息,(

14、Mutual Information),是信息论里一种有用的信息度量,它是指两个事件集合之间的相关性,首先从大量文本中找出和总统布什一起出现的互信息最大的一些词,比如总统、美国、国会、华盛顿等等,当然,再用同样的方法找出和灌木丛一起出现的互信息最大的词,比如土壤、植物、野生等等。有了这两组词,在翻译,Bush,时,看看上下文中哪类相关的词多就可以了,。,理解一段文字所需的,NLP,基本技术,文本预处理,:文本格式转换、,HTML-TXT,转换、,文件合并,噪音信息过滤,句子切分,:把段落切分成一个个句子,分词,;把句子分成一个个单词,词性标注,(Part-of-Speech Tagging),

15、名词、动词、形容词等,句法分析,:句子的句法结构,词义消歧,(Word Sense Disambiguation),语义关系分析,;,指代消解,(Anaphora Resolution),;,篇章理解,;,自动摘要生成,;,8.2 NLP,研究技术路线,NLP,语言模型,NLP,两大流派:,理性主义和经验主义,NLP,两大技术路线:统计学习方法与人工规则方法;,计算模型,NLP,语言模型,理性主义,语言学家,N.Chomsky,认为人类生成合乎文法的语句的能力是生来具有的,为此他提出一种称为生成句法,(Generative Grammar),的理论;,通过一组有限的规则作用于一个有限的词汇上

16、从而本能地生成无限的可接受的、合乎文法的句子,理性主义试图去描写人脑中的语言模型,分析模型:基于规则的方法,;,人工规则方法,处理系统,规则,语言学,语义学,认知科学,人工智能,写规则,自然语言输入,处理结果,中医古文卷名篇名标注,String str=bufReader.readLine();,while,(str!=,null,),/,卷名标注,if,(str.startsWith(,卷 第,),str=#+str;,/,篇名标注,if,(str.startsWith(,“,篇第,),str=*+str;,printWriter.println(str);,str=bufReader.r

17、eadLine();,黄帝内经,-,素问,规则方法的优点,语言学规则是人智慧的结晶,具有很好的描述能力和生成能力;,能有效地处理句法分析中的长距离依存关系等困难问题;,能够,处理,句子中长距离的主语和谓语动词之间的,一致关系,;,规则方法的缺点,基于规则方法的语言模型一般比较脆弱、鲁棒性很差,语言是极其复杂的现象,人类总结的规则不完备、不一致,规则多了相互冲突,难以对抗复杂的语言现象,基于规则的方法难以机器自动学习需要语言学家等参与,劳动强度大,成本昂贵。,自然语言是不断发展变化的,规则方法应变能力弱;,经验主义,行为心理学家,B.F.Skinner,提出另一种语言理论。,这个理论认为人类语言

18、能力的获得来自于学习,语言是通过不断地实践而,“,约定俗成,”,的结果。这就是自然语言形成的经验主义解释;,经验主义试图去刻画真实世界的语言现象,统计模型:基于统计的方法,“,数据驱动,”,(Data Driven),:从数据中学习,(Learning From Data),的方法;,从数据中统计语言规律,统计学习方法,学习系统,预测系统,概率模型,统计学习,建立模型,自然语言输入,自然语言输入,预测,基于统计的研究方法,设定一个语言模型,推导出参数值,最大熵模型(,Maximun Entropy Modeling),隐马尔科夫模型,(Hidden Markov Model),支持向量机,(S

19、VM),贝叶斯算法,(Bayes),条件随机场,几大要素,数学基础,统计算法,训练语料,概率统计方法的缺点,人的语言运用不是一个随机的过程,是有规律可循,用统计模型作为语言模型并不精确;,建立语料库的人工成本;,与语料库质量密切相关:数据稀疏问题;,数据稀疏:真实世界存在,但在语料库中出现概率很小;,自然语言处理,统计学习,人工规则,语料库,语言学,统计学习方法与人工规则方法的关系,混合模型,=,规则,+,统计,8.4 NLP,实例与系统演示,一个简单的英汉机器翻译实例,输入英文句子:,Miss Smith put two books on this dining table.,形态分析,(M

20、orphological Analysis),Miss,Smith,put(+ed),two,book+s,on,this,dining table,.,句法分析,(,Syntactic Analysis,),S,NP VP,V NPPP,Miss Smith put two books on this dining table.,词汇转换,Miss,小姐,Smith,史密斯,put(+ed),放,two,两,book+s,书,on,在,上面,this,这,dining table,.,餐桌,短语转换,(,调序,),小姐史密斯,放两书在,上面这餐桌,史密斯小姐,放两书在,这餐桌上面,生成,史密斯小姐放两书在这餐桌上面,史密斯小姐(把)两(本)书放在这(张)餐桌上面,最终翻译结果,英文:,Miss Smith put two books on this dining table.,中文:史密斯小姐把两本书放在这张餐桌上面,系统演示,计算所汉语词法分析系统,ICTCLAS,文本自动分类系统,Google,、,Baidu,和有道的统计机器翻译系统,此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服