ImageVerifierCode 换一换
格式:PPT , 页数:24 ,大小:132.50KB ,
资源ID:10304304      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
图形码:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/10304304.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请。


权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4009-655-100;投诉/维权电话:18658249818。

注意事项

本文(中文信息处理与汉语研究.ppt)为本站上传会员【pc****0】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

中文信息处理与汉语研究.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,中文信息处理与汉语研究,现状和发展,詹卫东,北京大学中文系,北京大学汉语语言学研究中心北京,,100871,zwd,,2003.10.5-10.6,1,提 纲,中文信息处理研究的格局,中文信息处理的现状和发展趋势,语言知识资源的建设,面向中文信息处理的汉语研究,2,一 中文信息处理研究的格局,信息的两个层次:,符号层,中文,/,汉语,/,汉字内容层,符号所承载的意义,中文信息处理的两个层次:字符处理(输入、存储、输出等)内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译,等等),(信号,vs.

2、信息),3,符号层的信息处理,拼音文字:小字符集,比较容易,非拼音文字:大字符集,难度很大,汉字是一个大字符集,说文解字,(东汉):,9353,字,玉篇,(南朝)收录,16,917,字,广韵,(宋代)收字,26,194,字,字汇,(明朝)收录,33,197,字,康熙字典,(清朝)收录,47,043,字,汉语大字典,(,1992,年),5.6,万,中华字海,(,1994,年,),8.6,万,拉丁字母只有,26,个符号,斯拉夫字母只有,33,个符号,阿尔明尼亚字母只有,38,个符号,泰米尔字母只有,36,个符号,缅甸字母只有,52,个符号,泰文字母只有,44,个符号,老挝字母只有,27,个符号,

3、藏文字母只有,35,个符号,韩文字母只有,24,个符号,日文假名只有,48,个符号,4,符号层的信息处理,汉字输入,自动输入,键盘输入,字形识别,声音识别,手写体识别,印刷体识别,在线手写,脱机手写,整字键盘,通用键盘,主辅式,感应式,形码,音码,形音结合码,1,2,3,4,5,6,7,8,9,5,内容层的信息处理,形态丰富的语言(,inflecting language,):处理难,形态不丰富的语言,(,analytic language,),:处理更难,汉语,英语,老师都来了,All professors came here.,张老师都来了,Even Professor Zhang cam

4、e here.,编辑工作很难,Editing is very difficult.,如何当好编辑,How to become a good editor,6,内容层的信息处理,原文,原文输入,译前编辑,词法分析,句法分析,语义分析,语境分析,内部表示转换,译词选择,译后编辑,译文输出,词形变化,句子生成,译文,1,2,3,4,5,6,7,8,9,10,11,12,机器翻译全过程,需要语言知识!,7,内容层处理对符号层处理的反作用,拼音串(无声调),xue,xi,dian,nao,ji,shu,候选字串,雪,系,点,脑,机,树,共有,14,98,41,15,167,68,95.8,亿种可能性,学

5、洗,电,闹,给,述,学,西,颠,挠,记,书,候选词串,学习,电脑,级数,共有,2,1,7,14,种可能性,血洗,电脑,奇数,血洗,电脑,基数,正确文字串,学习电脑技术,8,内容层处理对符号层处理的反作用,拼音串(无声调),xue,xi,dian,nao,ji,shu,候选字串,雪,系,点,脑,机,树,共有,14,98,41,15,167,68,95.8,亿种可能性,学,洗,电,闹,给,述,学,西,颠,挠,记,书,候选词串,学习,电脑,级数,共有,2,1,7,14,种可能性,血洗,电脑,奇数,血洗,电脑,基数,正确文字串,学习电脑技术,9,内容层处理对符号层处理的反作用,拼音串(无声调),xu

6、e,xi,dian,nao,ji,shu,候选字串,雪,系,点,脑,机,树,共有,14,98,41,15,167,68,95.8,亿种可能性,学,洗,电,闹,给,述,学,西,颠,挠,记,书,候选词串,学习,电脑,级数,共有,2,1,7,14,种可能性,血洗,电脑,奇数,血洗,电脑,基数,正确文字串,学习电脑技术,10,内容层处理对符号层处理的反作用,拼音串(无声调),xue,xi,dian,nao,ji,shu,候选字串,雪,系,点,脑,机,树,共有,14,98,41,15,167,68,95.8,亿种可能性,学,洗,电,闹,给,述,学,西,颠,挠,记,书,候选词串,学习,电脑,级数,共有,2

7、1,7,14,种可能性,血洗,电脑,奇数,血洗,电脑,基数,正确文字串,学习电脑技术,11,二 中文信息处理的现状和发展趋势,现状符号层的处理成果已经得到广泛应用;中文输入,/,字库,/,字处理软件,/,排版,/,内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索,12,系统演示,北京大学现代汉语分词,/,词性标注,/,句法分析系统(孙斌、刘群、常宝宝、詹卫东等),信息产品的多样化网络的迅速发展积累更多基础资源,开发更多应用系统。内容层的处理将受到越来越多的重视,信息家电,内容计算,,14,三 语言知识资源的建设,现代汉语语法信息词典,基于配价理论

8、的现代汉语语义词典,现代汉语短语结构信息库,2700,万字现代汉语分词与词性标注语料库,句子对齐的汉英双语语料库,现代汉语树库,现代汉语短语结构规则库,15,资源演示,现代汉语语义词典(詹卫东、王惠等),,汉英平行语料库(常宝宝、柏晓静等),现代汉语树库(詹卫东、常宝宝等),16,四 面向中文信息处理的语言学研究,充分重视各个层次上的语言歧义研究,拓展语言现象的研究面,强调研究结果的可操作性,推动语言知识的形式化、系统化和规模化,加强语言知识库的工程建设,为中文信息处理(内容层的处理)积累更多基础资源,17,歧义示例,张 店 区 大 学 生 不 看 重 大 城 市 户 口,张店区 大学生 不

9、看 重大 城市 户口,张店区 大学生 不 看重 大 城市 户口,18,歧义示例(续),有,三,百,多,种,树,v,mcp,q,n,mp,np,vp,np,vp,有,三,百,多,种,树,v,mcp,v,n,vp,vp,np,vp,vp,vp,有 三 百 多 种 树,v m m m,q/v,n,有 三 百 多 种 树,19,歧义示例(续),请 转告 李宇明 司长 下午 三点 出发,v v n n t t v,请转告李宇明 司长下午三点出发,请转告李宇明司长 下午三点出发,20,要让计算机“理解”一个句子,实际上要解决下面两个核心问题:,(,1,)一个句子的结构和意义是什么?,(,2,)如何得到一个

10、句子的结构和意义?,第一个问题是“,What,”,的问题,这是理论语言学关心的问题;,第二个问题是“,How,”,的问题,这是计算语言学关心的问题,也就是面向中文信息处理的语言研究需要关心的问题。,结 语,21,参考文献,慈林林 鲁元魁,,1999,,,中文信息处理新技术展望,,,计算机世界,1999,年第,44,期“产品与技术”版“专题报道”。,刘梦松,,1998,,,中文信息处理软件概述,,,计算机世界,1998,年第,26,期“技术专题”版。,许嘉璐,,2002,,,现状和设想,试论中文信息处理与现代汉语研究,,,中国语文,2000,年第,6,期。,俞士汶,朱学锋,,2002,,,关于汉

11、语信息处理的认识及其研究方略,,,语言文字应用,2002,年第,3,期。,俞士汶,朱学锋,王惠,,2001,,,的新进展,,,中文信息学报,2001,年第,1,期。,詹卫东,常宝宝,俞士汶,,2002,机器翻译与语言研究,,,语言科学,2002,年第,1,期(创刊号)。,詹卫东,,,2000,,,80,年代以来汉语信息处理研究述评,,,当代语言学,2000,年第,2,期。,张华平,,2003,,,中文信息处理技术发展简史,,,(中文信息处理开放平台网站),22,国内外重要的语言知识资源举例,WordNet,,,,www.cogsci.princeton.edu/wn,/,FrameNet,,,www.icsi.berkeley.edu/framenet/,HowNet,,,谢,请大家批评指正,欢迎访问,,24,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服