ImageVerifierCode 换一换
格式:DOC , 页数:10 ,大小:88.50KB ,
资源ID:6527912      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/6527912.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(一种基于统计的汉语切词方法.doc)为本站上传会员【pc****0】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

一种基于统计的汉语切词方法.doc

1、一种基于统计的汉语切词方法 刘海峰 王元元(解放军理工大学理 江苏南京 210007) 【摘要】汉语分词是中文信息处理系统的基础。本文的主要目的是:提出一种概率模式与统计手段相结合的方法进行汉语切词。首先采用一种基于概率的算法对汉语文本进行切分,然后在此基础上借助样本方差这一统计手段对切分结果进行检验、修正;利用两种模型相结合的方式,提高切分的准确率。 【关键词】自动分词 搭配 最大概率 样本均值 样本方差 1 汉语切词的意义 对于利用计算机进行汉语自动翻译的工作者来说,汉语文本的切词是必须面对的问题。一般说来,如果我们能在两种不同的语言中找到对应的模式,那么翻译将是非常理想的。但是

2、书面汉语不像英语、法语等印欧语言那样,词与词之间用空格分开,一个汉语的句子却是由前后连续的字符串组成,词与词之间并没有明显的分界标志。这样,计算机面对的是汉语整句输入,要使计算机像人一样对句子进行处理,就必需把这一串字符切分成合乎人的语感的一串词。而这一步骤几乎又是我们进行其它所有与自然语言处理相关的应用—诸如中文信息处理、人机对话等的前提。 其次,语言中的词往往具有多种词性和多种词义,这虽然是各种语言的一种普遍现象,但是在汉语中这种现象比起西方语言来说要严重得多。汉语中各种搭配、组合十分复杂,常常会产生歧义。比如句子:“彩色铅笔盒子”可以理解为(彩色)(铅笔盒子),也可以理解为(彩色铅笔)

3、盒子);“他讲不清楚”既可以解释为“他讲,他不清楚”,又可以解释为“他讲的不清楚”。等等,诸如此类现象在汉语中十分普遍。 象这些词与词之间的固有歧义、组合歧义、多动词连用、词性歧义以及词序等问题,使得对汉语分析变得极其复杂。因此,要实现对汉语的计算机处理,进行汉语字词的自动切分是必须的。机器处理的优势在于它有强大的计算能力,可以大规模地处理语料,再结合人工手段则可以提高它的精确度[1]。 切词的很小错误率对文章的理解却影响甚大。假设一个切词系统的错误率为2%,在一篇1000词的文章中,大约出现20处切词错误。又假设文章中的句子平均长度为5个词,整篇文章有大约200个句子;再假设这些切词错

4、误均匀分布(不过分集中),这20处切词错误就可能导致大约20个句子的翻译错误,错误率将达到10%。换句话说,切词阶段的错误率在翻译的过程中将会被“放大”,放大的倍数约等于句子的平均长度。这对翻译正确率的影响是非常大的[2]。 自动分词是现代汉语进行句法分析的第一步,是后续语法分析、语义分析等的分析基础。可以说没有有效的分词方法,汉语的进一步分析很难进行。 2 主要的切词方法 目前,常用的切词方法基本上分为基于规则的方法、基于统计的方法、以及两者的结合。基于规则的方法最常见的是以一定的形式文法系统来表述自然语言中大小成分间的组合规则;基于统计的方法则以各种统计数据来显示语言成分间的组合可能

5、性[3]。本文主要的着眼点放在统计方法上。 利用统计方法借助计算机对汉语进行句法分析所需要的工具是语料库。相对于基于规则的方法来说,基于统计的方法不再单独使用诸如词类、词性等知识进行句法分析,而是自动从语料库中学习词汇和词的结构信息。因为词汇之间存在着许多关系信息,某些词之间有相互结合的趋势。而这种结合可以反应更为深入的语义关系,可以在分析汉语文本中进行清除歧义问题。 3 一种基于统计的分词方法 用统计的方法进行汉语切分的一个常用方法是基于Veterbi算法的方法[4]。 设T=C1C2…Cn是一个汉语句子,这里,C1,C2,…,Cn 代表n个汉字字符。把一个汉语句子切分成词序列就是把

6、这个字符序列重新组合成词。即有   = (1) 其中, , 分词过程可以看作是在给定输入字符串S的条件下,输出w1w2…wm字符串为 的过程,而合理的概率分词结果应为条件概率P(w1w2…wm|T) 取到最大值时所对应的词串。 根据贝叶斯公式,得 , (2)   由于T 为给定的字符串,故P(T )为定值,又 P(T|S)为符合切分S 的条件下,T 出现的概率,又因为在S 的条件下 T 出现为必然事件,故可以认为: P(T|S)=1。 因此,由(2)式,我们只需要考虑P(S)=P(w1w2…wm)取得最大值

7、P* 时的情况。根据条件概率公式 P* = max(P(w1w2…wm))   (3) 由于(3)式的计算较复杂,为了减少参数空间,可以考虑限制参数的空间维数,如使用二元模型[5]进行近似计算:   (4) 即只考虑wi 的前一个词wi-1对wi 取值概率的影响,以   (5)   进行近似计算。而值 P(wi|wi-1) 可以用语料库中组合wi-1wi 出现的频率fi 代替。 当然,为了提高计算精确度,也可以考虑使用三维模型,当然计算量

8、将加大。 4 方法改进 在上面的算法中,由于我们采取的是近似计算,其结果对切词的精度有所影响。为了提高切词的准确率,我们可以进一步考虑再借助方差这一数字特征作为第二个统计手段,对上述统计方法加以改进和修正,使用两种方法相结合而达到提高切分准确率的目的。 搭配是汉语中的一种普遍现象。所谓搭配,是指两个或多个连续的字、词序列,具有句法和语义单位的特性。并且它的准确无歧义的意思或含义不能直接由它的组成部分的意思和含义直接给出[6]。也就是说,许多字词之间存在着一些固定搭配。如果两个词在一起出现了很多次,那么就是一个证据说明它们有特殊功能。这种功能不能简单的解释为两个词合并而导致的结果。在一个文

9、本语料库中寻找搭配的简单方法是计数。 再回到上面算法所得到的结果上来。设:     (6)   为利用该算法而得到的结果,我们再对分割点进行检验、修正。即对于分割点Cx1处,进一步考虑两种搭配Cx1-1Cx1与Cx1Cx1+1分别在语料库中出现的频率fi、fi+1 。若前者的频率大于后者的频率,则说明上述计算方法对该词的切分是较优的;否则,说明上述计算方法对该词的切分可能不一定合适,有可能需要修正。 当然上述方法显得过于简单。这是因为在语料库中的两个符号Cx1-1、Cx1之间的距离是变化的。比如下面一个例子,反映了“说”与“话”两个字的搭配情况: ①她说话太快; ② 他说的

10、话没有人相信; ③ 他无论说什么话你都相信; ④ 这话怎么说都对。 在这四个句子中,考虑以“说”为中心字,“说”、“话”两个字搭配的距离是可以变化的,我们可以计算语料库中这两个字之间的偏移量 的均值与方差。如上例 ① 中“说”与“话”相连,计两字之间的偏移量为1, ② 中的“说”与“话”两字之间有一个字符,认为偏移量为2。而 ④ 中“话”在“说”的前面,中间有2个字符。称偏移量为-3。如果我们仅利用例题中的4个句子,则可计算两字平均偏移量为: (7)   这样,我们在语料库中把分析限制在中心词“说”周围2m个字,即中心字 前、后各m个字,

11、可以推测两个字结合的平均程度。 m不能太大,否则搜索量太 大;m也不能太小,否则信息量太少,以m =2 或3较为适宜。 平均偏移量只能从一个方面反映两个字结合程度。另一方面,由概率论我们知道,方差是衡量随机变量取值与其取值平均之间的偏离程度的一个重要数字特征,而样本方差是方差的无偏估计,故以 (8)   作为一个标准去推测字符间结合的紧密程度是合理的。 这里的n表示两个字符的同现次数,xi 是同现的偏移量, 是样本偏移的 均值。习惯上,使用样本均方差S 来评价两个词之间的偏移量的离散程度。若 S =0,则说明

12、两个词结合非常紧密;若S 比较小,说明两词结合较紧;若S 较 大,说明两个字组成词可能性很小。在本例中, (9) 方差特征化了语料库中两个字之间的距离分布。 综上分析,我们提出下面的切词算法。 1)根据公式(4)计算P(S)的最大值,对文本进行第一次划分。 2)对于Cx1与Cx1-1和Cx1+1的两个搭配Cx1-1Cx1及Cx1Cx1+1来说,假设它们字间距偏移量的均方差分别为Si 和Si+1,计算 Si 和Si+1并比较:若Si >Si+1,认为前者的结合较后者结合更为合理,则接受(6)式相应的切分;若Si >Si

13、1,说明(6)式对该部分的切分可能不是最合适,这时可以进一步按以下原则考虑:若 P* 较大,Si+1较小,接受(6)式相应的切分;若P* 较小,Si+1较大,则认为Cx1Cx1+1的组合方式更加合理;若P* 较小,Si+1较小;或P* 较大,Si+1较大,这时很难选择,我们可以将这些情况单独挑出,进行人工干预。 当然,P* 、Si+1的值何时算大,何时算小,很难有一个准确的界定,这要根据具体情况选择较为合理的值。试验结果表明,该算法对切分精度有一定提高。 另外这种算法对切词方式还有需要进一步改进的地方。例如,即使两个字符组合是高频率,低方差;但是这两个词同现很多次却是一个偶然现象。对这样

14、情况,应用假设检验等统计手段进行处理,效果可能好一些。这是我们可以进一步思考的问题。 5 结束语 汉语分词是中文信息处理系统的基础,有着极其广泛的实际应用。从基本的输入系统到文字处理,无处不渗透着分词系统的应用。因此,中文信息处理技术的进步和广泛应用,有待于对分词中的关键问题进行进一步深入研究和探索。汉语分词系统作为中文信息处理系统的基石,有着极其广泛的应用前景。计算机的智能目前还远远没有达到能够象人一样理解自然语言的水平,而且在可预见的将来也达不到这样的水平。因此,关于计算机对自然语言的理解一般是从实用的角度进行评判的[7],通过对分词技术的深入研究,找到高效的分词方法,开发出高质量,多

15、功能的分词系统,必将促进中文信息处理系统的广泛应用。 (收稿日期:2006-03-14;Email:liuhaifeng19620717@) 参考文献 [1]周强,俞士汶.一个人机互助的汉语语料库多级加工处理系统CCMP.《计算语言学进展与应用》,清华大学出版社,1995年,P50-55 [2]刘群,俞士汶.汉英机器翻译的难点分析.《1998中文信息处理国际会议论文集》,清华大学出版社, P507-514 [3]徐辉,何克抗,孙波.书面汉语自动切词专家系统的实现 (1991).中文信息学报,5(3) [4]刘颖.计算语言学,清华大学出版社,p15 [5]姚天顺等.自然语言理解—

16、种让机器懂得人类语言的研究.清华大学出版社,p272 [6]Christopher.D.Foundations of Statistical Natural Language Processing.Manning And Hinrich Schutze p183-184 [7] 俞士汶.自然语言理解与语法研究.《语法研究入门》,商务印书馆,1999,p240-251 A method of cutting apart Chinese words basing on statistics Liu Haifeng Wang Yuanyuan Abstr

17、act: To cutting apart Chinese words correctly is a foundation of Chinese information processing. In this paper, our main purpose is to use a method in cutting apart Chinese words. This method composes of two statistical models Firstly, we use an algorithm basing on probability to cut Chinese words. Secondly, we depend on the variance as the second statistical method to revise the result. With combining of the two models, we have raised the accuracy. Key words: cut apart words automatically; collocations; Max probability; sample mean and sample variance

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服