资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,Institute of Computer Software,Nanjing,University,*,隐马尔可夫模型(,HMM,),在中文词性标注中的应用研究,答辩人:,指导老师:,1/6/2026,1,词性标注概述,隐马尔可夫模型概述,实验介绍,实验结果和分析,总结,提 纲,1/6/2026,2,词性标注概述,词性标注的目标和过程,目标:,为句子中的每个词都标上一个合适的词性,过程:,原文:这件事情在理论界、经济界引起了很大反响。,分词后:这 件 事情 在 理论界、经济界 引起 了 很 大 反响。,词性标注:这,/,r,件,/,q,事情,/,n,在,/,p,理论界,/,n,、,/w,经济界,/,n,引起,/,v,了,/,u,很,/,d,大,/,a,反响,/,n,。,/w,词性标注中的信息源,邻接词的词性信息,词本身提供的信息,1/6/2026,3,词性标注概述,(,cont.),词性标注的主要方法,基于规则的方法(,Rule-based,),基于统计的方法(,Statistics-based,),基于转换的方法(,Transformation-based,),词性标注准确率,训练数据量,标注集合,语料库差别,未登录词,1/6/2026,4,隐马尔可夫模型(,HMM,),概述,HMM,的两个假设:,有限视野假设,P(O,t+1,=S,k,|O,1,O,t,)=P(O,t+1,=,S,k,|,O,t,),时间不变性假设,P(O,t+1,=,S,k,|O,t,)=P(O,2,=S,k,|O,1,),1/6/2026,5,隐马尔可夫模型概述,(,cont.),HMM,模型:,=(A,B,),S,是状态集:,S=(S,1,S,2,S,N,),V,是观察集:,V=(V,1,V,2,V,M,),状态序列:,Q=,q,1,q,2,q,T,(,隐藏),观察序列:,O=,o,1,o,2,o,T,(,可见),A,是状态转移概率分布:,A=,a,ij,a,ij,=,P(q,t,=s,j,|q,t-1,=,s,i,)(,满足假设,1),B,是观察值生成概率分布:,B=,b,j,(,v,k,),b,j,(v,k,)=,P(o,t,=,v,k,|q,t,=,s,i,)(,满足假设,2),初始观察值概率分布:,=,i,i,=,P(q,1,=,s,i,),1/6/2026,6,隐马尔可夫模型概述,(,cont.),隐马尔可夫模型的基本问题,给定一个模型,=(A,B,),,,怎样有效的计算某个观测序列发生的概率,即,P(O|,),。(,模型拟合程度),给定观测序列,O,和模型,,怎样选择一个状态序列,q,1,q,2,q,T,,,以便能够最好的解释观测序列,这个过程通常也被称为译码。(标注过程),给定观测序列,O,,,以及通过改变模型,=(A,B,),的参数而得到的模型空间,怎样才能找到一个最好的解释这个观测序列的模型。(模型训练过程),1/6/2026,7,隐马尔可夫模型概述,(,cont.),Viterbi,算法:,s,1,s,2,s,i,s,N,s,1,s,2,s,i,s,N,s,1,s,2,s,j,s,N,s,1,s,2,s,i,s,N,a,1j,a,2j,a,ij,a,Nj,1/6/2026,8,实验介绍,实验语料库简介,人民日报标注语料库,199801199806,共含有标注,42,个,单词,130274,个,实验建模,S,:,预先定义的词性标注集(,42,个标注),V,:,文本中的词汇(,130274,个词),A,:,词性之间的转移概率,B,:,某个词性生成某个词的概率,例,,P(,我,|“,代词”,),:,初始概率,1/6/2026,9,实验介绍,(,cont.),模型训练,最大似然估计法,实验相关问题,数据稀疏问题,稀疏矩阵,未登录词和概率平滑,留出相应的概率空间,1/6/2026,10,实验结果和分析,整体实验,用,199801199805,作为训练语料库,标注,199806,的结果如下:,待标注总数:,1,244,415,正确标注数:,1,167,314,错误标注数:,77,101,标注正确率:,0.938042,未登录词数,:17,071,部分标注的结果:,标注 正确数 错误数 标注准确率,b 8568675 0.92697,c 2753017830.93917,d 5174430480.94437,1/6/2026,11,实验结果和分析,(,cont.),Ag 246158 0.60891,an 2222 1142 0.66052,Dg 50 52 0.49020,e 18 8 0.69231,结论:训练库中标注出现次数对结果有很大影响,小样本实验,然而,/,c,,,/w,由于,/,c,历史,/,n,的,/,u,原因,/,n,,,/w,其,/,r,在,/,p,机制,/,n,方面,/,n,的,/,u,种种,/,q,弊端,/,n,日益,/,d,显露,/,v,,,/w,已,/,d,越来越,/,d,不,/,d,适应,/,v,社会主义,/,n,市场经济,/,n,的,/,u,要求,/,n,。,/w,1/6/2026,12,实验结果和分析,(,cont.),错误:,“由于”的介词词性,p,错误标成了连词词性,c,。,分析:,跟踪发现“由于”的前一个词“,”只能被标为,w,。,根据,Viterbi,算法,下面将计算由,w,到下一词性并发射单词“由于”的概率。“由于”的可能词性有三个,分别是,p,、,c,、,d,,,相关概率的对数值如下:,w:-11.3986,w-p:-2.5839 w-c:-2.8842 w-d:-2.6353,p-,由于,:-5.3571,c-,由于,:-4.6158,d-,由于,:-11.7821,p:-19.3397 c:-18.8987 d:-25.8160,结论,:,遇到概率差小于某个常数临界值的时候,可以考虑用一些其它的方法(如简单规则等)进行判定。,1/6/2026,13,总 结,总体来讲,隐马尔可夫模型词性标注器可以达到较好的效果,但是对词性标注任务来说,任何一点性能的提升都是对后续工作的大力支持。,长距离依赖问题和偏置问题。,目前在研究中的最大熵隐马模型(,MEMMs,),,条件随机场模型(,CRFs,),等模型都能在一定程度上解决词性标注的问题,他们与隐马尔可夫模型之间的联系以及几种模型的联合也是本文后续研究学习的方向。,1/6/2026,14,谢谢!,1/6/2026,15,
展开阅读全文