你正在下载：《

自然语言处理中的最大熵方法.ppt

》 [预览]

格式：PPT ，页数：38 ，大小：318.50KB ,
资源ID：13876277 下载积分：10 金币

快捷注册下载

登录下载

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

开通VIP

温馨提示：由于个人手机设置不同，如果发现不能下载，请复制以下地址【https://www.zixin.com.cn/docdown/13876277.html】到电脑端继续下载（重复下载【60天内】不扣币）。

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

三方登录：

1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时联系平台进行协调解决，联系【微信客服】、【QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”，意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：0574-28810668；投诉电话：18658249818。

本文（自然语言处理中的最大熵方法.ppt）为本站上传会员【pc****0】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4009-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】

自然语言处理中的最大熵方法.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,自然语言处理中的最大熵方法,马金山,信息检索研究室,,ir,.hit.,edu,.,cn,纲要,熵理论的发展,信息熵,最大熵理论,最大熵理论的应用,什么是熵,什么是熵？没有什么问题在科学史的进程中曾被更为频繁地讨论过,普里高津,熵定律是自然界一切定律中的最高定律,里夫金&霍华德,熵的提出,德国物理学家克劳修斯（,Rudolph J.E,clausius,）,于1865提出熵的概念,其经典意义定义为：,R,表示可逆过程，即体系的熵变等于可逆过程吸收或耗散的热量除以它的绝对温度。,熵原理的形象比喻,一

2、滴墨水滴入一杯清水中,，,墨水扩散后均匀地分布在清水中,比喻热力体系的自发过程总是趋于温度均匀分布，,反之不行,。,微观世界中熵的含义,热力学定律都是对物质宏观性质进行考察得到的经验定律,宏观物体是大量微观粒子构成的,1872年，波尔兹曼（,L,Boltzmann,）,指出熵是大量微观粒子的位置和速度的分布概率的函数，是描述系统中大量微观粒子的无序性的宏观参数,熵值高意味着无序性强!,熵增原理,一个孤立系统的熵，自发性地趋于极大，随着熵的增加，有序状,态,逐步变为混沌状态，不可能自发地产生新的有序结构。,当熵处于最小值,即能量集中程度最高、有效能量处于最大值时,那么整个系统也处于最有序的状态,

3、相反为最无序状态。,熵增原理预示着自然界越变越无序,熵的普遍性,熵概念的泛化,熵理论是存在问题的，需要发展和完善,熵与信息,1948,年电气工程师香农,(,Shannon),创立了信息论，将信息量与熵联系起来,。,他用非常简洁的数学公式定义了信息时代的基本概念：熵,H(p)=-p(x),logp,(x),单位：,bits,通信中的熵,表示“是”,和 “否”,1=,是,0=,否,表示“是”,、,“否”和“可能是”,11=是00=否 10(01)=可能是,一条消息的熵就是编码这条消息所需二进制位即比特的个数。,随机事件的熵,熵定量的描述,事件,的不确定性,设随机变量,，它有,A,1,，,A,2,，

4、A,n,共,n,个可能的结局，每个结局出现的机率分别为,p,1,p,2,，,.,，,p,n,，,则的不确定程度，即信息熵为:,熵越大，越不确定,熵等于0，,事件,是确定的,例子,抛硬币,掷色子（32个面）,不公平的硬币,熵的图形,信息熵的意义,信息熵概念为测试信息的多少找到了一个统一的科学定量计量方法，是信息论的基础。,信息熵将数学方法和语言学相结合,最大熵理论,熵增原理,在无外力作用下，事物总是朝着最混乱的方向发展,事物是约束和自由的统一体,事物总是在约束下争取最大的自由权，这其实也是自然界的根本原则,。,在已知条件下，熵最大的事物，最可能接近它的真实状态,最大熵原则下点的分布,对一

5、随机过程，如果没有任何观测量，,既没有任何约束，则解为均匀分布,最大熵原则下点的分布,最大熵原则下点的分布,最大熵原则下点的分布,选择最好的模型,研究某个随机事件，根据已知信息，预测其未来行为。,当无法获得随机事件的真实分布时，构造统计模型对随机事件进行模拟。,满足已知信息要求的模型可能有多个。,基于最大熵原理选择模型,选择熵最大的模型,Jaynes,证明：对随机事件的所有相容的预测中，熵最大的预测出现的概率占绝对优势,Tribus,证明，正态分布、伽玛分布、指数分布等，都是最大熵原理的特殊情况,基于最大熵的统计建模,特征空间的确定,特征选择,建立统计模型,基于最大熵的统计建模即发现满足已知条

6、件的熵最大的模型,基于最大熵的统计建模,已有特征,f,1,(x,y),f,2,(x,y),f,n,(x,y),特征的经验概率：,特征的期望概率,：,如果样本足够多，可信度高的特征的经验概率与真实概率一致的,由训练样本习得的模型,对可信度高的特征的估计应满足约束等式:,基于最大熵的统计建模,事件的熵,计算模型的最大熵,得,其中,最大熵模型求解,参数估计,GIS,算法(,Generalized Iterative scaling),Darroch,and Ratcliff,1972,IIS,算法(,Improved Iterative Scaling),Della,Pietra,1995,Inpu

7、t:,特征函数,特征分布,Output:,最优参数值,最优模型,IIS,算法,1,Start with for all,2 Do for each,a Let be the solution to,b Update the value of,3,Go to step 2 if not all have converged,词义消歧的例子,词义消歧,确定多义词在一个句子中所表达的词义,“打”的语义：,S1,S2,S3,S4,S1,打人,S2,打酱油,S3,打球,S4,打电话,他,打,完篮球后给我,打,了个电话,?,确定“打”的语义,没有任何先验知识,概率分布：,P(S,1,)=0.25 P(S,

8、2,)=0.25,P(S,3,)=0.25 P(S,4,)=0.25,H(p)=-4 X(0.25 log,2,0.25)=2,熵值最大，最合理,确定“打”的语义,先验知识:,取,S,1,或,S,3,的概率：0.6,取,S,2,或,S,4,的概率：0.4,概率分布：,P(S,1,)=0.3 P(S,2,)=0.2,P(S,3,)=0.3 P(S,4,)=0.2,H(p)=-2 X(0.2 log,2,0.2)-2 X(0.3 log,2,0.3),符合约束的分布中，该分布熵值最大，最合理,不存在没有约束的自由,他了那个坏人打=,S1,他打了二两酒打=,S2,他喜欢打篮球打=,S3,他喜欢

9、打电话打=,S4,他用,手机打,我打=,S1,他,酒,后,打,人打=,S1,一些,人,在,打,球打=,S3,知识的获取,统计这些先验知识（约束）,(人，,S1),(狗,，S1),(酱油，,S2),(酒，,S2),(篮球，,S3),(冰球，,S3),(电话，,S4),(手机，,S4),(手机，,S1),(酒，,S1),(人，,S3),知识的形式化表示,在这些约束下，计算,P(,打=,S,i,)，,并满足模型的熵最大,引入特征函数,1,if y=S3 and x=,篮球,0 otherwise,模型的建立,特征选择,在所有的特征中，选择最有代表性的特征，构造约束集合,参数估计,应用,IIS

10、算法，计算出每个特征对应的参数值,特征选择(1),最简单的方法：,选择出现次数大于,n,的特征,For example:,(,Adwait Ratnaparkhi,1999)Discard features that occur less than 5 times,代价最小,特征选择(2),原子特征算法(,Basic Feature Selection),1 特征集合,S=0,2 任取一特征加入集合中,3 调用,IIS，,确定,4 在该约束集合下，计算熵的增量,5 选择使熵值增加最大的特征加到,S,中,6 调用,IIS，,计算在此特征集下的,7 执行2,特征选择（3）,近似增益算法(,Ap

11、proximate Gains),已有特征,对应参数,增加特征对应的参数,则增加的特征只影响当前参数,，,不变,模型的形式:,Reference,A.Berger S.D.,Pietra,V.D.,Pietra,A maximum entropy approach to natural language processing Computational linguistics 1996,V22(1):39-71,S.D.,Pietra,V.D.,Pietra,and J.Lafferty Inducing features of random fields IEEE Transactions on Pattern Analysis and Machine Intelligence 1997,V19(4):380-393,R.Rosenfeld Adaptive statistical language modeling:A Maximum Entropy Approach,Phd,thesis CMU-CS-94,1994,Thanks,