ImageVerifierCode 换一换
格式:PPT , 页数:93 ,大小:1.09MB ,
资源ID:686044      下载积分:11 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/686044.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     索取发票    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【可****】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【可****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(最大熵模型(matlab应用).ppt)为本站上传会员【可****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

最大熵模型(matlab应用).ppt

1、最大熵模型最大熵模型与与自然语言处理自然语言处理MaxEnt Model&NLP laputac-NLP Group,AI Lab,Tsinghua Univ.TopicslNLP与随机过程的关系(背景)l最大熵模型的介绍(熵的定义、最大熵模型)l最大熵模型的解决(非线性规划、对偶问题、最大似然率)l特征选取问题l应用实例l总结与启发NLP与随机过程NLP:已知一段文字:x1x2xn(n个词)标注词性y1y2yn标注过程:l已知:x1x2xn求:y1l已知:x1x2xn y1求:y2l已知:x1x2xn y1 y2求:y3l已知:x1x2xn y1 y2 y3求:y4lNLP与随机过程yi可能

2、有多种取值,yi被标注为a的概率有多少?随机过程:一个随机变量的序列。lx1x2xnp(y1=a|x1x2xn)lx1x2xn y1p(y2=a|x1x2xn y1)lx1x2xn y1 y2p(y3=a|x1x2xn y1 y2)lx1x2xn y1 y2 y3p(y4=a|x1x2xn y1 y2 y3)lNLP与随机过程lx1x2xnp(y1=a|x1x2xn)lx1x2xn y1p(y2=a|x1x2xn y1)lx1x2xn y1 y2p(y3=a|x1x2xn y1 y2)lx1x2xn y1 y2 y3p(y4=a|x1x2xn y1 y2 y3)l问题:lp(yi=a|x1x2

3、xn y1y2yi-1)怎么求?lyi与x1x2xn y1y2yi-1的关系?NLP与随机过程问题:lp(yi=a|x1x2xn y1y2yi-1)怎么求?lyi与x1x2xn y1y2yi-1的关系?l一个直观的解决:l问题again!(x1x2xn y1y2yi-1)?Whats Entropy?An Example:l假设有5个硬币:1,2,3,4,5,其中一个是假的,比其他的硬币轻。有一个天平,天平每次能比较两堆硬币,得出的结果可能是以下三种之一:l左边比右边轻l右边比左边轻l两边同样重问:至少要使用天平多少次才能保证找到假硬币?(某年小学生数学竞赛题目:P)称硬币(cont.)l答案

4、:2次l一种方法:lWhy最少2次?称硬币(cont.)lLet:x是假硬币的序号:lLet:yi是第i次使用天平所得到的结果:l用天平称n次,获得的结果是:y1 y2 ynly1 y2 yn的所有可能组合数目是3nl我们要通过y1 y2 yn找出x。所以:每个y1 y2 yn组合最多可能有一个对应的x取值。l因为x取X中任意一个值的时候,我们都要能够找出x,因此对于任意一个x的取值,至少要有一个y1 y2 yn与之对应。根据鸽笼原理称硬币(cont.)lLet:x是假硬币的序号:lLet:Yi是第i次使用天平所得到的结果:l用y1 y2 yn表达x。即设计编码:x-y1 y2 ynlX的“总

5、不确定度”是:lY的“表达能力”是:l至少要多少个Y才能准确表示X?称硬币(cont.)lWhy?l为什么用log?l“表达能力”与“不确定度”的关系?称硬币(cont.)为什么用log?l假设一个Y的表达能力是H(Y)。显然,H(Y)与Y的具体内容无关,只与|Y|有关。l两个Y(就是:y1y2)的表达能力是多少?ly1可以表达三种情况,y2可以表达三种情况。两个并列,一共有:3*3=9种情况(乘法原理)。因此:称硬币(cont.)“表达能力”与“不确定度”的关系?l都表达了一个变量所能变化的程度。在这个变量是用来表示别的变量的时候,这个程度是表达能力。在这个变量是被表示变量的时候,这个程度是

6、不确定度。而这个可变化程度,就是一个变量的熵(Entropy)。l显然:熵与变量本身含义无关,仅与变量的可能取值范围有关。称硬币-Version.2假设有5个硬币:1,2,3,5,其中一个是假的,比其他的硬币轻。已知第一个硬币是假硬币的概率是三分之一;第二个硬币是假硬币的概率也是三分之一,其他硬币是假硬币的概率都是九分之一。有一个天平,天平每次能比较两堆硬币,得出的结果可能是以下三种之一:l左边比右边轻l右边比左边轻l两边同样重假设使用天平n次找到假硬币。问n的期望值至少是多少?(不再是小学生问题:P)称硬币-Version.2因为第一个、第二个硬币是假硬币的概率是三分之一,比其他硬币的概率大

7、,我们首先“怀疑”这两个。第一次可以把这两个做比较。成功的概率是三分之二。失败的概率是三分之一。如果失败了,第二次称剩下的三个。所以,期望值是:称硬币-Version.2数据结构:Huffman编码问题。称硬币-Version.2数据结构:Huffman编码问题。称硬币-Version.2数据结构:Huffman编码问题。l用反证法可以证明,这个是最小值。l(假设第一个和第二个硬币中有一个要称两次的话)称硬币-Version.2数据结构:Huffman编码问题。称硬币-Version.3,4,更广泛地:如果一个随机变量x的可能取值为X=x1,x2,xk。要用n位y:y1y2yn表示(每位y有c

8、种取值)n的期望值至少为:l一般地,我们令c为2(二进制表示),于是,X的信息量为:Whats Entropy?l定义:lX的具体内容跟信息量无关,我们只关心概率分布,于是H(X)可以写成:熵的性质l第一个等号在X为确定值的时候成立(没有变化的可能)l第二个等号在X均匀分布的时候成立。熵的性质l证明:熵的性质l证明:详细证明略。求条件极值就可以证明了(求偏导数,条件是:所有的概率之和为1)结论:均匀分布的时候,熵最大Conditional Entropyl有两个变量:x,y。它们不是独立的。已知y,x的不确定度又是多少呢?Conditional EntropylCondition Reduce

9、s Entropy(C.R.E.)l知识(Y)减少不确定性(X)l证明(略)。用文氏图说明:已知与未知的关系对待已知事物和未知事物的原则:l承认已知事物(知识);l对未知事物不做任何假设,没有任何偏见已知与未知的关系例子已知:“学习”可能是动词,也可能是名词。可以被标为主语、谓语、宾语、定语令x1表示“学习”被标为名词,x2表示“学习”被标为动词。令y1表示“学习”被标为主语,y2表示被标为谓语,y3表示宾语,y4表示定语。得到下面的表示:l如果仅仅知道这一点,根据无偏见原则,“学习”被标为名词的概率与它被标为动词的概率相等。已知与未知的关系例子已知:“学习”可能是动词,也可能是名词。可以被标

10、为主语、谓语、宾语、定语“学习”被标为定语的可能性很小,只有0.05l除此之外,仍然坚持无偏见原则:l我们引入这个新的知识:已知与未知的关系例子已知:“学习”可能是动词,也可能是名词。可以被标为主语、谓语、宾语、定语“学习”被标为定语的可能性很小,只有0.05当“学习”被标作动词的时候,它被标作谓语的概率为0.95l除此之外,仍然坚持无偏见原则,我们尽量使概率分布平均。l但问题是:什么是尽量平均的分布?l引入这个新的知识:最大熵模型Maximum Entropyl概率平均分布=熵最大l我们要一个x和y的分布,满足:l同时使H(Y|X)达到最大值最大熵模型Maximum Entropy最大熵模型

11、Maximum EntropylWhat is Constraints?l-模型要与已知知识吻合lWhat is known?l-训练数据集合l一般模型:lP=p|p是X上满足条件的概率分布特征(Feature)特征:(x,y)y:这个特征中需要确定的信息x:这个特征中的上下文信息注意一个标注可能在一种情况下是需要确定的信息,在另一种情况下是上下文信息:lx1x2xnp(y1=a|x1x2xn)lx1x2xn y1p(y2=a|x1x2xn y1)样本(Sample)关于某个特征(x,y)的样本-特征所描述的语法现象在标准集合里的分布:(xi,yi)pairsyi是y的一个实例xi是yi的上下

12、文(x1,y1)(x2,y2)(x3,y3)特征与样本l已知:l“学习”可能是动词,也可能是名词。可以被标为主语、谓语、宾语、定语l“学习”被标为定语的可能性很小,只有0.05l特征:当“学习”被标作动词的时候,它被标作谓语的概率为0.95lx是什么?ly是什么?l样本是什么?特征与样本l已知:l“学习”可能是动词,也可能是名词。可以被标为主语、谓语、宾语、定语l特征:“学习”被标为定语的可能性很小,只有0.05l当“学习”被标作动词的时候,它被标作谓语的概率为0.95lx是什么?ly是什么?l样本是什么?特征与样本l特征函数:对于一个特征(x0,y0),定义特征函数:l特征函数期望值:l对于

13、一个特征(x0,y0),在样本中的期望值是:l是(x,y)在样本中出现的概率条件(Constraints)l条件:l对每一个特征(x,y),模型所建立的条件概率分布要与训练样本表现出来的分布相同。l假设样本的分布是(已知):l特征f在模型中的期望值:最大熵模型Maximum EntropyNLP模型:lP=p|p是y|x的概率分布并且满足下面的条件l对训练样本,对任意给定的特征fi:最大熵模型Maximum EntropyNLP模型:最大熵模型的解决问题:已知若干条件,要求若干变量的值使到目标函数(熵)最大数学本质:最优化问题(Optimization Problem)l条件:线性、等式l目标

14、函数:非线性非线性规划(线性约束)(non-linear programming with linear constraints)非线性规划基本概念Nonlinear Programmingl解决的思路:非线性规划问题(带约束)(拉格朗日法)-非线性规划问题(不带约束Unconstrained Problem)(求偏导数法)-解决不带约束求解问题(解方程)-求出原问题的解法非线性规划基本概念Nonlinear Programmingp:m维向量;H(p):关于p的非线性函数A:n*m常数矩阵;b:n维向量l如何去掉约束?抽象问题:l假设:A的行向量线性无关。l确定了m维空间里面n个方向上(就是

15、与Ap=b确定的m-n个方向“垂直”的n个方向)的取值。lp只能在剩下的r=m-n个方向上面移动。非线性规划基本概念Nonlinear Programming假设Z是跟Ap=b垂直的方向量。lZ:m*(m-n)常数矩阵)l就是p能够自由活动的所有空间了。v:m-n维变量l于是有:非线性规划基本概念Nonlinear Programmingp:m维向量;H(p):关于p的非线性函数A:n*m常数矩阵;b:n维向量l如何去掉约束?抽象问题:lZ:m*(m-n)常数矩阵lv:m-n维变量 极值条件lZ:m*(m-n)常数矩阵lv:m-n维变量l极值条件:l把 分解成Z方向向量和A方向向量:极值条件l

16、Z:m*(m-n)常数矩阵lv:m-n维变量 极值条件lp:m维向量;H(p):关于p的非线性函数lA:n*m常数矩阵;b:n维向量l令:l假设:A的行向量线性无关。拉格朗日算子Lagrange Multiplierl一般地,对于k个限制条件的Constrained Optimization问题:拉格朗日函数为:其中引入的拉格朗日算子:拉格朗日算子Lagrange Multiplier拉格朗日函数可能的最优解(Exponential)最优解的存在性一阶导数为零,二阶导数小于零,所得到的是最大值!最优解形式(Exponential)最优解(Exponential)最优解(Exponential)

17、l能不能找到另一种逼近?比如等价成求某个函数 的最大/最小值?几乎不可能有解析解(包含指数函数)近似解不代表接近驻点。对偶问题Duality对偶问题的引入。Alice和Bob的游戏:l有一个2*2的矩阵。每次Alice挑一个数x(x=1或者2),Bob也挑一个数y(y=1或者2)。两人同时宣布所挑的数字。然后看Cx,y是多少,Bob要付Alice Cx,y块钱。(如果Cx,y 是负数,Alice 给Bob钱)。矩阵如下:对偶问题Alice vs Bob假设:Alice和Bob都是聪明而贪得无厌的人。而且他们都清楚对方也很聪明和很贪心。Alice的策略:找一个x,无论Bob怎么挑y,Cx,y 要

18、尽量大。Bob的策略:找一个y,无论Alice怎么挑x,Cx,y 要尽量小。l双方都很聪明:双方都对对方有“最坏打算”对偶问题Alice vs BoblAlice的选择:x*=2lBob的选择:y*=2Alice vs Bob Version.2lAlice的选择:x*=1lBob的选择:y*=2对偶问题Alice vs BobVersion 1:Alice的估计=结果=Bob的估计Version 2:Alice的估计结果=Bob的估计一般情况:Alice的估计=结果=Bob的估计l定理:当存在马鞍点(Saddle Point)的时候,等号成立。并且结果=马鞍点的值。l马鞍点:非线性规划中的对

19、偶问题l拉格朗日函数:l于是:l因此,为了尽量大,p的选取必须保证l考虑:对偶问题与拉格朗日函数:l同时:l等价于:l而对偶问题与拉格朗日函数:梯度递减法l把p*代入L,得到:令:梯度递减法l求导,计算-L的梯度:梯度递减法l递推公式:l收敛问题最大似然率 Maximum Likelihoodl最大似然率:找出与样本的分布最接近的概率分布模型。l简单的例子。10次抛硬币的结果是:画画字画画画字字画画假设p是每次抛硬币结果为“画”的概率。则:得到这样的实验结果的概率是:最大似然率 Maximum Likelihoodl最大似然率:找出与样本的分布最接近的概率分布模型。最优解是:p=0.7似然率的

20、一般定义:最大似然率 Maximum Likelihood似然率的一般定义:似然率的对数形式:最大似然率 Maximum Likelihood在NLP里面,要估计的是:似然率是:l是常数,可以忽略最大似然率 Maximum Likelihood在NLP里面,要估计的是:似然率可以定义为:通过求值可以发现,如果p(y|x)的形式是最大熵模型的形式的话,最大熵模型与最大似然率模型一致。最大似然率 为书写方便,令:最大似然率 最大似然率 Maximum Likelihood结论:最大熵的解(无偏见地对待不确定性)同时是最吻合样本数据分布的解。进一步证明了最大熵模型的合理性。偶然?必然?“It so

21、happens that”?熵:不确定度似然率:与知识的吻合度最大熵:对不确定度的无偏见分配最大似然率:对知识的无偏见理解知识不确定度的补集知识不确定度的补集特征选取问题问题:l所有知识可信吗?所有知识都有用吗?l太多知识怎么办?l在NLP里面:上下文信息可以很多很多种,那些是有用呢?特征选取问题Remind:“熵是描述不确定度的”“知识是不确定度的补集”不确定度越小,模型越准确。l直观的过程:什么特征都不限定:熵最大加一个特征:熵少一点(C.R.E.)加的特征越多,熵越少特征选取算法l目标:选择最有用的个特征(知识)l“最”?全局的最优解几乎不可能l可行的方法:逐步选择最有用的信息。l每一步

22、用“贪心”原则:挑选“现在看来”最有用的那个特征。l“有用?”使到走这一步后熵减少最多算法步骤l有效特征集合E=/这个时候p均匀分布l计算最大熵H(p*)。显然:l对以下步骤循环K次:对每个不在E里面的特征fi,把E+fi作为有效特征,计算最大熵Hi(pi*);假设Hm(pm*)最小,则:E=E+fm。敏感度分析与特征提取SensitivitylHow to work on insufficient data set?最终结论应该是约束条件越确定(_p(x)越大),lambda越大。应用实例Adwait Ratnaparkhis“Learning to Parse Natural Langua

23、ge with Maximum Entropy Models”创新点:用MaxEnt模型辅助Shift-reduce Parsing应用实例Parser的特点:三层ParserK-BFS搜索每层只搜索最好的K个方案(derivations)“最好”:概率最大概率:最大熵模型得到的概率分布应用实例数据流:应用实例概率:最大熵模型得到的概率分布l事先对每类Parsing都训练一个最大熵模型。l得到概率分布:pX*(a|c)。a是action,c是上下文。X可能是:lTAG,CHUNK,BUILD/CHECKl最优解求法:GIS(General Iterative Scaling Algorithm

24、“一般梯度算法”?)l特征选取:只取出现次数大于等于5的所有特征(比较简单,但因此计算量也少多了)应用实例l实验结果:Upenn的Corpus作为训练集合Wall Street Journal上的句子作为测试对象准确率:90%左右应用实例分析:三层Parser功不可没(上层Parser看到的是下层Parser的所有信息包括处理点之前和之后的信息)MaxEnt模型提供了比较准确的评价模型(不然三层Parser会比单层Parser引起更大的误差累积,“失之毫厘谬以千里”)相关项目lCMU:Adam BergerlU Penn:Adwait RatnaparkhilSource Forge:open

25、nlp.MAXENTl总结与启发lMaxEnt已经是比较成功的一个NLP模型,并获得广泛应用l从信息论获得启发(1948-):自然语言处理也是信息处理的一种。语法标注也可以看作一种编码的过程?l对偶问题:从另一个角度看问题l可能从不同领域获得的启发。(概率论与随机过程、最优化问题、图形学)l“All Models are wrong.Some are useful.”参考文献1.A maximum entropy approach to natural language processing(Adam Berger)2.A Brief MaxEnt Tutorial(Adam Berger)3

26、.Learning to parse natural language with maximum entropy models(Adwait Ratnaparkhi)4.A simple Introduction to Maximum Entropy Models for Natural Language Processing(Adwait Ratnaparkhi)参考文献(Cont)lElements of Information Theory(Cover&Thomas)lLinear and Nonlinear Programming(Nash&Sofer)l高等数学l运筹学l数据结构Q&A?Thank you!

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服