神经网络-课程汇报PPT.ppt_咨信网zixin.com.cn

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,神经网络原理及其在词义消歧中的应用,张亚森,2011202110090,1,内容,介绍神经网络的基本原理,BP,神经网络在词义消歧（,Word Sense Disambiguation,）中的应用,总结,2,背景,“人工神经网络”（,Artificial Neural Network,，,ANN,）是在对人脑组织结构和运行机制的认识理解基础之上模拟其结构和智能行为的一种工程系统。早在,20,世纪,40,年代初期，心理学家,McCulloch,数学家,Pitts,就提出了人工神经网络的第一个数学模型，从此开创了神经科学理论的研究时代。其后，,Rosenblatt,Widrow,和,Hopfield,等学者又先后提出了感知模型，使得人工神经网络技术得以蓬勃发展。,3,基本特征,（,1,）神经元及其连接。从系统构成的形式上看，由于人工神经网络是受生物神经系统的启发构成的，从神经元本身到连接模式，基本上都是以与生物神经系统相似的方式工作的。,（,2,）信息的存储与处理。从表现特征上看，人工神经网络也力求模拟生物神经系统的基本运行方式，并且可以通过相应的学习,/,训练算法，将蕴含在一个较大数据集中的数据联系抽象出来，就像人们可以不断地探索规律，总结经验一样，可以从先前得到的例子中找出一般规律或一般框架，再按要求产生出新的实例。,4,人工神经网络的特点,可以充分逼近任意复杂的非线性关系,所有定量或定性的信息都等势分布存储于网络内的各神经元，故有很强的鲁棒性和容错性,采用并行分布处理方法，使得快速进行大量运算成为可能,可学习和自适应不知道或不确定的系统,能够同时处理定量,定性知识,5,人工神经元的组成,一个神经网络由多个互连的神经元组成，神经元是神经网络的基本处理单元，它一般是多个输入、一个输出的非线性单元，如下图,6,人工神经元的组成,神经元的输入为,其中，,w,ij,是单元,j,与前一层单元,i,之间的连接权值；,O,i,是单元,i,的输出；为改变单元,j,活性的偏置，一般在区间,-1,，,1,上取值。,神经元的输出,Y,j,=,f,(,net,j,),其中,f,(,net,j,),为神经元输入,/,输出关系的函数，称为神经元功能函数,激活函数。通常，神经元功能函数（激活函数）,f,描述了神经元在输入信号作用下产生的输出信号的规律，这是神经元模型的外特征,7,f,函数形式多样，根据激活函数的不同，相应的有不同的形式神经元模型,:,(1),阈值,型：激活函数,f,为一阶跃函数,(2),线性饱和型：输入,/,输出特性在一定的区间内满足线性关系。,(3)S(sigmoid),型：,f,为,sigmoid,函数，它是一个有最大输出值的非线性函数，其输出值是在某个范围内连续取值的。,S,型激活函数反映了神经元的非线性输出特性。,(4),子阈累积型,(5),概率型,8,神经网络的互连结构,分层网络结构,分层网络结构又称为层次网络结构，按层的多少，可分为单层,双层及多层的网络结构,(1),单层或双层网络结构。,最早的神经网络模型的互连模式是单层或双层结构，这种互连模式是最简单的层级结构。感知机就是采用这种结构，如下图所示,9,单层与双层神经网络互连结构,10,(2),多层网络结构。,在神经网络模型中，有一种十分典型的互连模式，这就是多层神经网络结构，这种互连模式的代表有简单的前向网络,(BP,神经网络,),模式,多层侧抑制,(,神经网络内有相互连接的前向网络,),模式和带有反馈的多层神经网络模型。如下图所示，一个简单的前向多层神经网络,11,输入模式由输入层进入网络，经过中间层的顺序模式变换，最后由输出层产生一个输出模式，便完成一次网络状态更新。,12,神经网络模型分类,按学习方式分类,按学习方式分为有导学习,(,有监督训练,),强化学习和无导学习,(,无监督训练,)3,类网络模型。,(1),在有导的学习中，必须预先知道学习的期望结果，并按照某一学习规则来修正权值。,(2),强化学习是利用某一技术表示“奖,/,惩”的全局信号，衡量与强化输入相关的局部决策。,(3),无导学习不需要指导信息，只要给定输入信息，网络能通过自组织，自调整，自学习并给出一定意义下的输出响应。,13,神经网络的学习,确定了网络结构（网络层数，各层单元数）之后，应该确定各单元的偏置及单元之间的连接权值。,学习过程就是调整这组权值和偏置，使每个训练样本在输出层单元上获得期望输出。,学习目的就是找出一组权值和偏置，这组权值和偏置能使所有训练样本在输出层单元上获得期望输出。,14,神经网络的学习算法,误差向后传播方法,误差修正学习方法是一种监督学习（有导）过程，其基本思想是利用神经网络的期望输出与实际输出间的偏差作为调整连接权值的参考依据，并最终减少这种偏差。,15,误差向后传播方法的基本思想,首先赋予每条有向加权边初始权值、每个隐藏层与输出层单元初始偏置；,然后迭代地处理每个训练样本；,输入它的描述属性值，计算输出层单元的实际输出；,比较实际输出与期望输出（类别属性值），将它们之间的误差从输出层经每个隐藏层到输入层“后向传播”；,根据误差修改每条有向加权边的权值及每个隐藏层与输出层单元的偏置，使实际输出与期望输出之间的误差最小。,16,对于某个训练样本，实际输出与期望输出的误差,Error,定义为,式中，,c,为输出层的单元数目；,T,k,为输出层单元,k,的期望输出；,O,k,为输出层单元,k,的实际输出。,17,首先考虑输出层单元,k,与前一层单元,j,之间的权值,w,jk,的修改量,w,jk,、单元,k,的偏置的修改量。,式中，,l,为避免陷入局部最优解的学习率，一般在区间,0,1,上取值。,18,求解上式可以得到权值,偏置的修改量为,式中，,O,j,为单元,j,的输出；,Err,k,是误差,Error,对单元,k,的输入,net,k,的负偏导数，即,19,类似地，隐藏层单元,j,与前一层单元,i,之间的权值,w,ij,的修改量,w,ij,、单元,j,的偏置的修改量为,式中，,l,为学习率；,O,i,为单元,i,的输出；,O,j,为单元,j,的输出；,Err,k,为与单元,j,相连的后一层单元,k,的误差；,w,jk,为单元,j,与单元,k,相连的有向加权边的权值。,20,权值，偏置的修改公式为,权值、偏置的更新有两种策略：,1,）处理一个训练样本更新一次，称为实例更新，一般采用这种策略。,2,）累积权值、偏置，当处理所有训练样本后再一次更新，称为周期更新。,21,一般，在训练前馈神经网络时，误差后向传播算法经过若干周期以后，可以使误差,Error,小于设定阈值,，此时认为网络收敛，结束迭代过程。此外，也可以定义如下结束条件：,1,）前一周期所有的权值变化都很小，小于某个设定阈值；,2,）前一周期预测的准确率很大，大于某个设定阈值；,3,）周期数大于某个设定阈值。,22,23,算法：误差后向传播算法,输入：训练数据集,S,，前馈神经网络,NT,，学习率,l,输出：经过训练的前馈神经网络,NT,步骤：,（,1,）在区间,-1,1,上随机初始化,NT,中每条有向加权边的权值、每个隐藏层与输出层单元的偏置,（,2,）,while,结束条件不满足,（,2.1,）,for S,中每个训练样本,s,24,（,2.1.1,）,for,隐藏层与输出层中每个单元,j /,从第一个隐藏层开始向前传播输入,（,2.1.2,）,for,输出层中每个单元,k,Err,k,=,O,k,(1-,O,k,)(,T,k,-,O,k,),25,（,2.1.3,）,for,隐藏层中每个单元,j /,从最后一个隐藏层开始向后传播误差,（,2.1.4,）,for NT,中每条有向加权边的权值,w,ij,w,ij,=,w,ij,+l,Err,j,O,i,（,2.1.5,）,for,隐藏层与输出层中每个单元的偏置,j,j,=,j,+l,Err,j,一个学习的例子,例,.,假设训练样本,s,的描述属性值与类别属性值分别为,1,0,1,与,1,，前馈神经网络,NT,如下图所示，,NT,中每条有向加权边的权值、每个隐藏层与输出层单元的偏置如表,7.3,所示，学习率为,0.9,。写出输入,s,训练,NT,的过程。,26,前馈神经网络结构,27,28,表,1,NT,中边的权值、单元的偏置,x,1,x,2,x,3,w,14,w,15,w,24,w,25,w,34,w,35,w,46,w,56,4,5,6,1,0,1,0.2,0.3,0.4,0.1,0.5,0.2,0.3,0.2,0.4,0.2,0.1,w,ij,和,j,是随机产生的，,l,0.9,29,表,7.4,隐藏层与输出层中单元的输入、输出,单元,j,输入,net,j,输出,O,j,4,0.2*1+0.4*0+(,0.5)*1+(,0.4)=,0.7,1/(1+e,(,0.7)=0.332,5,(,0.3)*1+0.1*0+(0.2)*1+0.2=0.1,1/(1+e,0.1)=0.525,6,(,0.3)*0.332+(,0.2)*0.525+0.1=,0.105,1/(1+e,(,0.105)=0.474,30,表,7.5,隐藏层与输出层中单元的,Err,单元,j,Errj,6,0.474*(1,0.474)*(1,0.474)=0.1311,5,0.525*(1,0.525)*(0.1311*(,0.2)=,0.0065,4,0.332*(1,0.332)*(0.1311*(,0.3)=,0.0087,Err,k,=,O,k,(1-,O,k,)(,T,k,-,O,k,),31,表,7.6,NT,中边的新权重、单元的新偏置,w,46,0.3+0.9*0.1311*0.332=,0.261,w,56,0.2+0.9*0.1311*0.525=,0.138,w,14,0.2+0.9*(,0.0087)*1=0.192,w,15,0.3+0.9*(,0.0065)*1=,0.306,w,24,0.4+0.9*(,0.0087)*0=0.4,w,25,0.1+0.9*(,0.0065)*0=0.1,w,34,0.5+0.9*(,0.0087)*1=,0.508,w,35,0.2+0.9*(,0.0065)*1=,0.194,6,0.1+0.9*0.1311=0.218,5,0.2+0.9*(,0.0065)=0.194,4,0.4+0.9*(,0.0087)=,0.408,w,ij,=,w,ij,+,lErr,j,O,i,j,=,j,+lErr,j,神经网络分类,学习结束后，神经网络得到一组固定的权值及偏置。新样本到来后，将其描述属性值送入输入层各单元，从输入层到输出层正向传播，计算输出层各单元的值,O,1,O,2,O,n,，令,r=max(,O,1,O,2,O,n,),，则第,r,个输出层单元所代表的类别就是该样本所属的类别。,例如，在例,7.6,中，只有一个输出层单元，表示只有两个类别（,A,类、,B,类）。神经网络学习结束后，表,7.6,中的各权值和偏置都固定。将一个新样本,X=,（,x,1,x,2,x,3,）送入输入层后可以计算出,O,6,，若,O,6,1,，则表示,X,应属于,A,类；若,O,6,0,，则表示,X,应属于,B,类；若,O,6,0.5,，则拒绝分类。,32,神经网络在词义消歧中的应用,词义消歧,(WSD),一直是自然语言处理,(NLP),领域一个非常重要的研究课题,词义消歧问题几乎覆盖了各种自然语言处理系统,其中包括信息检索,(IR),、机器翻译,(MT),、关键词的提取、语音识别、文本分类和自动文摘等。据统计,在信息检索中引入词义消歧技术术后,可使检索的准确率提高,5.2%,。可见,词义消歧在自然语言处理中是不可避免的基础问题。,33,For instance,consider the following sentences:,(a)I can hear,bass,sounds.,(b)They like grilled,bass,.,出现在上面两个句子中的,bass,很明显表示不同的意思,:,低音的,(adj),和一种鱼,(n.,鲈鱼,).,34,问题描述,多义词的词义消歧主要是为了解决自然语言中同形异义词义在不同语境下的义项问题,因此主要利用多义词的上下文信息来决定义项类别的归属问题。在早期主要采用规则方式来解决词义消歧,此种方法主要通过约束性规则来定义上下文中带消歧的词义,这样需要一个具有完备性、一致性、可扩充性和对开放领域适应性的语料库,如何有效构造规则库和进行知识获取是该方法的瓶颈问题。,35,随着用在词义消歧上的机器学习方法的增多,如决策树、决策表、,Nave-Bayes,、神经网络、最大熵方法等,我们逐步使用基于语料库的统计方法来进行词义消歧。基于语料库的统计方法根据训练语料事先是否经过人工标注又分为有指导的和无指导的两类。,36,有指导的机器学习方法在此问题上取得了比较好的效果,但是它存在数据稀疏问题,要获得更有效的消歧效果,必须要有一个规模大、覆盖广、有效的、带标注的语料库的支持。而语料库始终难以覆盖自然语言领域中所有的情况,并且带标注的语料库需要大量的人工劳动,客观上这些问题限制了该类方法的应用。,37,基于,BP,神经网络,(Back-Propagation),的有导词义消歧方法,利用,BP,神经网络的泛化功能来解决传统有导消歧中的数据稀疏问题，达到比较好的词义消歧实验结果,38,BP,神经网络的体系结构,39,BP,网络对于在样本集合中未训练过的输入,也能根据网络的节点分析给出合适的输出,即,BP,网络的泛化,(Generalization),功能。从函数拟合的角度看,这种泛化也说明,BP,网络具有插值功能。这个功能也就是我们在词义消歧中采用此种方法重要的原因之一,因为它可以很好地避免数据稀疏问题。,40,利用,BP,神经网络构建,WSD,模型,对,BP,神经网络模型来说,如何较好地确定神经网络的拓扑结构对神经网络的应用效果是非常重要的。在实验过程中,对神经网络的参数要进行优化和研究,主要有,:,输入层节点数,隐藏层节点数,输出层节点数,激发函数,学习因子等。,41,42,43,44,汉语多义词统计,45,(4),确定输出量,对于每一个待消歧词都会训练一个模型,由表,2,可知,多义词的平均义项在,2,3,个,因此,实验中取每个待消歧词的三个义项来构成输出向量。,(5),确定隐藏层的节点数,中间的隐含层的节点数比较灵活,在实验中通过枚举的办法最终确定,15,个节点的实验结果最优。,46,(6),实验的过程与结果,利用,BP,神经网络进行词义消歧主要包括两个,阶段,:,训练,或学习阶段,(training or learning phase),向神经网络提供一系列输入,-,输出数据组,通过数值计算方法和参数优化技术,使节点连接的权重因子不断调整,直到从给定的输入能产生所期望的输出,。,预测,(,应用,),阶段,(generalization phase),。对训练好的网络,(,即网络的误差为,0,或接近于,0),进行未知的样本预测,。结果如表,3,所示,47,48,总结,利用,BP,神经网络模型和待消歧词的上下文信息来进行,词义,消歧,从实验的结果也可看到此方法是切实可行的。选择,神经网络,的方法,主要是由于它具有下面两个非常显著的特点,:,(,1,),神经网络强信息和知识分布储存在大量的神经元或,整,个系统中,很大地解决了有导消歧中,数据稀疏的问题,从而,达到,较高的准确性。,49,(,2,),有较强的容错能力,部分节点不参加运算,不会对整个系统的性能造成太大的影响。在实验中,由于实验的规模有限,还需要在大规模的语料的基础上扩大实验的内容。由于,BP,神经网络在词性消歧中,需要对每个多义词建立一个的网络模型,如何整合这些各自独立的模型,成为一个实用性的工具,是下一步需要完成的问题。,50,与贝叶斯方法的比较,(,3,),贝叶斯网络作为分类器和其他的分类器相比有两个优点。其一，网络容易建立，没有结构学习过程，只需要先验概率就可以完成计算；其二，该分类过程十分高效,。,扩大上下文窗口的实验,说明神经网络模型在抗噪声方面要优于贝叶斯模型。,51,The End,Thank you,52,

展开阅读全文