1、,*,Level One:All Cap,Bold,Arial 18,Maroon,Level two:initial cap,bold,arial 16,blue,Level three:initial cap,bold,arial 16,blue,Title:Cap All Words,Bold,Arial 28,White,1,神经网络,2,人工神经网络(,ANN,,,Artificial Neural Network,)也简称为,神经网络,(,NN,),是由大量的简单处理单元经广泛并行互连形成的一种网络系统。它是对人脑系统的简化、抽象和模拟,具有人脑功能的许多基本特征。,目前,人工神经
2、网络已成为许多高科技领域的一个热门话题。在人工智能领域,它已实际应用于决策支持、模式识别、专家系统、机器学习等许多方面。,3,由于神经网络是多学科交叉的产物,各个相关的学科领域对神经网络都有各自的看法,因此,关于神经网络的定义,在科学界存在许多不同的见解。目前使用得较广泛的是,T.Koholen,(,芬兰赫尔辛基技术大学,)的定义,即,神经网络是由具有适应性的,简单单元,组成的广泛,并行互连,的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。,4,人脑的基本组成是脑神经细胞,大量脑神经细胞相互联接组成人的大脑神经网络,完成各种大脑功能。而,人工神经网络则是由大量的人工神经细胞
3、(神经元)经广泛互连形成的人工网络,以此模拟人类神经系统的结构和功能。,了解人脑神经网络的组成和原理,有助于对人工神经网络的理解。,5,人工神经网络概述,人体神经结构与特征,虽然神经元的形态各不相同,但是都由细胞体和突起两大部分组成,而突起又分树突和轴突。,6,轴突,是由细胞体向外延伸出的所有纤维中最长的一条分枝,用来向外传递神经元产生的输出信号。每个神经元只发出一条轴突,短的仅几个微米,其最大长度可达,1m,以上。,7,突触,,在轴突的末端形成了许多很细的分枝,这些分枝叫神经末梢。每一条神经末梢可以与其他神经元形成,功能性接触,,该接触部位称为,突触,。,每个神经元大约有,10,3,10,5
4、,个突触,换句话说,每个神经元大约与,10,3,10,5,个其它神经元有连接,正是因为这些突触才使得全部大脑神经元形成一个复杂的网络结构。,所谓功能性接触,,突触的信息传递特性可变,因此细胞之间的连接强度可变,这是一种柔性连接,也称为神经元结构的可塑性,,这正是神经元之间传递信息的奥秘之一。,8,树突,是指由细胞体向外延伸的除轴突以外的其他所有分支。不同的神经元其树突的数量也不同,长度较短,但数量很多,它是神经元的输入端,用于接受从其他神经元的突触传来的信号。,细胞体,是神经元的主体,胞体和树突表面是接受的其他神经元传来的信号的主要部位。,9,神经元中的细胞体相当于一个初等处理器,它对来自其他
5、各个神经元的信号进行总体求和,并产生一个神经输出信号。由于细胞膜将细胞体内外分开,因此,在细胞体的内外具有不同的电位,通常是内部电位比外部电位低。细胞膜内外的电位之差被称为,膜电位,。在无信号输入时的膜电位称为,静止膜电位,。当一个神经元的所有输入总效应达到某个阈值电位时,该细胞变为活性细胞(激活),其膜电位将自发地急剧升高产生一个电脉冲。这个电脉冲又会从细胞体出发沿轴突到达神经末梢,并经与其他神经元连接的突触,将这一电脉冲传给相应的神经元。,10,生物神经元的功能与特征,根据神经生理学的研究,生物神经元具有如下重要功能与特性。,(,1,)时空整合功能,神经元对不同时间通过同一突触传入的神经冲
6、动,具有,时间整合功能,。对于同一时间通过不同突触传入的神经冲动,具有,空间整合功能,。两种功能相互结合,使生物神经元对由突触传入的神经冲动具有时空整合的功能。,(,2,)兴奋与抑制状态,神经元具有,兴奋,和,抑制,两种常规的工作状态。当传入冲动的时空整合结果使细胞膜电位升高,超过动作电位的阈值时,细胞进入兴奋状态,产生神经冲动。相反,当传入冲动的时空整合结果使细胞膜电位低于动作电位阈值时,细胞进入抑制状态,无神经冲动输出。,11,(,3,)脉冲与电位转换,突触界面,具有脉冲,/,电位信号转化功能。沿神经纤维传递的信号为离散的电脉冲信号,而细胞膜电位的变化为连续的电位信号。这种在突触接口处进行
7、的,“,数,/,模,”,转换,是通过神经介质以量子化学方式实现的如下过程:,电脉冲神经化学物质膜电位,(,4,)神经纤维传导速率,神经冲动沿神经纤维传导的速度在,1m/s,150m/s,之间。其速度差异与纤维的粗细、髓鞘,(,包绕在,神经元,的,轴突,外部的物质,起绝缘作用,),的有无有关。一般来说,有髓鞘的纤维,其传导速度在,100m,s,以上,无髓鞘的纤维,其传导速度可低至每秒数米。,12,人脑神经系统的结构与特征,(,1,)记忆和存储功能,人脑神经系统的记忆和处理功能是有机地结合在一起的。神经元既有存储功能,又有处理功能,它在进行回忆时不仅不需要先找到存储地址再调出所存内容,而且还可以由
8、一部分内容恢复全部内容。尤其是当一部分神经元受到损坏(例如脑部受伤等)时,它只会丢失损坏最严重部分的那些信息,而不会丢失全部存储信息。,13,人脑神经系统的结构与特征,(,2,)高度并行性,人脑大约有,10,11,10,12,个神经元,每个神经元又有,10,3,10,5,个突触,即每个神经元都可以和其他,10,3,10,5,个神经元相连,这就提供了非常巨大的存储容量和并行度。例如,人可以非常迅速地识别出一幅十分复杂的图像。,14,(,3,)分布式功能,人们通过对脑损坏病人所做的神经心理学研究,没有发现大脑中的哪一部分可以决定其余所有各部分的活动,也没有发现在大脑中存在有用于驱动和管理整个智能处
9、理过程的任何中央控制部分。人类大脑的各个部分是协同工作、相互影响的,并没有哪一部分神经元能对智能活动的整个过程负有特别重要的责任。,可见,在大脑中,不仅知识的存储是分散的,而且其控制和决策也是分散的。因此,大脑是一种分布式系统。,15,(,4,)容错功能,容错性是指根据不完全的、有错误的信息仍能做出正确、完整结论的能力。大脑的容错性是非常强的。例如,我们往往能够仅由某个人的一双眼睛、一个背影、一个动作或一句话的音调,就能辨认出来这个人是谁。,16,(,5,)联想功能,人脑不仅具有很强的容错功能,还有联想功能。善于将不同领域的知识结合起来灵活运用,善于概括、类比和推理。例如,一个人能很快认出多年
10、不见、面貌变化较大的老朋友。,(,6,)自组织和自学习功能,人脑能够通过内部自组织、自学习能力不断适应外界环境,从而可以有效地处理各种模拟的、模糊的或随机的问题。,17,人工神经元及人工神经网络,人工神经元的结构,如同生物学上的基本神经元,人工的神经网络也有基本的神经元。,人工神经元是对生物神经元的抽象与模拟。所谓,抽象,是从数学角度而言的,所谓,模拟,是从其结构和功能角度而言的。,从人脑神经元的特性和功能可以知道,神经元是一个,多输入单输出,的信息处理单元,其模型如下图所示:,神经元模型,x1,x2,xn,y,1,2,n,18,人工神经元及人工神经网络,神经元模型,x1,x2,xn,y,1,
11、2,n,19,人工神经元及人工神经网络,M-P,模型,M-P,模型属于一种阈值元件模型,它是由美国心理学家,Mc Culloch,和数学家,Pitts,提出的最早(,1943,)神经元模型之一。,M-P,模型是大多数神经网络模型的基础。,20,在如图所示的模型中,,x1,,,x2,,,,,xn,表示某一神经元的,n,个,输入,;,i,表示第,i,个输入的连接强度,称为连接,权值,;,为神经元的,阈值,;,y,为神经元的,输出,。可以看出,人工神经元是一个具有多输入,单输出的非线性器件。神经元模型的输入是 ,i,*,xi,(i=1,2,n),输出是,y,=f()=f(,i,*,xi,),其中,f
12、,称之为,神经元功能函数(作用函数,转移函数,传递函数,激活函数)。,注:可以令,X0=-1,,,w0=,,这样将阈值作为权值来看待。,神经元模型,x1,x2,xn,y,1,2,n,21,常用的人工神经元模型,功能函数,f,是表示神经元输入与输出之间关系的函数,根据,功能函数的不同,,可以得到不同的神经元模型。常用的神经元模型有以下几种。,(,1,)阈值型(,Threshold,),这种模型的神经元没有内部状态,作用函数,f,是一个阶跃函数,它表示,激活值,和其,输出,f(,)之间的关系,如图,5-3,所示。,f(),1,0,图,5-3,阈值型神经元的输入输出特性,22,阈值型神经元是一种最简
13、单的人工神经元。这种二值型神经元,其输出状态取值,1,或,0,,分别代表神经元的兴奋和抑制状态。任一时刻,神经元的状态由功能函数,f,来决定。,当激活值,0,时,即神经元输入的加权总和超过给定的阈值时,该神经元被激活,进入兴奋状态,其状态,f(),为,1,;,否则,当,0,时,即神经元输入的加权总和不超过给定的阈值时,该神经元不被激活,其状态,f(),为,0,。,23,(,2,)分段线性强饱和型(,Linear Saturation,),这种模型又称为伪线性,其输入输出之间在一定范围内满足线性关系,一直延续到输出为最大值,1,为止。但当达到最大值后,输出就不再增大。如图,5-4,所示。,图,5
14、,-,4,分段,线性饱和型神经元的输入输出特性,f(),0,1,24,(,3,),S,型(,Sigmoid,),这是一种连续的神经元模型,其输出函数也是一个有最大输出值的非线性函数,其输出值是在某个范围内连续取值的,输入输出特性常用,S,型函数表示。它反映的是神经元的饱和特性,如图,5-5,所示。,f(),图,5-5 S,型神经元的输入输出特性,1,0,25,(,4,)子阈累积型(,Subthreshold Summation,),这种类型的作用函数也是一个非线性函数,当产生的激活值超过,T,值时,该神经元被激活产生一个反响。在线性范围内,系统的反响是线性的,如图,5,6,所示。,f(),T,
15、0,1,图,5-6,子阈累积型神经元的输入输出特性,26,从生理学角度看,阶跃函数(,阈值型,)最符合人脑神经元的特点,事实上,人脑神经元正是通过电位的高低两种状态来反映该神经元的兴奋与抑制。然而,由于阶跃函数不可微,因此,实际上更多使用的是与之相仿的,Sigmoid,函数。,27,人工神经网络,人工神经网络是对人类神经系统的一种模拟。尽管人类神经系统规模宏大、结构复杂、功能神奇,但其最基本的处理单元却只有神经元。人工神经系统的功能实际上是通过大量神经元的广泛互连,以规模宏伟的并行运算来实现的。基于对人类生物系统的这一认识,人们也试图通过对人工神经元的广泛互连来模拟生物神经系统的结构和功能。,
16、28,人工神经网络,人工神经元之间通过互连形成的网络称为人工神经网络,。在人工神经网络中,神经元之间互连的方式称为,连接模式,或,连接模型,。它不仅决定了神经元网络的互连结构,同时也决定了神经网络的信号处理方式。,29,人工神经网络的分类,目前,已有的人工神经网络模型至少有几十种,其分类方法也有多种。例如,:,1),按网络拓扑结构可分为层次型结构和互连型结构,2),按信息流向可分为前馈型网络与有反馈型网络;,3),按网络的学习方法可分为有教师的学习网络和无教师的学习网络;,4),按网络的性能可分为连续型网络与离散型网络,或分为确定性网络与随机型网络;,30,神经元的模型确定之后,一个神经网络的
17、特性及能力主要取决于网络的,拓扑结构,及,学习方法,31,人工神经网络的互连结构及其学习机理,人工神经网络的拓扑结构,建立人工神经网络的一个重要步骤是构造人工神经网络的拓扑结构,即确定人工神经元之间的互连结构。根据神经元之间连接的拓扑结构,可将神经网络的互连结构分为,层次型网络,和,互连型网络,两大类。层次型网络结构又可根据层数的多少分为,单层,、,两层,及,多层,网络结构。,32,人工神经网络的互连结构及其学习机理,简单单级网,x,1,x,2,x,n,o,1,o,2,o,n,w,nm,w,11,w,1m,w,2m,w,n1,输出层,输入层,33,单层网络结构有时也称两层网络结构,单层或两层神
18、经网络结构是早期神经网络模型的互连模式,这种互连模式是最简单的层次结构。,1,)不允许属于同一层次间的神经元互连。,2,)允许同一层次间的神经元互连,则称为,带侧抑制的连接(或横向反馈),。此外,在有些双层神经网络中,还允许不同层之间有反馈连接。,输出层,x,1,o,1,w,11,w,1m,x,2,o,2,w,2m,x,n,o,m,w,n1,输入层,V,34,多层网络结构,通常把三层和三层以上的神经网络结构称为,多层神经网络结构,。所有神经元按功能分为若干层。一般有,输入层,、,隐层(中间层),和,输出层,。,输出层,隐藏层,输入层,o,1,o,2,o,m,x,1,x,2,x,n,35,多层网
19、络结构,1,),输入层,节点上的神经元接受外部环境的输入模式,并由它传递给相连隐层上的各个神经元。,2,),隐层,是神经元网络的内部处理层,这些神经元再在网络内部构成中间层,由于它们不直接与外部输入、输出打交道,故称隐层。人工神经网络所具有的模式变换能力主要体现在隐层的神经元上。,3,),输出层,用于产生神经网络的输出模式。,较有代表性的多层网络模型有:,前向网络模型,、,多层侧抑制神经网络模型,和,带有反馈的多层神经网络模型,等。,36,多层前向神经网络,多层前向神经网络模型,如图,5-8,所示。输入模式:由输入层进入网络,经中间各层的顺序变换,最后由输出层产生一个输出模式,便完成一次网络更
20、新。,前向网络的连接模式不具有侧抑制和反馈的连接方式。,图,5-8,多层前向神经网络模型,37,多层侧抑制神经网,同一层内有相互连接,的多层前向网络,它允许网络中同一层上的神经元之间相互连接,如图,5-9,所示。这种连接方式将形成同一层的神经元彼此之间的牵制作用,可实现同一层上神经元之间的横向抑制或兴奋的机制。这样可以用来限制同一层内能同时激活神经元的个数,或者把每一层内的神经元分成若干组,让每组作为一个整体来动作。,图,5-9,多层侧抑制神经网络,38,带有反馈的多层神经网络,这是一种允许输出层,-,隐层,隐层中各层之间,隐层,-,输入层之间具有反馈连接的方式,反馈的结果将构成封闭环路。,x
21、,1,o,1,输出层,隐藏层,输入层,x,2,o,2,o,m,x,n,39,带有反馈的多层神经网络,这种神经网络和前向多层神经网络不同。多层前向神经网络属于非循环连接模式,它的每个神经元的输入都没有包含该神经元先前的输出,因此可以说是没有,“,短期记忆,”,的。但带反馈的多层神经网络则不同,它的每个神经元的输入都有可能包含有该神经元先前的输出反馈信息。因此,它的输出要由当前的输入和先前的输出两者来决定,这有点类似于人类短期记忆的性质。,40,人工神经网络的运行一般分为学习和工作两个阶段。,41,人工神经网络学习,人工神经网络最具有吸引力的特点是它的学习能力。,人工神经网络学习和记忆的心理学基础
22、,学习和记忆是人类智能的一个重要特征。有一种观点认为,人类的学习过程实际上是一种经过训练而使个体在行为上产生较为持久改变的过程。按照这种观点,学习离不开训练。,42,人工神经网络学习,学习和记忆同样也应该是人工神经网络的一个重要特征。,人工神经网络的,学习过程就是它的训练过程,。人工神经网络的功能特性由其连接的,拓扑结构,和突触,连接强度,(即连接权值)来确定。神经网络训练的实质是通过对样本集的输入,/,输出模式反复作用于网络,网络按照一定的学习算法自动调节神经元之间的连接强度,(阈值),或拓扑结构,当网络的实际输出满足期望要求,或者趋于稳定时,则认为学习圆满结束。,43,人工神经网络的学习算
23、法,学习算法是人工神经网络研究中的核心问题,神经网络学习算法有很多,大体可分为,有导师学习,(,Supervised Learning,)、,和,无导师学习,(,Unsupervised Learning,),两大类,另外还有一类死记式学习。,44,有导师学习,一般需要事先收集样本数据。将数据分为训练集和检验集两部分,以保证所训练出的神经网络同时具有拟合精度和泛化能力。,45,46,47,神经网络的学习规则,日本著名神经网络学者,Amari,于,1990,年提出一种神经网络权值训练的通用学习规则。,是一正的常量,其值决定了学习的速率,也称为,学习率或学习因子,;,t,时刻权值的调整量与,t,时
24、刻的输入量和,学习信号,r,的乘积成正比。,48,Hebb,型学习,Hebb,型学习(,Hebbian Learning,)的出发点是,Hebb,学习规则,如果神经网络中某一神经元同另一直接与它连接的神经元同时处于兴奋状态,那么这两个神经元之间的连接强度将得到加强,。,49,Hebb,型学习,Hebb,学习方式可用如下公式表示:,ij,(t+1)=,ij,(t)+x,i,(t)*x,j,(t),其中,,ij,(,t,1,)表示对时刻,t,的权值修正一次后的新的权值;,xi,(,t,)、,xj(t,)分别表示,t,时刻神经元,i,(输入)和神经元,j,(输出)的状态。,上式表明,,权值的调整量与
25、输入输出的乘积成正比。此时的学习信号即,输出信号,。,这是一种纯前馈、无导师学习。,该规则至今仍在各种神经网络模型中起着重要作用。,50,Hebb,学习规则举例:,设有一具有,4,个输入,单个输出的神经元网络,为简化起见,取阈值,=0,,学习率,=,1,。,3,个输入样本量和初始权向量分别为,X1=,(,1,,,-2,,,1.5,,,0,),T,,,X2=,(,1,,,-0.5,,,-2,,,-1.5,),T,,,X3=,(,0,,,1,,,-1,,,1.5,),T,,,W0=,(,1,,,-1,,,0,,,0.5,),解:首先设激活函数为符号函数,即,f(net)=sgn(net),51,误
26、差修正学习规则(也称感知器学习规则),误差修正学习(,Error,Correction Learning,)是一种,有导师的学习过程,,其基本思想是利用神经网络的,期望输出与实际之间的偏差作为连接权值调整,的参考,并最终减少这种偏差。最基本的误差修正规则规定:,连接权值的变化与神经元希望输出和实际输出之差成正比,。,52,误差修正学习规则(也称感知器学习规则),该规则的连接权的计算公式为:,ij,(t+1)=,ij,(t)+d,j,(t)-y,j,(t)x,i,(t),其中,,ij(t),表示时刻,t,的权值;,ij(t+1),表示对时刻,t,的权值修正一次后的新的权值;,d,j,(t),为时
27、刻,t,神经元,j,的希望输出,,y,j,(t),为与,i,直接连接的另一神经元,j,在时刻,t,的实际输出;,d,j,(t)-y,j,(t),表示时刻,t,神经元,j,的输出误差。,53,(,Delta,),学习规则,学习规则,很容易从输出值与希望值的最小平方误差导出来。,举例:,54,感知器模型及其学习(自学习模型),感知器是美国心理学家罗森勃拉特于,1958,年为研究大脑的存储、学习和认知过程而提出的一类具有自学习能力的神经网络模型。,最初的感知器只有一个神经元,实际上仍然是,M-P,模型的结构,但是它与,M-P,模型的区别在于神经元之间连接权的变化。通过采用监督学习来逐步增强模式划分的
28、能力,达到所谓学习的目的。,感知器研究中首次提出 了自组织、自学习的概念,对神经网络的研究起到重要的推动作用,是研究其他网络的基础。,55,感知器模型及其学习(自学习模型),感知器模型,感知器是一种,具有分层结构的前向网络模型,,,它可分为单层、两层及多层结构,。,感知器中的神经网络是,线性阈值单元,。当输入信息的加权和大于或等于阈值时,输出为,1,,否则输出为,0,或一,1,。,神经元之间的连接权,i,是可变的,这种可变性就保证了感知器具有学习的能力。,56,单层感知器,是一个由输入部分和输出层构成,,但只有输出层可作为计算层的网络,。在单层感知器中,输入部分,(,也称为感知层,),和输出层
29、都可由多个神经元组成,输入部分将输入模式传送给连接的输出单元;输出层对所有输入数据进行加权求和,经阈值型作用函数产生一组输出模式。,57,单层感知器的两层神经元之间采用全互连方式,,即输入部分各单元与输出层各单元之间均有连接。,单层感知器模型,y1,x2,xn,yn,x1,输出层,输入部分,权可调,58,多层感知器,图,5-13,二层感知器,y1,yn,输出层,x2,xn,x1,输入部分,权可调,权固定,隐含层,59,感知器的功能,当激活函数取阶跃函数或符号函数时,由感知器的网络结构,可以看出单感知器的基本功能是将输入矢量转化成,1,或,0,(一,1,)的输出。因此,单输出节点的感知器具有分类
30、功能。,其分类原理是将分类知识存储于感知器的权向量(包含了阈值)中,由权向量确定的分类判决界面可以,将输入模式分为两类,。,60,感知器的功能,利用感知器可以实现逻辑代数中的一些运算(例),61,感知器的学习算法,感知器的学习是通过有导师的学习过程来实现的。,罗森勃拉特提出的感知器学习算法是,:,1),把连接权和阈值初始化为较小的非零随机数。,2),把有,n,个连接值元素的输入送入网络。调整连接权值,以使网络对任何输入都能得到所希望的输出。,62,(,l,),初始化连接权和阈值。,给,连接权值,i,(0),(,i=1,,,2,,,,,n,),及,输出节点中的阈值,分别赋予一个较小的非零随机数,
31、作为它们的初始值。,(,2,),提供新的样本输入,x,i,(0),(,i=1,,,2,,,,,n,),和期望输出,d,(,t,)。,(,3,),计算网络的实际输出,y,(,t,),=f(,i,(t)x,i,(t)-),(,i=1,,,2,,,,,n,),(,4,),经学习后,调整连接权值,i,(t+1)=,i,(t)+d(t)-y(t)x,i,(t),(,i=1,,,2,,,,,n,),其中,,0,1,。通常,的值不能太大,也不能太小。如果,的值太大,会影响,i,(t),的收敛性;如果太小,又会使,i,(t),的收敛速度太慢。,5,),返回(,2,)。,在(,2,)(,5,)间反复进行,直到对
32、所有训练样本,网络输出误差均能达到一定的精度要求。,63,感知器学习算法举例,64,有关感知器,XOR,问题求解的讨论,明斯基,(,Minsky,),仔细从数学上分析了以感知器为代表的神经网络系统的功能和局限性,于,1969,年发表了,Perceptron,一书。书中指出感知器仅能解决一阶谓词逻辑问题,不能解决高阶谓词逻辑问题,并给出了一个简单的例子,即,XOR,(异或)问题,如下表所示,它是不能直接通过感知器算法来解决的。,点 输入,x1,输入,x2,输出,y,A1 0 0 0 B1 1 0 1 A2 1 1 0 B2 0 11 XOR,(异或)真值表,65,点 输入,x1,输入,x2,输出
33、,y,A1 0 0 0 B1 1 0 1 A2 1 1 0 B2 0 11,由上表可以看出,只有当输入的两个值中有一个为,1,,且不同时为,1,时,输出的值才为,1,,否则输出值为,0,。,由于单层感知器的输出:,y=f(,1*x1+2*x2-),可以看出,要用单层感知器解决异或问题,就必须存在,1,、,2,和,,满足如下方程,但是方程组无解,(,线性不可分,),。,1+2-,0 1+0 -0 0 +0 -,0 0 +2-0,66,感知器神经网络应用的局限性,单层感知器只能对线性可分的向量集合进行分类。,对于“异或”问题可以用两个计算层的感知器来解决。,67,B-P,网络及其学习,误差反向传播
34、(,Error Back Propagation,),:美国加州大学的鲁梅尔哈特(,Rumelhart,)和麦克莱兰,(Meclelland),等学者继续深入研究了感知器模型,他们抓住信息处理中的并行性和分布性这两个本质概念,,1985,年提出了一个神经网络反向传播模型,简称为,B-P,模型,这个模型既实现了明斯基(,Minsky,)所提出的多层网络的设想,又突破了感知器的一些局限性。,68,B-P,网络及其学习,BP,模型利用输出后的误差来估计输出层的直接前导层的误差,再利用这个误差估计更前一层的误差。如此下去,获得所有其他各层的误差估计。形成将输出表现出来的误差沿着与输入信号传送相反的方向
35、逐级向网络的输入端传递的过程,因此称为后向传播(,B-P,)算法。,69,B-P,网络及其学习,BP,模型不仅有输人层节点、输出层节点,而且有一层或多层隐含节点,。,层与层之间多采用,全互连方式,,但同一层的节点之间不存在相互连接,。,70,B-P,网络的学习过程是由,正向传播,和,误差反向传播,组成的。,当给定网络一组输入模式时,,B-P,网络将依次对这组输入模式中的每个输入模式按如下方式进行学习:把输入模式从输入层传到隐含层单元,经隐含层单元逐层处理后,产生一个输出模式传至输出层,这一过程称为,正向传播,。,71,如果经正向传播在输出层没有得到所期望的输出模式,则转为,误差反向传播,过程,
36、即把误差信号沿原连接路径返回,并通过修改各层神经元的连接权值,使误差信号为最小。,重复正向传播和反向传播过程,直至得到所期望的输出模式为止,。,72,BP,网络除了在多层网络上与单层感知器不同外,其主要差别也表现在激活函数上。,BP,网络的激活函数必须是处处可微的,因此它不能采用二值型的阀值函数,0,,,1,或符号函数,1,,,1,BP,网络经常使用的是,S,型的对数或正切激活函数和线性函数,73,B-P,网络的学习算法:,(,1,),初始化网络及学习参数,,即将隐含层和输出层各节点的连接权值、神经元阈值赋予,1,,,1,区间的一个随机数。,(,2,),提供训练样本,,即从训练样本集合中选出一
37、个训练样本,将其输入和期望输出送入网络。,(,3,),正向传播过程,,即对给定的输入,从第一隐含层开始,计算网络的输出,并把得到的输出与期望输出比较,若有误差,则执行第(,4,)步;否则,返回第(,2,)步,提供下一个训练模式;,(,4,),反向传播过程,,即从输出层反向计算到第一隐含层,逐层修正各单元的连接权值。,(,5,),返回第(,2,)步,对训练样本集中的每一个训练样本重复第(,2,)到第(,3,)步,直到训练样本集中的每一个样本都满足期望输出为止。,74,Hopfield,网络及其学习,Hopfield,网络是美国加州工学院物理学家霍普菲尔特(,Hopfield,)提出来的一种具有,
38、相互连接的反馈型神经网络模型,。,根据其激活函数的选取不同,可分为离散型的霍普菲尔德网络,(Discrete Hopfield Neural Network,,简称,DHNN),和连续型的霍普菲尔德网络,(Continuous Hopfield Neural Network,,简称,CHNN),。,75,Hopfield,网络是由若干基本神经元构成的一个,单层全互连,的神经网络,其,任意神经元之间均有连接,,是一种,对称连接结构,。一个典型的单层,Hopfield,网络结构如图,5-18,所示。离散网络模型是一个离散时间系统,每个神经元只有两种状态,可用,0,和,1,表示。,ji,若,ij ,
39、ij,=,0,若,i=j,所构成的矩阵是一个零对角的对称矩阵。,输出层,图,5-18 Hopfield,网络结构,输入层,76,在该网络中,每当有信息进入输入层时,在输入层不做任何计算,直接将输入信号分布地传送给下一层各有关节点。如果用,X,j,(,t,)表示节点,j,在时刻,t,的状态,则该节点在下一时刻(即,t,1,)的状态由下式确定:,1 ,ij,X,i,(t)-,j,0,X,j,(t+1)=sgn(,ij,X,i,(t)-,j,)=0 ,ij,X,i,(t)-,j,0,其中,函数,sgn(),为阶跃函数;,j,为神经元,j,的阈值。,77,离散,Hopfield,网络中的神经元与生物神
40、经元的差别较大,因为生物神经元的输入、输出是连续的。为此,霍普菲尔特后来又提出了连续型的,Hopfield,网络。在这种网络中,神经元的状态可取,0,到,1,之间的任一实数值。,霍普菲尔特和其他人利用连续连续型的,Hopfield,网络求解了,TSP,问题。,78,人工神经网络,在经济领域的应用,市场上的商品价格(特别是股票价格),以及企业的可信度(是否会破产),密切关系到投资者的利益。应用传统的统计方法,能预测一段时间内的大致趋势,但短期的跳跃却往往是投资者更感兴趣的信息。已有资料表明,神经网络用于短期预测也有很好的效果。另外,传统方法还要事先知道各种参数,相比之下,神经网络的学习能力以及通
41、过学习掌握数据间的依从关系,在价格预测中显示出一定的优越性。,79,应用实例,1,:股票价格预测,应用实例,2,:企业破产预测,80,人工神经网络,研究的局限性,(,1,),ANN,研究受到脑科学研究成果的限制。,(,2,),ANN,缺少一个完整、成熟的理论体系。,(,3,),ANN,研究带有浓厚的策略和经验色彩。,(,4,),ANN,与传统技术的接口不成熟。,81,一般而言,ANN,与经典计算方法相比并非优越,只有当常规方法解决不了或效果不佳时,ANN,方法才能显示出其优越性。尤其对问题的机理不甚了解或不能用数学模型表示的系统,如故障诊断、特征提取和预测等问题,,ANN,往往是最有力的工具。另一方面,ANN,对处理大量原始数据而不能用规则或公式描述的问题,表现出极大的灵活性和自适应性。,黑箱,