第3章-神经元、感知器和BP网络.ppt

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,课程名：智能控制技术,第三章神经网络控制,神经网络是在生物功能启示下建立起来的一种数据处理技术。它是由大量简单神经元互连而构成的一种计算结构，在某种程度上模拟生物神经系统的工作过程，从而具备解决实际问题的能力。,特点,:,（,1,）,非线性映射逼近能力。,任意的连续非线性函数映射关系可由多层神经网络以任意精度加以逼近。,1,（,2,）,自适应性和自组织性,。,神经元之间的连接具有多样性，各神经元之间的连接强度具有可塑性，网络可以通过学习与训练进行自组织，以适应不同信息处理的要求。,（,3,）,并行处理性。,网络各单元可同时进行类似的处理，整个网络的信息处理方式是大规模并行的，可以大大加快对信息处理的速度。,（,4,）,分布存储和容错性。,信息在神经网络内的存储按内容分布于许多神经元中，而且每个神经元存储多种信息的部分内容。网络的每部分对信息的存储具有等势作用，部分的信息丢失仍可以使完整的信息得到恢复，因而使网络具有容错性和联想记忆功能。,（,5,）,便于集成实现和计算模拟。,神经网络在结构上是相同神经元的大规模组合，特别适合于用大规模集成电路实现。,2,3-1,神经网络的基本概念,一,.,生物神经元模型,3.1.1,神经元模型,脑神经元由细胞体、树突和轴突构成。细胞体是神经元的中心，它一般又由细胞核、细胞膜等组成。树突是神经元的主要接受器，它主要用来接受信息。轴突的作用主要是传导信息，它将信息从轴突起点传到轴突末梢。,1,、组成,轴突末梢与另一个神经元的树突或胞体构成一种突触的机构。通过突触实现神经元之间的信息传递。,3,具有两种常规,工作状态,：兴奋与抑制。,当传入的神经冲动使细胞膜电位升高超过阈值时，细胞进入兴奋状态，产生神经冲动并由轴突输出；,当传入的神经冲动使膜电位下降低于阈值时，细胞进入抑制状态，没有神经冲动输出。,2.,生物神经元,工作状态,4,二,.,人工神经元模型,人工神经网络是利用物理器件来模拟生物神经网络的某些结构和功能。,1.,人工神经元的,输入输出变换关系为,:,其中,:,称为阈值,称为连接权系数,称为输出变换函数,。,5,2.,常用的输入输出变换函数,神经元模型的输出函数，它是一个非动态的非线性函数，用以模拟神经细胞的兴奋、抑制以及阈值等非线性特性。,这些非线性函数具有两个显著的特征，一是它的突变性，二是它的饱和性，这正是为了模拟神经细胞兴奋过程中所产生的神经冲动以及疲劳等特性。,6,3.1.2,人工神经元网络,人工神经网络是一个并行和分布式的信息处理网络结构，该网络结构一般由许多个神经元组成，每个神经元有一个单一的输出，它可以连接到很多其它的神经元，其输入有多个连接通路，每个连接通路对应一个连接权系数。,1.,对于每个结点有一个状态变量,一,.,人工神经元网络的组成原理,2.,结点,i,到结点,j,有一个连接权系数,3.,对于每个结点有一个阈值,4.,对于每个结点定义一个变换函数,严格说来，神经网络是一个具有如下性质的有向图。,其中：,9,二,.,典型的神经网络结构：,根据神经元之间连接的拓扑结构上的不同，可将神经网络结构分为两大类：层状结构和网络结构。层状结构的神经网络是由若干层组成，每层中有一定数量的神经元，相邻层中神经元单向联接，一般同层内的神经元不能联接。,1,、前向网络（前馈网络）,下面介绍几种常见的网络结构,:,2,、反馈网络,10,即网状结构，在这种神经网络结构中，任何两个神经元之间都可能双向联接。,4.,混合型网络,在前向网络基础上，在同层、部分神经元之间也可双向联接。,3.,相互结合型网络,11,3-2,监督学习及前馈神经网络,具有分层的结构。最前面一层是输入层，中间是隐层，最后一层是输出层。其信息从输入层依次向上传递，直至输出层。这样的结构称为前馈网络。,3.2.1,感知器网络,感知器,(perceptron),是最简单的前馈网络，也,是早期仿生学的研究成果，,主要功能是用于对不同的输入模式进行分类。,12,一、单层感知器网络,也就是按照不同特征的分类结果。,是具有单层神经元、采用线性阈值函数的前馈网络。通过对权值的训练，可使感知器对一组线性可分的输入模式（矢量）进行有效的分类。,是输入特征向量，,图中,是,到,的连接权，,(,j=,1,2,m,),是输出量。,1.,单层感知器的基本结构,13,2.,单层感知器的输入输出变换关系,由于按不同特征的分类是互相独立的，因而可以取出其中的一个神经元来讨论。,其输入到输出的变换关系为：,该感知器的输出将输入模式分成了两类。它们分属于,n,维空间的两个不同的部分。,若有,P,个输入样本,(,p,=1,2,P,),。,14,*以二维空间为例,分界线的方程为,:,*值得注意的是：,只有那些线性可分模式类才能用感知器来加以区分。,线性不可分问题：,典型的例子是异或关系。,15,对于输入矢量,x,，输出矢量,y,，目标矢量,d,，根据以下输出矢量可能出现的情况进行调整：,3.,感知器网络的学习规则,16,采用有教师的学习方法进行训练：,1),确定输入矢量,x,，目标矢量,d,，各矢量的维数、神经元数和样本数目：,n,，,m,，,P,；,2),参数初始化：,a),输入,x,n,p,，,d,m,p,；,b),设置,(-1,1),随机非零权矢量,w,m,n,；,c),给出最大循环次数,max_epoch,；,3),计算神经网络的实际输出：,4.,感知器网络的学习算法,17,4),检查输出,y,与目标,d,是否相同，若是，或已达到最大循环次数，训练结束，否则继续；,6),转到,3),。,权矢量的修正量与输入模式,x,k,成正比。若,的取值太大，算法可能出现振荡。,取值太小，收敛速度会很慢。,单层感知器的局限性：,只能解决简单的分类问题，也就是只有在输入矢量是线性可分时，单层感知器才对输入模式进行有效的分类有效。,线性不可分,问题只能用多层感知器来解决。,18,二、多层感知器网络,1.,多层感知器的基本结构,如下图多层感知器网络：,其中：,第,0,层为输入层，,有个神经元，,中间层为隐层。,第,Q,层为输出层，,有个神经元，,这时每一层相当于一个单层感知器网络。,19,2,、多层感知器的输入输出变换关系,对于第,q,层，它形成一个,维的超平面，它对于该层的输入模式进行线性分类。,由于多层的组合，最终可实现对输入模式的较复杂的分类。,20,3.2.2.BP,网络,反向传播,(Back-Propagation),网络，简称,BP,网络，是采用广义,d,学习规则，对非线性可微分函数进行权值训练的多层（三层或三层以上）前馈网络。,前、后层之间各神经元实现全联接；,每层各神经元之间无联接。,x,1,x,2,x,n,w,ij,输入层,输出层,隐含层,j,i,k,+,-,w,ki,信息流,误差反向传播,(,学习算法,),M,q,L,BP,网络主要用于函数逼近、模式识别、分类、数据压缩。,一,.BP,网络的基本结构及原理,21,x,1,x,2,x,n,w,ij,输入层,输出层,隐含层,j,i,k,+,-,w,ki,信息流,误差反向传播,(,学习算法,),M,q,L,设输入层,j,有,M,个节点，节点的输出等于其输入。隐含层,i,有,q,个节点，激活函数为,f,1,，,w,ij,是,j,层和,i,层节点之间的联接权值。输出层,k,有,L,个节点，激活函数为,f,2,，,w,ki,是,i,层和,k,层节点之间的联接权值。隐含层和输出层节点的输入是前一层节点的输出的加权和。,22,属于,d,算法。基本思想是最小二乘算法：对于,P,个输入学习样本,x,1,x,2,x,P,，已知对应的输出样本为,d,1,d,2,d,P,。学习的目的是用网络的实际输出,y,1,y,2,y,P,与目标矢量,d,1,d,2,d,P,之间的误差来修正其权值，使网络输出层的误差平方和达到最小。,二,.BP,网络的基本学习规则,学习过程由,正向递推,计算实现函数映射和,反向传播,计算训练权值两步来完成。,23,三,.,BP,网络的输入输出变换关系,在,BP,网络中，神经元的变换函数通常采用,S,型函数，因此输出量是,0,到,1,之间的连续量，它可实现从输入到输出的任意的非线性映射。,具有偏置和调节的,Sigmoid,激发函数,S,型激活函数连续可微。算法上可严格利用梯度法进行推算，权值修正的解析式明确。,1.BP,网络中神经元的激活函数,24,2.BP,网络的前馈计算,（,BP,网络输入到输出的映射计算）,即根据神经元所确定的输入输出变换函数，由输入层向输出层执行递推计算。一旦权值满足训练要求，前馈计算结束，能使,BP,网络实现期望的输入输出变换关系。,BP,网络的前馈递推算式,：,25,四,.,BP,网络权值的训练及学习功能的实现,1.,训练样本,BP,网络属于监督学习网络，,BP,网络是通过在教师信号（样本）的监督下对连接权值进行适当的训练从而实现学习功能的。,（,1,）,训练样本,-,理想输入输出对的集合，样本来自客观对象，信息集中包含着系统内在的输入输出特性。,（,2,）,样本特性,-,理想的样本应具有真实性和完整性。,设有实际应用中的,P,组样本，其中第,p,组样本对形式如下：,输入样本：,输出样本：,26,2.,定义误差函数,连接权值的训练过程，就是,BP,网络,拟合未知函数得优化计算过程。为了保证拟合精度，取如下算式作为拟合误差函数：,总误差函数：,一次样本误差函数：,其中：,是期望输出值与网络实际输出之间的差值。,27,3.,权值的训练及反向传播计算过程,x,1,x,2,x,n,w,ij,输入层,输出层,隐含层,j,i,k,+,-,w,ki,信息流,误差反向传播,(,学习算法,),M,q,L,调整连接权值，以便使误差函数,E,最小，优化计算常采用一阶梯度来实现。该方法的关键是计算优化目标函数（即误差函数）,E,对寻优参数（即连接权值）的一阶倒数。即：,调整连接权值按照反向传播的原则，从输出层开始向前逐一推算。,28,（,1,）首先计算第,Q,层（即输出层）,其中：,(),29,（,2,）再计算第,Q-1,层（即次输出层）,其中：,(),见上页,(),式：,30,（,3,）第,q,层的反向递推计算,根据（,）,（,）两式可获得反向递推算式：,这里的,q,层是指由,Q-1,向前递推的任意网络层次（其中：,q,=Q-2,，,Q-3,，,1),首先计算,31,在每一层的反向递推计算,需要说明的是：,中都出现导数项,。,该项的计算，与所取的激活函数直接相关。比如：,取变换函数,为,S,型函数，那么其导数项可计算如下：,由于：,所以：,32,最后可归纳出,BP,网络的学习算法如下：,第,q,层：,输出层：,33,五,.,BP,网络的特点和优点、局限性及其改进,特点：,（,1,）是一种多层网络，,包括输入层、隐含层和输出层；,（,2,）层与层之间采用全互连方式，同一层神经元之间不连接；,（,3,）权值通过,学习算法进行调节；,（,4,）神经元激发函数为,S,函数；,（,5,）,学习算法由正向传播和反向传播组成；,（,6,）层与层的连接是单向的，信息的传播是双向的。,34,优点：,（,1,）隐层的作用是使问题的可调参数增加，使解更加准确。只要有足够多的隐层和隐层节点，,BP,网络可以逼近任意的非线性映射关系。,（,2,）由所取的作用函数知，,BP,网络的学习算法属于全局逼近算法，具有较强的泛化能力。,泛化能力,用较少的样本进行训练，使网络能对未经训练的输入也能给出合适的输出。,从函数拟合的观点，这表明,BP,网络具有插值计算的能力。,没有泛化能力的神经网络无任何使用价值。,35,（,3,）,BP,网络输入、输出之间的关联信息分布地存储在网络的连接权中，个别神经元的损坏只对输入输出关系有较小的影响，因而,BP,网络具有较好的容错性。,36,局限性,：,目标函数存在多个极值点，按梯度下降法进行学习，很容易陷入局部极小值；,学习算法的收敛速度慢，且收敛速度与初始权的选择有关，难以适应实时控制的要求；,难以确定隐层及其节点的数目。目前，确定具体的网络结构尚无好方法，仍根据经验试凑。,训练时学习新样本有遗忘旧样本的趋势。,针对上述问题，提出,3,种较常用的改进算法。,37,1,、,引入动量项,增加动量项从前一次权值调整量中取出一部分叠加到本次权值调整量中。动量项反映以前积累的调整经验，,对,t,时刻调整起,阻尼作用。,减小学习过程的振荡趋势，是目前应用较广泛的一种改进算法。,其中，为,k,时刻的负梯度。,为学习率，,0,。,为动量项因子，。,根据经验数据,动量项因子取,0.95,比较适,合。,引入前：,引入后：,38,2,、自适应调节学习率,设一初始学习率，若经过一批次权值调整后使总误差,，则本次调整无效，且,降低,；,若,经过一批次权值调整后使总误差,，则本次调整有效，且,增大,。,标准,BP,算法问题：,学习率,为一常数，很难确定一个从始到终都合适的最佳,学习率。如误差曲面平坦区,太小会使训练次数增加；而,误差变化剧烈的区域,太大会使训练出现振荡。解决方法如下：,39,3,、引入陡度因子,标准,BP,算法问题：,误差曲面存在平坦区，其原因是神经元输出进入了转移函数的饱和区。,解决思路：,压缩神经元净输入，使其输出退出饱和区。,40,实现这一思路的具体作法是，在原转移函数中引入一个陡度因子,当发现,E,接近零而目标与实际输出仍较大时，可判断已进入平坦区，此时令,1,；退出平坦区后，再令,=1,。,1,：,转移函数曲线敏感区变长；,=1,：,转移函数恢复原状。,41,4,、误差函数的改进,42,(1),产生数据样本集,(2),确定网络的类型和结构,(3),训练和测试,3.2.3,神经网络的训练,43,(1),产生数据样本集,这里包括原始数据的收集、数据分析、变量选择以,及数据的预处理。,首先要在大量的原始测量数据中确定出最主要的输,入模式。这就需要对原始数据进行统计分析，检验它们,之间的相关性。找出其中最主要的量作为输入。,44,在确定了最重要的输入量后，需进行,尺度变换,和预,处理。尺度变换常常将它们变换到,-1,1,或,0,1,的范围。,在进行尺度变换前必须先检查是否存在异常点（或称,野,点,），这些点必须剔除。,对于一个复杂问题应该,选择多少数据,，这也是一个,很关键的问题。系统的输入输出关系就包含在这些数据,样本中。所以一般说来，取的数据越多，学习和训练的,结果便越能正确反映输入输出关系。,45,但是,选太多,的数据将增加收集、分析数据以及网络训练的所付的代价。,选太少,的数据则可能得不到正确的结果。,事实上数据的多少取决于许多因素，如网络的大小、网络测试的需要以及输入输出的分布等。其中网络大小最关键。通常较大的网络需要较多的训练数据。,一个经验规则是：训练模式应是连接权总数的,5,至,10,倍。,46,在神经网络训练完成后，需要有另外的测试数据来对网络加以检验，测试数据应是独立的数据集合。,最简单的方法是：,将收集到的可用数据随机地分成两部分，譬如说其中三分之二用于网络的训练，另外三分之一用于将来的测试，随机选取的目的是为了尽量减小这两部分数据的相关性。,影响数据大小的另一个因素,是输入模式和输出结果的分布，对数据预先加以分类可以减少所需的数据量。相反，数据稀薄不匀甚至互相覆盖则势必要增加数据量。,47,(2),确定网络的类型和结构,在训练神经网络之前，首先要确定所选的网络类型。,若主要用于模式分类，尤其是线性可分的情况，则可,采用较为简单的感知器网络；,若主要用于函数估计，则可应用,BP,网络。,实际上，神经网络的类型很多，需根据问题的性质和,任务的要求来合适地选择网络类型。一般是从已有的网络,类型中选用一种比较简单而又能满足要求的网络。,48,在网络的类型确定后，剩下的问题是选择网络的结构和参数。,以,BP,网络为例，需选择网络的层数、每层的节点数、初始权值、阈值、学习算法、节点变换函数及参数、学习率及动量项因子等参数。这里有些项的选择,有一些指导原则，但更多的是靠经验和试凑。,49,具体选择有如下,两种方法：,a.,先设置较少,节点,，对网络进行训练，并测试网络的逼近误差，然后逐渐增加,节点,数，直到测试的误差不再有明显减小为止。,对于具体问题若确定了输入和输出变量后，网络输入层和输出层的节点个数也便随之确定了。对于,隐层,的层数可首先考虑只选择一个隐层。剩下的问题是如何选择隐层的节点数。,其选择原则是：,在能正确反映输入输出关系的基础上，尽量选取较少的隐层节点数，而使网络尽量简单。,50,b.,先设置较多的节点，在对网络进行训练时，采用如下的误差代价函数,引入第二项的作用相当于引入一个,“,遗忘,”,项，其目的是为了,使训练后的连接权系数尽量小,，可求得这时,对的梯度为,51,利用该梯度可以求得相应的学习算法。利用该学习算法，在训练过程中只有那些,确实必要的连接权才予以保留,，而那些,不很必要的连接将逐渐衰减为零,。最后可去掉那些影响不大的连接权和相应的,节点,，从而得到一个适当规模的网络结构。,若采用上述任一方法选择得到的隐层节点数太多。这时,可考虑采用二个隐层,。为了达到相同的映射关系，采用二个隐层的节点总数常常可比只用一个隐层时少,。,52,(3),训练和测试,在训练过程中对训练样本数据需要反复地使用。,对所有样本数据正向运行一次并反传修改连接权一次称,为,一次训练,(,或一次学习,),，这样的训练需要反复地进行,下去直至获得合适的映射结果。通常训练一个网络需要,成百上千次。,应该注意，并非训练的次数越多越好。,53,训练网络的目,的,在于找出蕴含在样本数据中的输入和输出之间的本质联系，从而对于未经训练的输入也能给出合适的输出，即,具备泛化功能,。,由于所收集的数据都是包含噪声的，训练的次数过多，网络将包含噪声的数据都记录了下来，但是对于新的输入数据却不能给出合适的输出，也即并不具备很好的泛化功能。,54,从,如下,误差曲线可以看出，在用测试数据检验时，均方误差开始逐渐减小，当训练次数再增加时，测试检验误差反而增加。误差曲线上极小点所对应的即为恰当的训练次数，若再训练即为,“过度训练”,了。,55,

展开阅读全文