切比雪夫正交基神经网络的权值直接确定法.pdf

资源描述

基金项目:中国国家自然科学基金(60643004)、中山大学科研启动费和后备重点课题。收稿日期:2007-11-11 修回日期:2007-11-30 第 26卷第 1期计算机仿真2009年 1月文章编号:1006-9348(2009)01-0157-05切比雪夫正交基神经网络的权值直接确定法张雨浓,李巍,蔡炳煌,李克讷(中山大学电子与通信工程系,广东广州 510275)摘要:经典的 BP 神经网络学习算法是基于误差回传的思想。而对于特定的网络模型,采用伪逆思想可以直接确定权值进而避免以往的反复迭代修正的过程。根据多项式插值和逼近理论构造一个切比雪夫正交基神经网络,其模型采用三层结构并以一组切比雪夫正交多项式函数作为隐层神经元的激励函数。依据误差回传(BP)思想可以推导出该网络模型的权值修正迭代公式,利用该公式迭代训练可得到网络的最优权值。区别于这种经典的做法,针对切比雪夫正交基神经网络模型,提出了一种基于伪逆的权值直接确定法,从而避免了传统方法通过反复迭代才能得到网络权值的冗长训练过程。仿真结果表明该方法具有更快的计算速度和至少相同的工作精度,从而验证了其优越性。关键词:切比雪夫正交多项式;人工神经网络;激励函数;权值修正公式;权值一步确定;伪逆中图分类号:TP183 文献标识码:AA Chebyshev OrthogonalBasisNeuralNetwork w ithD irectW eightDeter m inationZHANG Yu-nong,LIW e,i CAI Bing-huang,LIKe-ne(Depart ment ofElectronics and Communication Engineering,Sun Yat-SenUniversity,GuangzhouGuangdong 510275,China)ABSTRACT:Standard BP neuralnetwork is based on the error back-propagationmethod.For a specialneuralne-tworkmode,l the weights could be deter m ined directly w ithout lengthy iterative updating by using a pseudo-inversemethod.Based on polynom ial interpolation and approx i mation theory,a Chebyshev orthogonal basis neuralnet work isconstructed in this paper.The model adopts a three-layer structure,where the hidden-layer neurons are activatedby a group of Chebyshev orthogonal polyno m ial functions.The weight updating for mula is derived by follow ing thestandard BP trainingmethod.M ore i mportantly,the pseudo-inverse based method is then proposed,which couldi mmediately deter m ine the neural-network weights.Co mputer si mulation results show that the one-step weight-deter m inationmethod could bemore efficient than the conventionalBP iterative-training method,in addition to theequally-highworking-precision at least,which reveals its advantages.KEYWORDS:Chebyshev orthogonalpolynom ials;A rtificialneuralnetworks;A ctivation functions;W eight-updatingfor mula;One-stepweight-deter m ination;Pseudo-inverse1 引言人工神经网络因其高度的并行性、分布式存储、自适应自学习能力等显著的特点,在人工智能、模式识别、信号处理和机器人及其非线性控制等领域有着广泛的应用 1-3。我们也曾利用神经网络开展过科学计算工作如矩阵方程求解和矩阵实时求逆等 4-5。在实际应用中,很多人工神经网络模型是采用基于误差回传(Back Propagation,即 BP)的神经网络及其变形体,它们可以说是应用最广泛也最重要的网络模型之一。经典的 BP神经网络存在着诸如收敛速度慢和易陷入局部极小点等缺点,因此很多改进算法得以提出。它们大体上可以分为两类 6-7:基于标准梯度下降法的改进(如加动量项),基于数值优化方法的改进(如采用拟牛顿法或 L M算法等),这些改进多是着眼于学习算法本身,即通过改进网络训练的迭代规则来提高神经网络的性能。不同的是,本文期望通过改进网络的结构定义和激励函数来解决收敛速度慢和局部极小点问题。因此构造了一种切比雪夫正交基神经网络,其隐层神经元的激励函数为一组切比雪夫正交多项式函数。该神经网络不仅结构简单,而且对于这种特殊的网络模型,本文进一步提出了一种基于伪逆)157)的权值直接确定法,从而避免了传统 BP算法的冗长迭代过程。值得指出的是,该神经网络的隐层神经元权值可以通过BP算法反复迭代训练而获得,也可以利用本文提出的基于伪逆思想的权值直接确定法而得到。仿真结果显示基于伪逆的权值直接确定法不仅具有更快的计算速度,而且可以获得至少与传统的 BP迭代算法相同的工作精度。2 网络模型及理论基础基于负梯度法(或称梯度下降法)的 BP 网络是一种多层前向神经网络,其核心是误差反向传播算法。该标准做法是依据负梯度下降方向,迭代调整网络的权值和阀值以实现误差函数的减小。其权值 w 修正的迭代公式可简写为 w(k+1)=w(k)-$w=w(k)-G(5E/5w)|w=w(k),其中迭代次数k=0,1,2,G为迭代步长(或称学习率),$w=G(5E/5w)|w=w(k)为第 k次迭代时的权值修正量,而 5E/5w代表误差函数 E对权值w的偏导。但这种经典的 BP神经网络存在着收敛速度慢和易陷入局部极小点等缺点。为改善网络的性能,本文从网络结构和激励函数的角度出发,基于多项式插值和逼近理论 8-9,构造了一种切比雪夫正交基神经网络(如图 1所示),它能够快速有效地学习给定样本并逼近目标函数。在分析该切比雪夫正交基神经网络的任意逼近能力之前,首先给出切比雪夫正交多项式的定义。图 1 比雪夫正交基神经网络模型定义 1 9(切比雪夫正交多项式)在-1,1 上针对权函数 Q(x)=(1-x2)-1/2构成正交系的多项式 Uj(x)称为第一类切比雪夫正交多项式。通常提到的切比雪夫正交多项式就是指上述定义 1中的第一类切比雪夫多项式。由定义 1可知,若多项式系 0P,i=j=0对于切比雪夫正交多项式 Uj(x),具有如下表达式:U0(x)=1;Uj(x)=j2Efloor(j/2)i=0(-1)i(j-i-1)!i!(j-2i)!(2x)j-2i,j 1并且对于 Uj(x),有递推关系式:Uj+1(x)=2xUj(x)-Uj-1(x),j=1,2,3,。在图 1,给出了切比雪夫正交基神经网络的模型。它由输入层、隐层和输出层组成,其中输入层和输出层有一个神经元使用线性激励函数 f(x)=x(并固定其权值为 1、阀值为0),而隐层有 n个神经元并使用一组阶次逐渐增高的切比雪夫正交多项式函数 Uj(x)作为激励函数,j=0,1,2,n-1;换言之,隐层第 j+1个神经元的激励函数是 Uj(x)。其中,U0(x)=1U1(x)=xU2(x)=2x2-1U3(x)=4x3-3xU4(x)=8x4-8x2+1,(x I-1,1,j=0,1,2,n-1)值得注意的是,该切比雪夫正交基神经网络所有神经元的阀值都恒定设为 0,这因此简化了网络的结构,有利于其未来的硬件实现。上述切比雪夫正交基神经网络仍然可以看成是一种 BP前向神经网络,并采用通常的误差回传学习算法迭代修正权值 w B=w0,w1,w2,wn-1T。显然,该切比雪夫正交基神经网络可应用于辨识实际问题中的函数关系 y=(x),其中 x为输入,y为输出。通常情况下,函数关系 (x)是未知的,而只能在某个区间 a,b A R上得到一系列数据点 xi及其对应的函数值 yi=(xi),即训练样本集 (xi,yi),i=1,2,m,可列表如表 1所示。表 1 未知函数关系 y=(x)的给定数据表输入/输出样本 1样本 2样本 3,样本(m-1)样本 m输入 xx1x2x3,xm-1xm输出 yy1y2y3,ym-1ym)158)下面给出该切比雪夫正交基神经网络模型逼近能力的理论分析基础。依据多项式插值和逼近理论8-9,总是可以构造一个多项式函数 U(x)来插值或逼近未知函数 y=(x)。并且,关于 U(x)对 (x)的逼近性,有如下定义和定理。定义 2 10(最佳平方逼近)假设 (x),Uj(x)IC a,b,j=0,1,n-1(即函数 (x)和函数系 Uj(x)n-1j=0中的每个 Uj(x)在区间 a,b 上都连续)。且 Uj(x)n-1j=0是区间 a,b 上的一个线性无关函数系,Q(x)为 a,b 上的一个权函数。确定广义多项式 U(x)=En-1j=0wjUj(x)的系数 w0,w1,wn-1,使Qba(x)-U(x)2Q(x)dx 最小。这样得到的函数U(x)被称为 (x)在 a,b 上关于权函数 Q(x)的最佳平方逼近(函数)或最小二乘逼近(函数)。值得特别指出的是,若Q(x)=1,通常说 U(x)是 (x)在 a,b 上的最佳平方逼近(函数)。定理 1 10(最佳逼近之存在与唯一性)设 (x)IC a,b,则定义 2中所述及的 (x)的最佳平方逼近函数 U(x)存在而且唯一,且其系数 w0,w1,wn-1可以通过求解而得。本文构造的切比雪夫正交基神经网络采用切比雪夫正交多项式函数 Uj(x)做为隐层神经元的激励函数,对未知函数(x)进行学习与逼近,因此有:y=U(x)=w0U0(x)+w1U1(x)+,+wn-1Un-1(x)(1)可见,图 1所示的切比雪夫正交基神经网络的输入输出关系也正是式(1)所描述的,其对未知函数 0应足够小(以保证迭代收敛性)。证明:由式(2)可以得到5E5wj=Emi=1Uj(xi)En-1p=0wpUp(xi)-yi依据标准 BP算法(负梯度法),wj(k+1)=wj(k)-G(5E/5wj)|w=w(k),j=0,1,n-1。将 5E/5wj的表达式代入上式即可得式(3),本定理因此得证。若将上述定理 2以矩阵和向量形式描述,则有如下定理3,即更简洁的权值迭代形式。定理 3(矩阵迭代法)图 1所示的切比雪夫正交基神经网络的权值迭代式(3)可以简化为如下矩阵向量迭代形式:w(k+1)=w(k)-GXT(Xw(k)-C)(4)其中输入整合矩阵X B=U0(x1)U1(x1),Un-1(x1)U0(x2)U1(x2),Un-1(x2)sswsU0(xm)U1(xm),Un-1(xm)IRm n输出向量 CB=y1y2symIRm,且 k代表迭代次数(k=0,1,2,),学习步长 G 0。证明:定义输入整合矩阵 X 和输出向量 C。由式(2)可得,5E5wj=Emi=1Uj(xi)En-1p=0wpUp(xi)-yi依据以上定义的矩阵、向量及 5E/5wj的表达式,可以将5E/5w 因此表示成如下的矩阵向量形式:5E5w=XT(Xw-C)基于上式,切比雪夫正交基神经网络的权值迭代式(3)的矩阵向量形式可写为:w(k+1)=w(k)-G(5E/5w)|w=w(k)=w(k)-GXT(Xw(k)-C)即式(4),定理 3因此得证。4 权值直接确定第 3节讨论了切比雪夫正交基神经网络基于标准 BP算法的权值迭代公式,其中定理 2和定理 3是等价的。定理 2是元素级的公式描述(或称为标量形式的运算与描述),而定理3是定理 2的矩阵向量形式描述。对于这种特别的神经网络结构,可以直接一步得到网络权值而避免冗长的网络训练及迭代过程。下面定理将展示如何做到这一点。定理 4(权值直接确定法)定义X和 C 等参量如同上述定理 3。图 1所示的切比雪夫正交基神经网络的最优权值li mky+w(k)可以直接给定为)159)X=(XTX)-1XTC(5)或写为 X=pinv(X)C,其中 pinv(X)表示输入整合矩阵X 的伪逆(此处等于(XTX)-1XT并可调用 MATLAB命令 pinv一步实现)。基于给出的最优权值公式(5),该切比雪夫正交基神经网络能够实现对输入输出关系 0,则当网络训练达到稳态后 k足够大时 w(k+1)=w(k),XT(XX-C)=0(6)因此,满足式(6)的 X即是该切比雪夫正交基神经网络的稳态最优权值 li mky+w(k),并且能够如定义 2和定理 1最小化误差函数 E。利用伪逆矩阵,解式(6)得 X=(XTX)-1XTC,可因此一步确定该切比雪夫正交基神经网络的最优权值向量 X。定理 4因此得证。5 仿真验证采用函数 y=(x+1)/(3x2+2x+1)+(1+x)2e-(1-x)2/2+sin(2x)对图 1所示的切比雪夫正交基神经网络进行仿真验证。并设网络的隐层神经元个数 n为 10。由于切比雪夫正交多项式的定义域为-1,1,因此在区间-1,0.99 内以0.01的间隔采样得到 200个样本点及其对应函数值以组成训练样本集 (xi,yi),i=1,2,m,m=200。以样本数据点 xi(i=1,2,200)作为仿真输入,而采用相应的样本数据值 yi作为目标输出。分别用式(3)所描述的元素迭代法、式(4)所描述的矩阵向量迭代法及权值直接确定法(5)对上述函数进行学习与逼近实验,结果如表 2、表 3和图 2所示。表2显示,在计算速度上,切比雪夫正交基神经网络采用权值直接确定法要远远优于迭代法(包括标量形式和矩阵形式);并可以达到至少相同的计算精度。神经网络使用迭代法(包括标量形式和矩阵形式)训练 1200次后的总误差 E为 4.12 10-3,而权值直接确定法一步得到的误差也同样为 4.13 10-3。表 2 元素迭代法(3)、矩阵向量迭代法(4)与权值直接确定法(5)的对比方法迭代次数运行时间(10次平均)总误差 E均差 E/m较验均差元素迭代法1200次14.57秒4.13 10-32.07 10-52.14 10-5矩阵迭代法1200次10.94秒4.13 10-32.07 10-52.14 10-5权值直接确定一步计算0.0036秒4.13 10-32.07 10-52.14 10-5表 3 元素迭代法(3)、矩阵向量迭代法(4)训练网络结束后及基于权值直接确定法(5)所得到的网络权值方法w0w1w2w3w4w5w6w7w8w9元素迭代法1.833.250.28-0.120.06-0.09-0.020.04-0.01-0.01矩阵迭代法1.833.250.28-0.120.06-0.09-0.020.04-0.01-0.01权值直接确定1.833.250.28-0.120.06-0.09-0.020.04-0.01-0.01注:从表 3可以看出,三种方法所得到的网络权值是基本相同的(典型情况是从小数点后第九位开始不同)。也再次验证了前面的理论分析(如定义 2和定理 1):表中的权值所确定的式(1)是对未知函数关系 y=(x)的唯一最佳平方逼近(n=10时)。图 2 基于三种方法的网络逼近效果图 2中,蓝色实线代表正确的目标输出,绿色虚线代表神经网络的实际输出。图 2之左、中和右三个子图分别对应基于三种方法(元素迭代法、矩阵迭代法和权值直接确定法)所得的网络逼近效果。通过观察可以得出,无论是基于迭代法还是基于伪逆的权值直接确定法,训练结束后所得到的网络输出与目标输出基本上都是重合的,因此该切比雪夫正交)160)基神经网络模型有很好的函数逼近性能。另外还可以观察到,由于式(3)所描述的元素迭代法和式(4)所描述的矩阵迭代法是等价的(除非学习步长 G不同),因此仿真得到的误差与权值是相同的。利用两种迭代法训练网络的时间分别为 14.57秒和 10.94秒,而权值直接确定法由于是一步计算,仅需要 0.0036秒,速度是迭代法的数千倍快。因此,在收敛速度上,权值直接确定法明显优于迭代法。网络训练完毕后我们采用一组未经训练的校验样本对该神经网络进行测试。如同表 2的最后一列所显示的,采用迭代法和权值直接确定法得到的网络校验误差均为 2.14 10-5,可见该切比雪夫正交基神经网络具有良好的泛化能力。6 结论标准 BP神经网络存在着诸如收敛速度慢和易陷入局部极小点等缺点,人们在对 BP网络进行改进时大多是着眼于网络的学习算法,而网络结构和激励函数的优化同样可以提高神经网络的学习性能。本文利用多项式插值和逼近的思想,构造了一种切比雪夫正交基神经网络模型,给出了该网络模型基于最速下降法和误差反传思想的迭代公式(包括标量和矩阵两种形式),同时针对该特别网络结构提出了一种基于伪逆的权值直接确定方法。仿真结果表明该神经网络模型不仅具有良好的逼近特性,而且基于伪逆的权值直接确定法能够一步计算出正确的稳态最优权值,从而避免了冗长的权值迭代训练过程,明显加快了网络的学习速度。此外,该神经网络结构简单,相对于一般的 BP网络而言更易于硬件实现。参考文献:1 张雨浓,徐小文,毛宗源.Java语言与人工神经网络应用 J.暨南大学学报(自然科学版).1998,19(1):108-112.2 Y N Zhang,JW ang.Recurrent neural net works fornonlinear output regulation J.Automatica,2001,37(8):1161-1173.3 Y N Zhang,S SGe,T H LEE.A unified quadratic-programming-based dynam ical system approach to joint torque opti mization ofphysically constra ined redundantmanipulators J.I EEE Transac-tions on Systems,M an,and Cybernetics,2004,34(5):2126-2132.4 Y N Zhang,D C Jiang,JW ang.A recurrent neural network forso lving Sylvester equation w ith ti me-varying coefficients J.I EEE T ransactions on Neural Networks,2002,13(5):1053-1063.5 Y N Zhang,S S Ge.D esign and analysis of a genera l recurrentneural net workmodel for ti me-varying matrix inversion J.I EEET ransactions onN euralNet works,2005,16(6):1477-1490.6 蒲春,孙政顺,赵世敏.Matlab神经网络工具箱 BP 算法比较 J.计算机仿真,2006,23(5):142-144.7 高雪鹏,丛爽.BP网络改进算法的性能对比研究 J.控制与决策.2001,16(2):167-171.8 J H Mathews,K D F ink.Nu mericalM ethods Using MATLABM.Beijing:Pearson Education Inc.,2004.9 莫国端,刘开第.函数逼近论方法 M.北京:科学出版社,2003.10 林成森.数值分析 M.北京:科学出版社,2007.作者简介张雨浓(1973.10-),男(汉族),河南信阳人,博士,教授,博士生导师,研究方向为神经网络、机器人和高斯过程;李巍(1987.1-),男(汉族),山东章丘人,硕士研究生,研究方向为神经网络;蔡炳煌(1981.9-),男(汉族),广东澄海人,博士研究生,研究方向为机器人、神经网络;李克讷(1978.12-),男(汉族),广西贵港人,硕士生,研究方向为机器人、神经网络。(上接第 156页)动、静态性能都要优于常规 PI D控制。5 总结本文将模糊推理应用于其 PID参数整定中,使得该控制器集模糊控制器和 PID控制器的优点于一身,既将专家经验有效地应用到实时 PID参数调节中,又保持了传统 PID控制器结构简单的优点。仿真结果表明采用 FUZZY-PID控制策略的直流调速系统具有较好的跟随性,且超调量明显较小,稳态精度高,全面改善了直流调速系统的动、静态特性,故在直流双闭环调速系统中具有良好的应用前景。参考文献:1 郭军平,等.基于模糊 PI D的随动系统优化设计与仿真 J.计算机仿真,2005-11.157-160.2 焦斌,等.神经元控制器在直流调速系统中的仿真研究 J.计算机仿真,2004-8.118-120.3 王萍,等.一种基于模糊控制的降压变换器 J.电力电子技术,2006-4.68-69.4 李威震,于敬玲.基于 MATLAB的双闭环可逆直流调速系统的仿真研究 J.计算机仿真,2004-11.42-44.5 黄丽,沙立民.基于 MATLAB/SI MUL I NK的直流双闭环调速系统的两种负载力矩观测器观测结果的对比 J.电气传动自动化,2006-6.29-33.作者简介章丽红(1974-),女(汉族),安徽桐城人,硕士,主要研究方向为电力电子及电力传动;臧小惠(1980-),男(汉族),江苏常州人,硕士,主要研究方向为机电一体化技术。)161)

展开阅读全文