RBF神经网络剖析.pptx_咨信网zixin.com.cn

资源描述

1、RBF（径向基）神经网络Keynote:尤志强1、RBF函数是为了解决多变量插值问题2、RBF神经网络是为了解决非线性可分模式分类问题为什么要引入RBF神经网络？优点它具有唯一最佳逼近的特性，且无BP算法中存在的局部极小问题。RBF神经网络具有较强的输入和输出映射功能，并且理论证明在前向网络中RBF网络是完成映射功能的最优网络。网络连接权值与输出呈线性关系。分类能力好。学习过程收敛速度快。与BP神经网络的比较Poggio和Girosi已经证明：RBF网络是连续函数的最佳逼近，而BP网络不是。BP网络使用的Sigmoid函数具有全局特性，它在输入值的很大范围内每个节点都对输出值产生影响，并且激励

2、函数在输入值的很大范围内相互重叠，因而相互影响，因此BP网络训练过程很长。BP网络容易陷入局部极小的问题不可能从根本上避免BP网络隐层节点数目的确定依赖于经验和试凑，很难得到最优网络。RBF不仅有良好的泛化能力，而且对于每个输入值，只有很少几个节点具有非零激励值，因此只需很少部分节点及权值改变。学习速度可以比通常的BP算法提高上千倍,容易适应新数据RBF神经网络是怎样的？RBF神经网络概念1、1985年，Powell提出了多变量插值的径向基函数(RadicalBasisFunction，RBF)方法2、1988年，Moody和Darken提出了一种神经网络结构，即RBF神经网络3、RBF网络是

3、一种三层前向网络4、基于“Cover理论”5、用RBF作为隐单元的“基”构成隐含层空间，将输入矢量直接(即不需要通过权连接)映射到隐空间；当RBF的中心点确定后，映射关系也就确定；隐含层空间到输出空间的映射是线性的通过最小二乘估计来解给定的分类问题。Cover理论定义：假设空间不是稠密分布的，将复杂的模式分类问题非线性地投射到高维空间将比投射到低微空间更可能是线性可分的。x=0Cover理论在RBF网络中应用考虑一族曲面，每一个曲面都自然地将输入空间分成两个区域。用代表N个模式（向量）x1,x2,xN的集合，其中每一个模式都分属于两个类1和2中的一类。如果在这一族曲面中存在一个曲面能够将分别属

4、于1和2的这些点分成两部分，我们就称这些点事二分（二元划分）关于这族曲面是可分的。对于每一个模式x，定义一个由一组实值函数i(x)|i=1,2,.m1组成的向量，表示如下：假设模式x是m0维输入空间的一个向量，则向量考虑一族曲面，每一个曲面都自然地将输入空间分成两个区域。用代表N个模式（向量）x1,x2,xN的集合，其中每一个模式都分属于两个类1和2中的一类。如果在这一族曲面中存在一个曲面能够将分别属于1和2的这些点分成两部分，我们就称这些点事二分（二元划分）关于这族曲面是可分的。对于每一个模式x，定义一个由一组实值函数i(x)|i=1,2,.m1组成的向量，表示如下：假设模式x是m0维输入空

5、间的一个向量，则向量Cover理论在RBF网络中应用一个关于的二分1，2是可分的。那么存在一个m1维的向量w使得可以得到如下公式（Cover，1965）：那么所获得的超平面的逆像就是：总结：模式可分性的cover定理1、由2、高维数的隐藏空间，这里的高维数是相对于输入空间而言的。维数由赋给m1的值（即隐藏单元的个数）决定。3、理论证明（Nilsson，1965）证明：隐藏空间的维数m1越高，则二分概率越趋向于1注意：虽然说将一个复杂的模式分类问题非线性地投射到高维数空间将会比投射到低维数空间更可能线性可分。不过有时非线性映射就足够导致线性可分，而不必升高隐藏单元空间维数XOR问题XOR问题RB

6、F神经网络的插值问题RBF神经网络是基于RBF函数，RBF函数是解决多变量插值问题首先了解下什么是插值问题？首先了解下什么是插值问题？插值问题在工程技术上，给出一批离散的点，要求作出一条通过这些点的光滑曲线，以满足设计和加工的需要。反映在数学上，即已知函数在一些点的值，寻求它的分析表达式。ox0 x1x2xny0y1y2yixiynY(x)P(x)=?x0 x1x2xnxixny0y1y2yiynx0 x1x2xixny0y1y2yiynx0 x1x2xixnxny插值问题一一是在选定近似函数H(x)后，不要求它们通过已知样点不要求它们通过已知样点，只要求在某种意义下它在这些样点的总偏差最小

7、-曲线拟合法曲线拟合法。二二是给出函数f(x)的一些样点值，选定某些便于计算的函数，要求它们通过已知样点通过已知样点，由此确定函数H(x)为f(x)的近似值-插值法插值法;RBF神经网络结构这个网络,实现从输入空间到隐藏空间的一个非线性映射，随后从隐藏空间到输出空间是线性映射。RBF中的插值问题在RBF中是如何通过插值方法进行网路的训练呢？首先假设我们有N个m0维向量，那么我们就确定了输入层节点有m0个。相当于一个从m0维输入空间到一维输出空间的映射，可以写成如下形式：可以将映射S看成一个超曲面这样，该插值问题可以描述如下：给定一个包含N个不同点的集合和相应的N个实数的一个集合，寻找一个函数F

8、：满足下述插值条件：F(Xi)=di,i=1,2,.N径向基函数技术就是要选择一个函数F具有下列形式：RBF中的插值问题其中那么综合以上的公式，我们可以得到在径向基网络（输入参数有N个，隐藏层有N个节点，输出层有一个节点）中我们可以得到以下的线性方程：RBF中的插值问题向量d表示期望响应向量，w表示线性权值向量，N是训练样本的长度用表示左边那么该式就可以转换为：w=x这里的必须为非奇异矩阵，因此存在。这样就可以解出权值向量w，表示为：W=xRBF中的插值问题这里有个关键问题：怎么能保证插值矩阵是非奇异的？涉及到Micchelli定理（1986）：如果是中N个互不相同的点的集合，则NXN

9、阶的插值矩阵是非奇异的。在径向基函数网络中有重要地位的函数主要有三个，满足Micchelli定理针对这3个径向基函数，只要保证输入点Xi互不相同即可满足插值矩阵非奇异的全部要求。与所给样本的长度N和向量Xi的维数无关。理论部分结束！理论部分结束！径向基神经网络实际上是径向基神经网络实际上是如何工作的？如何工作的？径向基神经网络首先我们构造径向基网络：1、输入层，由m0个源节点组成，其中m0是输入向量X的维数。2、隐藏层，理论上一般是选择和训练样本大小N相同个数的计算单元组成（但实际上，如果使隐藏层具有和输入样本个数相同的大小可能导致计算资源的浪费，尤其是处理大规模训练样本时。由于训练样本中可

10、能存在固有冗余，所以隐藏层的大小是训练样本大小的一部分是一个比较好的实践，这里我们选择K），每个单元的径向基函数选择高斯函数来描述:这里向量Xk表示作用于输入层的信号模式，Xi表示第i个隐藏层节点的径向基函数中的中心。很显然它和多层感知器有着不同之处，源节点和隐藏单元的连接是直接连接，没有权值。3、输出层，对输出层的大小没有限制，一般情况下，输出层比隐藏层的大小要小得多。我们这里就选择一个输出节点。径向基神经网络这样我们就获得了这个RBF网络实现的逼近函数具有以下的数学形式：其中输入向量x的维数是m0（输入层的大小），每个隐藏单元由径向基函数。针对每一个径向基函数中的中心如何确定？以及K-me

11、ans均值聚类聚类是非监督学习的一种形式，它将一个观测集（即数据点）划分到自然组或者模式聚类。聚类的途径是测量分配给每个聚类的观测对之间的相似性以最小化一个指定的代价函数。之所以要选择K均值聚类，K-means对输入的信号x应用了非线性变换，因为其不相似测度是对于给定的聚类中心而言关于输入信号x的非线性函数。而且其完全满足隐藏层维数足够高的要求令表示一个用于划分到K个聚类的多维观测集。其中K小于观测数N。代价函数，迭代到代价函数最小化或者聚类分配上没有进一步的变化为止。在K-means算法中，欧几里得范数的平方用于定义在观测x和中心之间的相似性度量。K-means均值聚类1、从、从D中随机取中

12、随机取k个元素，作为个元素，作为k个簇的各自个簇的各自的中心。的中心。2、分别计算剩下的元素到、分别计算剩下的元素到k个簇中心的相异个簇中心的相异度，将这些元素分别划归到相异度最低的簇。度，将这些元素分别划归到相异度最低的簇。3、根据聚类结果，重新计算、根据聚类结果，重新计算k个簇各自的中个簇各自的中心，计算方法是取簇中所有元素各自维度的算心，计算方法是取簇中所有元素各自维度的算术平均数。术平均数。4、将、将D中全部元素按照新的中心重新聚类。中全部元素按照新的中心重新聚类。5、重复第、重复第4步，直到聚类结果不再变化。步，直到聚类结果不再变化。6、将结果输出。、将结果输出。这里的uj就是相应的

13、中心，而，这个公式可以保证各个高斯单元不是太尖峰也不是太平坦K-means均值聚类例子中国男足近几年到底在亚洲处于几流水平？中国男足近几年到底在亚洲处于几流水平？亚洲（不包括澳大利亚）15只球队在2005年-2010年间大型杯赛的战绩K-means均值聚类例子其中包括两次世界杯和一次亚洲杯。我提前对数据做了如下预处理：对于世界杯，进入决赛圈则取其最其中包括两次世界杯和一次亚洲杯。我提前对数据做了如下预处理：对于世界杯，进入决赛圈则取其最终排名，没有进入决赛圈的，打入预选赛十强赛赋予终排名，没有进入决赛圈的，打入预选赛十强赛赋予40，预选赛小组未出线的赋予，预选赛小组未出线的赋予50。对于亚洲杯

14、，。对于亚洲杯，前四名取其排名，八强赋予前四名取其排名，八强赋予5，十六强赋予，十六强赋予9，预选赛没出现的赋予，预选赛没出现的赋予17。这样做是为了使得所有数据变为。这样做是为了使得所有数据变为标量，便于后续聚类。标量，便于后续聚类。下面先对数据进行下面先对数据进行0,1规格化，下面是规格化后的数据：规格化，下面是规格化后的数据：接着用接着用k-means算法进行聚类。设算法进行聚类。设k=3，即将这，即将这15支球队分成三个集团。支球队分成三个集团。现抽取日本、巴林和泰国的值作为三个簇的种子，即初始化三个簇的中心为现抽取日本、巴林和泰国的值作为三个簇的种子，即初始化三个簇的中心为A：0.3

15、,0,0.19，B：0.7,0.76,0.5和和C：1,1,0.5。下面，计算所有球队分别对三个中心点的相异度，这里以欧。下面，计算所有球队分别对三个中心点的相异度，这里以欧氏距离度量。下面是我用程序求取的结果：氏距离度量。下面是我用程序求取的结果：K-means均值聚类例子从左到右依次表示各支球队到当前中心点的欧氏距离，将每支球队分到最近的簇，可对各支球队做如下聚类：中国C，日本A，韩国A，伊朗A，沙特A，伊拉克C，卡塔尔C，阿联酋C，乌兹别克斯坦B，泰国C，越南C，阿曼C，巴林B，朝鲜B，印尼C。第一次聚类结果：A：日本，韩国，伊朗，沙特；B：乌兹别克斯坦，巴林，朝鲜；C：中国，伊拉克，卡

16、塔尔，阿联酋，泰国，越南，阿曼，印尼。下面根据第一次聚类结果，调整各个簇的中心点。A簇的新中心点为：(0.3+0+0.24+0.3)/4=0.21,(0+0.15+0.76+0.76)/4=0.4175,(0.19+0.13+0.25+0.06)/4=0.1575=0.21,0.4175,0.1575用同样的方法计算得到B和C簇的新中心点分别为0.7,0.7333,0.4167，1,0.94,0.40625。用调整后的中心点再次进行聚类，得到：K-means均值聚类例子第二次迭代后的结果为：中国C，日本A，韩国A，伊朗A，沙特A，伊拉克C，卡塔尔C，阿联酋C，乌兹别克斯坦B，泰国C，越南C，阿

17、曼C，巴林B，朝鲜B，印尼C。结果无变化，说明结果已收敛，于是给出最终聚类结果：亚洲一流：日本，韩国，伊朗，沙特亚洲二流：乌兹别克斯坦，巴林，朝鲜亚洲三流：中国，伊拉克，卡塔尔，阿联酋，泰国，越南，阿曼，印尼中心确定了，我们现在需要进行确定权值向量。这里我们引入了法方程的概念。法方程：在最小二乘法为求解条件方程组和误差方程组所组成的对称正定方程组。权值向量的递归最小二乘估计1、隐藏单元输出的KXK相关函数，由下式定义：其中：2、RBF网络输出的期望响应和隐藏单元输出之间的KX1互相关向量，定义为：RLS算法-权值向量的递归最小二乘估计未知权值向量在最小二乘下最优化。也就是对权值向量求解上述法方

18、程。如果直接计算相关矩阵R(n)的逆矩阵，然后将求得的逆矩阵和互相关向量r(n)相乘，这就是最小二乘法所做的。但当隐藏层K非常大的时候，计算R(n)逆矩阵是非常困难的。所以这里引入了RLS（递归最小二乘）运用最小二乘法的递归执行来应对这一计算困难。首先我们将互相关向量变换格式：33RLS算法-权值向量的递归最小二乘估计现在我们可以将其简化成：然后将该式代入法方程得到：那么进一步转化：34RLS算法-权值向量的递归最小二乘估计现在我们已经得到了这个权值更新公式，那么接下去只要求得R(n)逆矩阵就可以了。上文中，我们这个公式涉及到了R(n):针对这样的形式，我们通过利用“矩阵逆引理”得到逆矩阵的。

19、首先看形如：根据矩阵逆引理，可以得到：关于这个的推导，提供一种思路：AA逆=E那么A的逆必然可以表示成一个形如：B+X的形式，然后用:（B+X）*A的表达式=E这里假设矩阵B是非奇异的，那么B逆是存在的。矩阵A和矩阵B具有相同的维数，矩阵D式另一个具有不同维数的非奇异矩阵，矩阵C具有合适维数的矩阵35RLS算法-权值向量的递归最小二乘估计针对这个问题，那么我们就可以将：类比得到R(n)的逆：这样就得到了R(n)逆的递归公式：那么权值向量的更新也就求出来了。36RBF神经网络的学习过程我们这里采用的RBF算法可以称为：“K均值，RLS”算法首先将K-means算法用于训练隐藏层，然后利用RLS算法训练输出层。1、输入层输入层的大小是由输入向量x的维数决定的，记为m02、隐藏层隐藏层大小m1是由计划的聚类数K决定的。K可以成为自由度。聚类中心由k-means算法计算得到，作为高斯函数的中心。3、输出层一旦隐藏层训练完成，就可以开始输出层的训练。使用RLS算法进行。训练结束，就可以使用。优点：计算高效性（得益于K-means和RLS算法的计算高效性）。37谢谢！

展开阅读全文