第4章主成份分析【可编辑的PPT文档】.ppt

资源描述

第四章第四章主成分分析与主成分回归主成分分析与主成分回归一、主成分的提出一、主成分的提出先看一个数据阵先看一个数据阵1.m维空间中的维空间中的n个点，简称个点，简称n个个m维点维点:2.n维空间中的维空间中的m个点，简称个点，简称m个个n维点维点:数据列子数据列子1.行向量代表某个基因在行向量代表某个基因在m个条件下的表达水平个条件下的表达水平2.列向量代表某一条件下各基因的表达水平列向量代表某一条件下各基因的表达水平1.29 -0.4933 -0.2233 -0.1923-0.9443-0.7523 1.1331.154 -0.2813 0.03168 0.1637-1.007-1.195 1.051.051 -1.257 -0.3692 -0.3342-0.3602-0.6522 0.32880.4052 -0.7338 -0.4338 0.2122-1.22-0.8188 0.76721.085 -0.5226 -0.5046 -0.2726-1.937-1.026 1.2411.208 -0.9575 -0.7145 -0.8485-1.448-1.663 1.6920.07261 -1.14 0.2426 -0.08839-0.8304-1.087 0.80860.6307 -0.7703 0.07768 -0.07532-1.336-1.335 0.71670.5261 -1.41 -0.09491 -0.2559-1.131-1.061 1.2370.5615 -1.45 -0.2535 -0.7475-0.1795-1.125 1.285 对于高维空间如对于高维空间如100维中的点，我们很难直观维中的点，我们很难直观地分析各个数据点之间的关系。地分析各个数据点之间的关系。但如果这些点之间存在较强的相关性，则往但如果这些点之间存在较强的相关性，则往往可在较低维的空间中将它们之间的关系表达出往可在较低维的空间中将它们之间的关系表达出来。来。如何将高维空间中的点转化到较低维空间中的点，如何将高维空间中的点转化到较低维空间中的点，这就是数据分析中的降维技术，而主成分析就是有效这就是数据分析中的降维技术，而主成分析就是有效的降维技术之一的降维技术之一假设上面假设上面1000个百维点有明显的结构关系，它个百维点有明显的结构关系，它们基本上处在们基本上处在10维子空间中，则所谓的降维技术就维子空间中，则所谓的降维技术就是找出是找出10维空间的维空间的1000个点，它与原始的个点，它与原始的1000个个点最接近。点最接近。主成分分析的适用范围主成分分析的适用范围适用于主成分分析适用于主成分分析不适用于主成分分析不适用于主成分分析已知这些已知这些“”点，如何将这条绿色的线点，如何将这条绿色的线“”找出来找出来OABCD与与分别代表点分别代表点与与到到的距离的距离对对中的中的m个点，个点，我们有：我们有：降维技术就是要找出降维技术就是要找出，使得：，使得：最小最小根据欧氏空间的商高定理根据欧氏空间的商高定理(勾股定理），我们有：勾股定理），我们有：OAB它等价于：它等价于：最小最小固定固定最大最大根据二次型极值有关定理，使根据二次型极值有关定理，使最大的最大的就是矩阵就是矩阵最大特征值最大特征值对应的特征向量对应的特征向量以上是将以上是将m个个n维点投影到一维空间时的最近空间维点投影到一维空间时的最近空间当要投影到两维空间时，根据高等代数学有关知识，当要投影到两维空间时，根据高等代数学有关知识，我们有：我们有：其中的一维是特征值最大所对应的特征向量其中的一维是特征值最大所对应的特征向量另一维则是其次大特征值对应的特征向量另一维则是其次大特征值对应的特征向量对于任意对于任意qn,在所有的在所有的q维子空间中，以维子空间中，以前前q个特个特征向量所张成的子空间，使得征向量所张成的子空间，使得与它们在与它们在这个子空间的投影有最小平方误差。这个子空间的投影有最小平方误差。于是我们有如下基本概念：于是我们有如下基本概念：1.称称为为在在中第中第个主轴向量个主轴向量2.称称为为的主坐标的主坐标3.称称个样本的第个样本的第个主坐标形成的向量个主坐标形成的向量为为个变量个变量的第的第个主成分，个主成分，4.对一个样本对一个样本，称值，称值为这个样本关于第为这个样本关于第个主成个主成分的得分，或者说第分的得分，或者说第个主成分在这个样本上的得分个主成分在这个样本上的得分接下来我们结合图形对上述概念作出一一解释接下来我们结合图形对上述概念作出一一解释(第第1个主轴向量）个主轴向量）(第第2个主轴向量）个主轴向量）主坐标主坐标1.称称为为在在中第中第个主轴向量个主轴向量2.称称为为的主坐标的主坐标构成第一个主成分构成第一个主成分即即同样的我们有第同样的我们有第2个，个，3个等主成分：个等主成分：综合起来写就有：综合起来写就有：第一个样本在第一条主轴上的得分第一个样本在第一条主轴上的得分第二个样本在第一条主轴上的得分第二个样本在第一条主轴上的得分我们称：我们称：为主成分变换为主成分变换称：称：为恢复数据为恢复数据二、二、主成分的性质及计算步骤主成分的性质及计算步骤1.各主成分相互正交：各主成分相互正交：相互正交相互正交而且它们长度的平方即是对应的特征值而且它们长度的平方即是对应的特征值(一）主成分的主要性质一）主成分的主要性质是是的特征向量的特征向量2.用前用前p个主成分恢复原始数据阵得到的误差平方和为：个主成分恢复原始数据阵得到的误差平方和为：3.相对误差平方和：相对误差平方和：(二）主成分算法步骤二）主成分算法步骤1.将原始数据阵中心化或标准化将原始数据阵中心化或标准化2.计算矩阵：计算矩阵：3.求出矩阵求出矩阵G的的全部特征值全部特征值与与特征向量特征向量4.计算计算的主成分的主成分5.对给定主成分贡献的比例对给定主成分贡献的比例q0，判断实际可取的主成分数，判断实际可取的主成分数6.应用前应用前p个主成分恢复原始数据个主成分恢复原始数据计算实例计算实例原始数据原始数据 -0.4954 0.0735 -0.3178 0.2052-0.4954 0.0735 -0.3178 0.2052 -0.3853 -0.0004 -0.0493 0.0524 -0.3853 -0.0004 -0.0493 0.0524 -0.2752 -0.2203 -0.0047 0.0952 -0.2752 -0.2203 -0.0047 0.0952 -0.1651 0.2935 0.7119 0.1797 -0.1651 0.2935 0.7119 0.1797 -0.0550 -0.2203 -0.1390 0.2225 -0.0550 -0.2203 -0.1390 0.2225 0.0550 0.7333 0.3090 0.0102 0.0550 0.7333 0.3090 0.0102 0.1651 0.0735 -0.0938 0.0952 0.1651 0.0735 -0.0938 0.0952 0.2752 -0.0004 -0.4075 0.0524 0.2752 -0.0004 -0.4075 0.0524 0.3853 -0.3663 -0.2281 0.0102 0.3853 -0.3663 -0.2281 0.0102 0.4954 -0.3663 0.2193 -0.9232 0.4954 -0.3663 0.2193 -0.92321.标准化后的数据：标准化后的数据：2.2.计算矩阵计算矩阵G G 1.0000 -0.2822 -0.0221 -0.61271.0000 -0.2822 -0.0221 -0.6127 -0.2822 1.0000 0.4402 0.3467 -0.2822 1.0000 0.4402 0.3467 -0.0221 0.4402 1.0000 -0.2032 -0.0221 0.4402 1.0000 -0.2032 -0.6127 0.3467 -0.2032 1.0000 -0.6127 0.3467 -0.2032 1.00003.3.计算矩阵计算矩阵G G的全部特征值与特征向量的全部特征值与特征向量全部特征值：全部特征值：全部特征向量：全部特征向量：4 计算计算的主成分：的主成分：0.4158 -0.3911 -0.1035 -0.23950.4158 -0.3911 -0.1035 -0.2395 0.2561 -0.1374 -0.2210 -0.1427 0.2561 -0.1374 -0.2210 -0.1427 0.1098 -0.1971 -0.2835 0.0455 0.1098 -0.1971 -0.2835 0.0455 0.4521 0.5945 -0.1788 0.2504 0.4521 0.5945 -0.1788 0.2504 0.0363 -0.3023 -0.0520 0.1579 0.0363 -0.3023 -0.0520 0.1579 0.3877 0.5897 0.3415 -0.1473 0.3877 0.5897 0.3415 -0.1473 -0.0169 -0.0394 0.2136 0.0555 -0.0169 -0.0394 0.2136 0.0555 -0.1884 -0.2810 0.3586 -0.0395 -0.1884 -0.2810 0.3586 -0.0395 -0.4422 -0.2722 0.1350 0.2166 -0.4422 -0.2722 0.1350 0.2166 -1.0104 0.4364 -0.2098 -0.1570 -1.0104 0.4364 -0.2098 -0.1570第第1个主成分个主成分第第2个主成分个主成分第第3个主成分个主成分第第4个主成分个主成分5.判断主成分数：判断主成分数：主轴主轴1主轴主轴2原始数据在第原始数据在第1主成分与第主成分与第2主成分中的投影（阈值：主成分中的投影（阈值：）477个基因分成个基因分成7个模式个模式三、补充变量与补充个体三、补充变量与补充个体原始数据原始数据添加变量添加变量添加样本添加样本（添加（添加样本）样本）(添加添加个新变量）个新变量）对补充变量，对补充变量，先进行标准化先进行标准化：相应的主成分为：相应的主成分为：对新的样本，其标准化为：对新的样本，其标准化为：相应的主成分为：相应的主成分为：三、主成分回归法三、主成分回归法（一）解方程与方程组的误差传递与扩大问题（一）解方程与方程组的误差传递与扩大问题1、解方程的误差传递与扩大：、解方程的误差传递与扩大：误差误差X解的最终误差解的最终误差误差传递误差传递如果如果:则有：则有：显然误差被扩大显然误差被扩大例：例：这就是解方程时测量误差会被传递且放大这就是解方程时测量误差会被传递且放大对方程组：对方程组：方程组解的误差为：方程组解的误差为：条件数条件数在数学中称之为范数，对向量：在数学中称之为范数，对向量：列范数列范数谱范数谱范数行范数行范数对矩阵对矩阵，有：，有：是矩阵是矩阵的最大特征值的最大特征值对我们前面多元线性回方程的超定方程组：对我们前面多元线性回方程的超定方程组：如果我们选择前如果我们选择前p个主成分，则有个主成分，则有于是，我们有：于是，我们有：这就是主成分回归这就是主成分回归减少主成分，则会减少条件数，但会减少主成分，则会减少条件数，但会增加测量误差，因此这时选取主成分数需增加测量误差，因此这时选取主成分数需得在二者之间找出一个最优化值得在二者之间找出一个最优化值多元线性回归的例子，不同主成分数的计算结果比较多元线性回归的例子，不同主成分数的计算结果比较

展开阅读全文