收藏 分销(赏)

第五章-主成分分析.ppt

上传人:w****g 文档编号:2092316 上传时间:2024-05-15 格式:PPT 页数:104 大小:3.26MB
下载 相关 举报
第五章-主成分分析.ppt_第1页
第1页 / 共104页
第五章-主成分分析.ppt_第2页
第2页 / 共104页
第五章-主成分分析.ppt_第3页
第3页 / 共104页
第五章-主成分分析.ppt_第4页
第4页 / 共104页
第五章-主成分分析.ppt_第5页
第5页 / 共104页
点击查看更多>>
资源描述

1、2024/5/13 周一1第五章第五章 主成分分析主成分分析 目录 上页 下页 返回 结束 5.1 5.1 主成分分析的基本思想与理论主成分分析的基本思想与理论5.2 5.2 总体主成分及其性质总体主成分及其性质5.3 5.3 样本主成分的导出样本主成分的导出5.4 5.4 有关问题的讨论有关问题的讨论5.5 5.5 主成分分析步骤及框图主成分分析步骤及框图5.6 5.6 主成分分析的上机实现主成分分析的上机实现1.2024/5/13 周一2 目录 上页 下页 返回 结束 主成分分析(Principal Components Analysis)也称主分量分析,是由霍特林(Hotelling)于

2、1933年首先提出的。主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,同时使问题得到简化,提高分析效率。2.2024/5/13 周一3 目录 上页 下页 返回 结束 5.1 5.1 主成分分析的基本思想与理论主成分分析的基本思想与理论5.1.1 5.1.1 主成分分析的基本思想主成分分析的基本思想5.1.2 5.1.2 主成分分析的基本理论主成分分析的基本理

3、论3.2024/5/13 周一4 目录 上页 下页 返回 结束 5.1.15.1.1 主成分分析的基本思想主成分分析的基本思想 考虑多个指标对某一问题进行分析的时候会产生如下问考虑多个指标对某一问题进行分析的时候会产生如下问题:题:为了避免遗漏重要的信息而考虑尽可能多的指标;为了避免遗漏重要的信息而考虑尽可能多的指标;增多增加了问题的复杂性,同时由于各指标均是对同一事增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。叠有时甚至会抹杀事物的真正特征与内

4、在规律。基于上述问题,人们就希望在定量研究中涉及的变量较基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如何少,而得到的信息量又较多。主成分分析正是研究如何通过通过原来变量的少数几个线性组合来解释原来变量绝大多数信息原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。的一种多元统计方法。4.2024/5/13 周一5 目录 上页 下页 返回 结束 既然研究某一问题涉及的众多变量之间有一定既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对

5、原始变量根据这一点,通过对原始变量相关矩阵或协方差矩相关矩阵或协方差矩阵内部结构阵内部结构关系的研究,利用原始变量的线性组合关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。在研究复杂问题时更容易抓住主要矛盾。5.2024/5/13 周一6 目录 上页 下页 返回 结束 3.主成分保留了原始变量绝大多数信息4.各主成分之间互不相关1.每一个主成分都是各原始变量的线性组合2.主成分的数目大大少于原始变量

6、的数目利用主成分分析得到的主成分与原始变量之利用主成分分析得到的主成分与原始变量之间有如下基本关系:间有如下基本关系:6.2024/5/13 周一7 目录 上页 下页 返回 结束 5.1.25.1.2 主成分分析的基本理论主成分分析的基本理论 设对某一事物的研究涉及个设对某一事物的研究涉及个 指标,分别用指标,分别用 表表示,这个示,这个 指标构成的指标构成的 维随机向量为维随机向量为 。设随。设随机向量机向量 的均值为的均值为 ,协方差矩阵为,协方差矩阵为 。对对 进行线性变换,可以形成新的综合变量,用进行线性变换,可以形成新的综合变量,用 表示,表示,也就是说,新的综合变量可以由原来的变量

7、线性表示,即满也就是说,新的综合变量可以由原来的变量线性表示,即满足下式:足下式:(5.1)(5.1)7.2024/5/13 周一8 目录 上页 下页 返回 结束 由于可以任意地对原始变量进行上述线性变换,由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量由不同的线性变换得到的综合变量 的统计特性也的统计特性也不尽相同。因此为了取得较好的效果,我们总是希不尽相同。因此为了取得较好的效果,我们总是希望望 的方差尽可能大且各的方差尽可能大且各 之间互相独立,由之间互相独立,由于于 =而对任给的常数而对任给的常数 ,有,有8.2024/5/13 周一9 目录 上页 下页 返回

8、结束 因此对因此对 不加限制时,可使不加限制时,可使 任意增大,问题将变得没任意增大,问题将变得没有意义。我们将线性变换约束在下面的原则之下:有意义。我们将线性变换约束在下面的原则之下:1,即:2 3 3.是是 的一切满足原则的一切满足原则1 1的线性组合中方差最的线性组合中方差最大者;大者;是与是与 不相关的不相关的 所有线性组合中方差最所有线性组合中方差最大者;大者;,是与是与 都不相关的都不相关的 的所有的所有线性组合中方差最大者。线性组合中方差最大者。9.2024/5/13 周一10 目录 上页 下页 返回 结束 基于以上三条原则决定的综合变量基于以上三条原则决定的综合变量 分别分别称

9、为原始称为原始变量的第一、第二、变量的第一、第二、第、第 个主成分个主成分。其中,各综合变量在总方差中占的比重依次递减,其中,各综合变量在总方差中占的比重依次递减,在实际研究工作中,通常只挑选前几个方差最大的在实际研究工作中,通常只挑选前几个方差最大的主成分,从而达到简化系统结构,抓住问题实质的主成分,从而达到简化系统结构,抓住问题实质的目的。目的。10.2024/5/13 周一11 目录 上页 下页 返回 结束 5.1.35.1.3 主成分分析的几何意义主成分分析的几何意义 由第一节的介绍我们知道,在处理涉及多个指标问题的时由第一节的介绍我们知道,在处理涉及多个指标问题的时候,为了提高分析的

10、效率,可以不直接对候,为了提高分析的效率,可以不直接对 个指标构成的个指标构成的 维维随机向量随机向量 进行分析,而是进行分析,而是先对向量先对向量 进行线进行线性变换,形成少数几个新的综合变量性变换,形成少数几个新的综合变量 ,使得各综合,使得各综合变量之间相互独立且能解释原始变量尽可能多的信息,这样,变量之间相互独立且能解释原始变量尽可能多的信息,这样,在以损失很少部分信息为代价的前提下,达到简化数据结构,在以损失很少部分信息为代价的前提下,达到简化数据结构,提高分析效率的目的。这一节,我们着重讨论主成分分析的几提高分析效率的目的。这一节,我们着重讨论主成分分析的几何意义,为了方便,我们仅

11、在二维空间中讨论主成分的几何意何意义,为了方便,我们仅在二维空间中讨论主成分的几何意义,所得结论可以很容易地扩展到多维的情况。义,所得结论可以很容易地扩展到多维的情况。11.2024/5/13 周一12 目录 上页 下页 返回 结束 设有设有 个样品,每个样品有两个观测变量个样品,每个样品有两个观测变量 ,这样,这样,在由变量在由变量 组成的坐标空间中,组成的坐标空间中,个样品点散布的情况如个样品点散布的情况如带状,见图带状,见图5-15-1。图图5-15-112.2024/5/13 周一13 目录 上页 下页 返回 结束 由图可以看出这由图可以看出这 个样品无论沿个样品无论沿 轴方向还是沿轴

12、方向还是沿 轴方向均轴方向均有较大的离散性有较大的离散性,其离散程度可以分别用观测变量,其离散程度可以分别用观测变量 的方差和的方差和 的方差定量地表示,显然,若只考虑的方差定量地表示,显然,若只考虑 和和 中的任何一个,原始中的任何一个,原始数据中的信息均会有较大的损失。我们的目的是考虑数据中的信息均会有较大的损失。我们的目的是考虑 和和 的线的线性组合,使得原始样品数据可以由新的变量性组合,使得原始样品数据可以由新的变量 和和 来刻画。来刻画。在在几何上表示就是将坐标轴按逆时针方向旋转几何上表示就是将坐标轴按逆时针方向旋转 角度,得到新坐标角度,得到新坐标轴轴 和和 ,坐标旋转公式如下:,

13、坐标旋转公式如下:13.2024/5/13 周一14 目录 上页 下页 返回 结束 其矩阵形式为:其矩阵形式为:其中,其中,为旋转变换矩阵,由上式可知它是正交阵,为旋转变换矩阵,由上式可知它是正交阵,即满足即满足 14.2024/5/13 周一15 目录 上页 下页 返回 结束 经过这样的旋转之后,经过这样的旋转之后,个样品点在个样品点在 轴上的离散程度最轴上的离散程度最大,大,变量变量 代表了原始数据绝大部分信息代表了原始数据绝大部分信息,这样,有时在研,这样,有时在研究实际问题时,即使不考虑变量究实际问题时,即使不考虑变量 也无损大局。因此,经过也无损大局。因此,经过上述旋转变换就可以把原

14、始数据的信息集中到上述旋转变换就可以把原始数据的信息集中到 轴上,对数轴上,对数据中包含的信息起到了浓缩的作用。进行主成分分析的目的据中包含的信息起到了浓缩的作用。进行主成分分析的目的就是找出转换矩阵就是找出转换矩阵 ,而进行主成分分析的作用与几何意义,而进行主成分分析的作用与几何意义也就很明了了。下面我们用遵从正态分布的变量进行分析,也就很明了了。下面我们用遵从正态分布的变量进行分析,以使主成分分析的几何意义更为明显。为方便,我们以二元以使主成分分析的几何意义更为明显。为方便,我们以二元正态分布为例。对于多元正态总体的情况,有类似的结论。正态分布为例。对于多元正态总体的情况,有类似的结论。1

15、5.2024/5/13 周一16 目录 上页 下页 返回 结束 设变量设变量 遵从二元正态分布,分布密度为遵从二元正态分布,分布密度为:令令 为变量为变量 的协方差矩阵,其形式如下:的协方差矩阵,其形式如下:令 则上述二元正态分布的密度函数有如下矩阵形式则上述二元正态分布的密度函数有如下矩阵形式:16.2024/5/13 周一17 目录 上页 下页 返回 结束 考虑考虑 (为常数),为方便,不妨设为常数),为方便,不妨设又令又令 为为 的特征值,的特征值,为相应的标准正交特为相应的标准正交特征向量征向量.则则 为正交阵,为正交阵,有:有:17.2024/5/13 周一18 目录 上页 下页 返

16、回 结束 因此有:因此有:椭圆方程,主轴方向确定了主成分的坐标方向主成分分析的几何意义:主成分分析的几何意义:主成分分析的过程无非就是坐标系旋主成分分析的过程无非就是坐标系旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,在新坐标系中,各坐标轴的方向就是原始数据变差最大的系,在新坐标系中,各坐标轴的方向就是原始数据变差最大的方向。方向。18.2024/5/13 周一19 目录 上页 下页 返回 结束 5.25.2 总体主成分及其性质总体主成分及其性质 由上面的讨论可知,求解主成分的过程就是求由上面的讨论可知,求解主成分的过程就是求

17、满足三条原则的原始变量满足三条原则的原始变量 的线性组合的线性组合的过程。本节先从总体出发,介绍求解主成分的的过程。本节先从总体出发,介绍求解主成分的一般方法及主成分的性质,然后介绍样本主成分一般方法及主成分的性质,然后介绍样本主成分的导出。的导出。19.2024/5/13 周一20 目录 上页 下页 返回 结束 主成分分析的基本思想就是主成分分析的基本思想就是在保留原始变量尽可能多的信息在保留原始变量尽可能多的信息的前提下达到降维的目的的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的,从而简化问题的复杂性并抓住问题的主要矛盾。而这里对于随机变量主要矛盾。而这里对于随机变量 而言,而言

18、,其协方差矩阵或相关矩阵正是对各变量离散程度与变量之间其协方差矩阵或相关矩阵正是对各变量离散程度与变量之间的相关程度的信息的反应的相关程度的信息的反应,而相关矩阵不过是将原始变量标准化,而相关矩阵不过是将原始变量标准化后的协方差矩阵。后的协方差矩阵。我们所说的保留原始变量尽可能多的信息,也就是指的生成我们所说的保留原始变量尽可能多的信息,也就是指的生成的较少的综合变量的较少的综合变量(主成分)的方差和尽可能接近原始变量方差(主成分)的方差和尽可能接近原始变量方差的总和的总和。在实际求解主成分的时候,总是从原始变量的在实际求解主成分的时候,总是从原始变量的协方差矩阵或协方差矩阵或相关矩阵相关矩阵

19、的结构分析入手。一般地说,从原始变量的协方差矩阵的结构分析入手。一般地说,从原始变量的协方差矩阵出发求得的主成分与从原始变量的相关矩阵出发求得的主成分是出发求得的主成分与从原始变量的相关矩阵出发求得的主成分是不同的。不同的。20.2024/5/13 周一21 目录 上页 下页 返回 结束 证明:由引论知,对于任意常向量证明:由引论知,对于任意常向量 ,有:,有:又又 为标准正交特征向量,于是:为标准正交特征向量,于是:证明:由引论知,对于任意常向量证明:由引论知,对于任意常向量 ,有:,有:又又 为标准正交特征向量,于是:为标准正交特征向量,于是:此时:(5.3)结论:结论:设随机向量设随机向

20、量 的协方差矩阵为的协方差矩阵为 ,为为 的特征值,的特征值,为矩阵为矩阵 各特征值对应各特征值对应的标准正交特征向量,则第的标准正交特征向量,则第 i个主成分为:个主成分为:结论:结论:设随机向量设随机向量 的协方差矩阵为的协方差矩阵为 ,为为 的特征值,的特征值,为矩阵为矩阵 各特征值对应各特征值对应的标准正交特征向量,则第的标准正交特征向量,则第 i个主成分为:个主成分为:5.2.15.2.1 总体主成分总体主成分(一一)从协方差矩阵出发求解主成分从协方差矩阵出发求解主成分21.2024/5/13 周一22 目录 上页 下页 返回 结束 由以上结论,我们把由以上结论,我们把 的协方差矩阵

21、的协方差矩阵 的非零特的非零特征值征值 对应的标准化特征向量对应的标准化特征向量 分别分别作为系数向量,作为系数向量,分别称为随机向分别称为随机向量量 的第一主成分、第二主成分、的第一主成分、第二主成分、第、第 主成分。主成分。的分量的分量 依次是依次是 的第一主成分、第二主成分、的第一主成分、第二主成分、第、第 主成主成分的充分必要条件是:分的充分必要条件是:(1 1),即,即 为为 阶正交阵;阶正交阵;(2 2)的分量之间互不相关;的分量之间互不相关;(3 3)的的 个分量是按方差由大到小排列。个分量是按方差由大到小排列。22.2024/5/13 周一23 目录 上页 下页 返回 结束 于

22、是随机向量于是随机向量 与随机向量与随机向量 之间存在下面的关系式:之间存在下面的关系式:(5.4)注:无论注:无论 的各特征根是否存在相等的情况,对应的标准化的各特征根是否存在相等的情况,对应的标准化特征向量特征向量 总是存在的,我们总可以找到对应各特总是存在的,我们总可以找到对应各特征根的彼此正交的特征向量。这样,征根的彼此正交的特征向量。这样,求主成分的问题就变成了求主成分的问题就变成了求特征根与特征向量的问题。求特征根与特征向量的问题。23.2024/5/13 周一24 目录 上页 下页 返回 结束 5.2.2 主成分的性质主成分的性质 性质性质1 1 的协方差阵为对角阵的协方差阵为对

23、角阵 。性质性质2 2 记记 ,有,有 证明:证明:记记 则有则有 于是于是24.2024/5/13 周一25 目录 上页 下页 返回 结束 定义定义 5.15.1 称称 为第为第 个主成分个主成分 的方的方差贡献率,称差贡献率,称 为主成分为主成分 的的累积贡献率累积贡献率。由此进一步可知,由此进一步可知,主成分分析是把个主成分分析是把个 随机变量的总方差随机变量的总方差 分分解为解为 个不相关的随机变量的方差之和,使第一主成分的方差达个不相关的随机变量的方差之和,使第一主成分的方差达到最大到最大,第一主成分是以变化最大的方向向量各分量为系数的原,第一主成分是以变化最大的方向向量各分量为系数

24、的原始变量的线性函数,最大方差为始变量的线性函数,最大方差为 。表明了表明了 的方差在全的方差在全部方差中的比值,称部方差中的比值,称 为第一主成分的贡献率。这个值越大,表为第一主成分的贡献率。这个值越大,表明明 这个新变量综合这个新变量综合 信息的能力越强,也即由信息的能力越强,也即由 的差异来解释随机向量的差异来解释随机向量 的差异的能力越强。的差异的能力越强。25.2024/5/13 周一26 目录 上页 下页 返回 结束 正因如此,才把正因如此,才把 称为称为 的主成分。进而我们就更清楚为的主成分。进而我们就更清楚为什么主成分的名次是按特征根什么主成分的名次是按特征根 取值的大小排序的

25、。取值的大小排序的。进行主成分分析的目的之一是为了减少变量的个数,所以一进行主成分分析的目的之一是为了减少变量的个数,所以一般不会取般不会取 个主成分,而是取个主成分,而是取 个主成分,个主成分,取多少比较合取多少比较合适,这是一个很实际的问题,适,这是一个很实际的问题,通常以所取通常以所取 使得累积贡献率达使得累积贡献率达到到8585以上为宜以上为宜,即,即(5.5)(5.5)这样,既能使损失信息不太多,又达到减少变量,简化问题这样,既能使损失信息不太多,又达到减少变量,简化问题的目的。另外,选取主成分还可根据特征值的变化来确定。图的目的。另外,选取主成分还可根据特征值的变化来确定。图5-2

26、5-2为为SPSSSPSS统计软件生成的碎石图。统计软件生成的碎石图。26.2024/5/13 周一27 目录 上页 下页 返回 结束 图图5-25-2 由由图图5-25-2可知,第二个及第三个特征值变化的趋势已经开始趋于平稳,所可知,第二个及第三个特征值变化的趋势已经开始趋于平稳,所以,取前两个或是前三个主成分是比较合适的。这种方法确定的主成分个数以,取前两个或是前三个主成分是比较合适的。这种方法确定的主成分个数与按累积贡献率确定的主成分个数往往是一致的。在实际应用中有些研究工与按累积贡献率确定的主成分个数往往是一致的。在实际应用中有些研究工作者习惯于保留特征值大于作者习惯于保留特征值大于1

27、 1的那些主成分,但这种方法缺乏完善的理论支持。的那些主成分,但这种方法缺乏完善的理论支持。在大多数情况下,当在大多数情况下,当m=3m=3时即可使所选主成分保持信息总量的比重达到时即可使所选主成分保持信息总量的比重达到8585以以上。上。27.2024/5/13 周一28 目录 上页 下页 返回 结束 定义定义5.25.2 第第 个主成分个主成分 与原始变量与原始变量 的相关系数的相关系数 称做因称做因子负荷量。子负荷量。因子负荷量是主成分解释中非常重要的解释依据,因子负荷因子负荷量是主成分解释中非常重要的解释依据,因子负荷量的绝对值大小刻画了该主成分的主要意义及其成因。在下一章量的绝对值大

28、小刻画了该主成分的主要意义及其成因。在下一章因子分析中还将要对因子负荷量的统计意义给出更详细的解释。因子分析中还将要对因子负荷量的统计意义给出更详细的解释。由下面的性质我们可以看到因子负荷量与系数向量成正比。由下面的性质我们可以看到因子负荷量与系数向量成正比。性质性质3 3 (5.6)由性质由性质3 3知因子负荷量知因子负荷量 与向量系数与向量系数 成正比,与成正比,与 的的标准差成反比关系,因此,绝不能将因子负荷量与向量系数混标准差成反比关系,因此,绝不能将因子负荷量与向量系数混为一谈。为一谈。在解释主成分的成因或是第在解释主成分的成因或是第 个变量对第个变量对第 个主成分的个主成分的重要性

29、时,应当根据因子负荷量而不能仅仅根据重要性时,应当根据因子负荷量而不能仅仅根据 与与 的变换的变换系数系数 。28.2024/5/13 周一29 目录 上页 下页 返回 结束 性质性质4 4 (5.7)证明:由性质证明:由性质3有(5.8)性质性质5 5 证明:因为证明:因为 向量是随机向量向量是随机向量 的线性组合,因此的线性组合,因此 也可以精也可以精确表示成确表示成 的线性组合。由回归分析知识知,的线性组合。由回归分析知识知,与与 的全相关系数的平方和等于的全相关系数的平方和等于1 1,而因为,而因为 之间之间互不相关,所以互不相关,所以 与与 的全相关系数的平方和也就是的全相关系数的平

30、方和也就是 ,因此,性质,因此,性质5 5成立。成立。29.2024/5/13 周一30 目录 上页 下页 返回 结束 定义定义5.35.3 与前与前 个主成分个主成分 的全相关系数平方和称的全相关系数平方和称为为 对原始变量对原始变量 的方差贡献率的方差贡献率 ,即,即 (5.9)这一定义说明了前这一定义说明了前 个主成分提取了原始变量个主成分提取了原始变量 中中 的信息,的信息,由此我们可以判断我们提取的主成分说明原始的能力。由此我们可以判断我们提取的主成分说明原始的能力。30.2024/5/13 周一31 目录 上页 下页 返回 结束 5.2.3 从相关阵出发求解主成分从相关阵出发求解主

31、成分 考虑如下的数学变换:考虑如下的数学变换:令:令:其中,其中,与与 分别表示变量分别表示变量 的期望与方差。于是有的期望与方差。于是有令:令:于是,对原始变量于是,对原始变量 进行标准化:进行标准化:31.2024/5/13 周一32 目录 上页 下页 返回 结束 经过上述标准化后,显然有经过上述标准化后,显然有 由于上面的变换过程,原始变量由于上面的变换过程,原始变量 的相关阵实际上的相关阵实际上就是对原始变量标准化后的协方差矩阵,因此,由相关矩阵求就是对原始变量标准化后的协方差矩阵,因此,由相关矩阵求主成分的过程与主成分个数的确定准则实际上是与由协方差矩主成分的过程与主成分个数的确定准

32、则实际上是与由协方差矩阵出发求主成分的过程与主成分个数的确定准则是相一致的,阵出发求主成分的过程与主成分个数的确定准则是相一致的,在此不再赘述。仍用在此不再赘述。仍用 分别表示相关阵分别表示相关阵 的特征值与对应的的特征值与对应的标准正交特征向量,此时,求得的主成分与原始变量的关系式标准正交特征向量,此时,求得的主成分与原始变量的关系式为:为:(5.10)32.2024/5/13 周一33 目录 上页 下页 返回 结束 5.2.4 由相关阵求主成分时主成分性质的简单形式由相关阵求主成分时主成分性质的简单形式 由相关阵出发所求得主成分依然具有上面所述的各种性质,由相关阵出发所求得主成分依然具有上

33、面所述的各种性质,不同的是在形式上要简单,这是由相关阵不同的是在形式上要简单,这是由相关阵 的特性决定的。我的特性决定的。我们将由相关阵得到的主成分的性质总结如下:们将由相关阵得到的主成分的性质总结如下:1 1 的协方差矩阵为对角阵的协方差矩阵为对角阵 ;3 3第第 个主成分的方差占总方差的比例,即第个主成分的方差占总方差的比例,即第 个主成分的个主成分的方差贡献率为方差贡献率为 ,前,前 个主成分的累积方差贡献率个主成分的累积方差贡献率为为 ;33.2024/5/13 周一34 目录 上页 下页 返回 结束 注意到注意到 ,且,且 ,结合前面从协方差矩阵出发求主,结合前面从协方差矩阵出发求主

34、成分部分对主成分性质的说明,可以很容易的得出上述性质。成分部分对主成分性质的说明,可以很容易的得出上述性质。虽然主成分的性质在这里有更简单的形式,但应注意其实质与虽然主成分的性质在这里有更简单的形式,但应注意其实质与前面的结论并没有区别;需要注意的一点是判断主成分的成因前面的结论并没有区别;需要注意的一点是判断主成分的成因或是原始变量(这里原始变量指的是标准化以后的随机向量或是原始变量(这里原始变量指的是标准化以后的随机向量 )对主成分的重要性有更简单的方法,因为由上面第)对主成分的重要性有更简单的方法,因为由上面第4 4条知这里条知这里因子负荷量因子负荷量仅依赖于由仅依赖于由 到到 的转换向

35、量系数的转换向量系数 (因为对不同(因为对不同的的 ,因子负荷量表达式的后半部分,因子负荷量表达式的后半部分 是固定的)。是固定的)。34.2024/5/13 周一35 目录 上页 下页 返回 结束 5.35.3 样本主成分的导出样本主成分的导出记 在实际研究工作中,总体协方差阵在实际研究工作中,总体协方差阵 与相关阵与相关阵 通常是未知通常是未知的,于是需要通过样本数据来估计。设有的,于是需要通过样本数据来估计。设有 个样品,每个样品个样品,每个样品有有 个指标,这样共得到个指标,这样共得到 个数据,原始资料矩阵如下:个数据,原始资料矩阵如下:35.2024/5/13 周一36 目录 上页

36、下页 返回 结束 为为样本协方差矩阵样本协方差矩阵,作为总体协方差阵,作为总体协方差阵 的的无偏估计,无偏估计,是是样本相关矩阵样本相关矩阵,为总体相关矩阵,为总体相关矩阵的估计。由前面的讨论知,若原始资料的估计。由前面的讨论知,若原始资料 阵是经阵是经过标准化处理的,则由矩阵过标准化处理的,则由矩阵 求得的协方差阵就求得的协方差阵就是相关矩阵,即是相关矩阵,即 与与 完全相同。因为由协方差完全相同。因为由协方差矩阵求解主成分的过程与同相关矩阵出发求解矩阵求解主成分的过程与同相关矩阵出发求解主成分的过程是一致的,下面我们仅介绍由相主成分的过程是一致的,下面我们仅介绍由相关阵关阵 出发求解主成分

37、。出发求解主成分。36.因为因为 为正定矩阵,所以为正定矩阵,所以其特征根都是非负实数其特征根都是非负实数,将它们,将它们依大小顺序排列依大小顺序排列 ,其相应的特征向量记为,其相应的特征向量记为 ,则相对于,则相对于 的方差为:的方差为:同理有即对于即对于 有最大方差,有最大方差,有次大方差,有次大方差,并且,协方差为,并且,协方差为:2024/5/13 周一37 目录 上页 下页 返回 结束 37.2024/5/13 周一38 目录 上页 下页 返回 结束 由由此此可可知知新新的的综综合合变变量量(主主成成分分)彼彼此此不不相相关关,并并且且 的的方方差差为为 ,则则 分分别别称称为为第第

38、一一、第第二二、第第 个个主主成成分分。由由上上述述求求主主成成分分的的过过程程可可知知,主主成成分分在在几几何何图图形形中中的的方方向向实实际际上上就就是是 的的特特征征向向量量的的方方向向,关关于于主主成成分分分分析析的的几几何何意意义义我我们们还还要要在在下下一一节节详详细细讨讨论论;主主成成分分的的方方差差贡贡献献就就等等于于 的的相相应应特特征征值值。这这样样,我我们们在在利利用用样样本本数数据据求求解解主主成成分分的的过过程程实实际际上上就就转转化化为为求求相相关关阵阵或协方差阵的特征值和特征向量的过程。或协方差阵的特征值和特征向量的过程。38.2024/5/13 周一39 目录

39、上页 下页 返回 结束 5.4 5.4 有关问题的讨论有关问题的讨论5.4.1 5.4.1 关于由协方差矩阵或相关矩阵出发求解主成分关于由协方差矩阵或相关矩阵出发求解主成分 5.4.2 5.4.2 主成分分析不要求数据来自于正态总体主成分分析不要求数据来自于正态总体5.4.3 5.4.3 主成分分析与重叠信息主成分分析与重叠信息39.2024/5/13 周一40 目录 上页 下页 返回 结束 5.4.1 5.4.1 关于由协方差矩阵或相关关于由协方差矩阵或相关矩阵出发求解主成分矩阵出发求解主成分 由前面的讨论可知求解主成分的过程实际就是对矩阵结由前面的讨论可知求解主成分的过程实际就是对矩阵结构

40、进行分析的过程,也就是求解特征值的过程。在实际分析构进行分析的过程,也就是求解特征值的过程。在实际分析过程中,过程中,我们可以从原始数据的协方差矩阵出发,也可以从我们可以从原始数据的协方差矩阵出发,也可以从原始数据的相关矩阵出发,其求主成分的过程是一致的。但原始数据的相关矩阵出发,其求主成分的过程是一致的。但是,从协方差阵出发和从相关阵出发所求得的主成分一般来是,从协方差阵出发和从相关阵出发所求得的主成分一般来说是有差别的,而且这种差别有时候还很大。说是有差别的,而且这种差别有时候还很大。下面我们举例下面我们举例说明这个问题,为了叙述方便,我们以二维数据为例。说明这个问题,为了叙述方便,我们以

41、二维数据为例。40.2024/5/13 周一41 目录 上页 下页 返回 结束 可以得到,原始变量的协方差阵与相关阵分别为:可以得到,原始变量的协方差阵与相关阵分别为:由协方差阵出发求解主成分,得到结果见由协方差阵出发求解主成分,得到结果见表表5-1:【例例5.15.1】假定我们研究某一经济问题共涉及两个指标:假定我们研究某一经济问题共涉及两个指标:产值和利税。其中产值以百万元计,利税以万元计,得原产值和利税。其中产值以百万元计,利税以万元计,得原始资料矩阵如下始资料矩阵如下:41.2024/5/13 周一42 目录 上页 下页 返回 结束 表表5-15-1对应两特征值的标准正交特征向量为:对

42、应两特征值的标准正交特征向量为:表表5-25-242.2024/5/13 周一43 目录 上页 下页 返回 结束 因此,所得的主成分的表达式为:因此,所得的主成分的表达式为:其中,第一主成分保留了原始变量其中,第一主成分保留了原始变量99.50%99.50%的信息,我们在分的信息,我们在分析中就可以把第二主成分舍掉,这样达到简化问题的目的。析中就可以把第二主成分舍掉,这样达到简化问题的目的。第一主成分与原始变量的因子负荷量分别为:第一主成分与原始变量的因子负荷量分别为:由此可知,第一主成分反应了利税指标由此可知,第一主成分反应了利税指标0.98710.9871的信息,方的信息,方差较大的差较大

43、的利税指标对第一主成分起了主要作用利税指标对第一主成分起了主要作用。43.2024/5/13 周一44 目录 上页 下页 返回 结束 由相关矩阵求解主成分的结果见表由相关矩阵求解主成分的结果见表5-3:表表5-35-3对应两特征值的标准正交特征向量为:对应两特征值的标准正交特征向量为:表表5-45-444.2024/5/13 周一45 目录 上页 下页 返回 结束 此时,所得主成分的表达式为:由从相关矩阵出发求解主成分的结果可知,第一主成分保留由从相关矩阵出发求解主成分的结果可知,第一主成分保留了原始变量了原始变量66.29%66.29%的信息,且产值指标与利税指标对第一主的信息,且产值指标与

44、利税指标对第一主成分的贡献是相同的。第一主成分分别集中了产值和利税成分的贡献是相同的。第一主成分分别集中了产值和利税 (因子负荷(因子负荷)的信息。的信息。45.2024/5/13 周一46 目录 上页 下页 返回 结束 由此可以看出,由协方差阵出发求解主成分所得的结果及由由此可以看出,由协方差阵出发求解主成分所得的结果及由相关阵出发求解主成分所得的相关阵出发求解主成分所得的结果有很大不同结果有很大不同,所得主成分解,所得主成分解释原始变量方差比例与主成分表达式均有显著差别,且两者之释原始变量方差比例与主成分表达式均有显著差别,且两者之间不存在简单的线性关系。正因有此差别,所以在处理实际问间不

45、存在简单的线性关系。正因有此差别,所以在处理实际问题时就面临着选取由协方差矩阵出发求解主成分还是由相关阵题时就面临着选取由协方差矩阵出发求解主成分还是由相关阵出发求解主成分的问题,为了更好的理解这种差别,我们对原出发求解主成分的问题,为了更好的理解这种差别,我们对原始变量转换成同一度量单位再求主成分。始变量转换成同一度量单位再求主成分。对产值与利税均以万元计,原始数据资料阵变为以下形式:对产值与利税均以万元计,原始数据资料阵变为以下形式:相关矩阵没有变化,协方差矩阵变为:46.2024/5/13 周一47 目录 上页 下页 返回 结束 由此协方差矩阵出发重新求主成分,结果见表由此协方差矩阵出发

46、重新求主成分,结果见表5-55-5:表表5-55-5对应两特征值的标准正交特征向量见表见表5-65-6 :表表5-65-647.2024/5/13 周一48 目录 上页 下页 返回 结束 此时所得主成分的表达式为:其中,第一主成分保留了原始变量98.44%的信息,第一主成分 与原始变量的因子负荷量分别为:由此可知,第一主成分保留原始变量的信息与主成分与原始变由此可知,第一主成分保留原始变量的信息与主成分与原始变量的关系式均与上两种情况有很大差别,那么,究竟哪种方法量的关系式均与上两种情况有很大差别,那么,究竟哪种方法得到的结果更为可信呢,在实际研究中我们应该作何选择呢?得到的结果更为可信呢,在

47、实际研究中我们应该作何选择呢?48.2024/5/13 周一49 目录 上页 下页 返回 结束 一般而言,一般而言,对于度量单位不同的指标或是取值范围彼此差对于度量单位不同的指标或是取值范围彼此差异非常大的指标,我们不直接由其协方差矩阵出发进行主成分异非常大的指标,我们不直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化分析,而应该考虑将数据标准化。比如,在对上市公司的财务。比如,在对上市公司的财务状况进行分析时,常常会涉及到利润总额、市盈率、每股净利状况进行分析时,常常会涉及到利润总额、市盈率、每股净利率等指标,其中利润总额取值常常从几十万到上百万,市盈率率等指标,其中利润总额取值

48、常常从几十万到上百万,市盈率取值一般从五到六、七十之间,而每股净利率在取值一般从五到六、七十之间,而每股净利率在1 1以下,不同指以下,不同指标取值范围相差很大,这时若是直接从协方差矩阵入手进行主标取值范围相差很大,这时若是直接从协方差矩阵入手进行主成分分析,明显利润总额的作用将起到重要支配作用,而其它成分分析,明显利润总额的作用将起到重要支配作用,而其它两个指标的作用很难在主成分中体现出来,此时应该考虑对数两个指标的作用很难在主成分中体现出来,此时应该考虑对数据进行标准化处理。据进行标准化处理。49.2024/5/13 周一50 目录 上页 下页 返回 结束 但是,对原始数据进行标准化处理后

49、倾向于各个指标的作用在主成分的构成中相等。对于取值范围相差不大或是度量相同的指标进行标准化处理后,其主成分分析的结果仍与由协方差阵出发求得的结果有较大区别。其原因是由于对数据进行标准化的过程实际上也就是抹杀原始变量离散程度差异的过程,标准化后的各变量方差相等均为1,而实际上方差也是对数据信息的重要概括形式,也就是说,对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在对主成分构成中的作用趋于相等。由此看来,对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。50.2024/5/13 周一51 目录 上页 下页 返回 结束 对于从什么出发求解主成分,现在还没

50、有一个定论,但对于从什么出发求解主成分,现在还没有一个定论,但是我们应该看到,不考虑实际情况就对数据进行标准化处是我们应该看到,不考虑实际情况就对数据进行标准化处理或者直接从原始变量的相关矩阵出发求解主成分是有其理或者直接从原始变量的相关矩阵出发求解主成分是有其不足之处的,这一点一定要引起注意。建议在实际工作中不足之处的,这一点一定要引起注意。建议在实际工作中分别从不同角度出发求解主成分并研究其结果的差别,看分别从不同角度出发求解主成分并研究其结果的差别,看看是否发生明显差异且这种差异产生的原因在何处,以确看是否发生明显差异且这种差异产生的原因在何处,以确定用哪种结果更为可信。定用哪种结果更为

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服