资源描述
主成分分析法与因子分析法主成分分析法与因子分析法主要内容主要内容主成分分析法主成分分析法 因子分析法因子分析法附:主成分分析法与因子分析法的区附:主成分分析法与因子分析法的区别主成分分析法主成分分析法(Principal Components Analysis,PCA)主成分分析法概述主成分分析法概述主成分分析的基本原理主成分分析的基本原理 主成分分析的主成分分析的计算步算步骤 一、主成分分析概述一、主成分分析概述假定你是一个公司的假定你是一个公司的财务经理,掌握了公理,掌握了公司的所有数据,司的所有数据,这包括包括众多的众多的变量量,比如,比如固定固定资产、流、流动资金、每一笔借金、每一笔借贷的数的数额和期限、各种税和期限、各种税费、工、工资支出、原料消耗、支出、原料消耗、产值、利、利润、折旧、折旧、职工人数、工人数、职工的分工的分工和教育程度等等工和教育程度等等。如果如果让你向上你向上级或有关方面介或有关方面介绍公司状况,公司状况,你能你能够把把这些指些指标和数字都和数字都原封不原封不动地地摆出去出去吗?引子引子当然不能。当然不能。汇报什么?汇报什么?发现在如此多的在如此多的变量之中,有很多是量之中,有很多是相关的。人相关的。人们希望能希望能够找出它找出它们的的少少数数“代表代表”来来对它它们进行描述。行描述。需要把需要把这种有种有很多很多变量量的数据的数据进行高行高度概括,度概括,用少数几个指用少数几个指标简单明了地明了地把情况把情况说清楚。清楚。主成分分析法(主成分分析法(Principal Components Analysis)和因子分析和因子分析法法(Factor Analysis)就就是把是把变量量维数降数降低以便于描述、理解和分析的方法。低以便于描述、理解和分析的方法。主成分分析也称主成分分析也称为主分量分析,是一种通主分量分析,是一种通过降降维来来简化数据化数据结构的方法:如何把多个构的方法:如何把多个变量化量化为少数几少数几个个综合合变量(量(综合指合指标),而,而这几个几个综合合变量可以量可以反映原来多个反映原来多个变量的大部分信息,所含的信息又互量的大部分信息,所含的信息又互不重叠,即它不重叠,即它们之之间要相互独立,互不相关。要相互独立,互不相关。这些些综合合变量就叫因子或主成分,它是不可量就叫因子或主成分,它是不可观测的,的,即即它不是具体的它不是具体的变量量,只是几个指只是几个指标的的综合合。在引入主成分分析之前,先看下面的例子。在引入主成分分析之前,先看下面的例子。什么是主成分分析法?什么是主成分分析法?成成绩数据数据53个个学学生生的的数数学学、物物理理、化化学学、语文文、历史、英史、英语的成的成绩如下表(部分)。如下表(部分)。从本例可能提出的从本例可能提出的问题能能不不能能把把这个个数数据据表表中中的的6 6个个变量量用用一一两个两个综合合变量来表示呢?量来表示呢?这一一两两个个综合合变量量包包含含有有多多少少原原来来的的信信息呢?息呢?事事实上,以上上,以上问题在平在平时的研究中,也会的研究中,也会经常遇到。它常遇到。它所涉及的所涉及的问题可以推广到可以推广到对企企业、对学校、学校、对区域区域进行行分析、分析、评价、排序和分价、排序和分类等。等。比如比如对n个个样本本进行行综合合评价,可价,可选的描述的描述样本特征的指本特征的指标很多,而很多,而这些指些指标往往存在往往存在一一定的相关性定的相关性(既不完全独立,又不完全相关)(既不完全独立,又不完全相关),这就就给研究研究带来很大不便。来很大不便。若若选指指标太多,太多,会增加分析会增加分析问题的的难度与复度与复杂性,性,选指指标太太少,有可能会漏掉少,有可能会漏掉对样本影响本影响较大的指大的指标,影响影响结果的可靠性。果的可靠性。这就需要我就需要我们在相关分析的基在相关分析的基础上,采上,采用主成分分析法找到几个用主成分分析法找到几个新的相互独立新的相互独立的的综合指合指标,达到既减少指,达到既减少指标数量、又数量、又能区分能区分样本本间差异的目的。差异的目的。二、主成分分析的基本原理二、主成分分析的基本原理(一)(一)主成分分析的几何解释主成分分析的几何解释(二)主成分分析的基本思想(二)主成分分析的基本思想(一)主成分分析的几何解释(一)主成分分析的几何解释例例中中数数据据点点是是六六维的的;即即每每个个观测值是是6维空空间中中的的一一个个点点。希希望望把把6维空空间用用低低维空空间表表示。示。先先假假定定只只有有二二维,即即只只有有两两个个变量量,语文文成成绩(x1)和和数数学学成成绩(x2),分分别由由横横坐坐标和和纵坐坐标所代表;所代表;每个学生都是二每个学生都是二维坐坐标系中的一个点。系中的一个点。因因为在在实际应用用中中,往往往往存存在在指指标的的量量纲不不同同,所所以以在在计算算之之前前须先先消消除除量量纲的的影影响响,而而将将原原始始数数据据标准准化化。为了了实现样本本数数据据的的标准准化化,应求求样本本数数据据的的平平均均和和方方差差。对数数据据矩矩阵Y Y作作标准准化化处理理,即即对每每一一个指个指标分量作分量作标准化准化变换,变换公式公式为:其中,其中,样本均本均值:样本本标准差:准差:原原始始变量量 经规格格化化后后变为新新变量量 ,其均其均值为零,方差零,方差为1。对二二维空空间来来讲n个个标准准化化后后的的样本本在在二二维空空间的的分分布布大大体体为一一椭圆形形,该椭圆有有一一个个长轴和和一一个个短短轴。在在短短轴方方向向上上数数据据变化化很很少少,极极端端的的情情况况下下,短短轴如如退退化化成成一一点点,长轴的的方方向向可可以以完完全全解解释这些些点点的的变化化,由由二二维到到一一维的的降降维就就自然完成了。自然完成了。假定假定语文成文成绩(X1)和数学成和数学成绩(X2)分)分别为标准化后的分数,准化后的分数,右右图为其散点其散点图,椭圆倾斜斜为45度。度。如果将坐如果将坐标轴 X1 和和 X2 旋旋转45 ,那么点在新坐,那么点在新坐标系中的坐系中的坐标(Y1,Y2)与原坐)与原坐标(X1,X2)有如下的)有如下的关系:关系:Y1和和Y2均是均是X1 和和 X2的的线性性组合合在新坐在新坐标系中,系中,可以可以发现:虽然然散点散点图的形状没的形状没有改有改变,但新的,但新的随机随机变量量 Y1 和和 Y2 已已经不再相不再相关。而且大部分关。而且大部分点沿点沿 Y1 轴散开,散开,在在 Y1 轴方向的方向的变异异较大(即大(即 Y1的方差的方差较大)大),相,相对来来说,在,在 Y2轴方向的方向的变异异较小(即小(即 Y2 的的方差方差较小)小)。在上面的例子中在上面的例子中 Y1 和和 Y2 就是原就是原变量量 X1和和 X2的第一主成分和第二主成分。的第一主成分和第二主成分。实际上第一主成上第一主成分分 Y1 就基本上反映了就基本上反映了 X1 和和X2 的主要信息,因的主要信息,因为图中的各点在新坐中的各点在新坐标系中的系中的 Y1 坐坐标基本上就基本上就代表了代表了这些点的分布情况,因此可以些点的分布情况,因此可以选 Y1 为一一个新的个新的综合合变量。当然如果再量。当然如果再选 Y2也作也作为综合合变量,那么量,那么 Y1 和和 Y2 则反映了反映了 X1 和和 X2的全部的全部信息。信息。22(二二二二)主成分分析的基本思想主成分分析的基本思想主成分分析的基本思想主成分分析的基本思想 假如假如对某一某一问题的研究涉及的研究涉及 p p 个指个指标,记为X X1 1,X X2 2,X Xp p,由,由这 p p 个随机个随机变量构成的随机向量量构成的随机向量为X X=(=(X X1 1,X X2 2,X Xp p),设 X X 的均的均值向量向量为,协方差矩方差矩阵为。设Y Y=(=(Y Y1 1,Y Y2 2,Y Yp p)为对 X X 进行行线性性变换得到的合成随机向量,即得到的合成随机向量,即 (1)设 i i=(=(i i1 1,i i2 2,ipip),A A=(=(1 1,2 2 ,p p),则有有 (2)23且且 (3)由是式由是式(1)(2)(1)(2)能能够看出,可以看出,可以对原始原始变量量进行任意的行任意的线性性变换,不同,不同线性性变换得到的合成得到的合成变量量Y Y的的统计特征特征显然然是不一是不一样的。每个的。每个Y Yi i 应尽可能多地反映尽可能多地反映 p p 个原始个原始变量的信量的信息,通常用方差来度量息,通常用方差来度量“信息信息”,Y Yi i 的方差越大表示它所包的方差越大表示它所包含的信息越多。由式(含的信息越多。由式(3 3)可以看出将系数向量)可以看出将系数向量 i i 扩大任意大任意倍数会使倍数会使Y Yi i 的方差无限增大,的方差无限增大,为了消除了消除这种不确定性,增加种不确定性,增加约束条件:束条件:24 为了有效地反映原始了有效地反映原始变量的信息,量的信息,Y Y的不同分量包含的不同分量包含的信息不的信息不应重叠。重叠。综上所述,式(上所述,式(1 1)的)的线性性变换需要需要满足下足下面的面的约束:束:(1)(1)即即 ,i i=1,2,=1,2,p p。(2)(2)Y Y1 1在在满足足约束束 (1)(1)即的情况下,方差最大;即的情况下,方差最大;Y Y2 2是在是在满足足约束束(1)(1),且与,且与Y Y1 1不相关的条件下,其方差达到大;不相关的条件下,其方差达到大;Y Yp p是在是在满足足约束束(1)(1),且与,且与Y Y1 1,Y Y2 2,Y Y p-p-1 1不相关的条件下,不相关的条件下,在各种在各种线性性组合中方差达到最大者。合中方差达到最大者。满足上述足上述约束得到的合成束得到的合成变量量Y Y1 1,Y Y2 2,Y Yp p分分别称称为原始原始变量的第一主成分、第二主成分、量的第一主成分、第二主成分、第、第 p p 主成分,而主成分,而且各成分方差在且各成分方差在总方差中占的比重依次方差中占的比重依次递减。在减。在实际研究工研究工作中,作中,仅挑挑选前几个方差前几个方差较大的主成分,以达到大的主成分,以达到简化系化系统结构的目的。构的目的。三、主成分分析的三、主成分分析的计算步算步骤(一一)计算相关系数矩阵计算相关系数矩阵(二二)计算特征值与特征向量计算特征值与特征向量(三三)计算主成分贡献率及累计贡献率计算主成分贡献率及累计贡献率(四四)计算主成分载荷计算主成分载荷(一)一)计算相关系数矩算相关系数矩阵 rij(i,j=1,2,p)为原原变量量xi与与xj标准准化化后后的的相关系数,相关系数,rij=rji,其其计算公式算公式为(3.5.3)(3.5.4)(二)(二)计算特征算特征值与特征向量与特征向量 1、解特征方程,求出特征、解特征方程,求出特征值,并使,并使其按大小其按大小顺序排列序排列 2、分、分别求出求出对应于特征于特征值 的特征向量的特征向量 ,要求,要求=1,即,即,其中表示向量其中表示向量 的第的第j个分量个分量,也就是也就是说 为单位向量。位向量。29(三)(三)计算主成分算主成分贡献率及累献率及累计贡献率献率 主成分分析是把主成分分析是把 p p 个随机个随机变量的量的总方差分解方差分解为 p p 个不相个不相关随机关随机变量的方差之和量的方差之和 1 1 2 2 P P,则总方差中属于方差中属于第第 i i 个主成分(被第个主成分(被第 i i 个主成分所解个主成分所解释)的比例)的比例为 称称为第第 i i 个主成分的个主成分的贡献率。定献率。定义 称称为前前 m m 个主成分的累个主成分的累积贡献率,衡量了前献率,衡量了前 m m 个主成份个主成份对原原始始变量的解量的解释程度。程度。(四)计算主成分载荷计算主成分载荷 在主成分之间不相关时,在主成分之间不相关时,主成分载荷就是主成主成分载荷就是主成 分分z zi i与变量与变量x xj j之间的相关系数之间的相关系数因子分析法因子分析法(Factor Analysis,FA)因子分析法概述因子分析法概述因子分析法的模型因子分析法的模型附:主成分分析与因子分析的区附:主成分分析与因子分析的区别(一)因子分析法概述(一)因子分析法概述因子分析法与主成分分析法都基于统计分析法,因子分析法与主成分分析法都基于统计分析法,但两者有较大的区别。但两者有较大的区别。主成分分析主成分分析是通过坐标是通过坐标变换提取主成分,也就是将一组具有相关性的变换提取主成分,也就是将一组具有相关性的变量变换为一组独立的变量,将主成分表示为变量变换为一组独立的变量,将主成分表示为原始观察变量的线性组合。而原始观察变量的线性组合。而因子分析因子分析法是要法是要构造因子模型,将原始观察变量分解为因子的构造因子模型,将原始观察变量分解为因子的线性组合。因此因子分析法是主成分分析法的线性组合。因此因子分析法是主成分分析法的发展。发展。(二)因子分析法的模型(二)因子分析法的模型狭义的因子分析法常与主成分分析法在处理方法上有相类似之处,都要对变量规格化,并找出原始变量规格化后的相关矩阵。其主要不同点在于建立线性方程组时所考虑的方法,因子分析是以回归方程的形式将变量表示成因子的线性组合,而且要使因子数m小于原始变量维数p,从而简化了模型结构。其步骤为:将原始数据标准化求标准化数据的相关矩阵求相关矩阵的特征值和特征向量计算方差贡献率与累计方差贡献率确定因子因子旋转用原始的线性组合求各因子得分求综合得分得分排序因子模型的表达式为:因子模型的表达式为:其矩阵形式为:其中 为因子载荷。数学上可以证明,因子载荷 就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子。附、主成分分析与因子分析的区附、主成分分析与因子分析的区别主成分分析法与因子分析法的区别主成分分析法与因子分析法的区别主成分分析主成分分析因子分析因子分析将主成分表示为原观测变量的线性将主成分表示为原观测变量的线性组合组合将原观测变量表示为新因子的线性组合将原观测变量表示为新因子的线性组合新变量的坐标维数新变量的坐标维数p p与原变量维数相与原变量维数相同,它只是将一组有相关性的变量同,它只是将一组有相关性的变量通过正交变换转成一组维数相同的通过正交变换转成一组维数相同的独立变量,再按总方差误差的允许独立变量,再按总方差误差的允许值大小来选定值大小来选定q q个主成分个主成分新变量数新变量数m m小于原变量数小于原变量数p p,它是要构造,它是要构造一个模型,将多变量减少为几个新因子,一个模型,将多变量减少为几个新因子,从而构造一个结构简单的模型从而构造一个结构简单的模型经正交变换的变量系数是相关矩阵经正交变换的变量系数是相关矩阵R的的特征向量的相应元素特征向量的相应元素变量系数取自因子负荷量变量系数取自因子负荷量
展开阅读全文