1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1,一、主成分分析概述,2,假定你是一个公司的财务经理,掌握了公司的所有数据,这包括,众多的变量,,比如,固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等,。,如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都,原封不动地摆出去吗,?,引子,3,当然不能。,汇报什么?,发现在如此多的变量之中,有很多是相关的。人们希望能够找出它们的,少数,“,代表,”,来对它们进行描述。,需要把这种有,很多变量,的数据进行高度概括,,用
2、少数几个指标简单明了地把情况说清楚。,4,主成分分析(,Principal Components Analysis,)和因子分析(,Factor Analysis,),就是把变量维数降低以便于描述、理解和分析的方法。,主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标),而这几个综合变量可以反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。,这些综合变量就叫因子或主成分,它是不可观测的,即,它不是具体的变量,(这与聚类分析不同),,只是几个指标的综合,。,在引入主成分分析之前,先看下面的例子。,什么是主
3、成分分析法?,5,成绩数据,53,个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,6,从本例可能提出的问题,能不能把这个数据表中的,6,个变量用一两个综合变量来表示呢?,这一两个综合变量包含有多少原来的信息呢?,能不能利用找到的综合变量来对学生排序呢?,7,事实上,以上的三个问题在地理学研究中,也会经常遇到。它,所涉及的问题可以推广到对企业、对学校、对区域进行,分析、评价、排序和分类,等。,比如对,n,个区域进行综合评价,可选的描述区域特征的指标很多,而这些指标往往存在,一定的相关性,(既不完全独立,又不完全相关),这就给研究带来很大不便。,若选指标太多,会增加分析问题的难度
4、与复杂性,选指标太少,有可能会漏掉对区域影响较大的指标,影响结果的可靠性。,8,这就需要我们在相关分析的基础上,采用主成分分析法找到几个,新的相互独立的综合指标,,达到既减少指标数量、又能区分区域间差异的目的。,9,二、主成分分析的基本原理,10,(一)主成分分析的几何解释,例中数据点是六维的;即每个观测值是,6,维空间中的一个点。希望把,6,维空间用低维空间表示。,先假定只有二维,即只有两个变量,语文成绩(,x,1,)和数学成绩(,x,2,),分别由横坐标和纵坐标所代表;,每个学生都是二维坐标系中的一个点。,11,空间的点,如果这些数据形成一个椭圆形状的点阵(这在二维正态的假定下是可能的)该
5、椭圆有一个长轴和一个短轴。在短轴方向上数据变化很少;,在极端的情况,短轴如退化成一点,长轴的方向可以完全解释这些点的变化,由二维到一维的降维就自然完成了。,12,假定语文成绩(,X,1,)和数学成绩(,X,2,)的相关系数,=0.6,。,设,X,1,和,X,2,分别为标准化后的分数,右图为其散点图。,13,那么随机向量,的方差,协方差矩阵为,可以看出,在变量标准化的情况下的方差,协方差矩阵与其相关矩阵相等。,由求矩阵特征值和特征向量的方法:令,可以求出:,14,对应的特征向量分别为:,显然,这两个特征向量是,相互正交的,单位向量。而且它们与原来的坐标轴,X,1,和,X,2,的夹角都分别等于,4
6、5,。如果将坐标轴,X,1,和,X,2,旋转,45,,那么点在新坐标系中的坐标(,Y,1,Y,2,)与原坐标(,X,1,X,2,)有如下的关系:,Y,1,和,Y,2,均是,X,1,和,X,2,的线性组合,系数代表什么?,15,在新坐标系中,可以发现:虽然散点图的形状没有改变,但新的随机变量,Y,1,和,Y,2,已经不再相关。而且大部分点沿,Y,1,轴散开,在,Y,1,轴方向的变异较大(即,Y,1,的方差较大),相对来说,在,Y,2,轴方向的变异较小(即,Y,2,的方差较小)。,16,事实上,随机变量,Y,1,和,Y,2,的方差分别为:,可以看出,,最大变动,方向,是由特征向量所决定的,而特征值
7、则刻画了对应的方差。,这只是我们举的一个例子,对于一般情况,数学上也能证明。,17,在上面的例子中,Y,1,和,Y,2,就是原变量,X,1,和,X,2,的第一主成分和第二主成分。实际上第一主成分,Y,1,就基本上反映了,X,1,和,X,2,的主要信息,因为图中的各点在新坐标系中的,Y,1,坐标基本上就代表了这些点的分布情况,因此可以选,Y,1,为一个新的综合变量。当然如果再选,Y,2,也作为综合变量,那么,Y,1,和,Y,2,则反映了,X,1,和,X,2,的全部信息。,18,从几何上看,找主成分的问题就是找出,p,维空间中椭球体的主轴问题,就是要在,x,1,x,p,的相关矩阵中,m,个较大特征
8、值所对应的特征向量。,究竟提取几个主成分或因子,一般有两种方法:,特征值,1,累计贡献率,0.8,那么如何提取主成分呢?,(二)主成分分析的基本思想,19,假定有,n,个地理样本,每个样本共有,p,个变量,构成一个,n,p,阶的地理数据矩阵,(,3.5.1,),综合指标如何选取呢?这些综合指标要想尽可能多地反映原指标的信息,综合指标的表达式中要含有原指标,那么我们通常是取原指标的线性组合,适当调整它们的系数,使综合指标间相互独立且代表性好。,20,定义:记,x,1,,,x,2,,,,,x,P,为原变量指标,,z,1,,,z,2,,,,,z,m,(,m,p,)为新变量指标,(3.5.2),可以看
9、出,新指标对原指标有多个线性组合,新指标对哪个原指标反映的多,哪个少,取决于它的系数。系数,l,ij,的确定原则:,z,i,与,z,k,(,i,k,;,i,,,k,=1,,,2,,,,,m;,j=,1,,,2,,,,,p,)相互无关;,21,z,1,是,x,1,,,x,2,,,,,x,P,的一切线性组合中方差最大者,(,最能解释它们之间的变化),,z,2,是与,z,1,不相关的,x,1,,,x,2,,,,,x,P,的所有线性组合中方差最大者,;,;,z,m,是与,z,1,,,z,2,,,,,z,m,1,都不相关的,x,1,,,x,2,,,x,P,,,的所有线性组合中方差最大者。,则新变量指标,
10、z,1,,,z,2,,,,,z,m,分别称为原变量指标,x,1,,,x,2,,,,,x,P,的第,1,,第,2,,,,第,m,主成分。,22,从以上的分析可以看出,主成分分析的实质就是确定原来变量,x,j,(,j,=1,,,2,,,,,p,)在诸主成分,z,i,(,i,=1,,,2,,,,,m,)上的荷载,l,ij,(,i,=1,,,2,,,,,m,;,j,=1,,,2,,,,,p,)。,从数学上可以证明,它们分别是相关矩阵(也就是,x1,,,x2,,,,,x,P,的相关系数矩阵),m,个较大的特征值所对应的特征向量。,23,三、主成分分析的计算步骤,24,(,一)计算相关系数矩阵,r,ij,
11、i,,,j,=1,,,2,,,,,p,)为原变量,x,i,与,x,j,标准化后的相关系数,,r,ij,=,r,ji,,,其计算公式为,(,3.5.3,),(,3.5.4,),25,(二)计算特征值与特征向量,1,、解特征方程,求出特征值,并使其按大小顺序排列 ;,2,、分别求出对应于特征值 的特征向量,,要求,=1,,即,其中表示向量 的第,j,个分量,也就是说 为单位向量。,26,3,、计算主成分贡献率及累计贡献率,贡献率,累计贡献率,一般取累计贡献率达,85%95%,的特征值,所对应的第,1,、第,2,、,、第,m,(,m,p,)个主成分。,27,4,、,计算主成分载荷,在主成分之间不
12、相关时,,主成分载荷就是主成分,z,i,与变量,x,j,之间的相关系数,(在数学上可以证明),5,、各主成分的得分,得到各主成分的载荷以后,可以按照(,3.5.2,)计算各主成分的得分,(,3.5.5,),28,(,3.5.6,),每个地区的综合评价值为:对各个主成分进行加权求和。权重为每个主成分方差的贡献率。,29,四、,SPSS,在主成分分析中的应用,30,以全国,31,个省市的,8,项经济指标为例,进行主成分分析。,第一步:录入或调入数据(图,1,)。,图,1,原始数据(未经标准化),31,32,设置描述,(,Descriptives),选项。,单击,描述,按钮,弹出,描述,对话框,选中
13、单变量描述性,(Univariate descriptives),复选项,,则输出结果中将会给出原始数据的抽样均值、方差和样本数目,选中原始分析结果,(Initial solution),复选项,,则会给出主成分载荷的,公因子方差(这一栏数据分析时有用)。,在相关矩阵,(Correlation Matrix),栏中,选中系数,(Coefficients),复选项,,,则会给出原始变量的相关系数矩阵;选中行列式,(Determinant),复选项,则会给出,相关系数矩阵的行列式,如果希望在,Excel,中对某些计算过程进行了解,,可选此项,否则用途不大。其它复选项一般不用,但在特殊情况下可以用到
14、设置完成以后,单击,Continue,按钮完成设置(图,5,)。,33,打开抽取对话框。因子提取方法主要有,7,种,在方法,(Method),栏中可以看到,,系统默认的提取方法是主成分,.,因此对此栏不作变动,就是认可了主成分分析方法。,设置抽取,(Extraction),选项。,在分析,(Analyze),栏中,选中相关性矩阵,(Correlation matirx),复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中协方差矩阵,(Covariance matrix),复选项,则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任
15、选其一即可。,34,在输出,(Display),栏中,选中,Unrotated factor solution,(非旋转因子解)复选项,,则在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言,这一项,选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,,以便对比。,选中,Scree Plot,(碎石图),则在分析结果中给出特征根按大小分布的折线图,以便我们直观地判定因子的提取数量是否准确。,35,在抽取栏中,有两种方法可以决定提取主成分(因子)的数目。,一是根据特征根,(,Eigenvalues,),的数值,系统默认的是,=1,。,我们知道,在主成分分析中,主成分得
16、分的方差就是对应的特征根数值。如果默认,=1,,则所有方差大于等于,1,的主成分将被保留,其余舍弃。如果觉得最后选取的主成分数量不足,可以将,值降低,例如取,=0.9,;如果认为最后的提取的主成分数量偏多,则可以提高,值,例如取,=1.1,。主成分数目是否合适,要在进行一轮分析以后才能肯定。,因此,特征根数值的设定,要在反复试验,以后才能决定。一般而言,在初次分析时,,最好降低特征根的临界值(如取,=0.8,),,这样提取的主成分将会偏多,根据初次,分析的结果,在第二轮分析过程中可以,调整特征根的大小。,36,第二种方法是直接指定主成分的数目即因子数目,,这要选中,Number of fact
17、ors,复选项。主成分的数目选多少合适?开始我们并不十分清楚。因此,首次不妨将数值设大一些,但,不能超过变量数目,。本例有,8,个变量,因此,最大的主成分提取数目为,8,,不得超过此数。在我们第一轮分析中,采用系统默认的方法提取主成分。,需要注意的是:,主成分计算是利用迭代(,Iterations,)方法,系统默认的迭代次数,是,25,次。但是,当数据量较大时,,25,次迭代是不够的,需要改为,50,次、,100,次乃,至更多。对于本例而言,变量较少,,25,次迭代足够,故无需改动。,设置完成以后,单击,Continue,按钮完成设置。,37,选中保存为变量,(Save as variable
18、s),栏,则分析结果中给出标准化的主成分得分(在数据表的后面)。至于方法复选项,对主成分分析而言,三种方法没有分别,采用系统默认的,“,回归,”,(,Regression,)法即可。,选中显示因子得分系数矩阵,(Display factor score coefficient matrix),,则在,分析结果中给出因子得分系数矩阵及其相关矩阵。,设置完成以后,单击,Continue,按钮完成设置。,设置得分,(Scores),设置。,38,其它,对于主成分分析而言,旋转项(,Rotation,)可以不必设置;对于数据,没有缺失的情况下,选项,(Option),项可以不必理会。,全部设置完成以后
19、点击,OK,确定,,SPSS,很快给出计算结果,实例:全国,31,个省市的,8,项经济指标,39,按顺序排列的主成分得分的方差,(Total),,在数值上等于相关系数矩阵的各个特征根,全部解释方差表,(Total Variance Explained),每一个主成分的方差百分比(,%of Variance):,由于全部特征根的总和等于变量数目,即有,m=i=8,,故每一一个特征根的方差百分比为,i/m,从左边栏目中提取的三个主成分及有关参数,40,主成分的数目可以根据相关系数矩阵的特征根来判定,,根据,值决定主成分数目的准则有三:,i,只取,1,的特征根对应的主成分,从,Total Vari
20、ance Explained,表中可见,第一、第二和第三个主成分对应的,值都大于,1,,这意味着这三个主成分得分的方差都大于,1,。本例正是根据这条准则提取主成分的。,ii,累计百分比达到,80%85%,以上的,值对应的主成分,在,Total Variance Explained,表可以看出,前三个主成分对应的,值累计百分比达到,89.324%,,这暗示只要选取三个主成分,信息量就够了。,iii,根据特征根变化的突变点决定主成分的数量,从特征根分布的折线图(碎石图)上可以看到,第,4,个,值是一个明显的折点,这暗示选取的主成分数目应有,p4,。那么,究竟是,3,个还是,4,个呢?根据前面两条准
21、则,选,3,个大致合适。,41,都显示了各个变量与有关主成分的相关系数,注:主成分得分或因子得分有,3,种说法,(1),成分矩阵,(2),成分得分系数矩阵,(3),成分矩阵(按列),/,特征根的开根,(,用,TRANSFORM,COMPUTE,来计算特征向量,),42,主成分计算,矩阵的按列线性组合,怎么解释这三个主成分。前面说过主成分是原始八个变量的线性组合。是怎么样的组合呢?,这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。,这些系数称为主成分载荷(,loading,),它表示主成分和相应的原先变量的相关系数。,相关系数,(,绝对值)越大,主成分对该变量的代表性也越大。,43,
22、从,Component Matrix,即主成分载荷表中可以看出,国内生产总值、固定资产投资和工业产值在第一主成分上载荷较大,亦即与第一主成分的相关系数较高;职工工资和货物周转量在第二主成分上的载荷绝对值较大,即负相关程度较高;消费价格指数在第三主成分上的载荷较大,即相关程度较高。,因此可将主成分命名如下:,第一主成分:,投入产出主成分,;,第二主成分:,工资物流主成分,;,第三主成分:,消费价格主成分,。,问题在于:一方面,居民消费和商品零售价格指数的归类比较含混;另一方面,主成分的命名结构不清。因此,有必要作进一步的因子分析。,计算结果分析,44,不仅如此,原数据文件中增加了,FAC1_1,、,FAC2_1,和,FAC3_1,三 个变量,它们表示了三个因子在不同省份的得分值。,
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4009-655-100 投诉/维权电话:18658249818