1、第八章 因子分析 §8.1 什么是因子分析及基本思想 1904年Charles Spearman发表一篇著名论文《对智力测验得分进行统计分析》视为因子分析的起点。因子分析的形成和发展有相当长的历史,最早用以研究解决心理学和教育学方面的问题,由于计算量大,又缺少高速计算的设备使因子分析的应用和发展受到很大的限制,甚至停滞了很长时间。后来由于电子计算机的出现,才使因子分析的理论研究和计算问题,有了很大的进展。目前这一方法的应用范围已十分广泛,在经济学、社会学、考古学、生物学、医学、地质学以及体育科学等各个领域都取得了显著的成绩。 1 什么是因子分析 因子分析是主成分分析的推广和发展,
2、它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。 例如,某公司对100名招聘人员的知识和能力进行测试,出了50道题的试卷,其内容包括的面较广,但总的来讲可归纳为六个方面:语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,我们将每一个方面称为因子,显然这里所说的因子不同于回归分析中因素,因为前者是比较抽象的一种概念,而后者有着极为明确的实际意义,如人口密度、工业总产值、产量等。 假设100人测试的分数可以用上述六个因子表示
3、成线性函数: 其中表示六个因子,它对所有Xi是共有的因子,通常称为公共因子,它们的系数称为因子载荷,它表示第i个应试人员在六个因子方面的能力。是第i个应试人的能力和知识不能被前六个因子包括的部分,称为特殊因子,通常假定,仔细观察这个模型与回归模型在形式上有些相似,实质很不同。这里的的值未知的,并且有关参数的统计意义更不一样。因子分析的任务,首先是估计出和方差,然后将这些抽象因子赋予有实际背景和因子之间的相互关系,以达到降维和对原始变量进行分类的目的。 因子分析的内容十分丰富,本章仅介绍因子分析常用的两种类型:R型因子分析(对变量作因子分析)和Q型因子分析(对样品作因子分析)。 2
4、基本思想 因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间相关性(或相似性)较高,但不同组的变量相关性(或相似性)较低。 从全部计算过程来看作R型因子分析与作Q型因子分析都是一样的,只不过出发点不同,R型从相关系数矩阵出发,Q型从相似系数阵出发都是对同一批观测数据,可以根据其所要求的目的决定哪一类型的因子分析。 §
5、8.2 因子分析的数学模型 1 数学模型(正交因子模型) R型因子分析数学模型 用矩阵表示: 简记为 且满足: 1) ii) 即F和是不相关的; iii)即F1…Fm不相关且方差皆为1。 即不相关,且方差不同。 其中是可实测的p个指标所构成p维随机向量,是不可观测的向量,F称为X的公共因子或潜因子,即前面所说的综合变量,可以把它们理解为在高维空间中的互相垂直的m个坐标轴;aij称为因子载荷是第i个变量在第j个公共因子上的负荷,如果把变量Xi看成m维因子空间中的一个向量,则表示Xi在坐标轴Fj上的投影,矩阵A称为因子载荷矩阵;称为X的特殊因子,通常理论上要求
6、的协方差阵是对角阵,中包括了随机误差。 由上述模型满足的条件可知:是不相关的。若相关时,则D(F)就不是对角阵,这时的模型称为斜交因子模型,本章将不讨论这种模型。 类似地,Q型因子分析数学模型为: 此时X1, X2, …, Xn表示n个样品。 因子分析的目的就是通过模型代替X,由于,从而达到简化变量维数的愿望。 因子分析和主成分分析有很多相似之处,在求解过程中二者都是从一个协方差阵(或相似系数阵)出发,但这两种模型是有区别的,主成分分析的数学模型实质上是一种变换,而因子分析模型是描述原指标X协方差阵结构的一种模型,当时,若不能考虑,此时因子分析也对应于一种变量变换,但在实际应用中
7、m都小于p,且为经济起见总是越小越好。另外在主成分分析中每个主成分相应的系数是唯一确定的,即因子戴荷阵不是唯一的,若为任一个阶正交阵,则因子模型可写成:,仍满足约束条件,即,所以也是公共因子,也是因子载荷阵。因子载荷这个不唯一性,从表面上看是不利的,但后面将会看到当因子载荷阵A的结构不够简化时,可对A实行变换以达到简化目的,使新的因子更具有鲜明的实际意义。从因子分析的数学模型上看,它与多变量回归分析也有类似之处,但本质的区别是因子分析模型作为“自变量”的F是不可观测的。 2 因子模型中公共因子、因子载荷和变量共同度的统计意义 为了便于对因子分析计算结果做解释,将因子分析数学模型中各个量的
8、统计意义加以说明是十分必要的。 假定因子模型中,各个变量以及公共因子、特殊因子都已经是标准化(均值为0,方差为1)的变量。 (1) 因子 (2) 载荷的统计意义 已知模型: 两端后乘Fj得: 于是 由于在标准化下有: 因此 所以上式可写成: (因为各因子不相关,所以相关系数为0) 故因子载荷的统计意义就是第i个变量与第j个公共因子的相关系数即表示Xi依赖Fj的份量(比重)。因此用统计学的术语应该叫作权,但由于历史的原因,心理学家将它叫做载荷,即表示第i个变量在第j个公共因子上的负荷,它反映了第i个变量在第j个公共因子上的相对重要性。 (2)变量共同度的统
9、计意义 所谓变量Xi的共同度定义为因子载荷阵A中第i行元素的平方和,即 为了说明它的统计意义,将下式两边求方差,即 V 由于Xi已标准化了,所以有 此式说明变量Xi的方差由两部分组成:第一部分为共同度,它刻划全部公共因子对变量Xi的总方差所作的贡献,越接近1,说明该变量的几乎全部原始信息都被所选取的公共因子说明了,如则说明Xi的97%的信息被m个公共因子说明了,也就是说由原始变量空间转为因子空间转化的性质越好,保留原来信息量多,因此是Xi方差的重要组成部分。当时,说明公共因子对Xi影响很小,主要由特殊因子来描述。第二部分是特定变量所产生的方差,称为特殊因子方差仅与
10、变量Xi本身的变化有关,它是使Xi的方差为1的补充值。 (3)公共因子Fj的方差贡献的统计意义 将因子载荷矩阵中各列元素的平方和记为 称Sj为公共因子Fj对X的贡献,即Sj表示同一公共因子Fj对诸变量所提供的方差贡献之总和,它是衡量公共因子相对重要性指标。 §8.3 因子载荷阵的估计方法 要建立某实际问题的因子模型,关键是要根据样本数据矩阵估计因子载荷矩阵A。对A的估计方法有很多,这里仅介绍使用较为普遍的主成分法。 设随机向量的协差阵为为的特征根,为对应的标准正交化特征向量(只要特征根不等,对应的单位特征向量一定是正交的),则根据线性代数知识可分解为: 上面的分解式
11、恰是公共因子与变量个数一样多且特殊因子的方差为0时,因子模型中协差阵的结构。 因为这时因子模型为:其中 所以即,对照的分解式,则因子载荷阵A的j列应该是,也就是说除常数外,第j列因子载荷恰是第j个主成分的系数ej,故称为主成分法。 上边给出的表达式是精确的,但实际应用时总是希望公共因子个数小于变量的个数即m
12、仍然可作上面类似的表示。 一般设为样本相关阵R的特征根,相应的标准正交化特征向量为,设,则因子载荷阵的估计即 §8.4 因子旋转 建立因子分析数学模型的目的不仅要找出公共因子以及对变量进行分组,更重要的是要知道每个公共因子的意义,以便对实际问题作出科学的分析,如果每个公共因子的涵义不清,不便于进行实际背景的解释,这时根据因子载荷阵的不唯一性,可知因子载荷实际旋转即用一个正交阵右乘A(由线性代数知道一个正交变换,对应坐标系的一次旋转)使旋转后的因子载荷阵结构简化,便于对公共因子进行解释。所谓结构简化就是使每个变量仅在一个公共因子上有较大的载荷,而在其余公共因子上的载荷比较小,至多是中
13、等大小。这种变换因子载荷阵的方法称为因子轴的旋转,而旋转的方法有多种,如正交旋转,斜交旋轴等,本节只介绍常用的方差最大正交旋转法。 首先考虑m =2的情形。 设因子载荷阵 对A按行计算共同度。考虑到各个变量Xi的共同度之间的差异所造成的不平衡,需对A中的元素进行规格化处理,即每行的元素用每行的共同度除之。 然后对规格化后的矩阵,为书写方便仍记为A,施行方差最大正交旋转。 设正交阵 记B=AT 这样做的目的是使因子载荷阵A的结构简化,换句话说,使载荷阵的每一列元素的平方值向0或1两极分化或者说公共因子的贡献越分散越好,这实际上希望将变量分成两部分,一部分主要与第一公共因子有关,
14、另一部分与第二公共因子有关,因此,要求两组数据的方差V1和V2要尽可能地大。为此,正交旋的角度必须满足使旋转后所得到因子载荷阵的总方差达到最大值,即 达到最大值(这里V的表达式形式类似一元统计中样本方差,可写成形式) 根据求极值原理,先求V对的导数。 令 经过计算,其旋转角度可按下面公式求得: 记 则 根据的分式的分子和分母取值的正负号来确定角的取值范围如下表: 分子取值符号 分母取值符号 取值范围 取值范围 + + 0~ 0~ + — ~ — — -~- — + - 如果公共因子有m个
15、则需逐次对每两个公共因子进行上述旋转,也就是说对每两个因子所决定的因子面正交旋转一个角度,每次的转角,必须满足使旋转后所得到的因子载荷阵的总方差达到最大值,即 使达到最大,其中为如下的正交阵: 没有标明的元素均为0。 A经过Tkj旋转(变换)后,矩阵,其元素为 其中旋转角度仍按下面公式求得: m个因子,每次取两个全部配对进行旋转,共需旋转次,算做一个循环完毕,如果循环完毕得出的因子载荷阵还没有达到目的,则可以继续进行第二轮次配对旋转,具体地说如果第一轮旋转完毕的因子载荷阵记为,则可写成: 即对A施行正交变换C1而得B(1),并计算载荷阵B(1)的方
16、差记为V(1),在第一轮循环完毕的基础上,从B(1)出发进行第二轮旋转循环,旋转完毕得B(2),则B(2)可写: 从B(2)算出V(2)。 显然 ( 从算出。 如此不断重复旋转循环可得V值的一个非降序列: 因为因子载荷的绝对值不大于1,故这个序列是有上界的,于是有极限记为,即为V的最大值。因此只要循环次数k充分大,就有 为所要求的精度。在实际应用中,经过若干次旋转之后,若相对方差改变不大,则停止旋转,最后得 即为旋转后的因子载荷矩阵。 §8.5 因子得分 因子分析的数学模型是将变量(或样品)表示为公共因子的线性组合: 由于公共因子能反映原始变量的相关
17、关系,用公共因子代表原始变量时,有时更有利于描述研究对象的特征,因而往往需要反过来将公共因子表示为变量(或样品)的线性组合,即 称上式为因子得分的函数。用它来计算每个样品的公共因子得分。比如,则将每个样品的p个变量值代入上式即可算出每个样品的因子得分和,这样就可以在二维平面上作出因子得分的散点图,进而对样品进行分类或作为下一步分析原始数据时对问题做更深入的研究。 由于因子得分函数中方程的个数m小于变量的个数p,因此不能精确计算出因子得分,只能对因子得分进行估计。 估计因子得分有很多方法如加权最小二乘法、回归法等。下面仅介绍回归法,它是1939年由Thomson提出来的,所以又称为汤姆
18、森回归法。 Thomson假设公共因子可以对p个变量作回归,对变量的回归方程为 由于假设变量及公共因子都已经标准化了,所以。下面先求这些回归系数,然后给出因子得分的计算公式。 由于因子得分的值是待估的,我们仅知道利用样本值可得因子载荷阵。由因子载荷的意义知: 即 其中 因此 记 则 于是 其中 这就是估计因子得分的计算公式。 §8.6 计算步骤及实例 设原始数据资料如下表: 变量 样品 X1 X2 … Xp 1 x11 x12 … x1p 2 x21 x22
19、… x2p n xn1 xn2 … xnp 第一步 将原始数据标准化,为书写方便仍记为。 第二步 建立变量的相关系数阵 其中 若作Q型因子分析,则建立样品的相似系数阵。其中 以下步骤类似,只是将相关阵R改变成相似阵Q即可。 第三步 求R的特征根及相应的单位特征向量,分别记为和记 根据累计贡献率的要求比如,取前m个特征根及相应的特征向量写出因子载荷阵: 第四步 对A进行方差最大正交旋转。 第五步 计算因子得分。 例1 将上一章例子对全国30个省市自治区的经济发展八项指标作因子分析。 首先对原始数据标
20、准化,以消除量纲的影响; 第二步 建立指标间的相关系数阵R。 X1 X2 X3 X4 X5 X6 X7 X8 X1 1.000 0.267 0.951 0.191 0.617 -0.274 -0.264 0.874 X2 0.267 1.000 0.426 0.718 -0.151 -0.234 -0.593 0.363 X3 0.951 0.426 1.000 0.400 0.431 -0.282 -0.359 0.792 X4 0.191 0.718 0.400 1.000 -0.356 -0.13
21、4 -0.539 0.104 X5 0.617 -0.151 0.431 -0.356 1.000 -0.255 0.022 0.659 X6 -0.274 -0.234 -0.282 -0.134 -0.255 1.000 0.760 -0.126 X7 -0.264 -0.593 -0.359 -0.539 0.022 0.760 1.000 -0.192 X8 0.874 0.363 0.792 0.104 0.659 -0.126 -0.192 1.000 第三步 求R的特征值和特征向量。 序号 特征值
22、 方差贡献率% 累积贡献率% 1 3.755 46.943 46.943 2 2.195 27.443 74.386 3 1.214 15.178 89.564 4 0.403 5.033 94.596 5 0.213 2.660 97.256 6 0.139 1.737 98.993 7 6.594E-02 0.824 99.817 8 1.462E-02 0.183 100.00 由于前三个特征值的累计贡献率已达89.564%。所以取前三个特征值所对应的特征向量如下: 第一特征向量 u1 第二特征向量 u2 第
23、三特征向量 u3 0.470641 0.107995 0.19241 0.456708 0.256512 0.109819 0.424712 0.287536 0.19241 -0.31944 0.400931 0.397525 0.312729 0.40431 0.24505 0.250802 0.498801 -0.24777 0.240481 -0.48868 0.332179 -0.26267 0.167392 0.723351 第四步 建立因子载荷阵。 因子 指标 Component 1 2 3
24、 X1 0.885 0.383 0.121 X2 0.606 -0.599 0.270 X3 0.912 0.160 0.212 X4 0.466 -0.724 0.366 X5 0.486 0.739 -0.273 X6 -0.509 0.248 0.797 X7 -0.619 0.594 0.438 X8 0.823 0.426 0.212 第五步 对因子载荷阵实行方差最大旋转,旋转后的矩阵如下: 正交因子表 因子 指标 Component 1 2 3 X1 0.955 0.125
25、 -0.132 X2 0.217 0.841 -0.212 X3 0.817 0.352 -0.138 X4 5.102E-02 0.927 -0.114 X5 0.752 -0.505 -0.190 X6 -0.136 -8.325E-03 0.968 X7 -0.102 -0.496 0.820 X8 0.944 0.111 -1.465E-02 以上表可见,每个因子只有少数几个指标的因子载荷较大,因此可根据上表进行分类,将8个指标按高载荷分成三类,列于下表: 高载荷指标 意 义 1 X1:GDP X3:固定资产
26、投资 X8:工业总产值 总量因子 2 X2:居民消费水平 X4:职工平均工资 X5:货物周转量 消费因子 3 X6:居民消费价格指数 X7:商品零售价格指数 价格因子 第一个因子在指标X1、X2、有较大的载荷,这些是从GDP、固定资产投资、工业总产值三个方面反映经济发展状况的,因此命名为总量因子。 第二个因子在指标X2、X4、X5有较大的载荷,这些是从居民消费水平,职工平均工资、货物周转量这三方面反映经济发展状况的,因此命名为消费因子。 第三个因子在指标X6、X7有较大的载荷,因此命名为价格因子。 例2 利用1995年的数据对我国社会发展状况进行综合考察。原始数
27、据如下: 地 区 人均GDP(元) X1 新增固定资产(亿元) X2 城镇居民人均年可支配收入(元) X3 农村居民家庭人均纯收入(元) X4 高等学校数(所) X5 卫生机构数(个) X6 北京 10265 30.81 6235 3223 65 4995 天津 8164 49.13 4929 2406 21 3182 河北 3376 77.76 3921 1668 47 10266 山西 2819 33.97 3305 1206 26 5922 内蒙 3013 54.51 2863 1208 19
28、 4915 辽宁 6103 124.02 3706 1756 61 6719 吉林 3703 28.65 3174 1609 43 3891 黑龙江 4427 48.51 3375 1766 38 7637 上海 15204 128.93 7191 4245 45 5288 江苏 5785 101.09 4634 2456 67 12039 浙江 6149 41.88 6221 2966 37 8721 安徽 2521 55.74 3795 1302 35 6593 福建 5386 18.
29、35 4506 2048 30 4537 江西 2376 26.28 3376 1537 31 5423 山东 4473 102.54 4264 1715 48 10463 河南 2475 71.36 3299 1231 50 7661 湖北 3341 37.75 4028 1511 56 9744 湖南 2701 43.10 4699 1425 47 9137 广东 6380 51.82 7438 2699 42 8848 广西 2772 32.52 4791 1446 27 5571
30、 海南 4820 5.35 4770 1519 5 1653 四川 2516 80.97 4002 1158 64 18885 贵州 1553 22.07 3931 1086 22 3934 云南 2490 48.48 4085 1010 26 6395 陕西 2344 26.31 3309 962 46 6215 甘肃 1925 14.84 3152 880 17 4131 青海 2910 4.16 3319 1029 7 1176 宁夏 2685 7.94 3382 998 7 1
31、028 新疆 3953 26.65 4163 1136 21 3932 资料来源:《中国统计年鉴》。 第一步 将数据标准化。 第二步 建立指标间相关系数阵R如下: X1 X2 X3 X4 X5 X6 X1 1.00 0.46 0.76 0.93 0.29 -0.06 X2 0.46 1.00 0.26 0.45 0.66 0.57 X3 0.76 0.26 1.00 0.85 0.25 0.13 X4 0.93 0.45 0.85 1.00 0.39 0.09 X5 0.29 0.66 0.
32、25 0.39 1.00 0.75 X6 -0.06 0.57 0.13 0.09 0.75 1.00 第三步 求R的特征值和累计贡献率。 序号 特征值 方差贡献率 累计贡献率 1 3.324650 55.41083 55.4108 2 1.790678 29.84463 85.2555 3 0.492583 8.20972 93.4652 4 0.263991 4.39985 97.8650 5 0.88465 1.47442 99.3395 6 0.039633 0.66054 100.0000 第四步 建
33、立因子载荷阵。 由于前三个特征值的累计贡献率已达93.46%,故取前三个特征值建立因子载荷阵如下: 因子 指标 Factor Factor Factor 1 2 3 1 0.612657 -0.141217 0.284904 2 0.240291 0.31504 0.888718 3 0.920468 0.158874 -0.00789 4 0.953077 0.33665 0.190316 5 0.189462 0.502540 0.307010 6 -0.30776 0.928865 0.252020
34、 第五步 将因子载荷阵实行方差最大正交旋转,得正交因子表如下: 因子 指标 Factor Factor Factor 1 2 3 X1 0.953927 -0.18684 0.188985 X2 0.339698 0.566074 0.750912 X3 0.900450 0.108737 -0.133105 X4 0.974914 0.131773 0.54662 X5 0.259744 0.884824 0.86750 X6 -0.24689 0.962015 0.049149 第六步 将六个指标按
35、高载荷分成三类,并结合专业知识对各因子给此命名如下: 高载荷指标 因子命名 1 人均GDP 城镇居民人均年可支配收入 农村居民家庭人均纯收入 收入因子 2 高等学校数 卫生机构数 社会因子 3 新增固定资产 投资因子 例3 对我国30个省市自治区的农业生产情况作因子分析。从农业生产条件和生产结果及效益出发,选取六项指标分别为:X1—乡村劳动力人口(万人)、X2—人均经营耕地面积(亩)、X3—户均生产性固定资产原值(元)、X4—家庭基本纯收入(元)、X5—人均农业总产值(千元/人)、X6—增加值占总产值比重(%),原始资料数据如下页表。 第一步 将原始数据
36、标准化如第194页表。 序号 地 区 X1 X2 X3 X4 X5 X6 1 北 京 66.9 0.93 2972.41 3290.73 2.525 49.7 2 天 津 80.2 1.64 4803.54 2871.62 1.774 49.6 3 河 北 1621.8 2.03 4803.54 2871.81 0.8004 54 4 山 西 635.4 2.76 2257.66 1499.14 0.555 56.2 5 内蒙古 514.1 10.17 5834.94 1550.15 0.9
37、051 66.4 6 辽 宁 605.1 2.96 3108.86 2059.35 1.4752 53.1 7 吉 林 534.2 4.73 4767.51 1940.46 1.1154 63.1 8 黑龙江 494.8 8.24 5573.02 2075.42 1.6283 57.8 9 上 海 66 1.02 1660.03 4571.81 3.0448 35.6 10 江 苏 1530.2 1.26 2826.86 2868.33 1.1921 50.6 11 浙 江 1123.1 0.9
38、4 5494.23 3289.07 0.8565 63.3 12 安 徽 1953.6 1.44 3573.62 1508.24 0.5756 59.2 13 福 建 775.8 0.82 2410.05 2295.19 1.1496 62.8 14 江 西 1103.2 1.3 2310.98 1804.93 0.6649 59.9 15 山 东 2475.1 1.44 3109.11 1989.53 0.8809 55 16 河 南 2815.8 1.5 3782.26 1508.36 0.58
39、23 58.5 17 湖 北 1296.5 1.6 2291.6 1754.13 0.8799 62.8 18 湖 南 2089.3 1.42 2348.72 1719.18 0.587 64.7 19 广 东 1439.8 0.88 3249.61 2928.24 1.096 59.7 20 广 西 1579.9 1.43 3090.17 1590.9 0.5694 64.5 21 海 南 165.9 1.35 4454.77 1575.49 0.3535 65.2 22 四 川 3903.7
40、 1.08 2870.45 1340.61 0.4443 64.1 23 贵 州 1376.6 1.18 2282.27 1206.25 0.2892 65.4 24 云 南 1642.2 2.42 4025.06 1096.73 0.3456 64.2 25 西 藏 88.6 2.51 11559.83 1257.71 0.4349 70.4 26 陕 西 1046.1 2.6 2228.55 1091.96 0.4383 59.7 27 甘 肃 672 5.86 2879.36 1037.12
41、 0.4883 57.2 28 青 海 137.1 2.62 6725.11 1133.06 0.4096 70.3 29 宁 夏 139.1 4.01 5607.97 1346.89 0.4973 62.5 30 新 疆 288.5 3.96 7438.13 1161.71 1.4939 57.8 资料来源:《中国统计年鉴》1997,其中家庭基本纯收入是由两部分组成即家庭经营收入和劳动者报酬收入,人均农业总产值是用农业总产值/乡村劳动力人口。 X1 X2 X3 X4 X5 X6 北 京 -1.1238 -0.7
42、543 -0.5264 1.7305 2.5341 -1.4575 天 津 -1.1090 -0.4209 0.3907 1.2049 1.3371 -1.4285 河 北 0.6089 -0.2378 0.5625 0.0688 -0.2146 -0.7893 山 西 -0.4903 0.1048 -0.8844 -0.5164 -0.6057 -0.4697 内蒙古 -0.6254 3.5837 0.9074 -0.425 -0.0477 1.0120 辽 宁 -005240 0.1987 -0.4580 0
43、18612 0.8608 -0.9200 吉 林 -0.6030 1.0297 0.3727 0.0370 0.5847 0.5326 黑龙江 -0.6469 2.6776 0.7762 0.2062 1.1048 -0.2372 上 海 -1.1248 -0.7120 -1.1837 3.3373 3.3625 -3.4623 江 苏 0.5069 -0.5993 -0.5993 1.2007 0.4096 -1.2832 浙 江 0.0532 -0.7496 0.7367 1.7284 -0.1252 0.
44、5617 安 徽 -0.9787 -0.5148 -0.2252 -0.5050 -0.5729 -0.0338 福 建 -0.3338 -0.8059 -0.8081 0.4819 0.3419 0.4890 江 西 0.0310 -0.5805 -0.8577 -0.1329 -0.4306 0.0677 山 东 1.5599 -0.5148 -0.4579 0.0985 -0.0863 -0.6440 河 南 1.9396 -0.4866 -0.1207 -0.5049 -0.5622 -0.1355 湖
45、 北 0.2464 -0.4397 -0.8674 -0.1966 -0.0879 0.4890 湖 南 1.1299 -0.5242 -0.8388 -0.2405 -0.5547 0.7651 广 东 0.4061 -0.7777 -0.3875 1.2759 0.2564 0.0387 广 西 0.5622 -0.4674 -0.4014 -0.5828 0.7360 海 南 -1.0135 -0.5195 0.2160 -0.4207 -0.9269 0.8377 四 川 3.1520 -0.6838
46、 -0.5774 -0.7153 -0.7822 0.6779 贵 州 0.3557 -0.6369 -0.8721 -0.8838 -1.0294 0.8667 云 南 0.6317 -0.0547 0.0008 -1.0212 -0.9395 0.6924 西 藏 -1.0996 -0.0125 3.7750 -0.8192 -0.7972 1.5931 陕 西 -0.0326 0.0297 -0.8990 -1.0271 -0.7917 0.0387 甘 肃 -0.4495 1.5602 -0.5640
47、1.0959 -0.7120 -0.3244 青 海 -1.0456 0.0391 1.3532 -0.9756 -0.8375 1.5786 宁 夏 -1.0434 0.6917 0.7937 -0.7074 -0.6977 0.4455 新 疆 -0.8769 0.6682 1.7104 -0.9397 0.8906 -0.2372 第二步 建立指标间的相关系数阵R: 第三步 求R的特征值和特征向量。 序 号 特征值 贡献率 累积贡献率(%) 1 2.7765 46.2756 46.2756 2 1.7
48、409 29.0160 75.2917 3 0.7116 11.8612 87.1529 4 0.4334 7.2248 94.3778 5 0.2369 3.9484 98.3263 6 0.1004 1.6736 100 由于前三个特征值累积贡献率已达87.15%,所以取前三个特征值所对应的特征向量如下: u1 u2 u3 0.1460 -0.6242 -0.1854 0.1631 0.5270 0.7547 0.2421 0.5272 0.5369 -0.5463 0.0153 0.2325 -0.5455 0.23
49、17 -0.0422 0.5453 0.0225 0.2276 第四步 列出因子载荷矩阵表。 因子 指标 a1 a2 a3 X1 0.2433 -0.8236 -0.1564 0.7621 X2 0.2718 0.6954 0.6366 0.9629 X3 0.4035 0.6957 0.4529 0.8520 X4 -0.9103 0.0202 0.1961 0.8675 X5 -0.9089 0.3057 -0.0356 0.9210 X6 0.9086 0.0296 0.192 0.8
50、634 第五步 对因子载荷阵实行方差最大正交旋转,旋转后的矩阵如下: 因子 指标 F1 F2 F3 X1 -0.3793 -0.7252 -0.3036 X2 -0.1046 0.2178 0.9510 X3 -0.2957 0.8698 0.0890 X4 0.8862 0.0265 -0.2852 X5 0.9499 0.1206 0.0645 X6 -0.8976 0.2402 -0.0009 由上表可见,每个因子只对应少数几个指标的因子载荷较大,因此可根据上表对指标进行分类。 第六步 将六项指标按高载荷分成三类,并结合






