资源描述
实验四 R型因子分析
1.实验目的:
本实验讨论利用R型因子分析从具有错综复杂关系的变量中,找出数量较少的几个公因子来描述原始的变量,并且尽量减少信息的损失。通过该实验,能够起到如下的效果:(1) 理解因子分析的作用、思想、数学基础、方法和步骤;(2) 熟悉如何利用因子分析,提出问题、分析问题、解决问题、得出结论; (3)会调用SAS软件实现因子分析的各个步骤,根据计算的结果进行分析,得出正确的结论,解决实际的问题。
2.知识准备:
R型因子分析是从具有错综复杂关系的变量中,找出数量较少的几个公因子来描述原始的变量,并且尽量减少信息的损失。其思想是:找出少量的不相关的若干个随机变量(公因子),))尽最大信息的描述原始众多的关系复杂的变量。其数学模型有很多,如正交因子模型【1】,因子分析模型L【4】等,它们的数学模型和方法均有不相同。我们下面采用因子分析模型L来进行分析。R型因子分析的步骤大体分为:首先正向化指标;然后计算样本相关阵的特征值、单位特征向量和方差贡献率,根据方差贡献率选取适当数量的初始因子,并得到初始因子载荷阵;再对初始因子进行旋转,选用行及列的元素的绝对值向0、1分化严重的旋转因子载荷阵对应的旋转因子作为最终的公因子;最后利用因子载荷阵求出因子得分函数。
3.实验内容:
表1的数据是全国30个省市自治区经济发展基本情况,其中X1- GDP ,X2-居民消费水平,X3-固定资产投资,X4-职工平均工资,X5-货物周转量,X6-居民消费价格指数,X7-商品零售价格指数,X8-工业总产值,数据来源:1996年《中国统计年鉴》;见【1】
表1 全国30个省市自治区经济发展基本情况
序号
省市
X1
X2
X3
X4
X5
X6
X7
X8
1
北京
1394.89
2505
519.01
8144
373.9
117.3
112.6
843.43
2
天津
920.11
2720
345.46
6501
342.8
115.2
110.6
582.51
3
河北
2849.52
1258
704.87
4839
2033.3
115.2
115.8
1234.85
4
山西
1092.48
1250
290.9
4721
717.3
116.9
115.6
697.25
5
内蒙
832.88
1387
250.23
4134
781.7
117.5
116.8
419.39
6
辽宁
2793.37
2397
387.99
4911
1371.1
116.1
114
1840.55
7
吉林
1129.2
1872
320.45
4430
497.4
115.2
114.2
762.47
8
黑龙江
2014.53
2334
435.73
4145
824.8
116.1
114.3
1240.37
9
上海
2462.57
5343
996.48
9279
207.4
118.7
113
1642.95
10
江苏
5155.25
1926
1434.95
5943
1025.5
115.8
114.3
2026.64
11
浙江
3524.79
2249
1006.39
6619
754.4
116.6
113.5
916.59
12
安徽
2003.58
1254
474
4609
908.3
114.8
112.7
824.14
13
福建
2160.52
2320
553.97
5857
609.3
115.2
114.4
433.67
14
江西
1205.11
1182
282.84
4211
411.7
116.9
115.9
571.84
15
山东
5002.34
1527
1229.55
5145
1196.6
117.6
114.2
2207.69
16
河南
3002.74
1034
670.35
4344
1574.4
116.5
114.9
1367.92
17
湖北
2391.42
1527
571.68
4685
849
120
116.6
1220.72
18
湖南
2195.7
1408
422.61
4797
1011.8
119
115.5
843.83
19
广东
5381.72
2699
1639.83
8250
656.5
114
111.6
1396.35
续表
序号
省市
X1
X2
X3
X4
X5
X6
X7
X8
20
广西
1606.15
1314
382.59
5105
556
118.4
116.4
554.97
21
海南
364.17
1814
198.35
5340
232.1
113.5
111.3
64.33
22
四川
3534
1261
822.54
4645
902.3
118.5
117
1431.81
23
贵州
630.07
942
150.84
4475
301.1
121.4
117.2
324.72
24
云南
1206.68
1261
334
5149
310.4
121.3
118.1
716.65
25
西藏
55.98
1110
17.87
7382
4.2
117.3
114.9
5.57
26
陕西
1000.03
1208
300.27
4396
500.9
119
117
600.98
27
甘肃
553.35
1007
114.81
5493
507
119.8
116.5
468.79
28
青海
165.31
1445
47.76
5753
61.6
118
116.3
105.8
29
宁夏
169.75
1355
61.98
5079
121.8
117.1
115.3
114.4
30
新疆
834.57
1469
376.95
5348
339
119.7
116.7
428.76
(1) 利用因子分析模型L进行分析,找出适当的公共因子及相应的因子得分函数;
(2) 利用上面的因子得分函数对样品进行聚类分析,并给出适当的结论。
4.实验步骤:
(1) 利用因子分析模型L进行分析,找出适当的公共因子及相应的因子得分函数:
1. 读入数据,并且正向化指标;
SAS程序:
Data economy1;
input X1-X8;
cards;
1394.89 2505 519.01 8144 373.9 117.3 112.6 843.43
920.11 2720 345.46 6501 342.8 115.2 110.6 582.51
2849.52 1258 704.87 4839 2033.3 115.2 115.8 1234.85
1092.48 1250 290.9 4721 717.3 116.9 115.6 697.25
832.88 1387 250.23 4134 781.7 117.5 116.8 419.39
2793.37 2397 387.99 4911 1371.1 116.1 114.0 1840.55
1129.2 1872 320.45 4430 497.4 115.2 114.2 762.47
2014.53 2334 435.73 4145 824.8 116.1 114.3 1240.37
2462.57 5343 996.48 9279 207.4 118.7 113.0 1642.95
5155.25 1926 1434.95 5943 1025.5 115.8 114.3 2026.64
3524.79 2249 1006.39 6619 754.4 116.6 113.5 916.59
2003.58 1254 474 4609 908.3 114.8 112.7 824.14
2160.52 2320 553.97 5857 609.3 115.2 114.4 433.67
1205.11 1182 282.84 4211 411.7 116.9 115.9 571.84
5002.34 1527 1229.55 5145 1196.6 117.6 114.2 2207.69
3002.74 1034 670.35 4344 1574.4 116.5 114.9 1367.92
2391.42 1527 571.68 4685 849 120 116.6 1220.72
2195.7 1408 422.61 4797 1011.8 119 115.5 843.83
5381.72 2699 1639.83 8250 656.5 114 111.6 1396.35
1606.15 1314 382.59 5105 556 118.4 116.4 554.97
364.17 1814 198.35 5340 232.1 113.5 111.3 64.33
3534 1261 822.54 4645 902.3 118.5 117 1431.81
630.07 942 150.84 4475 301.1 121.4 117.2 324.72
1206.68 1261 334 5149 310.4 121.3 118.1 716.65
55.98 1110 17.87 7382 4.2 117.3 114.9 5.57
1000.03 1208 300.27 4396 500.9 119 117 600.98
553.35 1007 114.81 5493 507 119.8 116.5 468.79
165.31 1445 47.76 5753 61.6 118 116.3 105.8
169.75 1355 61.98 5079 121.8 117.1 115.3 114.4
834.57 1469 376.95 5348 339 119.7 116.7 428.76
;
run;
Data economy2;
set economy1;
X9=100/X6;
X10=100/X7;
run;
语句解释:
“Data economy1;”指将原始数据输入到文件“economy1”中;
“Input X1-X8;cards;”指将后面的数据对应地赋予变量X1-X8;
“Data economy2; set economy1;”指调用 “economy1”中的数据,经计算后存入“economy2”;
“X9=100/X6; X10=100/X7”指将变量“X6、X7”进行正向化的计算,正向化后的数据分别存入变量“X9、X10”;
2. 调用因子分析程序,计算样本相关阵的特征值、单位特征向量和方差贡献率,并根据方差贡献率选取适当数量的因子作为初始因子;
SAS程序:
Proc factor data=economy2 M=prin priors=one p=0.8 simple corr;
var X1-X5 X9 X10 X8;
run;
语句解释:
“Proc factor”指调用因子分析程序;
“data= economy2”指调用“economy2”中的数据;
“M=prin”指定因子提取的方法;可供选择的方法有:prin(主成份法)、prinit(主因子法)、mlim(最大似然法)等;
“priors=one”指定所有变量的初始共性方差估计值为1;
“p=0.8”指定选用的初始因子的累积贡献率和刚好大于0.8;
“simple”指显示均值、标准差及观察个数;
“corr”指显示相关系数阵或偏相关系数阵;
“var X1-X5 X9 X10 X8”指需要分析的变量是“X1-X5 X9 X10 X8”, 其它更多的语句参见书【2】。
运行结果及解释:
图1 相关阵的特征值、累计贡献率
图1数据“Eigenvalue”指相关系数阵的特征值;“Difference”指本行特征值与下行特征值之差;“Proportion”指本行特征值对应初始因子的方差贡献率;“Cumulative”指本行及上面各行特征值对应初始因子的累积贡献率;
图2 因子载荷阵
图1中数据结果说明:前3个因子的累计贡献率为0.8957,大于0.8,因此可以只取前3个因子作为初始因子;
图2、图3中数据“Factor1-Factor3”是三个初始因子;图2中数据显示:载荷矩阵中元素的绝对值向0、1分化不明显,需要作因子旋转;
图3 方差贡献率
图4中数据是变量“X1-X5 X9 X10 X8”的共同度,数据显示:每个变量的共同度都大于或等于0.8,这说明选用3个公因子就可以反映所有变量的绝大部分信息;
图4 各变量的共同度
3. 调用因子分析程序,选取3个初始因子,利用正交方差最大旋转法进行因子旋转;
SAS程序:
Proc factor data= economy2 R=V n=3 score out=result;
var X1-X5 X9 X10 X8;
run;
Proc print data=result;
var factor1-factor3;
run;
语句解释:
“R=V”指定因子旋转的方法;可供选择的方法有:V(正交方差最大旋转法)、Orthomax(最大正交旋转法)、Equamax(正交均方最大旋转法)等;
“n=3”指选取前3个因子为公因子;
“score”指显示因子得分系数;
“out=result”指将每个样品的因子得分“factor1-factor3”输出到文件“result”中;
“proc print data=result; var factor1-factor3;”指将文件“result”中的数据“factor1
-factor3”输出到屏幕上其它更多的语句参见书【2】。
运行结果及解释:
图5 旋转变换的正交矩阵 图6 旋转后的因子载荷阵
图7 旋转后的方差贡献率
图8 旋转后各变量的共同度
图9 最终的因子得分系数
实验结论:
图6中数据显示:旋转后的载荷矩阵中元素的绝对值基本上向0、1分化,所以采用该旋转因子作为最终的公因子;
图8中数据显示:每个变量的共同度都大于或等于0.8,这说明选用3个公因子就可以反映所有变量的绝大部分信息;
图9中数据显示:因子得分函数为(记“Factor1、Factor2、Factor3”分别为“F1、F2、F3”):
F1=0.306Y1+0.023Y2+0.269Y3-0.0246Y4+0.25Y5-0.0676Y6-0.0774Y7+0.31617Y8;
F2=0.011Y1+0.3854Y2+0.128Y3+0.4526Y4-0.3168Y5-0.1803Y6+0.098Y7+0.0263Y8;
F3=-0.045Y1-0.036Y2-0.0717Y3-0.1Y4+0.1344Y5+0.652Y6+0.46269Y7-0.12339Y8;
其中Yi是Xi标准化以后的变量。第一个因子F1与X1-GDP、X3-固定资产投资、X5-货物周转量、X8-工业总产值十分显著正相关,故称F1为经济总量因子;第二个因子F2与X2-居民消费水平、X4-职工平均工资十分显著正相关,与X5-货物周转量略为负相关,称F2为生活因子;第三个因子F3与X6-居民消费价格指数、X7-商品零售价格指数十分显著负相关,故称F3为价格因子;
根据图7中旋转后的方差贡献率为权数构造综合因子得分函数:
F综=(3.207F1+2.2197F2+1.739F3)/8;
容易计算各地区的因子得分的情况,具体见表2。
(2) 利用前面的因子得分函数对样品进行聚类分析,并给出适当的结论:
SAS程序:
Data result;
set result;
F=(3.207*factor1+2.2197*factor2+1.739*factor3)/8;
Proc cluster data= result method=average nonorm ccc pseudo out=tree;
var factor1-factor3;
Proc tree data=tree horizontal spaces=1;
run;
表2 全国30个省市自治区经济发展的因子得分
省市
F1
F2
F3
省市
F1
F2
F3
北京
-0.39597
1.589809
0.243384
河南
1.074393
-1.3164
0.450879
天津
-0.88884
0.987677
1.653053
湖北
0.597638
-0.29957
-1.25684
河北
1.231494
-1.52217
0.778953
湖南
0.261054
-0.52256
-0.52933
山西
-0.36304
-0.66365
0.131739
广东
1.478602
1.679266
1.222039
内蒙
-0.47699
-0.88334
-0.21422
广西
-0.28391
-0.27209
-0.62012
辽宁
0.963183
-0.43057
0.598747
海南
-1.47459
-0.01472
2.295604
吉林
-0.51245
-0.40505
0.942402
四川
1.105847
-0.52109
-0.97603
黑龙江
0.237184
-0.38024
0.56864
贵州
-0.7749
-0.35504
-1.62555
上海
0.60397
3.663595
-0.8434
云南
-0.28856
0.041591
-1.99748
江苏
2.034621
0.268164
0.167279
西藏
-1.59035
0.629962
-0.00828
浙江
0.653131
0.749526
0.316853
陕西
-0.41596
-0.53248
-0.88409
安徽
-0.06817
-0.80282
1.513597
甘肃
-0.72038
-0.22202
-1.0151
福建
-0.2664
0.267655
0.79539
青海
-1.34349
0.183551
-0.47019
江西
-0.55929
-0.68238
0.037252
宁夏
-1.35523
-0.15543
0.125034
山东
2.117601
-0.19441
-0.26507
新疆
-0.5802
0.11523
-1.13516
运行结果及解释:
图10 聚类过程
图11 聚类图
实验结论:
⑴ 取分类的阈值为1.83时,分成七类,结合综合因子得分样品值排名顺序给出相应共性分类:
第一类:广东、浙江、北京;
第二类:上海;
第三类:江苏、山东;
第四类:天津、海南;
第五类:辽宁、河北、河南、福建、黑龙江、安徽、吉林、山西、江西、内蒙古;
第六类:四川、湖北、湖南、广西、新疆、陕西、甘肃、云南、贵州;
第七类:西藏、宁夏、青海。
⑵ 根据上面的数据容易得到30省市旋转后的因子得分和综合因子得分及排序,见表3;
表3 旋转后因子得分、综合因子得分样品值及排序
省 市
z1
序
z2
序
z3
序
z综
序
广 东
1.479
3
1.679
2
1.222
4
1.324
1
上 海
0.604
9
3.664
1
-0.843
23
1.076
2
江 苏
2.035
2
0.268
7
0.167
13
0.926
3
山 东
2.118
1
-0.194
14
-0.265
19
0.738
4
浙 江
0.653
8
0.75
5
0.317
11
0.539
5
辽 宁
0.963
7
-0.431
21
0.599
8
0.397
6
北 京
-0.396
18
1.59
3
0.243
12
0.335
7
天 津
-0.889
26
0.988
4
1.653
2
0.277
8
河 北
1.231
4
-1.522
30
0.779
7
0.241
9
河 南
1.074
6
-1.316
29
0.451
10
0.163
10
福 建
-0.266
14
0.268
8
0.795
6
0.141
11
黑龙江
0.237
12
-0.38
19
0.569
9
0.113
12
续表
省 市
z1
序
z2
序
z3
序
z综
序
四 川
1.106
5
-0.521
22
-0.976
25
0.087
13
安 徽
-0.068
13
-0.803
27
1.514
3
0.079
14
海 南
-1.475
29
-0.015
12
2.296
1
-0.096
15
吉 林
-0.512
21
-0.405
20
0.942
5
-0.113
16
湖 北
0.598
10
-0.3
17
-1.257
28
-0.117
17
湖 南
0.261
11
-0.523
23
-0.529
21
-0.155
18
山 西
-0.363
17
-0.664
25
0.132
14
-0.301
19
广 西
-0.284
15
-0.272
16
-0.62
22
-0.324
20
江 西
-0.559
22
-0.682
26
0.037
16
-0.405
21
新 疆
-0.58
23
0.115
10
-1.135
27
-0.447
22
西 藏
-1.59
30
0.63
6
-0.008
17
-0.464
23
内 蒙
-0.477
20
-0.883
28
-0.214
18
-0.483
24
陕 西
-0.416
19
-0.532
24
-0.884
24
-0.507
25
云 南
-0.289
16
0.042
11
-1.997
30
-0.538
26
宁 夏
-1.355
28
-0.155
13
0.125
15
-0.559
27
甘 肃
-0.72
24
-0.222
15
-1.015
26
-0.571
28
青 海
-1.343
27
0.184
9
-0.47
20
-0.589
29
贵 州
-0.775
25
-0.355
18
-1.626
29
-0.763
30
从表3中数据知道:
第一类的广东、浙江、北京综合因子得分F综值依次排第1、5、7,全部高于平均水平。其经济总量因子F1值依次排3、8、18,其中广东、浙江高于平均水平,有较大优势,而北京低于平均水平。生活因子F2值依次排2、5、3,全部高于平均水平,优势明显。价格因子F3值依次排4、11、12,价格低于平均水平,其中广东远低于平均水平。即该类省市中,广东是经济总量、生活、价格上高质量平衡发展,而其中X5-货物周转量有待加速提高的省份;浙江、北京是生活上相当好,但经济总量、价格上没有协调好的省市。个性原因及问题、建议与下述第二类上海的分析法类似,此略。
第二类:上海综合因子得分F综值排第2,经济总量因子F1值排第9,生活因子F2值排第1,价格因子F3值排第23,价格远高于平均水平。即上海是生活上最好,但经济总量、价格上没有协调好的城市。原因及问题:经济总量因子F1中X1-GDP排第9(2462.57)、X3-固定资产投资排第5(996.48)、X5-货物周转量排第27(207.41)、X8-工业总产值排第4(1642.95),生活因子F2中X2-居民消费水平排第1(5343)、X4-职工平均工资排第1(9279),价格因子F3中X6-居民消费价格指数排第23(118.7)、X7-商品零售价格指数排第6(113)。
建议:上海在继续保持生活因子F2中X2-居民消费水平、X4-职工平均工资排第1优势,经济总量因子F1中应发挥其好的市民素质和利用好已有的工业基础优势,提高X8-工业总产值、X3-固定资产投资,加速提高X5-货物周转量,使X1-GDP再上新水平;价格因子F3中,同步协调好X6-居民消费价格指数、X7-商品零售价格指数的正影响的关系,必然产生更强的优势。
第三类~第七类省份综合评价、建议方法与第一、第二类省市类似。
5. 思考与练习:
⑴ 运用因子分析对我国31个省市自治区的经济发展状况进行评价。
⑵ 运用因子分析对我国31个省市自治区的工业发展状况进行评价。
⑶ 运用因子分析对我国31个省市自治区居民的生活水平进行评价。
参考文献
【1】 于秀林、任雪松(1999):《多元统计分析》,中国统计出版社。
【2】汪远征、徐雅静(2007):《SAS软件与统计应用教程》,机械工业出版社。
【4】林海明:《因子分析模型的改进和应用》,数理统计与管理,28,2009,998-1012。
9
展开阅读全文