资源描述
(word完整版)用spss软件对房地产开发完成投资的因子分析
摘 要
房地产开发投资是指房地产开发公司、商品房建设公司及其他房地产开发法人单位和附属于其他法人单位实际从事房地产开发或经营的活动单位统一开发的包括统筹待建、拆迁还建的住宅、厂房、仓库、饭店、宾馆、度假村、写字楼、办公楼等房屋建筑物和配套的服务设施。房地产市场健康平稳发展是反映一个社会经济现象健康稳定的重要指标,毋庸置疑,房地产在国民经济中占有十分重要的地位。本文运用SPSS软件,通过对2013年的分地区按项目规模分房地产开发完成投资的数据进行因子分析,分析了房地产发展的影响因素,从而提出合理的发展建议。
关键词:因子分析 房地产 SPSS
目 录
1 设计目的 3
2 设计问题 3
3 设计原理 4
4 操作步骤 4
5 结果分析 6
5。1描述统计量 6
5。2 因子分析的前提条件 7
5。3 因子提取和因子载荷矩阵的求解 8
5。4 使因子更具有命名可解释性 11
5.5 计算各样本的因子得分 14
总 结 16
参考文献 17
对房地产开发完成投资的因子分析
1 设计目的
学会应用SPSS软件进行相关的因子分析,同时更好的了解应用多元统计分析的知识,熟练掌握应用多元统计分析在实际问题上的应用,并将所学的知识结合SPSS对数据的处理解决实际问题。本设计是利用因子分析理论对全国分地区按项目规模分房地产开发投资进行分析,并用SPSS软件进行求解。
2 设计问题
全国各省分地区房地产开发完成投资表如下表
表2。1 按项目规模分房地产开发投资表
地 区
1000万元
1000-
3000-
5000万-
1—5
5-10
10亿元
以下
3000万元
5000万元
1亿元
亿元
亿元
以 上
北 京
0
1
4
17
144
367
2950
天 津
0
1
2
9
205
287
977
河 北
0
11
21
104
1020
727
1562
山 西
1
17
22
98
470
270
430
内蒙古
2
19
31
96
463
321
547
辽 宁
1
12
23
119
1651
1607
3037
吉 林
1
10
17
60
385
310
469
黑龙江
1
14
48
70
411
300
760
上 海
0
1
2
11
239
458
2108
江 苏
1
11
25
122
1804
1775
3504
浙 江
0
9
17
104
1396
1398
3291
安 徽
2
15
24
90
960
981
1875
福 建
1
10
18
70
756
755
2093
江 西
1
9
19
64
489
333
261
山 东
2
22
45
243
1635
1338
2159
河 南
1
18
33
190
1385
913
1304
湖 北
1
24
39
138
863
535
1685
湖 南
2
27
46
163
955
507
929
广 东
2
22
34
128
1354
1246
3704
广 西
1
11
24
81
565
385
547
海 南
0
1
4
26
255
228
683
重 庆
1
11
17
82
630
542
1730
四 川
1
17
37
209
1275
1284
1029
贵 州
1
9
21
71
574
299
967
云 南
1
17
33
127
732
368
1210
西 藏
0
1
8
0
陕 西
1
9
18
52
470
441
1251
甘 肃
2
16
24
78
329
136
140
青 海
0
2
1
12
90
54
88
宁 夏
0
4
10
25
266
139
115
新 疆
3
29
39
102
366
117
169
数据来源:2014年《中国统计年鉴》
3 设计原理
1 确定因子载荷:主成分法、主轴因子法、最小二乘法、极大似然法、α 因子
提取法等。由于这些方法求解因子载荷的出发点不同,所得的结果也不完全
相同。
2 因子旋转:因子旋转分为正交旋转与斜交旋转,正交旋转由初始载荷矩阵A
左乘一正交阵而得到。经过正交旋转而得到的新的公因子仍然保持彼此独立的性
质。而斜交旋转则放弃了因子之间彼此独立这个限制,因而可能达到更为简洁的
形式,其实际意义也更容易解释.但不论是正交旋转还是斜交旋转,都应当使新
的因子载荷系数要么尽可能地接近与零,要么尽可能地远离零.
3 因子得分:因子得分就是公共因子在每一个样品点上的得分。根据因子得分我们可以知道哪个省的房地产发展水平较高,哪个省的房地产需要在基本住房方面加大投资力度.
4 操作步骤
(1)将数据输入SPSS后,在SPSS窗口选择分析描述统计描述,然后将变量选入变量框,在选项点击均值在离散中最大值、最小值和标准差,在显示顺序点击变量列表
(2)将数据输入SPSS后,在SPSS窗口选择分析→降维→因子分析→将数据选入变量框中.
(3)点击描述按钮,展开相应对话框,选择统计量中的单变量描述性,相关矩阵中的系数及KMO 和 Bartlett 的球形度检验和相关性水平。单击继续按钮,返回主界面。
(4)点击抽取按钮,设置因子提取的选项,在方法下拉菜单栏里选择主成分法,在分析框中选相关性矩阵,未旋转的因子解,碎石图抽取中基于特征值大于1,最后,选最大因子迭代数为25次,单击继续按钮,返回主界面。
(5)点击旋转按钮,设置因子旋转方法,选择方差最大旋转,并选择输出中的旋转解,单击继续按钮,返回主界面。
(6)点击得分按钮,设置因子得分的选项。选中保存为变量,方法为回归,将因子得分作为新变量保存在数据文件中。选中显示因子得分系数矩阵按钮,这样在结果输出窗口中会给出因子得分系数矩阵。单击继续按钮,返回主界面。
(7)点击选项按钮,在出来的界面缺失值中选均值替代,系数排序选择按大小排序,单击继续按钮,返回主界面。
(8)最后,在主界面上点击确定,输出结果.
5 结果分析
5.1描述统计量
利用spss软件得到表5。1.1:
表5。1.1 描述统计量
N
极小值
极大值
均值
标准差
小于1000万
30
0
3
1。09
。800
一千万到三千万
31
0
29
12。20
7。922
三千万到五千万
30
1
48
23。27
13.348
五千万到一亿
31
1
243
89。08
59.289
一到五亿
31
8
1804
714。34
504。935
五到十亿
30
54
1775
613.99
479.740
十亿以上
31
0
3704
1341。10
1080。054
有效的 N (列表状态)
30
我们可以看到,七个变量的标准差随着开发完成投资的金额逐渐增多,标准差也越来越大。得到样品的因子得分后,可以对样本点进行分析。
5。2 因子分析的前提条件
利用spss得到Correlation Matrix原有变量的相关系数矩阵
表5。2.1 相关矩阵a
小于1000万
一千万到三千万
三千万到五千万
五千万到一亿
一到五亿
五到十亿
十亿以上
相关
小于1000万
1。000
。859
。787
.537
.215
。054
-。147
一千万到三千万
。859
1。000
。870
.787
。474
.196
。051
三千万到五千万
.787
。870
1。000
。777
.489
.292
.020
五千万到一亿
。537
.787
.777
1。000
.806
。584
。287
一到五亿
.215
.474
。489
.806
1.000
。908
。682
五到十亿
.054
。196
.292
.584
.908
1.000
.775
十亿以上
—。147
。051
.020
.287
.682
。775
1。000
Sig.(单侧)
小于1000万
。000
。000
。001
.127
。388
.218
一千万到三千万
.000
.000
.000
。004
。146
.393
三千万到五千万
.000
。000
。000
.003
.059
.458
五千万到一亿
.001
。000
。000
。000
。000
。059
一到五亿
。127
。004
.003
.000
.000
.000
五到十亿
。388
。146
.059
.000
。000
。000
十亿以上
。218
.393
.458
。059
.000
.000
a。 行列式 = 6.34E—005
从相关系数矩阵得知:大部分的相关系数都比较高,各变量之间有较强的相关性,能够从中提取公共因子,进行因子分析是合适的.
利用spss得到K—W检验如表5。2.2:
表5.2.2 KMO 和 Bartlett 的检验
取样足够度的 Kaiser-Meyer-Olkin 度量。
.614
Bartlett 的球形度检验
近似卡方
249.690
df
21
Sig。
。000
由图可知:Bartlett 的球形度检验的自由度21,sig值小于0。05,无限接近于0,说明原变量之间存在相关关系。同时,Kaiser—Meyer-Olkin为0。614,较接近于1,根据KOM度量标准可知此数据适合做因子分析。
5.3 因子提取和因子载荷矩阵的求解
利用spss得到表5.3.1:
表5.3.1 公因子方差
初始
提取
小于1000万
1。000
。850
一千万到三千万
1.000
.932
三千万到五千万
1。000
。892
五千万到一亿
1.000
。869
一到五亿
1.000
。954
五到十亿
1。000
.924
十亿以上
1.000
.814
提取方法:主成份分析.
这是因子分析的初始解,显示了所有数据变量的共同度数据。可以看到:等变量的绝大部分信息(大于90%)可被因子解释,这些变量的信息丢失较少。但其余的四个变量的信息也都保存了80%以上的信息.因此,本次因子提取的总体效果是比较理想。
表5。3.2 解释的总方差
成份
初始特征值
提取平方和载入
旋转平方和载入
合计
方差的 %
累积 %
合计
方差的 %
累积 %
合计
方差的 %
累积 %
1
4.084
58.350
58.350
4.084
58。350
58.350
3。381
48.304
48。304
2
2.150
30.714
89。064
2.150
30.714
89.064
2。853
40.760
89。064
3
.363
5。189
94。253
4
.199
2.837
97。089
5
.144
2。060
99。150
6
.044
。623
99。772
7
。016
。228
100。000
提取方法:主成份分析。
由方差解释表可知特征值=4.084,=2。150,……,相应的方差贡献的百分比为:第一公共因子:58。350%,第二公共因子:30.714%,……,取前两个公共因子时的累计贡献率已经达到89.064%,还差一点达到90%的要求又满足特征值大于1的要求,所以取两个公共因子。
以特征值为竖坐标,以成分数为横坐标,利用spss得到图一:
图一
由图可知:横坐标为因子分析数目,纵坐标为特征根。前两个的因子特征值很高,对解释原有变量的贡献大;以后的因子特征根值都很小,对解释原有变量的贡献很小,已经成为可被忽略的,因此提取2个因子是合适的。
由spss得到成分矩阵表如表5.3.3:
表5。。3。3 成份矩阵a
成份
1
2
五千万到一亿
.931
—。032
一到五亿
.848
.485
三千万到五千万
.841
-.429
一千万到三千万
。840
-。476
小于1000万
.661
-.643
十亿以上
。432
.792
五到十亿
.679
.680
提取方法 :主成分分析法。
a. 已提取了 2 个成份.
可知,4个变量在第一个因子的载荷值都很高.即说明他们与第一个因子的相关程度高,而3个变量在第二个因子的载荷值都很高,对原有变量的解释显著。下面采用方差最大法对旋转成份矩阵实施正交旋转。
5。4 使因子更具有命名可解释性
对因子载荷阵进行旋转,如表5。4。1:
表5。4.1 旋转成份矩阵a
成份
1
2
一千万到三千万
。957
.126
三千万到五千万
。930
。165
小于1000万
.915
—。114
五千万到一亿
.763
。536
五到十亿
。132
.952
一到五亿
。384
。898
十亿以上
-.133
.893
提取方法 :主成分分析法。
旋转法 :具有 Kaiser 标准化的正交旋转法.
a. 旋转在 3 次迭代后收敛。
表5。4。2 因子的解释
高载荷指标
意义
1
X1
X2
X3
X4
高级因子
2
X5
X6
X7
低级因子
从旋转后的正交因子载荷阵得知:
由于旋转后的因子载荷阵按照成份按照大小得分,而且同时它还具有两极分化的趋势,可以用趋向于1的变量来解释高级因子,趋向于0的变量来解释低级因子
公共因子F1在X1、X2、X3、X4、的载荷值较大,公共因子F2在X5、X6、X7上载荷值较高。
利用spss得表5。4.3:
表5.4。3 成份转换矩阵
成份
1
2
1
.798
。603
2
—.603
.798
提取方法 :主成分分析法。
旋转法 :具有 Kaiser 标准化的正交旋转法.
可知它们自己相关性很好,而它们之间接近于独立说明因子分的比较满意.
即
X1=0.915F1-0。144F2
X2=0.957F1+0.126F2
X3=0.930F1+0.165F2
X4=0。763F1+0。536F2
X5=0.348F1+0.898F2
X6=0。132F1+0.952F2
X7=-0。133F1+0.893F2
由因子分析模型可知道,第一个主因子主要由投资1000万以下、1000万到3000万、3000万到5000万、5000万到1亿这四个指标决定,它反映城市的基本住房条件。它们当中只有5000万到1亿的载荷在76。3%,其余的都大于90%,它们的在主因子F1上的载荷在90%以上,它代表分地区1亿以下项目的资金投放额,它代表F1对方差的贡献率达到80%之多。
第二个因子F2由投资1亿到5亿、5亿到10亿、10亿以上决定,代表较大规模的分房地产开发项目的投资, 它反映的是城市住房规模和经济发展水平。
图二
在图中可以直观的看出:X1,X2,X3,X4基本在一起,可以命名为高级因子。X5,X6,X7基本在一起命名为低级因子,同样从此图也可以得出以上结论.
5.5 计算各样本的因子得分
利用spss软件得到表5。5.1:
表5.5.1 成份得分系数矩阵
成份
1
2
小于1000万
。309
-。141
一千万到三千万
。298
-。053
三千万到五千万
.285
-。035
五千万到一亿
.191
。125
一到五亿
.030
.305
五到十亿
—.058
.353
十亿以上
—.138
.358
根据表中的因子得分系数和原始变量的标准化值可以计算每个观测值的各因子的得分数,并可以根据此对观测量进行进一步的分析。旋转后的因子得分表达式可以写成:
F1=0.309X1+0.298X2+0。285X3+0.191X4+0。030X5-0.058X6-0.138X6
F2=—0。141X1—0.053X2-0.035X3+0。125X4+0.305X5+0.353X6+0。358X7
最后,计算因子得分,以各因子的方差贡献率占两个因子总方差贡献率的比重作为权重进行加权汇总,得出各城市的综合得分F:
F=(48。304*F1+40.760*F2)/89.604
结果如表5.5。2:
表5。5。2
地区
F1
F2
综合得分
排名
山 东
1.47608
1.44818
1.463311609
1
广 东
0。78879
1。44171
1.087597815
2
四 川
1。02252
0.85119
0.944111094
3
江 苏
-0。4845
2。42132
0.845343968
4
湖 南
1。7491
—0.25428
0.832256283
5
辽 宁
—0.12937
1。90373
0。801075028
6
河 南
0.81824
0。73589
0。780552652
7
湖 北
0。98543
0.09794
0。579271593
8
新 疆
2。07473
-1。4938
0.441597839
9
浙 江
—0.77872
1。83512
0.417499779
10
安 徽
0。31048
0。45184
0。375173182
11
云 南
0。63101
—0。22983
0.237047923
12
内蒙古
1。03343
-0.90047
0。148383696
13
黑龙江
0。806
—0.80241
0.069913685
14
河 北
—0.36523
0.52238
0。040983325
15
福 建
—0.57281
0。45984
-0。100219346
16
山 西
0。46636
—0。78149
—0.104716597
17
重 庆
—0。38226
0。09232
—0。165069207
18
广 西
0.08964
-0。54674
—0.20159831
19
甘 肃
0。58795
-1.16364
—0.213662418
20
贵 州
-0.16606
—0。44262
-0.292627251
21
陕 西
-0。53039
-0.26548
—0。409154354
22
吉 林
-0.0996
—0。77985
—0。410915346
23
江 西
-0。30317
—0.65466
-0。464028848
24
西 藏
-0。60973
—0。97634
-0.777508492
25
北 京
-1。66701
0.15388
—0.833682546
26
上 海
-1.65148
0.00802
-0.892012426
27
宁 夏
-1。01675
-0.89641
-0。961676588
28
海 南
—1.33926
—0。60723
-1。004247618
29
天 津
-1.47361
—0。53853
-1。045672104
30
青 海
-1。2698
—1。08957
—1.187318023
31
结合各个城市在两个因子上的得分以及综合得分,可以对各省房地产发展水平进行评价,在因子F1上得分较高的是新疆、山东、湖南三省,说明项目投资在这三省主要是基本的住房条件,在F2上得分较高的是江苏、辽宁、山东三省,说明这三省的房地产投资规模较大.而综合得分前三名是山东、广东、四川,说明这几个省份的房地产发展水平较高。
总 结
因子分析是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法.它的基本思想是根据相关性大小把原始变量分组,使得同组之间变量相关性较高,不同组之间的变量的相关性则较低。本篇论文中我对全国各省房地产开发完成投资情况做了相关的因子分析,得出结果,我国北方地区的房地产开发投资情况,在居民基本住房方面相比较东部城市占的比例较大。而南方地区的经济发展水平较高,主要在高规模住房方面有较大投资。
参考文献
[1]何晓群.多元统计分析. 北京:中国人民大学出版社,2004
[2]方开泰,张尧庭.多元统计分析引论. 北京:科学出版社,1982
[3]王国梁,何晓群。多变量数据统计分析. 西安:陕西科学出版社,1993
[4]方开泰。实用多元统计分析。 上海:华东师范大学出版社,1989
19
展开阅读全文