资源描述
摘 要
以我国31个主要城市为研究样本,选取平均气温、平均相对湿度、降水量、日照时数、4个反映生态气候情况的主要指标,对我国主要城市气候进行聚类分析。使用spss将全国主要城市的平均气温、平均相对湿度、降水量、日照时数,利用K均值聚类分析法和系统聚类分析法进行分类,并且讨论K均值聚类分析法和系统聚类分析法的异同与哪种方法更好。
关键词:平均气温;平均相对湿度;降水量;日照时数;系统聚类;聚类分析;spss
目录
1. 设计目的 4
2. 聚类分析的基本思想 5
3. 实际问题分析 5
4. 系统聚类分析 6
4.1 实际操作 6
4.2 结果分析 6
5. K均值聚类分析 11
5.1. 基本思想 11
5.2. 操作步骤 11
5.3. 结果分析 12
6.两种方法的结果比较 16
7. 总结 18
参考文献 19
我国主要城市气候的聚类分析
1. 设计目的
了解系统聚类分析法,学会应用spss软件进行系统聚类分析。同时更好的了解应用多元统计分析的知识,熟练掌握应用多元统计分析在实际问题上的应用,并将所学的知识结合spss对数据的处理解决实际问题。本设计是利用spss软件我国31个城市的气候进行聚类分析。我国主要城市的气候利用K均值聚类分析法和系统聚类分析法进行分类,并且讨论K均值聚类分析法和系统聚类分析法的异同与哪种方法更好。
2. 聚类分析的基本思想
找出能够度量样品或指标之间相似程度的统计量以此作为划分类型的依据,把一些相似程度较大的聚合为一类另一些相似程度较大的聚合为一类,直到所有都聚合完毕形成一个由小到大的分类系统
3. 实际问题分析
下表是某年我国31个主要城市平均气温、平均相对湿度、降水量、日照时数的数据,试使用系统聚类法对这些地区进行聚类分析。
城市
平均气温
平均相对湿度
降水量
日照时数
北京
12.7
54.0
571.8
2667.2
天津
12.5
60.8
544.3
2247.8
石家庄
14.2
58.8
517.1
2007.8
太原
11.8
55.2
431.1
2438.7
呼和浩特
7.8
46.9
397.9
2741.1
沈阳
7.4
67.7
690.3
2366.7
长春
5.4
57.6
570.4
2711.5
哈尔滨
4.6
58.1
524.4
2506.5
上海
17.5
68.8
1164.5
1649.5
南京
16.7
70.3
1062.3
1933.3
杭州
17.2
71.3
1454.6
1513.8
合肥
16.8
78.3
995.2
1704.5
福州
21.1
68.3
1393.6
1449.5
南昌
18.9
67.7
1624.4
1712.3
济南
14.9
61.3
672.7
2233.9
郑州
15.8
59.2
632.4
1880.4
武汉
17.1
66.8
1269
1752.2
长沙
18.7
69.6
1331.3
1295.9
广州
22.9
70.8
1736.1
1609.2
南宁
22.6
75.5
1309.8
1478.2
海口
25.4
80.0
1652.1
1800.0
重庆
19.1
81.1
1104.4
961.1
成都
17.7
76.7
927.5
1010.2
贵阳
15.3
75.1
1117.7
1068.2
昆明
17.3
71.8
1011.3
1995.5
西安
16.4
78.1
1033.2
1091.9
拉萨
10.9
33.8
232.6
2672.9
兰州
7.5
53.3
311.7
2657.3
西宁
7.5
57.1
373.8
2534.2
银川
10.6
52.3
240.1
2759.3
乌鲁木齐
8.6
56.0
286.3
2570.5
4. 系统聚类分析
4.1 实际操作
1.操作步骤
[1]在spss将数据导入数据视图;
[2]点击spss选择 分析、分类、系统聚类;选中系统聚类分析主页面,将 城市选入标注个案,将变量平均气温至日照时数移入变量框中。单击定义组 因为本案例是对样本进行聚类,所以在分群中勾选个案,在输出选项组中勾选统计量复选框和图复选框。
[3]点击绘制按钮,选中树状图和冰柱栏中的无,点击继续按钮;
[4] 点击保存按钮,在聚类成员框中选中方案范围按钮,最小聚类数设为2,最大聚类书设为5,继续;
[5]统计量和方法都选择系统默认值;
[6]点击确认按,运行系统聚类过程。
4.2 结果分析
(1) 案例处理汇总表
案例处理汇总a,b
案例
有效
缺失
总计
N
百分比
N
百分比
N
百分比
31
100.0
0
.0
31
100.0
a. 平方 Euclidean 距离 已使用
b. 平均联结(组之间)
案例处理汇总表中汇总了有效数据数量31个,占百分比百分之百,缺失数据0个,占百分之零。总计数量31个,占百分比百分之百。
(2) 聚类过程的结果
聚类表
阶
群集组合
首次出现阶群集
群集 1
群集 2
系数
群集 1
群集 2
下一阶
1
1
7
2030.700
0
0
23
2
10
25
6472.450
0
0
24
3
27
28
6891.980
0
0
8
4
24
26
7712.150
0
0
12
5
11
13
7879.700
0
0
10
6
14
21
8652.120
0
0
18
7
29
31
8976.360
0
0
19
8
27
30
11702.360
3
0
14
9
4
8
13361.980
0
0
19
10
11
20
15090.710
5
0
20
11
2
15
16685.780
0
0
15
12
22
24
16946.055
0
4
17
13
9
17
21471.700
0
0
21
14
5
27
23973.187
0
8
22
15
2
6
26784.820
11
0
25
16
3
16
29527.570
0
0
25
17
22
23
30375.043
12
0
29
18
14
19
33341.820
6
0
26
19
4
29
33759.970
9
7
22
20
11
18
41305.233
10
0
26
21
9
12
54576.150
13
0
24
22
4
5
66153.898
19
14
23
23
1
4
76408.073
1
22
28
24
9
10
96207.958
21
2
27
25
2
3
133658.538
15
16
28
此表是对每一阶段聚类结果的反映,第四列表示聚合系数,第二列第三列表示聚合的类,例如,第一个阶段是把相似程度较大的第一个样品和第七个样品聚为一类,此时有30类,第二个阶段是把相似程度较大的第十个样品和第二十五个样品聚为一类,此时有29类,以此类推。
此图为根据聚类表所制出的折线图
(3)聚类成员表
群集成员
案例
5 群集
4 群集
3 群集
2 群集
1:北京
1
1
1
1
2:天津
2
2
1
1
3:石家庄
2
2
1
1
4:太原
1
1
1
1
5:呼和浩特
1
1
1
1
6:沈阳
2
2
1
1
7:长春
1
1
1
1
8:哈尔滨
1
1
1
1
9:上海
3
3
2
2
10:南京
3
3
2
2
11:杭州
4
3
2
2
12:合肥
3
3
2
2
13:福州
4
3
2
2
14:南昌
4
3
2
2
15:济南
2
2
1
1
16:郑州
2
2
1
1
17:武汉
3
3
2
2
18:长沙
4
3
2
2
19:广州
4
3
2
2
20:南宁
4
3
2
2
21:海口
4
3
2
2
该表每个案例分别在分为五类、四类、三类、二类时所在的类别数,由表可知因为最小聚类数为2,最大聚类数为5 ,类别数分别为2, 3,4,5时样本的类别归属情况。可以结合后面的树状图、冰柱图及研究目的,确定具体的较为合理的类别数与成员归属。
(4)冰柱图
冰柱图也是反映样品聚类情况的图,比如我们希望分为3类,那么最左边的类数应选4,每个样品右边都有一列冰柱,如果某个样品右边的列冰柱长度小于三,那么他和前面冰柱长度大于三的样品聚为一类,如此下去直到找到全部三类为止,例如,案例二十二右边的列冰柱长度为2,那么它就与案例二十三和案例二十八为一类了,第九个案例右边的列冰柱长度为1,那么从案例十九到九为一类,其余为一类。由此,将本题分为了三类
(5)树状聚类图
* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
北京 1 -+-+
长春 7 -+ |
拉萨 27 -+ +-----+
兰州 28 -+ | |
银川 30 -+ | |
呼和浩特 5 -+-+ |
西宁 29 -+ |
乌鲁木齐 31 -+ +---------------------------------------+
太原 4 -+ | |
哈尔滨 8 -+ | |
天津 2 -+ | |
济南 15 -+-+ | |
沈阳 6 -+ +-----+ |
石家庄 3 -+-+ |
郑州 16 -+ |
贵阳 24 -+ |
西安 26 -+ |
重庆 22 -+-------------+ |
成都 23 -+ | |
南京 10 -+-+ | |
昆明 25 -+ +-----+ +---------------------------------+
上海 9 -+ | | |
由上表可以由分类个数得到分类情况,
如果我们选择分类数为5,就从距离大概为4的地方往下切,把地区分为5类,得到分类结果如下:
第一类:北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐
第二类:天津、石家庄、沈阳、济南、郑州
第三类:上海、南京、合肥、武汉、昆明
第四类:长沙、广州、南宁、海口、杭州、福州、南昌、昆明
第五类:重庆、成都、贵阳、西安
如果我们选择分类数为4,就从距离大概为5的地方往下切,把地区分为4类,得到分类结果如下:
第一类:北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐
第二类:天津、济南、郑州、沈阳、石家庄
第三类:上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、
第四类:重庆、成都、贵阳、西安
如果我们选择分类数为3,就从距离大概为6的地方往下切,把地区分为3类,得到分类结果如下:
第一类:拉萨、兰州、西宁、银川、乌鲁木齐、北京、太原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州
第二类:上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明
第三类:重庆、成都、贵阳、西安
如果我们选择分类数为2,就从距离大概为20的地方往下切,把地区分为2类,得到分类结果如下:
第一类:拉萨、兰州、西宁、银川、乌鲁木齐、北京、太原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州
第二类:上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明、重庆、成都、贵阳、西安
5. K均值聚类分析
5.1. 基本思想
把样品粗略分成K个初始类,进行修改,逐个分派样品到其最近均值得类中。重新计算接受新样品的类和失去样品的类的均值,重复,直到各类无元素进出。
5.2. 操作步骤
(1)在菜单中依次单击分析,分类,K-均值聚类,打开K-均值聚类对话框。将 城市选入个案标记依据,将平均气温、平均相对湿度、降水量和日照时数选入变量,聚类数,本例中设为4,方法选项组中采用默认的迭代与分类选项。
(2)输出结果设置:单击保存按钮,打开K-Means群集:保存新变量对话框,勾选聚类成员和与聚类中心的距离复选框,单击继续。
(3)选择统计量指标:单击 选项按钮,打开K均值聚类分析:选项对话框,勾选初始聚类中心、ANOVA表和每个个案的聚类信息,输出方差分析表和相应的个案信息。缺失值处理方式使用系统默认选项。
(4)单击确定按钮,执行操作,输出结果。
5.3. 结果分析
(1)初始类中心
初始聚类中心
聚类
1
2
3
4
平均气温
10.60
17.70
17.30
22.90
平均相对湿度
52.30
76.70
71.80
70.80
降水量
240.10
927.50
1011.30
1736.10
日照时数
2759.30
1010.20
1995.50
1609.20
上表为初始聚类中心表,从上表中可以看出聚类数为4,所以表中给出了4个初始类中心点。因为是初始聚类中心,在后面的迭代过程中类中心会发生调整。
(2) 迭代历史记录
下表为迭代历史记录表,显示了聚类分析所经历的迭代过程,从中可以看出,聚类分析过程经历了3次迭代,前两次的变化较大,最后一次聚类中心内的更改没有变化,所以表示迭代完成。初始中心间的最小距离为821.337。
迭代历史记录a
迭代
聚类中心内的更改
1
2
3
4
1
203.671
190.792
156.579
208.245
2
64.882
.000
44.523
82.400
3
.000
.000
.000
.000
a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为 821.337。
(3)聚类成员
聚类成员
案例号
城市
聚类
距离
1
北京
1
169.368
2
天津
1
344.195
3
石家庄
3
302.104
4
太原
1
134.141
5
呼和浩特
1
171.727
6
沈阳
1
331.330
7
长春
1
196.540
8
哈尔滨
1
114.503
9
上海
4
287.494
10
南京
3
248.519
11
杭州
4
106.912
12
合肥
3
312.151
13
福州
4
180.329
14
南昌
4
196.627
15
济南
3
309.464
16
郑州
3
199.182
17
武汉
4
224.272
18
长沙
2
310.696
19
广州
4
285.826
20
南宁
4
200.245
上表为聚类成员表,第三列为该地区所在的类别数,第四列为该案例距离类中心的距离。
把地区分为4类时,
第一类:北京、天津、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐
第二类:长沙、重庆、成都、贵阳、西安
第三类:南京、河南、济南、郑州
第四类:广州、南宁、海口、南昌、武汉
我们可以对分类结果做分析,第一类的城市地处我国北部;其降雨量湿度与日照时数较低,气候多为干冷,第二类的城市地处我国西南部,第三类的城市地处我国东南部,第四类的城市地处我国最南,我国主要城市气候可根据地区的生态环境进行分类。
(4)最终聚类中心
最终聚类中心
聚类
1
2
3
4
平均气温
8.94
17.44
15.95
20.34
平均相对湿度
54.40
76.12
66.62
71.15
降水量
431.23
1102.82
815.17
1450.51
日照时数
2572.81
1085.46
1959.23
1620.59
该表为最终聚类中心表,由此表,再对比上面得出的初始聚类中心表就可以看出最终聚类中心和初始聚类中心相比发生了很大的变化。说明聚类过程中初始类中心坐标进行了调整。
(5)最终聚类中心间的距离
最终聚类中心间的距离
聚类
1
2
3
4
1
1632.112
723.936
1395.020
2
1632.112
919.955
638.189
3
723.936
919.955
719.990
4
1395.020
638.189
719.990
该表为最终聚类中心间的距离表。例如第1类和第2类中心点坐标之间的距离为1632.112,第2类和第3类中心点坐标之间的距离为919.955。以此类推。
(6)方差分析表
ANOVA
聚类
误差
均方
df
均方
df
F
Sig.
平均气温
232.937
3
6.170
27
37.752
.000
平均相对湿度
759.884
3
47.201
27
16.099
.000
降水量
1764610.042
3
33190.645
27
53.166
.000
日照时数
3083306.950
3
22847.205
27
134.953
.000
F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。
该表是方差分析表,F值只能作为描述使用,不能根据该值判断各类均值是否有显著性差异,从方差分析表可以看出有三个变量:平均气温,平均相对湿度,降水量,对分类现象显著。
(7)每个聚类中的案例数目
每个聚类中的案例数
聚类
1
12.000
2
5.000
3
6.000
4
8.000
有效
31.000
缺失
.000
每个聚类中的案例数表,由表便可看出,类别1中的案例数为12个,类别2中的案例数为5个,类别3中的案例数为6个,类别4中的案例数为8个。有效个案数为31个。
(8)QCL1为分类归属情况,QCL2为样本到类中心的距离。
城市
QCL1
QCL2
1
北京
1
169.368
2
天津
1
344.195
3
石家庄
3
302.104
4
太原
1
134.141
5
呼和浩特
1
171.727
6
沈阳
1
331.330
7
长春
1
196.540
8
哈尔滨
1
114.503
9
上海
4
287.494
10
南京
3
248.519
11
杭州
4
106.912
12
合肥
3
312.151
13
福州
4
180.329
14
南昌
4
196.627
15
济南
3
309.464
16
郑州
3
199.182
17
武汉
4
224.272
18
长沙
2
310.696
19
广州
4
285.826
20
南宁
4
200.245
21
海口
4
270.056
22
重庆
2
124.481
23
成都
2
190.792
24
贵阳
2
22.912
25
昆明
3
199.530
26
西安
2
69.953
27
拉萨
1
223.380
28
兰州
1
146.384
29
西宁
1
69.265
30
银川
1
267.049
31
乌鲁木齐
1
144.953
由表可知,相对于系统矩阵,K均值矩阵把地区分为5类时,
第一类:北京、天津、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐
第二类:长沙、重庆、成都、贵阳、西安
第三类:南京、河南、济南、郑州
第四类:广州、南宁、海口、南昌、武汉
6.两种方法的结果比较
我又分别做了K=3和K=5时的K均值聚类分析与系统聚类分析的3类、4类、5类相比较,结果如下表:
(1) 把地区分为5类时,两种方法比较如下表所示
系统聚类
K均值聚类
第一类
北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐
长沙、重庆、成都、贵阳、西安
第二类
天津、石家庄、沈阳、济南、郑州
上海、南京、合肥、武汉、昆明
第三类
上海、南京、合肥、武汉、昆明
天津、石家庄、沈阳、济南、郑州
第四类
长沙、广州、南宁、海口、杭州、福州、南昌、昆明
广州、南宁、海口、南昌、杭州、福州
第五类
重庆、成都、贵阳、西安
北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐
(2)把地区分为4类时,两种方法比较如下表所示:
系统聚类
K均值聚类
第一类
北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐
北京、天津、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐
第二类
天津、济南、郑州、沈阳、石家庄
长沙、重庆、成都、贵阳、西安
第三类
上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、
南京、河南、济南、郑州、石家庄
第四类
重庆、成都、贵阳、西安、昆明
广州、南宁、海口、南昌、武汉
(3)把地区分为3类时,两种方法比较如下表所示
系统聚类
K均值聚类
第一类
拉萨、兰州、西宁、银川、乌鲁木齐、北京、太原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州
北京、天津、石家庄、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐、济南、郑州
第二类
上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明
长沙、重庆、成都、贵阳、西安
第三类
重庆、成都、贵阳、西安
上海、南京、合肥、杭州、福州、南昌、武汉、广州、南宁、海口、昆明
(1)上图分别比较了k=3,4,5,将系统分为三类四类五类时K均值聚类法与系统聚类法的比较,可以看出,在K=3时,K均值聚类分析与系统聚类分析的结果差异最小,K均值聚类将样品聚类,而系统聚类将指标聚类。系统聚类过程较麻烦,此案例这种比系统聚类法大得多的数据组用K均值法更简单明了,但是在对案例进行分析时,选择几种算法进行反复检验,对于结果的分析是有好处的。当K均值聚类成五类时各类之间差异较小,无较大意义,强行把这些数据分成K个类会导致无意义的聚类。
(2)K均值的优点:操作简便,K均值法得到的结果比较简单易懂。
K均值的缺点:K均值法只能产生指定类数结果。
系统聚类的优点:系统聚类可以对不同的类数产生一系列的聚类结果。
系统聚类的缺点:系统聚类法需要计算出不同样品或变量的距离,还要在
聚类的每一步都要及时“类间距离”,计算量比较大。
7. 总结
上面我已经分别用了系统聚类法和K均值法对我国主要城市气候进行了分类,结果也都已经展示在了上面。可以看出系统聚类法要计算出不同样品或变量的距离,计算量较大,较麻烦,而K均值法得到的结果比较明了简洁。系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数结果。通过对比两种方法,我们可以发现对比两种算法更利于结果分析,找到更合理的分类。所以,在对案例进行分析时,选择几种算法进行反复检验,对于结果的分析是有好处的。 K均值法与系统聚类法相同之处都是以距离的远近进行聚类。K均值法与系统聚类法的不同之处是系统聚类是对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数结果。需要计算出不同样品或变量的距离,还要在聚类的每一步都要及时“类间距离”,计算量比较大。而K均值法得到的结果比较简单易懂。
通过这次课设,利用spss软件,我学会了系统聚类和K均值聚类的基本思想和步骤方法,了解到了K均值法和系统聚类法的区别以及优缺点,对聚类分析有了深刻的认识 。
参考文献
1. 张红坡 张海峰等. SPSS统计分析实用宝典. 清华大学出版社 2012.6
2. 何超群.多元统计分析第四版.中国人民大学出版社
展开阅读全文