多元统计分析我国主要城市的聚类分析课程设计.doc-资源下载-咨信网-让知识获取变得高效

多元统计分析我国主要城市的聚类分析课程设计.doc

1、摘要以我国31个主要城市为研究样本，选取平均气温、平均相对湿度、降水量、日照时数、4个反映生态气候情况的主要指

2、标，对我国主要城市气候进行聚类分析。使用spss将全国主要城市的平均气温、平均相对湿度、降水量、日照时数，利用K均值聚类分析法和系统聚类分析法进行分类，并且讨论K均值聚类分析法和系统聚类分析法的异同与哪种方法更好。关键词：平均气温；平均相对湿度；降水量；日照时数；系统聚类；聚类分析；spss 目录 1. 设计目的 4 2. 聚类分析的基本思想 5 3. 实际问题分析 5 4. 系统聚类分析 6 4.1 实际操作 6 4.2 结果分析 6 5. K均值聚类分析 11 5.1. 基本思想

3、 11 5.2. 操作步骤 11 5.3. 结果分析 12 6．两种方法的结果比较 16 7. 总结 18 参考文献 19 我国主要城市气候的聚类分析 1. 设计目的了解系统聚类分析法，学会应用spss软件进行系统聚类分析。同时更好的了解应用多元统计分析的知识，熟练掌握应用多元统计分析在实际问题上的应用，并将所学的知识结合spss对数据的处理解决实际问题。本设计是利用spss软件我国31个城市的气候进行聚类分析。我国主要城市的气候利用K均值聚类分析法和系统聚类分析法进行分类，并且讨论K均值聚类分析法和系统聚

4、类分析法的异同与哪种方法更好。 2. 聚类分析的基本思想找出能够度量样品或指标之间相似程度的统计量以此作为划分类型的依据，把一些相似程度较大的聚合为一类另一些相似程度较大的聚合为一类，直到所有都聚合完毕形成一个由小到大的分类系统 3. 实际问题分析下表是某年我国31个主要城市平均气温、平均相对湿度、降水量、日照时数的数据，试使用系统聚类法对这些地区进行聚类分析。城市平均气温平均相对湿度降水量日照时数北京 12.7 54.0 571.8 2667.2 天津 12.5 60.8 544

5、3 2247.8 石家庄 14.2 58.8 517.1 2007.8 太原 11.8 55.2 431.1 2438.7 呼和浩特 7.8 46.9 397.9 2741.1 沈阳 7.4 67.7 690.3 2366.7 长春 5.4 57.6 570.4 2711.5 哈尔滨 4.6 58.1 524.4 2506.5 上海 17.5 68.8 1164.5 1649.5 南京 16.7 70.3 1062.3 1933.3 杭州 17.2 71.3 1454.6 1

6、513.8 合肥 16.8 78.3 995.2 1704.5 福州 21.1 68.3 1393.6 1449.5 南昌 18.9 67.7 1624.4 1712.3 济南 14.9 61.3 672.7 2233.9 郑州 15.8 59.2 632.4 1880.4 武汉 17.1 66.8 1269 1752.2 长沙 18.7 69.6 1331.3 1295.9 广州 22.9 70.8 1736.1 1609.2 南宁 22.6 75.5 1309.8 1478.2

7、海口 25.4 80.0 1652.1 1800.0 重庆 19.1 81.1 1104.4 961.1 成都 17.7 76.7 927.5 1010.2 贵阳 15.3 75.1 1117.7 1068.2 昆明 17.3 71.8 1011.3 1995.5 西安 16.4 78.1 1033.2 1091.9 拉萨 10.9 33.8 232.6 2672.9 兰州 7.5 53.3 311.7 2657.3 西宁 7.5 57.1 373.8 2534.2 银川 10.6

8、 52.3 240.1 2759.3 乌鲁木齐 8.6 56.0 286.3 2570.5 4. 系统聚类分析 4.1 实际操作 1.操作步骤 [1]在spss将数据导入数据视图； [2]点击spss选择分析、分类、系统聚类；选中系统聚类分析主页面，将城市选入标注个案，将变量平均气温至日照时数移入变量框中。单击定义组因为本案例是对样本进行聚类，所以在分群中勾选个案，在输出选项组中勾选统计量复选框和图复选框。 [3]点击绘制按钮，选中树状图和冰柱栏中的无，点击继续按钮； [4] 点击保存按钮，在聚类成员框中选中方案范围按钮，最小聚类数设为2，最大聚类书设为

9、5，继续； [5]统计量和方法都选择系统默认值； [6]点击确认按，运行系统聚类过程。 4.2 结果分析（1）案例处理汇总表案例处理汇总a,b 案例有效缺失总计 N 百分比 N 百分比 N 百分比 31 100.0 0 .0 31 100.0 a. 平方 Euclidean 距离已使用 b. 平均联结（组之间）案例处理汇总表中汇总了有效数据数量31个，占百分比百分之百，缺失数据0个，占百分之零。总计数量31个，占百分比百分之百。（2）聚类过程的结果聚类表阶群集组合首次出现阶群集群集 1

10、群集 2 系数群集 1 群集 2 下一阶 1 1 7 2030.700 0 0 23 2 10 25 6472.450 0 0 24 3 27 28 6891.980 0 0 8 4 24 26 7712.150 0 0 12 5 11 13 7879.700 0 0 10 6 14 21 8652.120 0 0 18 7 29 31 8976.360 0 0 19 8 27 30 11702.360 3 0 14 9 4 8 13361.980 0 0 1

11、9 10 11 20 15090.710 5 0 20 11 2 15 16685.780 0 0 15 12 22 24 16946.055 0 4 17 13 9 17 21471.700 0 0 21 14 5 27 23973.187 0 8 22 15 2 6 26784.820 11 0 25 16 3 16 29527.570 0 0 25 17 22 23 30375.043 12 0 29 18 14 19 33341.820 6 0 26 19

12、4 29 33759.970 9 7 22 20 11 18 41305.233 10 0 26 21 9 12 54576.150 13 0 24 22 4 5 66153.898 19 14 23 23 1 4 76408.073 1 22 28 24 9 10 96207.958 21 2 27 25 2 3 133658.538 15 16 28 此表是对每一阶段聚类结果的反映，第四列表示聚合系数，第二列第三列表示聚合的类，例如，第一个阶段是把相似程度较大的第一个样品和第七个样品聚为一类

13、此时有30类，第二个阶段是把相似程度较大的第十个样品和第二十五个样品聚为一类，此时有29类，以此类推。此图为根据聚类表所制出的折线图（3）聚类成员表群集成员案例 5 群集 4 群集 3 群集 2 群集 1:北京 1 1 1 1 2:天津 2 2 1 1 3:石家庄 2 2 1 1 4:太原 1 1 1 1 5:呼和浩特 1 1 1 1 6:沈阳 2 2 1 1 7:长春 1 1 1

14、 1 8:哈尔滨 1 1 1 1 9:上海 3 3 2 2 10:南京 3 3 2 2 11:杭州 4 3 2 2 12:合肥 3 3 2 2 13:福州 4 3 2 2 14:南昌 4 3 2 2 15:济南 2 2 1 1 16:郑州 2 2 1 1 17:武汉 3 3 2 2 18:长沙 4 3 2 2 19

15、广州 4 3 2 2 20:南宁 4 3 2 2 21:海口 4 3 2 2 该表每个案例分别在分为五类、四类、三类、二类时所在的类别数，由表可知因为最小聚类数为2，最大聚类数为5 ，类别数分别为2, 3，4，5时样本的类别归属情况。可以结合后面的树状图、冰柱图及研究目的，确定具体的较为合理的类别数与成员归属。（4）冰柱图冰柱图也是反映样品聚类情况的图，比如我们希望分为3类，那么最左边的类数应选4，每个样品右边都有一列冰柱，如果某个样品右边的列冰柱长度小于三，那么他和前面冰柱长度大于三的样品聚为一类

16、如此下去直到找到全部三类为止，例如，案例二十二右边的列冰柱长度为2，那么它就与案例二十三和案例二十八为一类了，第九个案例右边的列冰柱长度为1，那么从案例十九到九为一类，其余为一类。由此，将本题分为了三类（5）树状聚类图 * * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * * Dendrogram using Average Linkage (Between Group

17、s) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 北京 1 -+-+ 长春 7 -+ | 拉萨 27 -+ +-----+ 兰州 28 -+

18、 | | 银川 30 -+ | | 呼和浩特 5 -+-+ | 西宁 29 -+ | 乌鲁木齐 31 -+ +---------------------------------------+ 太原 4 -+ | | 哈尔滨 8 -+ | | 天津

19、 2 -+ | | 济南 15 -+-+ | | 沈阳 6 -+ +-----+ | 石家庄 3 -+-+ | 郑州 16 -+

20、 | 贵阳 24 -+ | 西安 26 -+ | 重庆 22 -+-------------+ | 成都 23 -+ |

21、 | 南京 10 -+-+ | | 昆明 25 -+ +-----+ +---------------------------------+ 上海 9 -+ | | | 由上表可以由分类个数得到分类情况，如果我们选择分类数为5，就从距离大概为4的地方往下切，把地区分为5类，得到分类结果如下：第一类：北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐第二类：天津、石家庄、沈阳、济南、郑州

22、第三类：上海、南京、合肥、武汉、昆明第四类：长沙、广州、南宁、海口、杭州、福州、南昌、昆明第五类：重庆、成都、贵阳、西安如果我们选择分类数为4，就从距离大概为5的地方往下切，把地区分为4类，得到分类结果如下：第一类：北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐第二类：天津、济南、郑州、沈阳、石家庄第三类：上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、第四类：重庆、成都、贵阳、西安如果我们选择分类数为3，就从距离大概为6的地方往下切，把地区分为3类，得到分类结果如下：第一类：拉萨、兰州、西宁、银川、乌鲁木齐、北京、太

23、原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州第二类：上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明第三类：重庆、成都、贵阳、西安如果我们选择分类数为2，就从距离大概为20的地方往下切，把地区分为2类，得到分类结果如下：第一类：拉萨、兰州、西宁、银川、乌鲁木齐、北京、太原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州第二类：上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明、重庆、成都、贵阳、西安 5. K均值聚类分析 5.1. 基本思想把样品粗略分成K个初始类，进行修改，逐个分派样品到其最近均值

24、得类中。重新计算接受新样品的类和失去样品的类的均值，重复，直到各类无元素进出。 5.2. 操作步骤（1）在菜单中依次单击分析，分类，K-均值聚类，打开K-均值聚类对话框。将城市选入个案标记依据，将平均气温、平均相对湿度、降水量和日照时数选入变量，聚类数，本例中设为4，方法选项组中采用默认的迭代与分类选项。（2）输出结果设置：单击保存按钮，打开K-Means群集：保存新变量对话框，勾选聚类成员和与聚类中心的距离复选框，单击继续。（3）选择统计量指标：单击选项按钮，打开K均值聚类分析:选项对话框，勾选初始聚类中心、ANOVA表和每个个案的聚类信息，输出方差分析表和相应的个案信息。

25、缺失值处理方式使用系统默认选项。（4）单击确定按钮，执行操作，输出结果。 5.3. 结果分析（1）初始类中心初始聚类中心聚类 1 2 3 4 平均气温 10.60 17.70 17.30 22.90 平均相对湿度 52.30 76.70 71.80 70.80 降水量 240.10 927.50 1011.30 1736.10 日照时数 2759.30 1010.20 1995.50 1609.20 上表为初始聚类中心表，从上表中可以看出聚类数为4，所以表中给

26、出了4个初始类中心点。因为是初始聚类中心，在后面的迭代过程中类中心会发生调整。 (2) 迭代历史记录下表为迭代历史记录表，显示了聚类分析所经历的迭代过程，从中可以看出，聚类分析过程经历了3次迭代，前两次的变化较大，最后一次聚类中心内的更改没有变化，所以表示迭代完成。初始中心间的最小距离为821.337。迭代历史记录a 迭代聚类中心内的更改 1 2 3 4 1 203.671 190.792 156.579 208.245 2 64.882 .000 44.523 82.400 3 .000 .000 .000 .000 a.

27、由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为 821.337。 (3)聚类成员聚类成员案例号城市聚类距离 1 北京 1 169.368 2 天津 1 344.195 3 石家庄 3 302.104 4 太原 1 134.141 5 呼和浩特 1 171.727 6 沈阳 1 331.330 7 长春 1 196.540 8 哈尔滨 1 114

28、503 9 上海 4 287.494 10 南京 3 248.519 11 杭州 4 106.912 12 合肥 3 312.151 13 福州 4 180.329 14 南昌 4 196.627 15 济南 3 309.464 16 郑州 3 199.182 17 武汉 4 224.272 18 长沙 2 310.696 19 广州 4 285.826 20 南宁 4 200.245 上表为聚类

29、成员表，第三列为该地区所在的类别数，第四列为该案例距离类中心的距离。把地区分为4类时，第一类：北京、天津、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐第二类：长沙、重庆、成都、贵阳、西安第三类：南京、河南、济南、郑州第四类：广州、南宁、海口、南昌、武汉我们可以对分类结果做分析，第一类的城市地处我国北部；其降雨量湿度与日照时数较低，气候多为干冷，第二类的城市地处我国西南部，第三类的城市地处我国东南部，第四类的城市地处我国最南，我国主要城市气候可根据地区的生态环境进行分类。 (4)最终聚类中心最终聚类中心

30、聚类 1 2 3 4 平均气温 8.94 17.44 15.95 20.34 平均相对湿度 54.40 76.12 66.62 71.15 降水量 431.23 1102.82 815.17 1450.51 日照时数 2572.81 1085.46 1959.23 1620.59 该表为最终聚类中心表，由此表，再对比上面得出的初始聚类中心表就可以看出最终聚类中心和初始聚类中心相比发生了很大的变化。说明聚类过程中初始类中心坐标进行了调整。 (5)最终聚类中心间的距离最终聚类中心间的距离聚类 1 2

31、 3 4 1 1632.112 723.936 1395.020 2 1632.112 919.955 638.189 3 723.936 919.955 719.990 4 1395.020 638.189 719.990 该表为最终聚类中心间的距离表。例如第1类和第2类中心点坐标之间的距离为1632.112,第2类和第3类中心点坐标之间的距离为919.955。以此类推。 (6)方差分析表 ANOVA 聚类误差均方 df 均方 df F

32、 Sig. 平均气温 232.937 3 6.170 27 37.752 .000 平均相对湿度 759.884 3 47.201 27 16.099 .000 降水量 1764610.042 3 33190.645 27 53.166 .000 日照时数 3083306.950 3 22847.205 27 134.953 .000 F 检验应仅用于描述性目的，因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正，因此无法将其解释为是对聚类均值相等这一假设的检验。该表是方差分析表，F值只能作

33、为描述使用，不能根据该值判断各类均值是否有显著性差异，从方差分析表可以看出有三个变量：平均气温，平均相对湿度，降水量，对分类现象显著。 (7)每个聚类中的案例数目每个聚类中的案例数聚类 1 12.000 2 5.000 3 6.000 4 8.000 有效 31.000 缺失 .000 每个聚类中的案例数表，由表便可看出，类别1中的案例数为12个，类别2中的案例数为5个，类别3中的案例数为6个，类别4中的案例数为8个。有效个案数为31个。（8）QCL1为分类归属情况，QCL2为样本到类中心的距离。城市 QCL

34、1 QCL2 1 北京 1 169.368 2 天津 1 344.195 3 石家庄 3 302.104 4 太原 1 134.141 5 呼和浩特 1 171.727 6 沈阳 1 331.330 7 长春 1 196.540 8 哈尔滨 1 114.503 9 上海 4 287.494 10 南京 3 248.519 11 杭州 4 106.912 12 合肥 3 312.151 13 福州 4 180.329 14 南昌 4 196.627 15 济南 3 309.4

35、64 16 郑州 3 199.182 17 武汉 4 224.272 18 长沙 2 310.696 19 广州 4 285.826 20 南宁 4 200.245 21 海口 4 270.056 22 重庆 2 124.481 23 成都 2 190.792 24 贵阳 2 22.912 25 昆明 3 199.530 26 西安 2 69.953 27 拉萨 1 223.380 28 兰州 1 146.384 29 西宁 1 69.265 30 银川 1 267.049

36、 31 乌鲁木齐 1 144.953 由表可知，相对于系统矩阵，K均值矩阵把地区分为5类时，第一类：北京、天津、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐第二类：长沙、重庆、成都、贵阳、西安第三类：南京、河南、济南、郑州第四类：广州、南宁、海口、南昌、武汉 6．两种方法的结果比较我又分别做了K=3和K=5时的K均值聚类分析与系统聚类分析的3类、4类、5类相比较，结果如下表：（1）把地区分为5类时，两种方法比较如下表所示系统聚类 K均值聚类第一类北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木

37、齐长沙、重庆、成都、贵阳、西安第二类天津、石家庄、沈阳、济南、郑州上海、南京、合肥、武汉、昆明第三类上海、南京、合肥、武汉、昆明天津、石家庄、沈阳、济南、郑州第四类长沙、广州、南宁、海口、杭州、福州、南昌、昆明广州、南宁、海口、南昌、杭州、福州第五类重庆、成都、贵阳、西安北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐（2）把地区分为4类时，两种方法比较如下表所示：系统聚类 K均值聚类第一类北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐北京、天津、太原、呼和浩特、沈阳、长

38、春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐第二类天津、济南、郑州、沈阳、石家庄长沙、重庆、成都、贵阳、西安第三类上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、南京、河南、济南、郑州、石家庄第四类重庆、成都、贵阳、西安、昆明广州、南宁、海口、南昌、武汉（3）把地区分为3类时，两种方法比较如下表所示系统聚类 K均值聚类第一类拉萨、兰州、西宁、银川、乌鲁木齐、北京、太原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州北京、天津、石家庄、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西

39、宁、银川、乌鲁木齐、济南、郑州第二类上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明长沙、重庆、成都、贵阳、西安第三类重庆、成都、贵阳、西安上海、南京、合肥、杭州、福州、南昌、武汉、广州、南宁、海口、昆明（1）上图分别比较了k=3,4,5，将系统分为三类四类五类时K均值聚类法与系统聚类法的比较，可以看出，在K=3时，K均值聚类分析与系统聚类分析的结果差异最小，K均值聚类将样品聚类，而系统聚类将指标聚类。系统聚类过程较麻烦，此案例这种比系统聚类法大得多的数据组用K均值法更简单明了，但是在对案例进行分析时，选择几种算法进行反复检验，对于结果

40、的分析是有好处的。当K均值聚类成五类时各类之间差异较小，无较大意义，强行把这些数据分成K个类会导致无意义的聚类。（2）K均值的优点：操作简便，K均值法得到的结果比较简单易懂。 K均值的缺点：K均值法只能产生指定类数结果。系统聚类的优点：系统聚类可以对不同的类数产生一系列的聚类结果。系统聚类的缺点：系统聚类法需要计算出不同样品或变量的距离，还要在聚类的每一步都要及时“类间距离”，计算量比较大。 7. 总结上面我已经分别用了系统聚类法和K均值法对我国主要城市气候进行了分类，结果也都已经展示在了上

41、面。可以看出系统聚类法要计算出不同样品或变量的距离，计算量较大，较麻烦，而K均值法得到的结果比较明了简洁。系统聚类对不同的类数产生一系列的聚类结果，而K均值法只能产生指定类数结果。通过对比两种方法，我们可以发现对比两种算法更利于结果分析，找到更合理的分类。所以，在对案例进行分析时，选择几种算法进行反复检验，对于结果的分析是有好处的。 K均值法与系统聚类法相同之处都是以距离的远近进行聚类。K均值法与系统聚类法的不同之处是系统聚类是对不同的类数产生一系列的聚类结果，而K均值法只能产生指定类数结果。需要计算出不同样品或变量的距离，还要在聚类的每一步都要及时“类间距离”，计算量比较大。而K均值法得到的结果比较简单易懂。通过这次课设，利用spss软件，我学会了系统聚类和K均值聚类的基本思想和步骤方法，了解到了K均值法和系统聚类法的区别以及优缺点，对聚类分析有了深刻的认识。参考文献 1. 张红坡张海峰等. SPSS统计分析实用宝典. 清华大学出版社 2012.6 2. 何超群.多元统计分析第四版.中国人民大学出版社

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？