多元统计分析我国主要城市的聚类分析课程设计.doc

资源描述

1、摘要以我国31个主要城市为研究样本，选取平均气温、平均相对湿度、降水量、日照时数、4个反映生态气候情况的主要指标，对我国主要城市气候进行聚类分析。使用spss将全国主要城市的平均气温、平均相对湿度、降水量、日照时数，利用K均值聚类分析法和系统聚类分析法进行分类，并且讨论K均值聚类分析法和系统聚类分析法的异同与哪种方法更好。关键词：平均气温；平均相对湿度；降水量；日照时数；系统聚类；聚类分析；spss 目录1. 设计目的42. 聚类分析的基本思想53. 实际问题分析54. 系统聚类分析64.1 实际操作64.2 结果分析6 5. K均值聚类分析115.1. 基本思想115.2. 操作步骤11

2、5.3. 结果分析126两种方法的结果比较167. 总结18参考文献19 我国主要城市气候的聚类分析1. 设计目的了解系统聚类分析法，学会应用spss软件进行系统聚类分析。同时更好的了解应用多元统计分析的知识，熟练掌握应用多元统计分析在实际问题上的应用，并将所学的知识结合spss对数据的处理解决实际问题。本设计是利用spss软件我国31个城市的气候进行聚类分析。我国主要城市的气候利用K均值聚类分析法和系统聚类分析法进行分类，并且讨论K均值聚类分析法和系统聚类分析法的异同与哪种方法更好。2. 聚类分析的基本思想找出能够度量样品或指标之间相似程度的统计量以此作为划分类型的依据，把一些相似程度较大

3、的聚合为一类另一些相似程度较大的聚合为一类，直到所有都聚合完毕形成一个由小到大的分类系统 3. 实际问题分析下表是某年我国31个主要城市平均气温、平均相对湿度、降水量、日照时数的数据，试使用系统聚类法对这些地区进行聚类分析。城市平均气温平均相对湿度降水量日照时数北京12.754.0 571.82667.2天津12.560.8 544.32247.8石家庄14.258.8 517.12007.8太原11.855.2 431.12438.7呼和浩特7.846.9 397.92741.1沈阳7.467.7 690.32366.7长春5.457.6 570.42711.5哈尔滨4.658.1 524.

4、42506.5上海17.568.8 1164.51649.5南京16.770.3 1062.31933.3杭州17.271.3 1454.61513.8合肥16.878.3 995.21704.5福州21.168.3 1393.61449.5南昌18.967.7 1624.41712.3济南14.961.3 672.72233.9郑州15.859.2 632.41880.4武汉17.166.8 12691752.2长沙18.769.6 1331.31295.9广州22.970.8 1736.11609.2南宁22.675.5 1309.81478.2海口25.480.0 1652.11800.

5、0重庆19.181.1 1104.4961.1成都17.776.7 927.51010.2贵阳15.375.1 1117.71068.2昆明17.371.8 1011.31995.5西安16.478.11033.21091.9拉萨10.933.8 232.62672.9兰州7.553.3 311.72657.3西宁7.557.1 373.82534.2银川10.652.3 240.12759.3乌鲁木齐8.656.0 286.32570.54. 系统聚类分析4.1 实际操作1.操作步骤1在spss将数据导入数据视图；2点击spss选择分析、分类、系统聚类；选中系统聚类分析主页面，将城市选入

6、标注个案，将变量平均气温至日照时数移入变量框中。单击定义组因为本案例是对样本进行聚类，所以在分群中勾选个案，在输出选项组中勾选统计量复选框和图复选框。3点击绘制按钮，选中树状图和冰柱栏中的无，点击继续按钮；4 点击保存按钮，在聚类成员框中选中方案范围按钮，最小聚类数设为2，最大聚类书设为5，继续；5统计量和方法都选择系统默认值；6点击确认按，运行系统聚类过程。4.2 结果分析（1）案例处理汇总表案例处理汇总a,b案例有效缺失总计N百分比N百分比N百分比31100.00.031100.0a. 平方 Euclidean 距离已使用 b. 平均联结（组之间）案例处理汇总表中汇总了有效数据数量3

7、1个，占百分比百分之百，缺失数据0个，占百分之零。总计数量31个，占百分比百分之百。（2）聚类过程的结果聚类表阶群集组合首次出现阶群集群集 1群集 2系数群集 1群集 2下一阶1172030.7000023210256472.4500024327286891.980008424267712.1500012511137879.7000010614218652.1200018729318976.36000198273011702.360301494813361.980001910112015090.71050201121516685.780001512222416946.055041713917

8、21471.70000211452723973.1870822152626784.820110251631629527.570002517222330375.0431202918141933341.82060261942933759.970972220111841305.233100262191254576.15013024224566153.898191423231476408.073122282491096207.958212272523133658.538151628此表是对每一阶段聚类结果的反映，第四列表示聚合系数，第二列第三列表示聚合的类，例如，第一个阶段是把相似程度较大的第一个样品

9、和第七个样品聚为一类，此时有30类，第二个阶段是把相似程度较大的第十个样品和第二十五个样品聚为一类，此时有29类，以此类推。此图为根据聚类表所制出的折线图（3）聚类成员表群集成员案例 5 群集4 群集3 群集2 群集1:北京 11112:天津 22113:石家庄 22114:太原 11115:呼和浩特 11116:沈阳 22117:长春 11118:哈尔滨 11119:上海 332210:南京 332211:杭州 432212:合肥 332213:福州 432214:南昌 432215:济南 221116:郑州 221117:武汉 332218:长沙 432219:广州 432220:南宁

10、432221:海口 4322该表每个案例分别在分为五类、四类、三类、二类时所在的类别数，由表可知因为最小聚类数为2，最大聚类数为5 ，类别数分别为2, 3，4，5时样本的类别归属情况。可以结合后面的树状图、冰柱图及研究目的，确定具体的较为合理的类别数与成员归属。（4）冰柱图冰柱图也是反映样品聚类情况的图，比如我们希望分为3类，那么最左边的类数应选4，每个样品右边都有一列冰柱，如果某个样品右边的列冰柱长度小于三，那么他和前面冰柱长度大于三的样品聚为一类，如此下去直到找到全部三类为止，例如，案例二十二右边的列冰柱长度为2，那么它就与案例二十三和案例二十八为一类了，第九个案例右边的列冰柱长度为1，那

11、么从案例十九到九为一类，其余为一类。由此，将本题分为了三类（5）树状聚类图* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ 北京

12、1 -+-+ 长春 7 -+ | 拉萨 27 -+ +-+ 兰州 28 -+ | | 银川 30 -+ | | 呼和浩特 5 -+-+ | 西宁 29 -+ | 乌鲁木齐 31 -+ +-+ 太原 4 -+ | | 哈尔滨 8 -+ | | 天津 2 -+ | | 济南 15 -+-+ | | 沈阳 6 -+ +-+ | 石家庄 3 -+-+ | 郑州 16 -+ | 贵阳 24 -+ | 西安 26 -+ | 重庆 22 -+-+ | 成都 23 -+ | | 南京 10 -+-+ | | 昆明 25 -+ +-+ +-+ 上海 9 -+ | | |由上表可以由分类个数得到分类情况，如果我们

13、选择分类数为5，就从距离大概为4的地方往下切，把地区分为5类，得到分类结果如下：第一类：北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐第二类：天津、石家庄、沈阳、济南、郑州第三类：上海、南京、合肥、武汉、昆明第四类：长沙、广州、南宁、海口、杭州、福州、南昌、昆明第五类：重庆、成都、贵阳、西安如果我们选择分类数为4，就从距离大概为5的地方往下切，把地区分为4类，得到分类结果如下：第一类：北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐第二类：天津、济南、郑州、沈阳、石家庄第三类：上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、第四类：重

14、庆、成都、贵阳、西安如果我们选择分类数为3，就从距离大概为6的地方往下切，把地区分为3类，得到分类结果如下：第一类：拉萨、兰州、西宁、银川、乌鲁木齐、北京、太原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州第二类：上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明第三类：重庆、成都、贵阳、西安如果我们选择分类数为2，就从距离大概为20的地方往下切，把地区分为2类，得到分类结果如下：第一类：拉萨、兰州、西宁、银川、乌鲁木齐、北京、太原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州第二类：上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明

15、、重庆、成都、贵阳、西安5. K均值聚类分析5.1. 基本思想把样品粗略分成K个初始类，进行修改，逐个分派样品到其最近均值得类中。重新计算接受新样品的类和失去样品的类的均值，重复，直到各类无元素进出。5.2. 操作步骤（1）在菜单中依次单击分析，分类，K-均值聚类，打开K-均值聚类对话框。将城市选入个案标记依据，将平均气温、平均相对湿度、降水量和日照时数选入变量，聚类数，本例中设为4，方法选项组中采用默认的迭代与分类选项。（2）输出结果设置：单击保存按钮，打开K-Means群集：保存新变量对话框，勾选聚类成员和与聚类中心的距离复选框，单击继续。（3）选择统计量指标：单击选项按钮，打开K均值

16、聚类分析:选项对话框，勾选初始聚类中心、ANOVA表和每个个案的聚类信息，输出方差分析表和相应的个案信息。缺失值处理方式使用系统默认选项。（4）单击确定按钮，执行操作，输出结果。5.3. 结果分析（1）初始类中心初始聚类中心聚类1234平均气温10.6017.7017.3022.90平均相对湿度52.3076.7071.8070.80降水量240.10927.501011.301736.10日照时数2759.301010.201995.501609.20 上表为初始聚类中心表，从上表中可以看出聚类数为4，所以表中给出了4个初始类中心点。因为是初始聚类中心，在后面的迭代过程中类中心会发生调整。

17、(2) 迭代历史记录下表为迭代历史记录表，显示了聚类分析所经历的迭代过程，从中可以看出，聚类分析过程经历了3次迭代，前两次的变化较大，最后一次聚类中心内的更改没有变化，所以表示迭代完成。初始中心间的最小距离为821.337。迭代历史记录a迭代聚类中心内的更改12341203.671190.792156.579208.245264.882.00044.52382.4003.000.000.000.000a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为 821.337。(3)聚类成员聚类成员案例号城市聚类距离1北京

18、1169.3682天津 1344.1953石家庄 3302.1044太原 1134.1415呼和浩特1171.7276沈阳 1331.3307长春 1196.5408哈尔滨 1114.5039上海 4287.49410南京 3248.51911杭州 4106.91212合肥 3312.15113福州 4180.32914南昌 4196.62715济南 3309.46416郑州 3199.18217武汉 4224.27218长沙 2310.69619广州 4285.82620南宁 4200.245上表为聚类成员表，第三列为该地区所在的类别数，第四列为该案例距离类中心的距离。把地区分为4类时，第一

19、类：北京、天津、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐第二类：长沙、重庆、成都、贵阳、西安第三类：南京、河南、济南、郑州第四类：广州、南宁、海口、南昌、武汉我们可以对分类结果做分析，第一类的城市地处我国北部；其降雨量湿度与日照时数较低，气候多为干冷，第二类的城市地处我国西南部，第三类的城市地处我国东南部，第四类的城市地处我国最南，我国主要城市气候可根据地区的生态环境进行分类。(4)最终聚类中心最终聚类中心聚类1234平均气温8.9417.4415.9520.34平均相对湿度54.4076.1266.6271.15降水量431.231102.82815.17145

20、0.51日照时数2572.811085.461959.231620.59该表为最终聚类中心表，由此表，再对比上面得出的初始聚类中心表就可以看出最终聚类中心和初始聚类中心相比发生了很大的变化。说明聚类过程中初始类中心坐标进行了调整。(5)最终聚类中心间的距离最终聚类中心间的距离聚类123411632.112723.9361395.02021632.112919.955638.1893723.936919.955719.99041395.020638.189719.990该表为最终聚类中心间的距离表。例如第1类和第2类中心点坐标之间的距离为1632.112,第2类和第3类中心点坐标之间的距离为9

21、19.955。以此类推。(6)方差分析表 ANOVA聚类误差均方df均方dfFSig.平均气温232.93736.1702737.752.000平均相对湿度759.884347.2012716.099.000降水量1764610.042333190.6452753.166.000日照时数3083306.950322847.20527134.953.000F 检验应仅用于描述性目的，因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正，因此无法将其解释为是对聚类均值相等这一假设的检验。该表是方差分析表，F值只能作为描述使用，不能根据该值判断各类均值是否有显著性

22、差异，从方差分析表可以看出有三个变量：平均气温，平均相对湿度，降水量，对分类现象显著。(7)每个聚类中的案例数目每个聚类中的案例数聚类112.00025.00036.00048.000有效31.000缺失.000每个聚类中的案例数表，由表便可看出，类别1中的案例数为12个，类别2中的案例数为5个，类别3中的案例数为6个，类别4中的案例数为8个。有效个案数为31个。（8）QCL1为分类归属情况，QCL2为样本到类中心的距离。城市QCL1QCL21北京1169.3682天津1344.1953石家庄3302.1044太原1134.1415呼和浩特1171.7276沈阳1331.3307长春1196

23、.5408哈尔滨1114.5039上海4287.49410南京3248.51911杭州4106.91212合肥3312.15113福州4180.32914南昌4196.62715济南3309.46416郑州3199.18217武汉4224.27218长沙2310.69619广州4285.82620南宁4200.24521海口4270.05622重庆2124.48123成都2190.79224贵阳222.91225昆明3199.53026西安269.95327拉萨1223.38028兰州1146.38429西宁169.26530银川1267.04931乌鲁木齐1144.953由表可知，相对于系统

24、矩阵，K均值矩阵把地区分为5类时，第一类：北京、天津、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐第二类：长沙、重庆、成都、贵阳、西安第三类：南京、河南、济南、郑州第四类：广州、南宁、海口、南昌、武汉6两种方法的结果比较我又分别做了K=3和K=5时的K均值聚类分析与系统聚类分析的3类、4类、5类相比较，结果如下表：（1）把地区分为5类时，两种方法比较如下表所示系统聚类K均值聚类第一类北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐长沙、重庆、成都、贵阳、西安第二类天津、石家庄、沈阳、济南、郑州上海、南京、合肥、武汉、昆明第三类上海、南京、合肥、武

25、汉、昆明天津、石家庄、沈阳、济南、郑州第四类长沙、广州、南宁、海口、杭州、福州、南昌、昆明广州、南宁、海口、南昌、杭州、福州第五类重庆、成都、贵阳、西安北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐（2）把地区分为4类时，两种方法比较如下表所示：系统聚类K均值聚类第一类北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐北京、天津、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐第二类天津、济南、郑州、沈阳、石家庄长沙、重庆、成都、贵阳、西安第三类上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、南京、河南、济南、郑州、

26、石家庄第四类重庆、成都、贵阳、西安、昆明广州、南宁、海口、南昌、武汉（3）把地区分为3类时，两种方法比较如下表所示系统聚类K均值聚类第一类拉萨、兰州、西宁、银川、乌鲁木齐、北京、太原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州北京、天津、石家庄、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐、济南、郑州第二类上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明长沙、重庆、成都、贵阳、西安第三类重庆、成都、贵阳、西安上海、南京、合肥、杭州、福州、南昌、武汉、广州、南宁、海口、昆明（1）上图分别比较了k=3,4,5，将系统分为三类四类五类时K均值

27、聚类法与系统聚类法的比较，可以看出，在K=3时，K均值聚类分析与系统聚类分析的结果差异最小，K均值聚类将样品聚类，而系统聚类将指标聚类。系统聚类过程较麻烦，此案例这种比系统聚类法大得多的数据组用K均值法更简单明了，但是在对案例进行分析时，选择几种算法进行反复检验，对于结果的分析是有好处的。当K均值聚类成五类时各类之间差异较小，无较大意义，强行把这些数据分成K个类会导致无意义的聚类。（2）K均值的优点：操作简便，K均值法得到的结果比较简单易懂。 K均值的缺点：K均值法只能产生指定类数结果。系统聚类的优点：系统聚类可以对不同的类数产生一系列的聚类结果。系统聚类的缺点：系统聚类法需要计算出不同样

28、品或变量的距离，还要在聚类的每一步都要及时“类间距离”，计算量比较大。7. 总结上面我已经分别用了系统聚类法和K均值法对我国主要城市气候进行了分类，结果也都已经展示在了上面。可以看出系统聚类法要计算出不同样品或变量的距离，计算量较大，较麻烦，而K均值法得到的结果比较明了简洁。系统聚类对不同的类数产生一系列的聚类结果，而K均值法只能产生指定类数结果。通过对比两种方法，我们可以发现对比两种算法更利于结果分析，找到更合理的分类。所以，在对案例进行分析时，选择几种算法进行反复检验，对于结果的分析是有好处的。 K均值法与系统聚类法相同之处都是以距离的远近进行聚类。K均值法与系统聚类法的不同之处是系统聚类是对不同的类数产生一系列的聚类结果，而K均值法只能产生指定类数结果。需要计算出不同样品或变量的距离，还要在聚类的每一步都要及时“类间距离”，计算量比较大。而K均值法得到的结果比较简单易懂。通过这次课设，利用spss软件，我学会了系统聚类和K均值聚类的基本思想和步骤方法，了解到了K均值法和系统聚类法的区别以及优缺点，对聚类分析有了深刻的认识。参考文献1. 张红坡张海峰等. SPSS统计分析实用宝典. 清华大学出版社 2012.62. 何超群.多元统计分析第四版.中国人民大学出版社

展开阅读全文