ImageVerifierCode 换一换
格式:DOC , 页数:18 ,大小:408.50KB ,
资源ID:3104691      下载积分:8 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/3104691.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(多元统计分析我国主要城市的聚类分析课程设计.doc)为本站上传会员【天****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

多元统计分析我国主要城市的聚类分析课程设计.doc

1、 摘 要 以我国31个主要城市为研究样本,选取平均气温、平均相对湿度、降水量、日照时数、4个反映生态气候情况的主要指

2、标,对我国主要城市气候进行聚类分析。使用spss将全国主要城市的平均气温、平均相对湿度、降水量、日照时数,利用K均值聚类分析法和系统聚类分析法进行分类,并且讨论K均值聚类分析法和系统聚类分析法的异同与哪种方法更好。 关键词:平均气温;平均相对湿度;降水量;日照时数;系统聚类;聚类分析;spss 目录 1. 设计目的 4 2. 聚类分析的基本思想 5 3. 实际问题分析 5 4. 系统聚类分析 6 4.1 实际操作 6 4.2 结果分析 6 5. K均值聚类分析 11 5.1. 基本思想

3、 11 5.2. 操作步骤 11 5.3. 结果分析 12 6.两种方法的结果比较 16 7. 总结 18 参考文献 19 我国主要城市气候的聚类分析 1. 设计目的 了解系统聚类分析法,学会应用spss软件进行系统聚类分析。同时更好的了解应用多元统计分析的知识,熟练掌握应用多元统计分析在实际问题上的应用,并将所学的知识结合spss对数据的处理解决实际问题。本设计是利用spss软件我国31个城市的气候进行聚类分析。我国主要城市的气候利用K均值聚类分析法和系统聚类分析法进行分类,并且讨论K均值聚类分析法和系统聚

4、类分析法的异同与哪种方法更好。 2. 聚类分析的基本思想 找出能够度量样品或指标之间相似程度的统计量以此作为划分类型的依据,把一些相似程度较大的聚合为一类另一些相似程度较大的聚合为一类,直到所有都聚合完毕形成一个由小到大的分类系统 3. 实际问题分析 下表是某年我国31个主要城市平均气温、平均相对湿度、降水量、日照时数的数据,试使用系统聚类法对这些地区进行聚类分析。 城市 平均气温 平均相对湿度 降水量 日照时数 北京 12.7 54.0 571.8 2667.2 天津 12.5 60.8 544

5、3 2247.8 石家庄 14.2 58.8 517.1 2007.8  太原 11.8 55.2 431.1 2438.7 呼和浩特 7.8 46.9 397.9 2741.1  沈阳 7.4 67.7 690.3 2366.7 长春 5.4 57.6 570.4 2711.5  哈尔滨 4.6 58.1 524.4 2506.5 上海 17.5 68.8 1164.5 1649.5  南京 16.7 70.3 1062.3 1933.3 杭州 17.2 71.3 1454.6 1

6、513.8 合肥 16.8 78.3 995.2 1704.5 福州 21.1 68.3 1393.6 1449.5  南昌 18.9 67.7 1624.4 1712.3  济南 14.9 61.3 672.7 2233.9 郑州 15.8 59.2 632.4 1880.4 武汉 17.1 66.8 1269 1752.2  长沙 18.7 69.6 1331.3 1295.9 广州 22.9 70.8 1736.1 1609.2 南宁 22.6 75.5 1309.8 1478.2

7、 海口 25.4 80.0 1652.1 1800.0 重庆 19.1 81.1 1104.4 961.1 成都 17.7 76.7 927.5 1010.2 贵阳 15.3 75.1 1117.7 1068.2 昆明 17.3 71.8 1011.3 1995.5 西安 16.4 78.1 1033.2 1091.9 拉萨 10.9 33.8 232.6 2672.9 兰州 7.5 53.3 311.7 2657.3 西宁 7.5 57.1 373.8 2534.2 银川 10.6

8、 52.3 240.1 2759.3 乌鲁木齐 8.6 56.0 286.3 2570.5  4. 系统聚类分析 4.1 实际操作 1.操作步骤 [1]在spss将数据导入数据视图; [2]点击spss选择 分析、分类、系统聚类;选中系统聚类分析主页面,将 城市选入标注个案,将变量平均气温至日照时数移入变量框中。单击定义组 因为本案例是对样本进行聚类,所以在分群中勾选个案,在输出选项组中勾选统计量复选框和图复选框。 [3]点击绘制按钮,选中树状图和冰柱栏中的无,点击继续按钮; [4] 点击保存按钮,在聚类成员框中选中方案范围按钮,最小聚类数设为2,最大聚类书设为

9、5,继续; [5]统计量和方法都选择系统默认值; [6]点击确认按,运行系统聚类过程。 4.2 结果分析 (1) 案例处理汇总表 案例处理汇总a,b 案例 有效 缺失 总计 N 百分比 N 百分比 N 百分比 31 100.0 0 .0 31 100.0 a. 平方 Euclidean 距离 已使用 b. 平均联结(组之间) 案例处理汇总表中汇总了有效数据数量31个,占百分比百分之百,缺失数据0个,占百分之零。总计数量31个,占百分比百分之百。 (2) 聚类过程的结果 聚类表 阶 群集组合 首次出现阶群集 群集 1

10、群集 2 系数 群集 1 群集 2 下一阶 1 1 7 2030.700 0 0 23 2 10 25 6472.450 0 0 24 3 27 28 6891.980 0 0 8 4 24 26 7712.150 0 0 12 5 11 13 7879.700 0 0 10 6 14 21 8652.120 0 0 18 7 29 31 8976.360 0 0 19 8 27 30 11702.360 3 0 14 9 4 8 13361.980 0 0 1

11、9 10 11 20 15090.710 5 0 20 11 2 15 16685.780 0 0 15 12 22 24 16946.055 0 4 17 13 9 17 21471.700 0 0 21 14 5 27 23973.187 0 8 22 15 2 6 26784.820 11 0 25 16 3 16 29527.570 0 0 25 17 22 23 30375.043 12 0 29 18 14 19 33341.820 6 0 26 19

12、4 29 33759.970 9 7 22 20 11 18 41305.233 10 0 26 21 9 12 54576.150 13 0 24 22 4 5 66153.898 19 14 23 23 1 4 76408.073 1 22 28 24 9 10 96207.958 21 2 27 25 2 3 133658.538 15 16 28 此表是对每一阶段聚类结果的反映,第四列表示聚合系数,第二列第三列表示聚合的类,例如,第一个阶段是把相似程度较大的第一个样品和第七个样品聚为一类

13、此时有30类,第二个阶段是把相似程度较大的第十个样品和第二十五个样品聚为一类,此时有29类,以此类推。 此图为根据聚类表所制出的折线图 (3)聚类成员表 群集成员 案例 5 群集 4 群集 3 群集 2 群集 1:北京 1 1 1 1 2:天津 2 2 1 1 3:石家庄 2 2 1 1 4:太原 1 1 1 1 5:呼和浩特 1 1 1 1 6:沈阳 2 2 1 1 7:长春 1 1 1

14、 1 8:哈尔滨 1 1 1 1 9:上海 3 3 2 2 10:南京 3 3 2 2 11:杭州 4 3 2 2 12:合肥 3 3 2 2 13:福州 4 3 2 2 14:南昌 4 3 2 2 15:济南 2 2 1 1 16:郑州 2 2 1 1 17:武汉 3 3 2 2 18:长沙 4 3 2 2 19

15、广州 4 3 2 2 20:南宁 4 3 2 2 21:海口 4 3 2 2 该表每个案例分别在分为五类、四类、三类、二类时所在的类别数,由表可知因为最小聚类数为2,最大聚类数为5 ,类别数分别为2, 3,4,5时样本的类别归属情况。可以结合后面的树状图、冰柱图及研究目的,确定具体的较为合理的类别数与成员归属。 (4)冰柱图 冰柱图也是反映样品聚类情况的图,比如我们希望分为3类,那么最左边的类数应选4,每个样品右边都有一列冰柱,如果某个样品右边的列冰柱长度小于三,那么他和前面冰柱长度大于三的样品聚为一类

16、如此下去直到找到全部三类为止,例如,案例二十二右边的列冰柱长度为2,那么它就与案例二十三和案例二十八为一类了,第九个案例右边的列冰柱长度为1,那么从案例十九到九为一类,其余为一类。由此,将本题分为了三类 (5)树状聚类图 * * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * * Dendrogram using Average Linkage (Between Group

17、s) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 北京 1 -+-+ 长春 7 -+ | 拉萨 27 -+ +-----+ 兰州 28 -+

18、 | | 银川 30 -+ | | 呼和浩特 5 -+-+ | 西宁 29 -+ | 乌鲁木齐 31 -+ +---------------------------------------+ 太原 4 -+ | | 哈尔滨 8 -+ | | 天津

19、 2 -+ | | 济南 15 -+-+ | | 沈阳 6 -+ +-----+ | 石家庄 3 -+-+ | 郑州 16 -+

20、 | 贵阳 24 -+ | 西安 26 -+ | 重庆 22 -+-------------+ | 成都 23 -+ |

21、 | 南京 10 -+-+ | | 昆明 25 -+ +-----+ +---------------------------------+ 上海 9 -+ | | | 由上表可以由分类个数得到分类情况, 如果我们选择分类数为5,就从距离大概为4的地方往下切,把地区分为5类,得到分类结果如下: 第一类:北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐 第二类:天津、石家庄、沈阳、济南、郑州

22、第三类:上海、南京、合肥、武汉、昆明 第四类:长沙、广州、南宁、海口、杭州、福州、南昌、昆明 第五类:重庆、成都、贵阳、西安 如果我们选择分类数为4,就从距离大概为5的地方往下切,把地区分为4类,得到分类结果如下: 第一类:北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐 第二类:天津、济南、郑州、沈阳、石家庄 第三类:上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、 第四类:重庆、成都、贵阳、西安 如果我们选择分类数为3,就从距离大概为6的地方往下切,把地区分为3类,得到分类结果如下: 第一类:拉萨、兰州、西宁、银川、乌鲁木齐、北京、太

23、原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州 第二类:上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明 第三类:重庆、成都、贵阳、西安 如果我们选择分类数为2,就从距离大概为20的地方往下切,把地区分为2类,得到分类结果如下: 第一类:拉萨、兰州、西宁、银川、乌鲁木齐、北京、太原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州 第二类:上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明、重庆、成都、贵阳、西安 5. K均值聚类分析 5.1. 基本思想 把样品粗略分成K个初始类,进行修改,逐个分派样品到其最近均值

24、得类中。重新计算接受新样品的类和失去样品的类的均值,重复,直到各类无元素进出。 5.2. 操作步骤 (1)在菜单中依次单击分析,分类,K-均值聚类,打开K-均值聚类对话框。将 城市选入个案标记依据,将平均气温、平均相对湿度、降水量和日照时数选入变量,聚类数,本例中设为4,方法选项组中采用默认的迭代与分类选项。 (2)输出结果设置:单击保存按钮,打开K-Means群集:保存新变量对话框,勾选聚类成员和与聚类中心的距离复选框,单击继续。 (3)选择统计量指标:单击 选项按钮,打开K均值聚类分析:选项对话框,勾选初始聚类中心、ANOVA表和每个个案的聚类信息,输出方差分析表和相应的个案信息。

25、缺失值处理方式使用系统默认选项。 (4)单击确定按钮,执行操作,输出结果。 5.3. 结果分析 (1)初始类中心 初始聚类中心 聚类 1 2 3 4 平均气温 10.60 17.70 17.30 22.90 平均相对湿度 52.30 76.70 71.80 70.80 降水量 240.10 927.50 1011.30 1736.10 日照时数 2759.30 1010.20 1995.50 1609.20 上表为初始聚类中心表,从上表中可以看出聚类数为4,所以表中给

26、出了4个初始类中心点。因为是初始聚类中心,在后面的迭代过程中类中心会发生调整。 (2) 迭代历史记录 下表为迭代历史记录表,显示了聚类分析所经历的迭代过程,从中可以看出,聚类分析过程经历了3次迭代,前两次的变化较大,最后一次聚类中心内的更改没有变化,所以表示迭代完成。初始中心间的最小距离为821.337。 迭代历史记录a 迭代 聚类中心内的更改 1 2 3 4 1 203.671 190.792 156.579 208.245 2 64.882 .000 44.523 82.400 3 .000 .000 .000 .000 a.

27、由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为 821.337。 (3)聚类成员 聚类成员 案例号 城市 聚类 距离 1 北京 1 169.368 2 天津 1 344.195 3 石家庄 3 302.104 4 太原 1 134.141 5 呼和浩特 1 171.727 6 沈阳 1 331.330 7 长春 1 196.540 8 哈尔滨 1 114

28、503 9 上海 4 287.494 10 南京 3 248.519 11 杭州 4 106.912 12 合肥 3 312.151 13 福州 4 180.329 14 南昌 4 196.627 15 济南 3 309.464 16 郑州 3 199.182 17 武汉 4 224.272 18 长沙 2 310.696 19 广州 4 285.826 20 南宁 4 200.245 上表为聚类

29、成员表,第三列为该地区所在的类别数,第四列为该案例距离类中心的距离。 把地区分为4类时, 第一类:北京、天津、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐 第二类:长沙、重庆、成都、贵阳、西安 第三类:南京、河南、济南、郑州 第四类:广州、南宁、海口、南昌、武汉 我们可以对分类结果做分析,第一类的城市地处我国北部;其降雨量湿度与日照时数较低,气候多为干冷,第二类的城市地处我国西南部,第三类的城市地处我国东南部,第四类的城市地处我国最南,我国主要城市气候可根据地区的生态环境进行分类。 (4)最终聚类中心 最终聚类中心

30、 聚类 1 2 3 4 平均气温 8.94 17.44 15.95 20.34 平均相对湿度 54.40 76.12 66.62 71.15 降水量 431.23 1102.82 815.17 1450.51 日照时数 2572.81 1085.46 1959.23 1620.59 该表为最终聚类中心表,由此表,再对比上面得出的初始聚类中心表就可以看出最终聚类中心和初始聚类中心相比发生了很大的变化。说明聚类过程中初始类中心坐标进行了调整。 (5)最终聚类中心间的距离 最终聚类中心间的距离 聚类 1 2

31、 3 4 1 1632.112 723.936 1395.020 2 1632.112 919.955 638.189 3 723.936 919.955 719.990 4 1395.020 638.189 719.990 该表为最终聚类中心间的距离表。例如第1类和第2类中心点坐标之间的距离为1632.112,第2类和第3类中心点坐标之间的距离为919.955。以此类推。 (6)方差分析表 ANOVA 聚类 误差 均方 df 均方 df F

32、 Sig. 平均气温 232.937 3 6.170 27 37.752 .000 平均相对湿度 759.884 3 47.201 27 16.099 .000 降水量 1764610.042 3 33190.645 27 53.166 .000 日照时数 3083306.950 3 22847.205 27 134.953 .000 F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。 该表是方差分析表,F值只能作

33、为描述使用,不能根据该值判断各类均值是否有显著性差异,从方差分析表可以看出有三个变量:平均气温,平均相对湿度,降水量,对分类现象显著。 (7)每个聚类中的案例数目 每个聚类中的案例数 聚类 1 12.000 2 5.000 3 6.000 4 8.000 有效 31.000 缺失 .000 每个聚类中的案例数表,由表便可看出,类别1中的案例数为12个,类别2中的案例数为5个,类别3中的案例数为6个,类别4中的案例数为8个。有效个案数为31个。 (8)QCL1为分类归属情况,QCL2为样本到类中心的距离。 城市 QCL

34、1 QCL2 1 北京 1 169.368 2 天津 1 344.195 3 石家庄 3 302.104 4 太原 1 134.141 5 呼和浩特 1 171.727 6 沈阳 1 331.330 7 长春 1 196.540 8 哈尔滨 1 114.503 9 上海 4 287.494 10 南京 3 248.519 11 杭州 4 106.912 12 合肥 3 312.151 13 福州 4 180.329 14 南昌 4 196.627 15 济南 3 309.4

35、64 16 郑州 3 199.182 17 武汉 4 224.272 18 长沙 2 310.696 19 广州 4 285.826 20 南宁 4 200.245 21 海口 4 270.056 22 重庆 2 124.481 23 成都 2 190.792 24 贵阳 2 22.912 25 昆明 3 199.530 26 西安 2 69.953 27 拉萨 1 223.380 28 兰州 1 146.384 29 西宁 1 69.265 30 银川 1 267.049

36、 31 乌鲁木齐 1 144.953 由表可知,相对于系统矩阵,K均值矩阵把地区分为5类时, 第一类:北京、天津、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐 第二类:长沙、重庆、成都、贵阳、西安 第三类:南京、河南、济南、郑州 第四类:广州、南宁、海口、南昌、武汉 6.两种方法的结果比较 我又分别做了K=3和K=5时的K均值聚类分析与系统聚类分析的3类、4类、5类相比较,结果如下表: (1) 把地区分为5类时,两种方法比较如下表所示 系统聚类 K均值聚类 第一类 北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木

37、齐 长沙、重庆、成都、贵阳、西安 第二类 天津、石家庄、沈阳、济南、郑州 上海、南京、合肥、武汉、昆明 第三类 上海、南京、合肥、武汉、昆明 天津、石家庄、沈阳、济南、郑州 第四类 长沙、广州、南宁、海口、杭州、福州、南昌、昆明 广州、南宁、海口、南昌、杭州、福州 第五类 重庆、成都、贵阳、西安 北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐 (2)把地区分为4类时,两种方法比较如下表所示: 系统聚类 K均值聚类 第一类 北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐 北京、天津、太原、呼和浩特、沈阳、长

38、春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐 第二类 天津、济南、郑州、沈阳、石家庄 长沙、重庆、成都、贵阳、西安 第三类 上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、 南京、河南、济南、郑州、石家庄 第四类 重庆、成都、贵阳、西安、昆明 广州、南宁、海口、南昌、武汉 (3)把地区分为3类时,两种方法比较如下表所示 系统聚类 K均值聚类 第一类 拉萨、兰州、西宁、银川、乌鲁木齐、北京、太原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州 北京、天津、石家庄、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西

39、宁、银川、乌鲁木齐、济南、郑州 第二类 上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明 长沙、重庆、成都、贵阳、西安 第三类 重庆、成都、贵阳、西安 上海、南京、合肥、杭州、福州、南昌、武汉、广州、南宁、海口、昆明 (1)上图分别比较了k=3,4,5,将系统分为三类四类五类时K均值聚类法与系统聚类法的比较,可以看出,在K=3时,K均值聚类分析与系统聚类分析的结果差异最小,K均值聚类将样品聚类,而系统聚类将指标聚类。系统聚类过程较麻烦,此案例这种比系统聚类法大得多的数据组用K均值法更简单明了,但是在对案例进行分析时,选择几种算法进行反复检验,对于结果

40、的分析是有好处的。当K均值聚类成五类时各类之间差异较小,无较大意义,强行把这些数据分成K个类会导致无意义的聚类。 (2)K均值的优点:操作简便,K均值法得到的结果比较简单易懂。 K均值的缺点:K均值法只能产生指定类数结果。 系统聚类的优点:系统聚类可以对不同的类数产生一系列的聚类结果。 系统聚类的缺点:系统聚类法需要计算出不同样品或变量的距离,还要在 聚类的每一步都要及时“类间距离”,计算量比较大。 7. 总结 上面我已经分别用了系统聚类法和K均值法对我国主要城市气候进行了分类,结果也都已经展示在了上

41、面。可以看出系统聚类法要计算出不同样品或变量的距离,计算量较大,较麻烦,而K均值法得到的结果比较明了简洁。系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数结果。通过对比两种方法,我们可以发现对比两种算法更利于结果分析,找到更合理的分类。所以,在对案例进行分析时,选择几种算法进行反复检验,对于结果的分析是有好处的。 K均值法与系统聚类法相同之处都是以距离的远近进行聚类。K均值法与系统聚类法的不同之处是系统聚类是对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数结果。需要计算出不同样品或变量的距离,还要在聚类的每一步都要及时“类间距离”,计算量比较大。而K均值法得到的结果比较简单易懂。 通过这次课设,利用spss软件,我学会了系统聚类和K均值聚类的基本思想和步骤方法,了解到了K均值法和系统聚类法的区别以及优缺点,对聚类分析有了深刻的认识 。 参考文献 1. 张红坡 张海峰等. SPSS统计分析实用宝典. 清华大学出版社 2012.6 2. 何超群.多元统计分析第四版.中国人民大学出版社

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服