收藏 分销(赏)

spss聚类分析教程.ppt

上传人:精*** 文档编号:12509043 上传时间:2025-10-22 格式:PPT 页数:25 大小:845.04KB 下载积分:10 金币
下载 相关 举报
spss聚类分析教程.ppt_第1页
第1页 / 共25页
spss聚类分析教程.ppt_第2页
第2页 / 共25页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,中国人民大学六西格玛质量管理研究中心,*,2025/10/21 周二,1,基本统计分析,有了数据,可以利用,SPSS,的各种分析方法进行分析,但选择何种统计分析方法,即调用哪个统计分析过程,是得到正确分析结果的关键,SPSS,有数字分析和作图分析两类方法,2025/10/21 周二,2,基本统计分析概述,目录 上页 下页 返回 结束,基本统计分析是进行其他更深入的统计分析的前提,通过基本统计分析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究,。,在,SPSS,的,Analyze,菜单中包括了一系列统计分析过程。其中,Reports,和,Descriptive Statistics,命令项中包括的功能是对单变量的描述统计分析,Descriptive Statistics,包括的统计功能有:,Frequencies,:频数分析,Descriptives,:描述统计量分析,Explore,:探索分析,Crosstabs,:多维频数分布交叉表(列联表),2025/10/21 周二,4,描述统计分析过程,Descriptives,目录 上页 下页 返回 结束,1,、功能:了解数据的基本统计特征和对指定的变量值进行标准化处理,(,标准化后的新变量的均值为,0,,标准差为,1,,目的是为了消除各变量间变量值在数量级上的差异,从而增强数据间的可比性,),。,2,、描述统计分析过程通过平均值,(Mean),、,算术和,(Sum),、标准差,(Std Dev),、最大值,(Maximum),、最小值,(Minimum),、方差,(Variance),、范围,(Range),、平均数标准误,(S.E.Mean),等统计量对变量进行描述,。,2025/10/21 周二,5,目录 上页 下页 返回 结束,SPSS,数值统计分析过程均在,Analyze,菜单中,基本统计分析:,Reports,Descriptive Statistics,b,、均值比较与检验:,Compare Means,d,、方差分析:,ANOVA Models,b,、相关分析:,Correlate,e,、,回归分析,:,Regression,f,、,聚类与判别,:,Classify,g,、,因子分析,:,Data Reduction,h,、,非参数检验,:,Nonparametric Tests,等等,2025/10/21 周二,6,第一章 聚类分析,聚类分析的基本思想,聚类分析上机实现,2025/10/21 周二,9,1.1,聚类分析的思想,目录 上页 下页 返回 结束,聚类的目的,在一些社会、经济问题中,我们面临的往往是比较复杂的研究对象,如果能把相似的样品(或指标)归成类,处理起来就大为方便,聚类分析的目的就是把相似的研究对象归成类。,【,例,1】,若我们需要将下列,11,户城镇居民按户主个人的收入进行分类,对每户作了如下的统计,结果列于表,3.1,。在表中,,“,标准工资收入,”,、,“,职工奖金,”,、,“,职工津贴,”,、,“,性别,”,、,“,就业身份,”,等称为指标,每户称为样品。若对户主进行分类,还可以采用其他指标,如,“,子女个数,”,、,“,政治面貌,”,等,指标如何选择取决于聚类的目的。,2025/10/21 周二,10,目录 上页 下页 返回 结束,2025/10/21 周二,11,目录 上页 下页 返回 结束,上例中的,8,个指标,前,6,个是定量的,后,2,个是定性的。如果分得更细一些,指标的类型有三种尺度,间隔尺度。变量用连续的量来表示。,有序尺度。指标用有序的等级来表示,有次序关系,但没有数量表示。,名义尺度。指标用一些类来表示,这些类之间没有等级关系也没有数量关系。,不同类型的指标,在聚类分析中,处理的方式是大不一样的。总的来说,提供给间隔尺度的指标的方法较多,对另两种尺度的变量处理的方法不多。,2025/10/21 周二,12,目录 上页 下页 返回 结束,第一位重要的问题是“什么是类”?粗糙地讲,相似样品(或指标)的集合称作类。,聚类分析给人们提供了丰富多采的方法进行分类,这些方法大致可归纳为:,(1),系统聚类法。,(2),模糊聚类法。,(3)K-,均值法。,(4),有序样品的聚类。,(5),分解法。,(6),加入法。,2025/10/21 周二,13,1.2,系统聚类法,目录 上页 下页 返回 结束,(1),最短距离法。,(nearest neighbor,或,single linkage method),2025/10/21 周二,14,目录 上页 下页 返回 结束,(2),最长距离法(,farthest neighbor,或,complete linkage method,)。,2025/10/21 周二,15,目录 上页 下页 返回 结束,(3),类平均法,(group average method),。,2025/10/21 周二,16,目录 上页 下页 返回 结束,(4),重心法,(Centroid method),。,(5),离差平方和法(,Sum of Squares method,)。,2025/10/21 周二,中国人民大学六西格玛质量管理研究中心,17,1.3,系统聚类法,目录 上页 下页 返回 结束,系统聚类法,(hierarchical clustering method),在聚类分析中诸方法中用的最多,包含下列步骤:,2025/10/21 周二,18,目录 上页 下页 返回 结束,注:不同的距离定义方式用到系统聚类程序中,得到不同的系统聚类法。我们现在通过一个简单的例子,来说明各种系统聚类法。,2025/10/21 周二,中国人民大学六西格玛质量管理研究中心,19,1.4,计算步骤与上机实践,目录 上页 下页 返回 结束,2025/10/21 周二,20,1.5,案例研究,目录 上页 下页 返回 结束,例,3,我们以,2005,年,31,个省、市、自治区的城镇居民月平均消费支出数据为例,在,SPSS,中利用,K-,均值法对,31,个省、市、自治区的城镇居民消费水平进行聚类分析。,在,SPSS,中依次点击,“,Analyze,”,“,Classify,”,“,K-Means Cluster,”,,打开,K-Means Cluster Analysis,对话框,将,8,个变量选入,Variable,框中,将表示地区的变量选入,Label Cases By,栏中,将分类数(,Number of clusters,)定为,3,。另外,点击,Iterate,按钮可以在其中输入最大迭代次数(,Maximum iterations,)和收敛标准(,Convergence criterion,);在,Save,按钮中可以选择保存样本的聚类结果(,Cluster membership,)和各样本距各自中心点的距离(,Distance from cluster center,);在,Options,按钮中可以选择输出初始类中心点、方差分析表等结果,读者可以根据实际情况来选择。点击,“,OK,”,得到聚类结果如下:,2025/10/21 周二,中国人民大学六西格玛质量管理研究中心,21,目录 上页 下页 返回 结束,2025/10/21 周二,22,目录 上页 下页 返回 结束,表,3.16,中最大的相关系数为,r4,,,8,0.837,,将,G4,和,G8,并成一新类,G9,,然后计算,G9,与各类的相关系数,再找最大的相关系数,每次缩小一类得图,3,17,。,我们可以看出全国城镇居民得消费结构大致可以分为三个方面,一类是各种副食、日用品及交通通信、文化教育和住房等支出,这是在消费结构中起主导作用的方面;其次是居民购买烟、酒、饮料及着装支出;粮食和水电燃料是两项很重要的消费指标,但目前在城镇居民的消费中占的比例较小,可将它们归并为同一类。,2025/10/21 周二,23,目录 上页 下页 返回 结束,上面介绍的几种系统聚类方法,并类的原则和步骤基本一致,所不同的是类与类的距离有不同的定义。其实可以把这几种方法统一起来,有利于在计算机上灵活地选择更有意义的谱系图。,2025/10/21 周二,24,目录 上页 下页 返回 结束,当然,也可以采用欧氏距离分别用类平均法、最短距离法、最长距离法把,31,个省市分类。,类平均法聚类在,SPSS,中的操作为:点选,“,Analyze,”,“,Classify,”,“,Hierarchical Cluster,”,,打开,Hierarchical Cluster Analysis,对话框,将八个聚类指标选入,Variables,栏中,将表示地区的变量选入,Label Cases By,栏中,按,“,Plots,”,按钮,在弹出的窗口中选中,Dendrogram,(谱系图)选项,按,“,Continue,”,返回主对话框,在按,“,Method,”,按钮,在,Cluster Method,下拉菜单中选择,Between-groups linkage,(组间连接法,即类平均法)选项,返回主对话框后按,“,OK,”,即可得到聚类结果。,2025/10/21 周二,25,目录 上页 下页 返回 结束,最短距离法和最长距离法操作步骤与类平均法一样,只不过要在,Cluster Method,下拉菜单中分别选择,Nearest Neighbor,和,Furthest Neighbor,选项。,直观看出,类平均法分为三类:,1,,,9,,,11,,,19,为第一类,,13,,,2,,,22,,,10,为第二类,其他为第三类;最短距离法分为两类,,1,,,9,,,11,,,19,为一类,其余的省市归为一大类;最长距离法也分为三类:,1,,,9,,,11,,,19,为第一类,,10,,,22,,,2,,,13,,,26,为第二类,其余的省市为第三类。很显然,这三种方法的分类效果是有差异的。,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服