收藏 分销(赏)

第九章SPSS的聚类分析PPT课件.pptx

上传人:胜**** 文档编号:765406 上传时间:2024-03-07 格式:PPTX 页数:36 大小:387.59KB
下载 相关 举报
第九章SPSS的聚类分析PPT课件.pptx_第1页
第1页 / 共36页
第九章SPSS的聚类分析PPT课件.pptx_第2页
第2页 / 共36页
第九章SPSS的聚类分析PPT课件.pptx_第3页
第3页 / 共36页
第九章SPSS的聚类分析PPT课件.pptx_第4页
第4页 / 共36页
第九章SPSS的聚类分析PPT课件.pptx_第5页
第5页 / 共36页
点击查看更多>>
资源描述

1、第九章 SPSS的聚类分析1聚类分析概述概念:聚类分析是统计学中研究“物以类聚”的一种方法,属多元统计分析方法.例如:细分市场、消费行为划分聚类分析是建立一种分类,是将一批样本(或变量)按照在性质上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法.其中:类内个体具有较高的相似性,类间的差异性较大.2聚类分析概述两类两类:(A B)(C D E)三类三类:(A B)(C)(D E)l依据平均得分依据平均得分的差距的差距,差距较差距较小的为一类小的为一类.l分类过程中分类过程中,没有事先指定没有事先指定分类的标准分类的标准.完完全根据样本数全根据样本数据客观产生分据客观产生分类结果类结果.

2、3亲疏远程度的衡量指标亲疏远程度的衡量指标相似性相似性:数据间相似程度的度量数据间相似程度的度量距离距离:数据间差异程度的度量数据间差异程度的度量.距离越近距离越近,越越“亲密亲密”,聚成一类聚成一类;距离越远距离越远,越越“疏远疏远”,分别属于不同的类分别属于不同的类定距型个体间的距离:定距型个体间的距离:把每个个案数据看成是把每个个案数据看成是n n维空间上的点维空间上的点,在点和点之间定义某种距离在点和点之间定义某种距离.一般适用于定距数一般适用于定距数据据欧氏距离欧氏距离(EUCLID)EUCLID)平方欧氏距离平方欧氏距离(SEUCLIDSEUCLID)聚类分析概述4个体距离矩阵l定

3、距型个体间的距离聚类分析概述5l品质型个体间的距离姓名 授课方式 上机时间 选某门课程张三 1 1 1 李四 1 1 0王五 0 0 1聚类分析概述6品质型个体间的距离品质型个体间的距离简单匹配简单匹配(simple matching)simple matching)系数系数:适用二值变量。适用二值变量。个体j个体i 1 01 a b0 c d a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时拥有或同时不拥有某特征的情况;取0和1地位等价,编码方案的变化不会引起系数的变化。聚类分析概述7l品质型个体间的距离l简单匹配(simple matching)系数:适用二值

4、变量。姓名 授课方式 上机时间 选某门课程张三 1 1 1 李四 1 1 0王五 0 0 1(张三,李四):a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3(张三,王五):a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3张三距李四近聚类分析概述8品质型个体间的距离品质型个体间的距离根据临床表现研究病人是否有类似的病根据临床表现研究病人是否有类似的病姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4张三 男 1 0 1 0 0 0李四 女 1 0 1 0 1 0王五 男 1 1 0 0 0 0.聚类分析概述9品质型个体间的距离品质型个体间的距离雅科比(

5、雅科比(JaccardJaccard)系数系数:适用二值变量适用二值变量个体j个体i 1 01 a b0 c d a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时不拥有某特征的情况;取1的状态比取0更有意义(如:临床检验中的阳性特征);编码方案会引起系数的变化聚类分析概述10l品质型个体间的距离l雅科比(Jaccard)系数:适用二值变量姓名 授课方式 上机时间 选某门课程张三 1(0)1(0)1(0)李四 1(0)1(0)0(1)王五 0(1)0(1)1(0)(张三,李四)1:a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3(张三,李四)2:

6、a=0 b=0 c=1 d=2 d(x,y)=1/(1+2)=1/3(相同)(张三,李四)1:a=2 b=1 c=0 d=0 J(x,y)=1/(1+2)=1/3(张三,李四)2:a=0 b=0 c=1 d=2 J(x,y)=1/1=1(不相同)聚类分析概述11品质型个体间的距离品质型个体间的距离JaccardJaccard系数举例系数举例:根据临床表现研究病人是否有类似的病根据临床表现研究病人是否有类似的病姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4张三 男 1 0 1 0 0 0李四 女 1 0 1 0 1 0王五 男 1 1 0 0 0 0.结论:张三和李四最有可能得类似的病;

7、李四和王五不太有可能聚类分析概述12l品质型个体间的距离卡方距离:计数变量聚类分析概述姓名选修课门数(期望频数)专业课门数(期望频数)得优门数(期望频数)合计张三9(8.5)6(6)4(4.5)19李四8(8.5)6(6)5(4.5)19合计171293813说明说明聚类过程中如果数据在数量级上存在差异时,应进行标准化处理。聚类过程中如果数据在数量级上存在差异时,应进行标准化处理。例如例如:样本的欧氏距离 元 万元(1,2)26500081.623(1,3)218000193.700(2,3)47000254.897聚类分析概述14聚类分析概述l说明l聚类分析中的变量选择问题变量应和聚类分析的

8、目标密切相关(如;学校科研能力的评价。如:科研经费 项目 获奖 人数 办学性质)聚类结果仅是所选定变量所具数据特点的反应.变量之间不应具有高度相关性,否则相当于给这些变量进行了加权l聚类分析包括:个案聚类和变量聚类两种。l聚类分析包括:分层聚类和快速聚类15分层聚类思路:聚类过程具有一定的层次性以合并(凝聚)的方式聚类(SPSS采用)首先,每个个体自成一类其次,将最“亲密”的个体聚成一小类然后,将最“亲密”的小类或个体再聚成一类重复上述过程,即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都到一起(一大类)为止可见,随着聚类的进行,类内的“亲密”性在逐渐减低16分层聚类思路思路以分解的

9、方式聚类以分解的方式聚类首先首先,所有个体都属于一类所有个体都属于一类其次其次,将大类中最将大类中最“疏远疏远”的小类或个体分离出去的小类或个体分离出去然后然后,分别将小类中最分别将小类中最“疏远疏远”的小类或个体再分离出去的小类或个体再分离出去重复上述过程重复上述过程,即:把类分解成越来越小的小类,直到所有的个体自成一类为止即:把类分解成越来越小的小类,直到所有的个体自成一类为止可见可见,随着聚类的进行随着聚类的进行,类内的亲密性在逐渐增强类内的亲密性在逐渐增强17分层聚类“亲疏亲疏”程度的衡量对象程度的衡量对象个体间距离个体间距离个体和小类间、小类和小类间的距离个体和小类间、小类和小类间的

10、距离182024/2/29 周四19分层聚类个体和小类、类和类间的距离个体和小类、类和类间的距离最短距离法最短距离法(nearest neighbor):nearest neighbor):两类间的距离定义为两类中距离最近的两个个案之间的距离两类间的距离定义为两类中距离最近的两个个案之间的距离最长距离法最长距离法(furthest neighbor)furthest neighbor):两类间的距离定义为两类中距离最远的两个个案之间的距离两类间的距离定义为两类中距离最远的两个个案之间的距离平均链锁法平均链锁法(within-groups linkage)within-groups linkag

11、e)两类之间的距离定义为两类个案之间距离的平均值。包括:两类之间的距离定义为两类个案之间距离的平均值。包括:组间平均链锁法组间平均链锁法(between-groups linkage):between-groups linkage):只考虑两类间个案的距离只考虑两类间个案的距离组内平均链锁法(组内平均链锁法(With-groups linage)With-groups linage):考虑所有个案间的距离考虑所有个案间的距离20分层聚类基本操作步骤基本操作步骤1.1.基本操作基本操作A.A.菜单选项菜单选项:analyze-classify-hierachical clusteranalyze

12、-classify-hierachical clusterB.B.选择参与聚类分析的变量入选择参与聚类分析的变量入variablesvariables框框C.C.选择一字符型变量作为个案的标记变量选择一字符型变量作为个案的标记变量(label cases)label cases)D.D.选择个案聚类还是变量聚类选择个案聚类还是变量聚类21分层聚类基本操作步骤基本操作步骤2.2.选择距离计算方法(选择距离计算方法(methodmethod选项)选项)cluster method:cluster method:计算类间距离的方法计算类间距离的方法measure:measure:计算样本距离的方法计

13、算样本距离的方法transform values:transform values:对数据进行标准化处理对数据进行标准化处理by variable:by variable:以以变量为单位标准化,适于个案聚类变量为单位标准化,适于个案聚类 by case:by case:对个案为单位标准化,适于变量聚类对个案为单位标准化,适于变量聚类22分层聚类进一步的工作进一步的工作1.1.数据输出(数据输出(statisticsstatistics选项)选项)agglomeration schedule:agglomeration schedule:凝聚状态表(默认)凝聚状态表(默认)distance ma

14、trix:distance matrix:样本的距离矩阵样本的距离矩阵cluster membership:cluster membership:类成员类成员none:none:不输出类成员(默认)不输出类成员(默认)single solutionsingle solution:聚成聚成n n类时各样本的归属类时各样本的归属range of solutions:range of solutions:聚成聚成mnmn类时各样本的归属类时各样本的归属(mnmnclassify-k means clusteranalyze-classify-k means clusterB.B.选定参加快速聚类分析

15、的变量到选定参加快速聚类分析的变量到variablesvariables框框C.C.确定快速聚类的类数确定快速聚类的类数(number of clusters).number of clusters).类数应小类数应小于个案总数于个案总数D.D.选择聚类方法选择聚类方法(method)method):默认默认iterate and classifyiterate and classify,即:即:在聚类的每一步都重新计算新的类中心在聚类的每一步都重新计算新的类中心E.E.确定聚类终止条件(确定聚类终止条件(iterate)iterate)30K-means快速聚类(四四)其他其他1.1.保存快

16、速聚类的结果保存快速聚类的结果(save)save)cluster membership:cluster membership:将各个案所属类的类号保存到将各个案所属类的类号保存到qcl_qcl_1 1变量中变量中distance from cluster center:distance from cluster center:将各样本距所属类中心将各样本距所属类中心的距离保存到的距离保存到qcl_2qcl_2变量中变量中.31K-means快速聚类(四四)其他其他2.2.输出选项输出选项(option)option)initial cluster centers:initial cluste

17、r centers:输出输出初始类中心点初始类中心点ANOVA table:ANOVA table:输出各类的方差分析表输出各类的方差分析表cluster information for each case:cluster information for each case:输出每个样本的分类输出每个样本的分类结果和距离结果和距离32K-means快速聚类(四四)其他其他3.3.useuse running means running means项项:选中:表示每个样本被分配到一类后立即计算新的类中心。聚类结果选中:表示每个样本被分配到一类后立即计算新的类中心。聚类结果与个案的先后次序有关与个

18、案的先后次序有关.不选中:表示完成了所有个案的依次分配后再计算类中心不选中:表示完成了所有个案的依次分配后再计算类中心.省时省时.33K-means快速聚类(四四)其他其他4.4.用户指定类中心用户指定类中心(center)center)read initial from:read initial from:若不指定则系统自动确定初始类中心。若不指定则系统自动确定初始类中心。指定则从某指定则从某.savsav文件中读入初始类中心数据(应设一个名为文件中读入初始类中心数据(应设一个名为Cluster_Cluster_的变量名)的变量名)。Write final as:Write final as:在分析的最后将各类中心写入某在分析的最后将各类中心写入某.savsav文件文件34K-means快速聚类(五五)例子例子商厦评价快速聚类商厦评价快速聚类综合成绩评判综合成绩评判指定初始类中心指定初始类中心(read initial from)read initial from)classify only:classify only:聚类始终聚类始终以初始类中心为聚类中心以初始类中心为聚类中心.352024/2/29 周四36

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服