ImageVerifierCode 换一换
格式:PPT , 页数:62 ,大小:940.54KB ,
资源ID:12398615      下载积分:14 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/12398615.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(统计分析与方法第七章聚类分析.ppt)为本站上传会员【精****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

统计分析与方法第七章聚类分析.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1,聚类分析,2,第五章 把对象分类,聚类分析,3,分类,俗语说,物以类聚、人以群分。,当有一个分类指标时,分类比较容易。,但是当有多个指标,要进行分类就不是很容易了。,比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;,也可以考虑收入、教育水准、医疗条件、基础设施等指标;,4,聚类分析,由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对

2、重要程度的问题。,所以需要进行多元分类,即聚类分析。,最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。,5,聚类分析,对于一个数据,人们既可以对变量(指标)进行分类,(,相当于对数据中的列分类,),,也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。,对变量的聚类称为,R,型聚类,而对观测值聚类称为,Q,型聚类。这两种聚类在数学上是对称的,没有什么不同。,6,聚类中选择变量的要求,和聚类分析的目标密切相关,反映了要分类对象的特征,变量之间不应该高度相关。,9,距离,什么是距离?,首先我们,看样本数,据:,一般满

3、足以下四个条件时,就称为聚例:,10,常用距离,明氏距离,Minkowski,距离:,当,q=1,时:,当,q=2,时:,当,q=,时:,11,明氏距离的缺点,距离的大小与个指标的观测单位有关,具有一定的人为性。,例如:对体重和身高进行测量,采用不同单位,其距离测量的结果不同。以欧氏距离为例。,12,当长度,=cm,时:,13,当长度,=mm,时:,改进的方法:对数据进行标准化,然后再计算距离。,14,采用明氏距离需要注意的是:,一定要采用相同量纲的变量。如果各变量的量纲不同,或当各变量的量纲相同但各变量的测量值相差悬殊时,不能直接采用明氏距离。,需要先对数据进行标准化处理,然后再用标准化处理

4、后的数据计算距离。,最常用的标准化处理方法是,:,15,对指标标准化的方法,16,明氏距离的缺点,另一个缺点:它没有考虑到指标之间的相关性。,改进的方法是:采用,马氏距离,马氏距离是,1936,年由印度数学家:马哈拉比斯由协方差矩阵计算构造的距离。,17,相似系数,研究样品之间的关系,除了用距离表示外,还有相似系数,顾名思义,相似系数是描写样品之间相似程度的一个量,常用的相似系数有:,夹角余弦,相关系数,18,相似系数,夹角余弦,cosine,尽管图中,AB,和,CD,长度不一样,但形,状相似。当长度不,是主要矛盾时,就,可利用夹角余弦这,样的相似系数。,19,夹角余弦,cosine,20,相

5、关系数,21,22,聚类分析内容,系统聚类法,有序样品聚类法,动态聚类法,模糊聚类法,图论聚类法,聚类预报法等。,本章主要介绍常用的系统聚类法。,23,系统聚类法,24,系统聚类法的基本思想,先将每个研究对象,(,样品或指标,),各自看成一类。,然后根据对象间的相似度量,将,h,类中最相似的两类合并,组成一个新类,这样得到,h-1,类,再在这,h-1,类中找出最相似的两类合并,得到,h-2,类,如此下去,直至将所有的对象并成一个大类为止。,当然,真的合并成一个类就失去了聚类的意义,所以上面的聚类过程应该在某个类水平数(即未合并的类数)停下来,最终的类就取这些未合并的类。决定聚类个数是一个很复杂

6、的问题。,25,系统聚类法的步骤,可选择适当的距离,计算距离,把每个样品看成一类,构造,n,个类,合并最近的两类为一新类,计算新类与当前各类的距离,判断,画聚类图,根据实际情况,确定类和类的个数,仅有一个类,不是仅有一个类,采用系统聚类法,26,系统聚类法,正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。,例如可以定义类与类之间的距离为两类之间最近样品的距离,或者定义为两类之间最远样品的距离,也可以定义为两类重心之间的距离等等。,类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法。,27,八种系统聚类方法,最短距离法,最长距离法,中间距离法,重心法,类平均法,

7、可变类平均法,可变法,离差平方和法,系统聚类分析尽管方法很多,但归类的步骤基本上是一样的,所不同的仅是类与类之间的距离有不同的定义方法,从而得到不同的计算距离的公式。这些公式在形式上不大一样,但最后可将它们统一为一个公式,对上机计算带来很大的方便。,28,系统聚类法,最短距离法,Nearest Neighbor,G1 G2 G3 G4 G5,G1,G2,G3,G4,G5,0,1 0,2.5,1.5,0,6,5,3.5 0,8,7,5.5 2 0,G6 G3 G4 G5,G6,G3,G4,G5,0,1.5,0,5,3.5 0,7,3.5 3.5 0,29,系统聚类法,最长距离法,Furthest

8、 Neighbor,G1 G2 G3 G4 G5,G1,G2,G3,G4,G5,0,1 0,2.5,1.5 0,6,5 3.5 0,8,7 5.5 2 0,G6 G3 G4 G5,G6,G3,G4,G5,0,2.5,0,6,3.5 0,8,3.5 3.5 0,30,系统聚类法,重心法,Centroid Clustering,类平均法,Between-groups Linkage,31,系统聚类法,离差平方和法,Words Method,Words,法的基本思想是来自于方差分析,如果分类正确,同类样品的离差平方和应当较小,类与类的离差平方和应当较大。,具体方法,:,先将,n,个样品各自成一类,然

9、后每次缩小一类;,每缩小一类离差平方和就要增大,选择使离差平方和增加最小的两类合并,直到所有的样品归为一类为止。,32,系统聚类法,中样品的离差平方和为:,33,系统聚类法,如有五个样品:,1,,,2,,,3.5,,,7,,,9,第一步:将五个样品各自分成一类,显然这时的类内离差平方和,S=0,;,第二步:将一切可能的任意两样品合并,计算所增加的离差平方和:,如,34,G,1,G,2,G,3,G,4,G,5,G,1,G,2,G,3,G,4,G,5,0,0.5 0,3.125 1.123 0,18 12.5 6.125 0,32 24.5 12.125 2 0,此外,还有中间距离法、类内平均法等

10、35,SPSS,中的聚类分析与过程,36,例,9.1,饮料数据(,drink.sav,),16,种饮料的热量、咖啡因、钠及价格四种变量,37,SPSS,中的聚类分析,Spss,中的聚类功能常用的有两种:,快速聚类(迭代过程):,K-Means Cluster,分层聚类:,Hierarchical,38,Hierarchical Cluster,聚类,分层聚类由两种方法:分解法和凝聚法。,分层聚类的功能:即可进行样品的聚类,也可进行变量的聚类。,分层聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。,39,Hierarchical Cluster,聚类,分层聚类的中要进行以下的选择:,

11、数据的标准化,测度方法的选择,:距离方法的选择或相似性、关联程度的选择。,聚类方法的选择,:即以什么方法聚类,,spss,中提供了,7,中方法可进行选择。,输出图形的选择:树形图或冰柱图。,40,41,欧氏平方距离、类平均法聚类,快速聚类法聚类,42,欧氏平方距离、最短距离法聚类,欧氏平方距离、最长距离法聚类,43,欧氏平方距离、重心法聚类,欧氏平方距离、,Words,法聚类,44,聚类分析在市场细分中的应用,要对消费者购物的态度进行分类,在前期研究的基础上,确定,6,个态度变量。每个消费者要对有关购物态度的,6,个观点进行评价:,1,表示非常不同意,,7,表示非常同意。,V1,购物很有趣,V

12、2,购物不利于我的预算,V3,购物总是与上饭店吃饭联系在一起,V4,购物时我尽量买的最好,V5,我对购物不感兴趣,V6,购物时多比较价格可以节省很多钱,(,SPSS,文件:购物态度聚类分析,),45,1,类:,1,、,3,、,6,、,7,、,8,、,12,、,15,、,17,2,类:,2,、,5,、,9,、,11,、,13,、,20,3,类:,4,、,10,、,14,、,16,、,18,、,19,46,第,1,类消费者对于,V1,和,V3,的评价相对较高,而对,V5,评价较低,因此可以称其为“热情的消费者”。,V1,购物很有趣,V3,购物总是与上饭店吃饭联系在一起,V5,我对购物不感兴趣,47

13、第,2,类消费者正好与第,1,类相反,对于,V1,和,V3,的评价相对较低,而对,V5,评价较高,因此可以称其为“冷淡的消费者”。,V1,购物很有趣,V3,购物总是与上饭店吃饭联系在一起,V5,我对购物不感兴趣,48,第,3,类消费者对于,V2,、,V4,和,V6,的评价相对较高,因此可以称其为“经济型消费者”。,V2,购物不利于我的预算,V4,购物时我尽量买的最好,V6,购物时多比较价格可以节省很多钱,49,K-Means Cluster,原理,首先,,选择,n,个数值型变量参与聚类分析,最后要求的,聚类数为,k,个,;,其次,,,由系统选择,k,个,(,聚类的类数),观测量,(也可由用户

14、指定),作为聚类的种子,。,第三,,按照距离这些类中心的,距离最小的原则,把所有观测量(样品)分派到各类重心所在的类中去。,第四,,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心;,第五,,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束。,50,K-Means Methods,-,快速聚类,51,K-Means Methods,52,K-Means Methods,53,K-Means Cluster,聚类过程,由,AnalyzeClassify,K-Means Cluster,将个变量放入,Variable,;,输入最后聚类的个

15、数;,54,55,56,57,快速聚类法与层次聚类法应用区别,层次聚类法的聚类过程是单方向的,一旦某个样品(,case,)进入某一类,就不可能从该类出来,再归入其他的类。,而快速聚类法受奇异值、相似测度和不合使得聚类变量的影响较小,对于不合适的初始分类可以进行反复调整,.,58,快速聚类法与层次聚类法应用区别,在聚类分析发展的早期,层次聚类法应用普遍,其中尤以组间类平均法和离差平方和法应用最广。,后来快速聚类方法逐步被人们接受,应用日益增多。现在是两者相结合,取长补短。,首先使用层次聚类法确定分类数,检查是否有奇异值,去除奇异值后,对剩下的案例重新进行分类,把用层次聚类法得到的各个类的重心,作为迭代法的初始分类中心,对样本进行重新调整。,59,练习,各地区的不同类型的房屋销售情况聚类分析。,数据文件:,各省不同类型房屋销售情况,.sav,。,变量为:,别墅公寓,经济适用房,办公楼,商业用房,其他,60,61,62,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服