收藏 分销(赏)

聚类分析-PPT.ppt

上传人:精**** 文档编号:2275001 上传时间:2024-05-24 格式:PPT 页数:163 大小:4.60MB
下载 相关 举报
聚类分析-PPT.ppt_第1页
第1页 / 共163页
聚类分析-PPT.ppt_第2页
第2页 / 共163页
点击查看更多>>
资源描述
聚类分析聚类分析分类分类vv物物以以类类聚聚,人人以以群群分分。日日常常生生活活中中,我我们们不不自自觉觉地地用用定定性性方方法法将将人人分分为为“好好人人”、“坏坏人人”;按按熟熟悉悉程程度度分分为为“朋朋友友”、“熟人熟人”、“陌生人陌生人”等等。等等。v我们究竟是如何分类的呢我们究竟是如何分类的呢?分类分类当有当有一个分类指标一个分类指标时,分类比较容易。时,分类比较容易。但是当有但是当有多个指标多个指标,要进行,要进行分类分类就不是很容易了。就不是很容易了。如果想要对如果想要对100个学生进行分类,如果仅仅知道个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类他们的数学成绩,则只好按照数学成绩来分类如果还知道他们的物理成绩,那么怎么对他们分如果还知道他们的物理成绩,那么怎么对他们分类?类?如果还知道他们的语文成绩、外语成绩等,我们如果还知道他们的语文成绩、外语成绩等,我们怎么来对他们分类?怎么来对他们分类?分类分类v由于不同的指标项对重要程度或依赖关系是相由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用互不同的,所以也不能用平均的方法平均的方法,因为这,因为这样会忽视相对重要程度的问题。样会忽视相对重要程度的问题。vv所以需要进行所以需要进行所以需要进行所以需要进行多元分类多元分类多元分类多元分类,即聚类分析,即聚类分析,即聚类分析,即聚类分析。聚类分析聚类分析v聚聚类类分分析析是是一一种种建建立立分分类类的的多多元元统统计计分分析析方方法法,它它能能够够将将一一批批样样本本(或或变变量量)数数据据根根据据其其诸诸多多特特征征,按按照照在在性性质质上上的的亲亲疏疏程程度度(各各变变量量取取值值上上的的总总体体差差异异程程度度)在在没没有有先先验验知知识识(没没有有事事先先指指定定的的分分类类标标准准)的的情情况况下下进进行行自动分类,产生多个分类结果。自动分类,产生多个分类结果。v类类内内部部的的个个体体在在特特征征上上具具有有相相似似性性,不不同同类类间间个个体体特特征征的差异性较大。的差异性较大。如想把中国的县分成若干类,如想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施也可以考虑收入、教育水准、医疗条件、基础设施等指标。等指标。为了研究不同地区城镇居民生活中的收入和消费情为了研究不同地区城镇居民生活中的收入和消费情况,往往需要划分不同的类型去研究。况,往往需要划分不同的类型去研究。聚类分析无处不在聚类分析无处不在u学学校校里里有有些些同同学学经经常常在在一一起起,关关系系比比较较密密切切,而而他他们们与另一些同学却很少来往,关系比较疏远。与另一些同学却很少来往,关系比较疏远。u为为了了研研究究课课余余爱爱好好、性性格格、家家庭庭情情况况、学学习习成成绩绩等等是是否否会会成成为为划划分分学学生生小小群群体体的的主主要要决决定定因因素素,可可以以从从有有关关这这些些方方面面的的数数据据入入手手,进进行行客客观观分分组组,然然后后比比较较所所得得的的分分组组是是否否与与实实际际相相吻吻合合。对对学学生生的的客客观观分分组组就就可可采采用用聚聚类分析方法。类分析方法。聚类分析无处不在聚类分析无处不在9聚类分析无处不在聚类分析无处不在v谁经常光顾商店,谁买什么东西,买多少?谁经常光顾商店,谁买什么东西,买多少?v按按会会员员卡卡记记录录的的光光临临次次数数、光光临临时时间间、性性别别、年年龄龄、职职业业、购物种类、金额等变量分类购物种类、金额等变量分类v这样商店可以这样商店可以v识识别别顾顾客客购购买买模模式式(如如喜喜欢欢一一大大早早来来买买酸酸奶奶和和鲜鲜肉肉,习习惯惯周末时一次性大采购)周末时一次性大采购)v刻画不同的客户群的特征刻画不同的客户群的特征10聚类分析无处不在聚类分析无处不在v挖掘有价值的客户,并制定相应的促销策略挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户如,对经常购买酸奶的客户对累计消费达到对累计消费达到1212个月的老客户个月的老客户v针针对对潜潜在在客客户户派派发发广广告告,比比在在大大街街上上乱乱发发传传单单命命中中率更高,成本更低!率更高,成本更低!11聚类分析无处不在聚类分析无处不在v谁是银行信用卡的黄金客户?谁是银行信用卡的黄金客户?利利用用储储蓄蓄额额、刷刷卡卡消消费费金金额额、诚诚信信度度等等变变量量对对客客户户分分类类,找出找出“黄金客户黄金客户”!这样银行可以这样银行可以制定更具吸引力的服务,留住客户!比如:制定更具吸引力的服务,留住客户!比如:v一定额度和期限的免息透支服务!一定额度和期限的免息透支服务!v赠送百盛的贵宾打折卡!赠送百盛的贵宾打折卡!v在他或她生日的时候送上一个小蛋糕!在他或她生日的时候送上一个小蛋糕!12聚类的应用领域v经济领域经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。式来刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机对住宅区进行聚类,确定自动提款机ATMATM的安放位置的安放位置股票市场板块分析,找出最具活力的板块龙头股股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类企业信用等级分类v生物学领域生物学领域推导植物和动物的分类;推导植物和动物的分类;对基因分类,获得对种群的认识对基因分类,获得对种群的认识v数据挖掘领域数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究类做进一步的研究13 例例 对对10位位应应聘聘者者做做智智能能检检验验。3项项指指标标X,Y和和Z分分别别表表示示数数学学推推理理能能力力、空空间间想想象象能能力力和和语语言言理理解解能能力力。得得分分如如下下,选选择择合合适适的的统统计计方方法法对应聘者进行分类。对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z281816222622222424241415聚类分析聚类分析v对于一批数据,人们既可以对对于一批数据,人们既可以对变量(指标)变量(指标)进行进行分类分类(相当于对数据中的列分类相当于对数据中的列分类),也可以对,也可以对观测观测值值(事件,样品)来分类(相当于对数据中的行(事件,样品)来分类(相当于对数据中的行分类)。分类)。表表表表1 1学生的四门课程的成绩学生的四门课程的成绩学生的四门课程的成绩学生的四门课程的成绩姓 名数 学物 理语 文政 治hxh99.0098.0078.0080.00yaju88.0089.0089.0090.00yu79.0080.0095.0097.00shizg89.0078.0081.0082.00hah75.0078.0095.0096.00john60.0065.0085.0088.00watet79.0087.0050.0051.00jess75.0076.0088.0089.00wish60.0056.0089.0090.00Iiakii100.00100.0085.0084.00聚类分析聚类分析QQ型和型和型和型和R R型(根据分类对象的不同)型(根据分类对象的不同)型(根据分类对象的不同)型(根据分类对象的不同)QQ型是对样本进行分类处理,使具有型是对样本进行分类处理,使具有型是对样本进行分类处理,使具有型是对样本进行分类处理,使具有相似特征的样相似特征的样相似特征的样相似特征的样本聚集在一起,差异性大的样本分离开来本聚集在一起,差异性大的样本分离开来本聚集在一起,差异性大的样本分离开来本聚集在一起,差异性大的样本分离开来。R R型是对变量进行分类处理,使具有相似性的变量型是对变量进行分类处理,使具有相似性的变量型是对变量进行分类处理,使具有相似性的变量型是对变量进行分类处理,使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在聚集在一起,差异性大的变量分离开来,可在聚集在一起,差异性大的变量分离开来,可在聚集在一起,差异性大的变量分离开来,可在相相相相似变量中选择少数具有代表性的变量参与其他分似变量中选择少数具有代表性的变量参与其他分似变量中选择少数具有代表性的变量参与其他分似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。析,实现减少变量个数,达到变量降维的目的。析,实现减少变量个数,达到变量降维的目的。析,实现减少变量个数,达到变量降维的目的。相似性度量相似性度量vv样本的相似性度量样本的相似性度量vv变量的相似性度量变量的相似性度量聚类分析聚类分析v聚聚类类分分析析中中,个个体体之之间间的的“亲亲疏疏程程度度”是是极极为为重重要要的的,它它将将直直接接影影响响最最终终的的聚聚类类结结果果。对对“亲亲疏疏”程程度度的的测测度度一一般般有有两两个个角角度度:第第一一,个个体体间间的的相相似似程程度度;第第二二,个个体体间间的的差差异异程程度度。衡衡量量个个体体间间的的相相似似程程度度通通常常可可采采用用简简单单相相关关系系数数等等,个个体体间的差异程度通常通过某种间的差异程度通常通过某种距离距离来测度。来测度。21样本或变量间亲疏程度的测度样本或变量间亲疏程度的测度v研究样本或变量的亲疏程度的数量指标有两种:研究样本或变量的亲疏程度的数量指标有两种:v一一种种叫叫相相似似系系数数,性性质质越越接接近近的的变变量量或或样样本本,它它们们的的相相似似系系数数越越接接近近于于1 1或或一一l l,而而彼彼此此无无关关的的变变量量或或样样本本它它们们的的相相似似系系数数则则越越接接近近于于0 0,相相似似的的为为一一类类,不相似的为不同类。不相似的为不同类。v另另一一种种叫叫距距离离,它它是是将将每每一一个个样样本本看看作作p p维维空空间间的的一一个个点点,并并用用某某种种度度量量测测量量点点与与点点之之间间的的距距离离,距距离较近的归为一类,距离较远的点应属于不同的类。离较近的归为一类,距离较远的点应属于不同的类。v如如果果想想要要对对100100个个学学生生进进行行分分类类,如如果果仅仅仅仅知知道道他他们们的的数数学学成成绩绩,则则只只好好按按照照数数学学成成绩绩来来分分类类;这这些些成成绩绩在在直直线线上上形形成成100100个个点点。这这样样就就可可以以把把接接近近的的点点放放到到一类。一类。v如如果果还还知知道道他他们们的的物物理理成成绩绩,这这样样数数学学和和物物理理成成绩绩就就形形成成二二维维平平面面上上的的100100个个点点,也也可可以以按按照照距距离离远远近近来来分类。分类。v三三维维或或者者更更高高维维的的情情况况也也是是类类似似;只只不不过过三三维维以以上上的的图形无法直观地画出来而已。图形无法直观地画出来而已。相似性度量相似性度量vv为为为为定定定定义义义义个个个个体体体体间间间间的的的的距距距距离离离离应应应应先先先先将将将将每每每每个个个个样样样样本本本本数数数数据据据据看看看看成成成成k k k k维维维维空空空空间间间间的的的的一一一一个个个个点点点点。通通常常,点点与与点点之之间间的的距距离离越越小小,意意味味着着他他们们越越“亲亲密密”,越越有有可可能能聚聚成成一一类类,点点与与点点之之间间的的距距离离越越大大,意意味味着着他他们们越越“疏疏远远”,越有可能分别属于不同的类。越有可能分别属于不同的类。vv个体间距离的定义会受变量类型的影响个体间距离的定义会受变量类型的影响个体间距离的定义会受变量类型的影响个体间距离的定义会受变量类型的影响。聚类分析聚类分析25v设有设有n个样本单位,每个样本测得个样本单位,每个样本测得p项指标项指标(变量),原始资料矩阵为:(变量),原始资料矩阵为:样品相似性的度量样品相似性的度量vvQ Q Q Q型聚类分析,常用型聚类分析,常用型聚类分析,常用型聚类分析,常用距离距离距离距离来测度样品之间的相似程度。来测度样品之间的相似程度。来测度样品之间的相似程度。来测度样品之间的相似程度。vv每个样品有每个样品有每个样品有每个样品有p p p p个指标(变量)从不同方面描述其性质,个指标(变量)从不同方面描述其性质,个指标(变量)从不同方面描述其性质,个指标(变量)从不同方面描述其性质,形成一个形成一个形成一个形成一个p p p p维的向量。维的向量。维的向量。维的向量。vv如果把如果把如果把如果把n n n n个样品看成个样品看成个样品看成个样品看成p p p p维空间中的维空间中的维空间中的维空间中的n n n n个点,则两个样品间个点,则两个样品间个点,则两个样品间个点,则两个样品间相似程度就可用相似程度就可用相似程度就可用相似程度就可用p p p p维空间中的两点距离公式来度量。维空间中的两点距离公式来度量。维空间中的两点距离公式来度量。维空间中的两点距离公式来度量。样品相似性的度量样品相似性的度量vv两点距离公式可以从不同角度进行定义,令两点距离公式可以从不同角度进行定义,令两点距离公式可以从不同角度进行定义,令两点距离公式可以从不同角度进行定义,令d d d dijijijij 表示表示表示表示样品样品样品样品X X X Xi i i i与与与与X X X Xj j j j的距离,存在以下的距离公式:的距离,存在以下的距离公式:的距离,存在以下的距离公式:的距离,存在以下的距离公式:1Minkowski距离 (5.1)Minkowski距离简称明氏距离,按的取值不同又可分成:v例例:下下表表是是同同一一批批客客户户对对经经常常光光顾顾的的五五座座商商场场在在购购物物环环境境和和服服务务质质量量两两方方面面的的平平均均得得分分,现现希希望望根根据据这批数据将五座商场分类。这批数据将五座商场分类。选上选上统计量统计量中的中的相相似性矩阵似性矩阵的输出结果的输出结果表表表表1 1学生的四门课程的成绩学生的四门课程的成绩学生的四门课程的成绩学生的四门课程的成绩姓 名数 学物 理语 文政 治hxh99.0098.0078.0080.00yaju88.0089.0089.0090.00yu79.0080.0095.0097.00shizg89.0078.0081.0082.00hah75.0078.0095.0096.00john60.0065.0085.0088.00watet79.0087.0050.0051.00jess75.0076.0088.0089.00wish60.0056.0089.0090.00Iiakii100.00100.0085.0084.00样品相似性的度量样品相似性的度量vv欧氏距离是常用的距离。欧氏距离是常用的距离。欧氏距离是常用的距离。欧氏距离是常用的距离。vv欧氏距离的不足之处:欧氏距离的不足之处:欧氏距离的不足之处:欧氏距离的不足之处:uu没有考虑到总体的变异对没有考虑到总体的变异对没有考虑到总体的变异对没有考虑到总体的变异对“距离距离距离距离”远近的影响。远近的影响。远近的影响。远近的影响。显然一个变异显然一个变异显然一个变异显然一个变异程度大的总体可能与更多样品近些,既使它们的欧氏距离不一定最近;程度大的总体可能与更多样品近些,既使它们的欧氏距离不一定最近;程度大的总体可能与更多样品近些,既使它们的欧氏距离不一定最近;程度大的总体可能与更多样品近些,既使它们的欧氏距离不一定最近;uu欧氏距离受变量的量纲影响。欧氏距离受变量的量纲影响。欧氏距离受变量的量纲影响。欧氏距离受变量的量纲影响。这对多元数据的处理是不利的。为这对多元数据的处理是不利的。为这对多元数据的处理是不利的。为这对多元数据的处理是不利的。为了克服这方面的不足,了克服这方面的不足,了克服这方面的不足,了克服这方面的不足,各指标测量值相差悬殊时,数据标准化处理后再各指标测量值相差悬殊时,数据标准化处理后再计算距离,计算距离,可用可用可用可用“马氏距离马氏距离马氏距离马氏距离”的概念。的概念。的概念。的概念。各各变变量量的的变变量量值值不不应应有有数数量量级级上上的的差差异异(对对数数据据进进行行标标准准化化处处理理):聚聚类类分分析析是是以以各各种种距距离离来来度度量量个个体体间间的的“亲亲疏疏”程程度度的的,从从上上述述各各种种距距离离的的定定义义看看,数数量量级级将将对对距距离离产产生生较较大的影响,并影响最终的聚类结果大的影响,并影响最终的聚类结果。2马氏距离马氏距离 设设设设X X X Xi i i i与与与与X X X Xj j j j是来自均值向量为是来自均值向量为是来自均值向量为是来自均值向量为 ,协方差为,协方差为,协方差为,协方差为 =(0 0 0 0)的总的总的总的总体体体体,G G G G中的中的中的中的p p p p维样品,则两个样品间的马氏距离为维样品,则两个样品间的马氏距离为维样品,则两个样品间的马氏距离为维样品,则两个样品间的马氏距离为 (5.5)马氏距离马氏距离马氏距离又称为广义欧氏距离。显然,马氏距离又称为广义欧氏距离。显然,马氏距离又称为广义欧氏距离。显然,马氏距离又称为广义欧氏距离。显然,马氏距离与上述各种马氏距离与上述各种马氏距离与上述各种马氏距离与上述各种距离的主要不同就是它考虑了观测变量之间的相关性。距离的主要不同就是它考虑了观测变量之间的相关性。距离的主要不同就是它考虑了观测变量之间的相关性。距离的主要不同就是它考虑了观测变量之间的相关性。如果如果如果如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则则则则马氏距离就退化为用各个观测指标的标准差的倒数作为权马氏距离就退化为用各个观测指标的标准差的倒数作为权马氏距离就退化为用各个观测指标的标准差的倒数作为权马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离数的加权欧氏距离数的加权欧氏距离数的加权欧氏距离。马氏距离还考虑了观测变量之间的变异。马氏距离还考虑了观测变量之间的变异。马氏距离还考虑了观测变量之间的变异。马氏距离还考虑了观测变量之间的变异性,不再受各指标量纲的影响。将原始数据作线性变换后,性,不再受各指标量纲的影响。将原始数据作线性变换后,性,不再受各指标量纲的影响。将原始数据作线性变换后,性,不再受各指标量纲的影响。将原始数据作线性变换后,马氏距离不变。马氏距离不变。马氏距离不变。马氏距离不变。兰氏距离兰氏距离 (5.6)它仅适用于一切Xij0的情况,这个距离也可以克服各个指标之间量纲的影响。这是一个自身标准化的量,由于它对大的奇异值不敏感,它特别适合于高度偏倚的数据。虽然这个距离有助于克服明氏距离的第一个缺点,但它也没有考虑指标之间的相关性。分类变量距离测度分类变量距离测度u简单匹配系数简单匹配系数:是测度二分类变量的,是度:是测度二分类变量的,是度量两个案例在所有的聚类变量上答案相同的情量两个案例在所有的聚类变量上答案相同的情况出现的频率。况出现的频率。个体j个体i 1 01 a b0 c d a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时拥有或同时不拥有某特征的情况;取0和1地位等价,编码方案的变化不会引起系数的变化。v例例姓名 授课方式 上机时间 选某门课程张三 1 1 1 李四 1 1 0王五 0 0 1(张三,李四):a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3(张三,王五):a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3张三距李四近距离选择的原则距离选择的原则 一般说来,同一批数据采用不同的距离公式,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的距离公式的侧重点和实际意义都有不同。因此我们在进行聚类分析时,应注意距离公式的选择。距离选择的原则距离选择的原则要考虑所选择的距离公式在实际应用中有明确的要考虑所选择的距离公式在实际应用中有明确的要考虑所选择的距离公式在实际应用中有明确的要考虑所选择的距离公式在实际应用中有明确的意义。意义。意义。意义。如欧氏距离就有非常明确的空间距离概念。如欧氏距离就有非常明确的空间距离概念。如欧氏距离就有非常明确的空间距离概念。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。马氏距离有消除量纲影响的作用。马氏距离有消除量纲影响的作用。马氏距离有消除量纲影响的作用。距离选择的原则距离选择的原则要综合考虑对样本观测数据的预处理和将要采用要综合考虑对样本观测数据的预处理和将要采用要综合考虑对样本观测数据的预处理和将要采用要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对的聚类分析方法。如在进行聚类分析之前已经对的聚类分析方法。如在进行聚类分析之前已经对的聚类分析方法。如在进行聚类分析之前已经对变量作了变量作了变量作了变量作了标准化处理,标准化处理,标准化处理,标准化处理,则通常就可采用欧氏距离。则通常就可采用欧氏距离。则通常就可采用欧氏距离。则通常就可采用欧氏距离。距离选择的原则距离选择的原则要考虑研究对象的特点和计算量的大小。样品间距离要考虑研究对象的特点和计算量的大小。样品间距离要考虑研究对象的特点和计算量的大小。样品间距离要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,公式的选择是一个比较复杂且带有一定主观性的问题,公式的选择是一个比较复杂且带有一定主观性的问题,公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际我们应根据研究对象的特点不同做出具体分折。实际我们应根据研究对象的特点不同做出具体分折。实际我们应根据研究对象的特点不同做出具体分折。实际中,中,中,中,聚类分析前不妨试探性地多选择几个距离公式分聚类分析前不妨试探性地多选择几个距离公式分聚类分析前不妨试探性地多选择几个距离公式分聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,别进行聚类,然后对聚类分析的结果进行对比分析,别进行聚类,然后对聚类分析的结果进行对比分析,别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。以确定最合适的距离测度方法。以确定最合适的距离测度方法。以确定最合适的距离测度方法。变量相似性的度量变量相似性的度量 多元数据中的变量表现为多元数据中的变量表现为多元数据中的变量表现为多元数据中的变量表现为向量形式向量形式向量形式向量形式,在几何上可用多维,在几何上可用多维,在几何上可用多维,在几何上可用多维空间中的一个空间中的一个空间中的一个空间中的一个有向线段有向线段有向线段有向线段表示。在对多元数据进行分析时,表示。在对多元数据进行分析时,表示。在对多元数据进行分析时,表示。在对多元数据进行分析时,我们更多地对我们更多地对我们更多地对我们更多地对变量的变化趋势或方向感兴趣变量的变化趋势或方向感兴趣变量的变化趋势或方向感兴趣变量的变化趋势或方向感兴趣。因此,变。因此,变。因此,变。因此,变量间的相似性,我们可以从它们的量间的相似性,我们可以从它们的量间的相似性,我们可以从它们的量间的相似性,我们可以从它们的方向趋同性或方向趋同性或方向趋同性或方向趋同性或“相关相关相关相关性性性性”进行考察,从而得到进行考察,从而得到进行考察,从而得到进行考察,从而得到“夹角余弦法夹角余弦法夹角余弦法夹角余弦法”和和和和“相关系数相关系数相关系数相关系数”两种度量方法。两种度量方法。两种度量方法。两种度量方法。相似系数u夹角余弦cosine u尽管图中AB和CD长度不一样,但形状相似。当长度不是主要矛盾时,就可利用夹角余弦这样的相似系数。变量相似性的度量变量相似性的度量1.夹角余弦(两个极端:完全相似和不相关)两变量Xi与Xj看作p维空间的两个向量,这两个向量间的夹角余弦可用下式进行计算 (5.7)显然,cos ij 1。变量相似性的度量变量相似性的度量2相关系数相关系数经常用来度量变量间的相似性。变量Xi与Xj的相关系数定义为v (5.8)显然也有,rij 1。相似系数u也可用相关系数来刻画样品之间的相似关系。u把两两样品的相关系数都计算出来,可形成样品相关系数矩阵。变量相似性的度量变量相似性的度量vv无论是夹角余弦还是相关系数,它们的绝对值都小于无论是夹角余弦还是相关系数,它们的绝对值都小于无论是夹角余弦还是相关系数,它们的绝对值都小于无论是夹角余弦还是相关系数,它们的绝对值都小于1 1 1 1,作为变量近似性的度量工具作为变量近似性的度量工具作为变量近似性的度量工具作为变量近似性的度量工具,我们把它们统记为,我们把它们统记为,我们把它们统记为,我们把它们统记为c c c cijijijij。vv当当当当c c c cijijijij=1 1 1 1时,说明变量时,说明变量时,说明变量时,说明变量X X X Xi i i i与与与与X X X Xj j j j完全相似;完全相似;完全相似;完全相似;vv当当当当c c c cijijijij近似于近似于近似于近似于1 1 1 1时,说明变量时,说明变量时,说明变量时,说明变量X X X Xi i i i与与与与X X X Xj j j j非常密切;非常密切;非常密切;非常密切;vv当当当当c c c cijijijij =0 0 0 0时,说明变量时,说明变量时,说明变量时,说明变量X X X Xi i i i与与与与X X X Xj j j j完全不一样;完全不一样;完全不一样;完全不一样;vv当当当当c c c cijijijij近似于近似于近似于近似于0 0 0 0时,说明变量时,说明变量时,说明变量时,说明变量X X X Xi i i i与与与与X X X Xj j j j差别很大。差别很大。差别很大。差别很大。据此,我们把比较相似的变量聚为一类,把不太相似的变据此,我们把比较相似的变量聚为一类,把不太相似的变据此,我们把比较相似的变量聚为一类,把不太相似的变据此,我们把比较相似的变量聚为一类,把不太相似的变量归到不同的类内。量归到不同的类内。量归到不同的类内。量归到不同的类内。变量相似性的度量变量相似性的度量vv在实际聚类过程中,为了计算方便,我们把变量间相似性的在实际聚类过程中,为了计算方便,我们把变量间相似性的在实际聚类过程中,为了计算方便,我们把变量间相似性的在实际聚类过程中,为了计算方便,我们把变量间相似性的度量公式作一个变换为度量公式作一个变换为度量公式作一个变换为度量公式作一个变换为 dij=1 cij (5.9)或者 dij2=1 cij2 (5.10)用表示变量间的距离远近,小则与先聚成一类,这比较符用表示变量间的距离远近,小则与先聚成一类,这比较符用表示变量间的距离远近,小则与先聚成一类,这比较符用表示变量间的距离远近,小则与先聚成一类,这比较符合人们的一般思维习惯。合人们的一般思维习惯。合人们的一般思维习惯。合人们的一般思维习惯。系统聚类的基本思想系统聚类的基本思想vv距离相近的样品(或变量)先聚成类,距离相距离相近的样品(或变量)先聚成类,距离相距离相近的样品(或变量)先聚成类,距离相距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品远的后聚成类,过程一直进行下去,每个样品远的后聚成类,过程一直进行下去,每个样品远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。(或变量)总能聚到合适的类中。(或变量)总能聚到合适的类中。(或变量)总能聚到合适的类中。系统聚类法的步骤可可选择适当的距离,适当的距离,计算距离算距离把每个把每个样品看成一品看成一类,构造,构造n个个类合并最近的两合并最近的两类为一新一新类计算新算新类与当前各与当前各类的距离的距离判断判断画聚画聚类图根据根据实际情况,确定情况,确定类和和类的个数的个数仅有一个有一个类不是不是仅有一个有一个类采用系采用系统聚聚类法法系统聚类的过程系统聚类的过程vv假设总共有假设总共有假设总共有假设总共有n n n n个样品(或变量)。个样品(或变量)。个样品(或变量)。个样品(或变量)。vv将每个样品(或变量)独自聚成一类,共有将每个样品(或变量)独自聚成一类,共有将每个样品(或变量)独自聚成一类,共有将每个样品(或变量)独自聚成一类,共有n n n n类;类;类;类;vv根据所确定的样品(或变量)根据所确定的样品(或变量)根据所确定的样品(或变量)根据所确定的样品(或变量)“距离距离距离距离”公式,把距离较近公式,把距离较近公式,把距离较近公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)的两个样品(或变量)聚合为一类,其它的样品(或变量)的两个样品(或变量)聚合为一类,其它的样品(或变量)的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成仍各自聚为一类,共聚成仍各自聚为一类,共聚成仍各自聚为一类,共聚成n n n n 1 1 1 1类;类;类;类;vv将将将将“距离距离距离距离”最近的两个类进一步聚成一类,共聚成最近的两个类进一步聚成一类,共聚成最近的两个类进一步聚成一类,共聚成最近的两个类进一步聚成一类,共聚成n n n n 2 2 2 2类;类;类;类;,以上步骤一直进行下去,最后将所有的样品(或变,以上步骤一直进行下去,最后将所有的样品(或变,以上步骤一直进行下去,最后将所有的样品(或变,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。量)全聚成一类。量)全聚成一类。量)全聚成一类。系统聚类的过程系统聚类的过程vv为了直观地反映以上的系统聚类过程,可以把整个为了直观地反映以上的系统聚类过程,可以把整个为了直观地反映以上的系统聚类过程,可以把整个为了直观地反映以上的系统聚类过程,可以把整个分类系统画成一张谱系图。所以有时系统聚类也称分类系统画成一张谱系图。所以有时系统聚类也称分类系统画成一张谱系图。所以有时系统聚类也称分类系统画成一张谱系图。所以有时系统聚类也称为谱系分析。为谱系分析。为谱系分析。为谱系分析。5455类间距离与系统聚类法类间距离与系统聚类法vv类间距离即类与类之间的距离。类间距离即类与类之间的距离。类间距离即类与类之间的距离。类间距离即类与类之间的距离。vv由类间距离定义的不同产生了不同的系统聚类法。由类间距离定义的不同产生了不同的系统聚类法。由类间距离定义的不同产生了不同的系统聚类法。由类间距离定义的不同产生了不同的系统聚类法。vv常用的类间常用的类间常用的类间常用的类间距离定义有距离定义有距离定义有距离定义有8 8 8 8种种种种,与之相应的系统聚类法也有,与之相应的系统聚类法也有,与之相应的系统聚类法也有,与之相应的系统聚类法也有8 8 8 8种;分别为种;分别为种;分别为种;分别为最短距离法、最长距离法、中间距离法、重心最短距离法、最长距离法、中间距离法、重心最短距离法、最长距离法、中间距离法、重心最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法法、类平均法、可变类平均法、可变法和离差平方和法法、类平均法、可变类平均法、可变法和离差平方和法法、类平均法、可变类平均法、可变法和离差平方和法。vv它们的归类步骤基本上是一致的,主要差异是类间距离的它们的归类步骤基本上是一致的,主要差异是类间距离的它们的归类步骤基本上是一致的,主要差异是类间距离的它们的归类步骤基本上是一致的,主要差异是类间距离的计算方法不同。以下用计算方法不同。以下用计算方法不同。以下用计算方法不同。以下用d d d dijijijij表示样品表示样品表示样品表示样品X X X Xi i i i与与与与X X X Xj j j j之间距离,用之间距离,用之间距离,用之间距离,用D D D Dijijijij表示类表示类表示类表示类G G G Gi i i i与与与与G G G Gj j j j之间的距离。之间的距离。之间的距离。之间的距离。57最短距离(Nearest Neighbor)x21x12x22x11最短距离法最短距离法定义类与类之间的距离为两类最近样品的距离,即为(5.11)v设类与类合并成一个新类记为,则任一类与类的距离为v (5.12)v 系统聚类法u最短距离法最短距离法Nearest Neighbor G1 G2 G3 G4 G5G1 G2 G3 G4 G50 1 0 2.5 1.5 0 6 5 3.5 0 8 7 5.5 2 0G6 G3 G4 G5G6 G3 G4 G50 1.5 0 5 3.5 0 7 3.5 3.5 0 最短距离法最短距离法vv最短距离法进行聚类分析的步骤如下:最短距离法进行聚类分析的步骤如下:最短距离法进行聚类分析的步骤如下:最短距离法进行聚类分析的步骤如下:n n定义样品之间距离,计算样品的两两距离,得一距离阵记为定义样品之间距离,计算样品的两两距离,得一距离阵记为定义样品之间距离,计算样品的两两距离,得一距离阵记为定义样品之间距离,计算样品的两两距离,得一距离阵记为D D D D(0 0 0 0),开始每个样品自成一类,显然这时,开始每个样品自成一类,显然这时,开始每个样品自成一类,显然这时,开始每个样品自成一类,显然这时D D D Dijijijij =d d d dijijijij。n n找出距离最小元素,设为找出距离最小元素,设为找出距离最小元素,设为找出距离最小元素,设为D D D Dpqpqpqpq,则将,则将,则将,则将G G G Gp p p p和和和和G G G Gq q q q合并成一个新类,合并成一个新类,合并成一个新类,合并成一个新类,记为记为记为记为G G G Gr r r r,即,即,即,即G G G Gr r r r =G G G Gp p p p,G G G Gq q q q。n n按(按(按(按(5.125.125.125.12)计算新类与其它类的距离。)计算新类与其它类的距离。)计算新类与其它类的距离。)计算新类与其它类的距离。n n重复上面(重复上面(重复上面(重复上面(2 2 2 2)、()、()、()、(3 3 3 3)两步,直到所有元素。并成一类为)两步,直到所有元素。并成一类为)两步,直到所有元素。并成一类为)两步,直到所有元素。并成一类为 止。如果某一步距离最小的元素不止一个,则对应这些止。如果某一步距离最小的元素不止一个,则对应这些止。如果某一步距离最小的元素不止一个,则对应这些止。如果某一步距离最小的元素不止一个,则对应这些 最小元素的类可以同时合并。最小元素的类可以同时合并。最小元素的类可以同时合并。最小元素的类可以同时合并。v【例5.1】设有六个样品,每个只测量一个指标,分别是设有六个样品,每个只测量一个指标,分别是设有六个样品,每个只测量一个指标,分别是设有六个样品,每个只测量一个指标,分别是1 1 1 1,2 2 2 2,5 5 5 5,7 7 7 7,9 9 9 9,10101010,试用最短距离法将它们分类。,试用最短距离法将它们分类。,试用最短距离法将它们分类。,试用最短距离法将它们分类。(1 1 1 1)样品采用绝对值距离,计算样品间的距离阵)样品采用绝对值距离,计算样品间的距离阵)样品采用绝对值距离,计算样品间的距离阵)样品采用绝对值距离,计算样品间的距离阵D D D D(0 0 0 0),见,见,见,见表表表表5.15.15.15.1表表5.1(2)D D D D(0 0 0 0)中最小的元素是中最小的元素是中
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服