6聚类分析实习.doc_咨信网zixin.com.cn

资源描述

聚类分析实习一、实验目的 1）熟悉聚类分析中Q型和R型的区别，掌握SPSS软件中实现聚类分析的过程和参数选择。 2）结合专业背景知识解释聚类结果。二、实验原理 1．聚类分析是研究“物以类聚”的一种科学有效方法，人们在认识世界的过程中，需要把某些方面相似的东西归成类，以便从中发现规律性，寻找其中共同与不同的特征。聚类分析的主要思想是：根据事物本身的特性研究个体的分类，原则是同一类中的个体有较大的相似性，不同类中的个体差异很大。 2．聚类分析的实质是建立一种分类方法，它能将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类，这里的类就是一个具有相似性的个体的集合，不同类之间具有明显的区别。 3..聚类分析是一种探索性的分析，在分类过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类，因此聚类分析不需要建模。 4.在地质研究领域，由于地质对象的复杂性，单靠定性标志或少量定量标志进行分类，常常不能揭示客观事物内在的本质差别和联系。很多分类常具有很大的主观性和任意性，分类常常不能反映客观实际，分类方案又经常因人而异，因此，多元统计分析中对客观事物进行分类的聚类方法已在地质研究中取得日益广泛的应用。 5.在具体进行聚类分析时，出于不同的目的和要求，可能选择不同的统计量和聚类方法，因此可出现不同的聚类结果。三、相似性统计指标聚类分析可以分为R型和Q型，对m个变量进行分类的方法，称为R型聚类法，常用的统计量称为“相关系数”；对n个样品进行分类的方法称为Q型聚类法，常用的统计量称为“距离”。怎样衡量样品或者变量之间的相似性大小？假定有N个样品，每个样品有P变量来描述，可测的一个数组，以矩阵X表示：比较N个样品间相似性的Q型聚类分析，实际上是矩阵X的N列数据之间相似性对比；同理，p个变量之间的相似性的R型分析，是矩阵X的p行之间的比较。矩阵X中任意两个样品或两个变量之间的相似性，表现在以下三个基本方面： ①描述两个样品或变量的两列或两行对应元素接近的程度 ②两列或两行对应元素成比例的程度 ③两列或两行对应元素消长关系的密切程度因此，用于表示相似性的统计指标通常有距离系数、相似系数及相关系数三种。（一）距离系数（dik）常用于Q型聚类分析，每个样品视为p维空间中的一点，dik相当于p维空间中两点之间的距离，既两样品点接近的程度。聚类时聚类相近的样本属于一个类，聚类远的样本属于不同的类。常用的方法有：欧氏距离(Euclidean）：欧氏距离平方(Squared Euclidean)： Chebychev: max|xi-yi| Block(绝对距离): Σ|xi-yi| Minkowski： Customized距离(用户自定义距离)：类Gp与类Gq之间的距离Dpq: (d(xi,xj)表示点xi∈ Gp和xj ∈ Gq之间的距离) 最短距离法: 最长距离法: 重心法: 类平均法: 离差平方和法。 dik越小，两样品越相似，即 X矩阵中第i列与第k列对应的元素越接近。用距离系数时，如果变量之间相关性大时，相关性越大，dik越不可靠。因此，若变量不独立时，进行Q型聚类前可先进行R型因子分析，把变量变为互不相关的新变量（用因子得分去代替原始变量），再求距离系数—主因子距离系数。（二）相似性系数常用于Q型聚类分析，是把第i、k样品看成p维空间中的两向量，两个样品之间的相似程度可由其向量间夹角的余弦来表示，公式为：式中：i、k＝1，2，…,N（i≠k）为样品号，j＝1，2，…，p为变量号。（三）相关系数多用于R型聚类分析以表示研究对象之间的相关性，其公式为：式中：t、j＝1，2，…,p（t≠j）为变量号;i＝1，2，…，n为样品号。r的取值范围是＋1与－1之间，|r|值越大表示两变量之间关系越密；｜r|值越小表示关系越不密切注意：在应用上述所有相似性统计指标计算时，由于测定样品的各种特征所用的量纲及各种标志值的变化幅度可能不同。为了避免过分突出那些绝对值较大的变量在分类中的作用，在进行聚类分析之前，需要对原始数据进行处理，应对数据进行标准化或正规化变化。四、聚类方法层次聚类法、K-均值聚类法(快速聚类法)。（一）层次聚类法：基本思想是：先将要归类的n个样品（或者变量）各自看成一类，共有n类；然后按照事先规定好的方法计算分类统计量，即某种距离或某种相似系数，将关系最密切的两类并为一类，其余不变，即得n-1类；又按前面使用的计算新类与其它类的距离或者相似系数，又将关系最密切的两类并成一类，其余不变，即得n-2类；如此进行下去，每次重复都减少一类，直到最后所有样品（或者变量）归为一类为止。显然，越是后来合并的类，距离就越远。最后再利用一些相应的指标来确定聚为几类的结果是最为合适的。（二）快速聚类法 (K-均值聚类法)：类别个数需要在分析前就加以确定，整个分析过程使用迭代的方式进行，首先起步于一个初始的分类，然后通过不断的迭代把数据在不同类别之间移动，直到最后达到一定的标准为止，整个计算过程中不需要存储基本数据或者距离矩阵，因此不会出现多个互相嵌套的聚类结果，而计算速度也要快得多。快速聚类法先对数据进行初始分类，然后逐步调整，得到最终分类。计算过程如下： ①首先需要用户指定聚类成多少类(比如k类) ②然后对数据进行初始分类，即确定k个类的初始类中心点。SPSS会根据样本数据的实际情况，选择k个有代表性的样本作为初始类中心点。如果用户的经验比较丰富，初始类中心点也可以由用户自行指定，需要指定k组样本数据作为初始类中心点。 ③计算所有样本数据点到k个类中心点的欧氏距离，按照距离最短原则，把所有样本分配到各中心点所在的类中，选出一个新的k类，完成一次迭代过程。 ④重新确定k个类的中心点。计算每个类中各个变量的变量值平均数，并以此均值点作为新的类中心点。重复上面两步计算过程，直到达到指定的迭代次数或终止迭代的判别要求为止。五、SPSS实现聚类分析过程参数说明（一）层次聚类分析中的Q型聚类【例】对一个班10位学生的数学水平进行聚类，数据见下表：在菜单中选择层次聚类如下图：在弹出的对话框中作如下选择：这里选择‘姓名’变量作为标签变量将增强聚类分析结果的可读性。 l 点击‘统计量’按钮，见如下对话框：本例选择如图所示。 ‘凝聚状态表’项，将输出层次聚类分析的凝聚状态表。 ‘近似性矩阵’项，将显示各样本的距离矩阵。 ‘聚类成员’框中： ‘无’：不显示类成员构成。 ‘单解’：其后的‘聚类数目’中的数值n表示仅显示聚类成n类时，各个类的成员。 ‘解的范围’：指定显示聚类成n1类到n2类时，各个类的成员。 l 点击‘绘图’按钮，得到如下对话框：本例选择如图。 SPSS层次聚类的图形结果有两种方式输出树形图（Dendrogram）树形图以树的形式展现聚类分析的每一次合并过程，SPSS首先将各类之间的距离重新转换到 0～25之间，然后再近似地表示在图上。树形图可以粗略地表现聚类的过程。选中‘系统树形图’项，即可输出树形图。输出冰柱图（Icicle）冰柱图通过表格中的“X”符号显示，其样子很像冬天房屋下的冰柱。SPSS默认输出聚类全过程的冰柱图(所有聚类)。选择‘指定聚类范围’项，并输入从第几类开始显示 (Start:)，到第几类结束显示(Stop)，中间几个几类(By:），则可以指定显示聚类中某一阶段的冰柱图。如果选择None则不输出冰柱图。 l 点击‘方法’按钮，得到如下对话框：本例选择如图。 ‘聚类方法’下拉框中指定的是小类之间的距离计算方法。SPSS提供了7种方法供用户选择: 1 Between-groupslinkage:类间平均链锁法。 2 Within-groupslinkage:类内平均链锁法。 3 Nearestneighbor:最近距离法。 4 Funhestneighbor:最远距离法。 5 Centroidclusting:重心法。 6 Medianclustering:中间距离法。 7 Ward's method:离差平方和法。 SPSS默认的是类间平均链锁法。在‘测量’框中选择计算样本距离的方法，选项如下： ‘间距’适合于连续性变量，系统提供8种方法供用户选择 1 Euclidean distance，欧氏距离。 2 Squared Euclidean distance(系统默认方式)，欧氏距离平方。 3 Cosine:变量矢量的余弦，这是模型相似性的度量。 4 Pearson correlation:相关系数距离，适用于R型聚类。 5 Chebychev，Chebychev距离。 6 Block:City-Block或Manhattan距离。 7 Minkowski，Minkowski距离。 8 Customized, 用户自定义距离。 ‘计数’适合于顺序或名义变量，系统提供两种选择方式： 1 Chi-square measure，SPSS默认方式。 2 Phi-square measufe，这是φ2统计量。 ‘二值’适用于二值变量，系统提供多种选择方式，默认的是二元欧氏距离平方。 l 点击‘保存’按钮，得到如下对话框：本例选择如图。该对话框中将SPSS层次聚类分析的最终结果以变量的形式保存到SPSS数据编辑窗口中。输出结果：层次聚类分析的概要结果：可见，10个样本全部参与了聚类。下表为各样本的距离矩阵：从该表可以看出各个样本之间的距离。凝聚状态表：上表中共有七列，第一列表示聚类分析的步骤，本例共进行了9个步骤的分析。第二列、第三列表示某步聚类分析中，哪两个样本或类聚成了一类。第四列表示该步聚类的两个样本或类间的距离。第五列、第六列表示该步聚类分析中，参与聚类的是样本还是类，0表示参与聚类的是样本，非零数字n表示参与聚类的是第n步聚类所产生的类。第七列表示本步聚类结果将在下面聚类的第几步中用到。下表为层次聚类分析聚成3个类时，样本的类归属表：冰柱图：图中第一列表示类的数目。观察时一般从最后一行开始。最后一行中，类的数目为9，即样本聚成了9类，其中样本5和样本8用■连接在了一起，表示两个样本聚成一类，其余每个样本构成一类。倒数第二行中，类的数目为8，即样本聚成了8类，其中样本1和样本10聚成一类。树形图： * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 王五 5 òø 陈八 8 òôòòòø 张三 3 ò÷ ùòòòòòòòòòòòòòòòòòòòø 吴二 2 òòòûòú ó 韩七 7 òòò÷ ó ùòòòòòòòòòòòòòòòòòòòòòòòø 李四 4 òòòòò÷ ó ó 周大 1 òûòòòòòòòòòòòòòòòòòòòòòòò÷ ó 钱十 10 ò÷ ó 赵六 6 òòòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 魏九 9 òòò÷ 聚类成3类时，各个样本的类归属情况保存为一个变量：（二）层次聚类分析中的R型聚类【例】对一个班同学的各科成绩进行聚类，数据如下：各参数设置如下：输出结果： * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 语文 3 òûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø 政治 4 ò÷ ó 数学 1 òòòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 物理 2 òòò÷ （三）快速聚类【例】对一个班10位学生的数学水平进行快速聚类，数据见下表：各参数设置如下：在上表的‘方法’框中，选择类中心点的确定方法。有两种确定方法： Iterate and classify(迭代和聚类)：先定初始类中心点，然后按k-均值计算作迭代分类。 Classify only(仅仅聚类)：仅按初始类中心点分类，仅作一次迭代计算。点击Iterate(迭代)按钮，打开如下对话框：该对话框用于确定快速聚类分析的迭代终止条件。 Maximum Iterations(最大迭代次数)框：指定最大的迭代次数，迭代达到该次数时，终止聚类分析过程。SPSS默认为10次。 Convergence Criterion(收敛准则)框：为迭代的距离收敛标准。当新一次迭代形成的若干个类中心点和上次的类中心点间的最大距离小于该指定值时，终止聚类分析过程。SPSS默认值为0。 Use running means(使用运行中的平均值)：选中该项，表示每当一个样本分配到一类后，重新计算新的类中心点，快速距离分析的类中心点将与样本进入的先后顺序有关；不选中该项，则完成所有样本依次类分配后计算各类中心点，这种方式可以节省运算时间，尤其是样本容量较大的时候。点击Save(保存)按钮，打开如下对话框：该对话框可以指定将SPSS快速聚类分析的结果以变量的形式保存到SPSS的数据编辑窗口中。 Cluster membership(聚类成员)：表示将所有样本所属类的类号保存到变量QCL_1中。 Distance from cluter center(从聚类中心的距离)：表示将所有样本距所属类中心点的欧氏距离保存到变量QCL_2中。点击Options(选项)按钮，打开如下对话框：该对话框可以选择输出其他哪些聚类分析的结果，并指定对缺失数据的处理方法。输出结果： SPSS指定的初始类中心点：快速聚类分析的迭代历史过程表：可见总共进行了两次迭代。其中的数值为每次迭代后形成的类中心点与前次类中心点的距离。快速聚类分析后的各个类包含样本的情况：最终的类中心点位置：最终的类中心点之间的距离：快速聚类分析后形成的各类样本之间的单因素方差分析结果：由上表可见，对于变量‘入学数学’，它的平均组间平方和为781.533，平均组内平方和为27.619，F统计量为28.297，F统计量的相伴概率小于显著性水平0.01，因此认为，对该变量3个类的成绩之间存在显著差异。对于‘复试’变量，它的平均组间平方和为744.133，平均组内平方和为26.548，F统计量为28.030，F统计量的相伴概率小于显著性水平0.01，因此认为，对该变量3个类的成绩之间存在显著差异。因此从3个类的单因素方差分析看，将样本分成3个类的快速聚类分析是成功的，聚类效果比较理想。三个类中分别包含的样本个数：两个新变量，分别表示样本所属类及样本和类中心点的距离：下表是前面用层次聚类分析聚类成3类时的情形，可以比较一下两种方法的聚类结果：五、聚类分析方法作业现有某矿床围岩测试分析数据见下表，应用SPSS统计软件对数据进行：①层次聚类分析处理；②快速聚类分析处理。并解释其地质意义。编号岩石类型矿化情况含量（%） Ni Co Cu Cr S As 1 蛇纹岩 a组矿化 3.28 2.44 2.2 3.07 3.91 0.6 2 蛇纹岩无矿化 3.37 1.9 0.78 3.5 2.77 1.15 3 蛇纹岩无矿化 2.87 1.41 0 2.92 2.63 0.48 4 滑镁岩 b组矿化 3.44 2.44 2.18 3.38 3.92 1.57 5 滑镁岩无矿化 3.25 1.97 1.11 3.5 1.73 0 6 滑镁岩无矿化 2.02 1.64 0.78 3.32 2.02 0.6

展开阅读全文