聚类分析与主成分分析.pdf

资源描述

例：怎样把消费者分类？例：怎样把消费者分类？?南京雅兴市场研究有限公司在南京雅兴市场研究有限公司在A城市的城市的14个城区抽取个城区抽取3000个个15岁以上具有独立购买能力的消费者样本，研究消费者的生活方式。调查中采用一系列关于对社会活动、价值观念等内容的陈述，请消费者根据自己的情况做出评价。评价结果采用岁以上具有独立购买能力的消费者样本，研究消费者的生活方式。调查中采用一系列关于对社会活动、价值观念等内容的陈述，请消费者根据自己的情况做出评价。评价结果采用7分评价法，分评价法，1分表示分表示“非常同意非常同意”，7分表示分表示“非常不同意非常不同意”。?对调查结果先通过因子分析将一系列的测试语句进行综合，根据消费者的回答情况，将这些语句分为几大类，最后得到对调查结果先通过因子分析将一系列的测试语句进行综合，根据消费者的回答情况，将这些语句分为几大类，最后得到5个主要因子，它们的含义分别是：对时尚的观点、个人的事业性与进取性、对经济利益的看法、社交能力与影响力、生活的计划性。根据因子分析的结果对样本的回答按照新的类型进行重新评估打分，然后根据这些评价进行聚类分析。个主要因子，它们的含义分别是：对时尚的观点、个人的事业性与进取性、对经济利益的看法、社交能力与影响力、生活的计划性。根据因子分析的结果对样本的回答按照新的类型进行重新评估打分，然后根据这些评价进行聚类分析。?根据每一类消费者的因子的特征，最终将消费者的生活方式分为根据每一类消费者的因子的特征，最终将消费者的生活方式分为6个类别，即：时尚型、自保型、领袖型、上进型、迷茫型个类别，即：时尚型、自保型、领袖型、上进型、迷茫型(缺乏生活目标型缺乏生活目标型)和平庸型。和平庸型。?时尚型：这类消费者约占样本量的约时尚型：这类消费者约占样本量的约21%，主要特征为：年龄相对较轻，平均年龄在，主要特征为：年龄相对较轻，平均年龄在35岁左右，教育程度相对较高，一般具有高中以上文化程度，虽然平均家庭月收入较好，平均在岁左右，教育程度相对较高，一般具有高中以上文化程度，虽然平均家庭月收入较好，平均在2200元左右，同时也是分散程度最高的，表明喜爱时尚并不是高收入者的专利。这一类型中的三资企业员工的比例最大，未婚的比例较大，约占元左右，同时也是分散程度最高的，表明喜爱时尚并不是高收入者的专利。这一类型中的三资企业员工的比例最大，未婚的比例较大，约占1/4，女性的比例为，女性的比例为55%，高于男性。，高于男性。?自保型：这类消费者占自保型：这类消费者占16%，他们更多的是为自己的生计考虑，考虑自己能否有稳定的经济来源，维持家庭的经济保障是他们最关心的问题。这些人的平均受教育程度较低，中年人的比例较高，平均年龄在，他们更多的是为自己的生计考虑，考虑自己能否有稳定的经济来源，维持家庭的经济保障是他们最关心的问题。这些人的平均受教育程度较低，中年人的比例较高，平均年龄在44岁左右，家庭月收入较低，平均在岁左右，家庭月收入较低，平均在1600元左右，国营企业员工以及离退休人员的比例较高。女性的比例高于男性。元左右，国营企业员工以及离退休人员的比例较高。女性的比例高于男性。?领袖型：这类消费者占领袖型：这类消费者占13%。教育程度处于社会平均水平，主要为中年人，有较多的生活阅历，年龄多在。教育程度处于社会平均水平，主要为中年人，有较多的生活阅历，年龄多在45-54岁之间。家庭月平均收入一般在岁之间。家庭月平均收入一般在1800元左右。在职业上没有显著特征。已婚比例是各类消费者中最高的，这似乎表明有稳定的家庭也是成为领袖的一个条件。男性比例占元左右。在职业上没有显著特征。已婚比例是各类消费者中最高的，这似乎表明有稳定的家庭也是成为领袖的一个条件。男性比例占55%，高于女性。，高于女性。?上进型：占消费者总人数的不到上进型：占消费者总人数的不到13%。他们对生活的态度积极，多为未婚青年，平均年龄在。他们对生活的态度积极，多为未婚青年，平均年龄在28岁左右，岁左右，25岁以下的占岁以下的占40%，单身未婚的比例占，单身未婚的比例占1/2以上。职业上的显著特征是：以上。职业上的显著特征是：1/3为学生，三资企业员工的比例达为学生，三资企业员工的比例达1/10。男性的比例高于女性。这类消费者是受教育程度最高的，他们的平均家庭收入却是最高的，月平均收入在。男性的比例高于女性。这类消费者是受教育程度最高的，他们的平均家庭收入却是最高的，月平均收入在2300元左右。元左右。?迷茫迷茫(缺乏生活目标缺乏生活目标)型：约占型：约占15%，他们既不注重经济保障，也不参加培训，生活节奏较缓慢。这类消费者主要为退休人员，约占该类型人员的，他们既不注重经济保障，也不参加培训，生活节奏较缓慢。这类消费者主要为退休人员，约占该类型人员的2/3，剩下的主要为国营企业员工。平均年龄在，剩下的主要为国营企业员工。平均年龄在50岁以上，他们的教育程度是最低的，家庭收入也是最低的，平均不到岁以上，他们的教育程度是最低的，家庭收入也是最低的，平均不到1600元。在性别分布上，女性的比例远远高于男性，占元。在性别分布上，女性的比例远远高于男性，占62%。?平庸型：这类消费者约占平庸型：这类消费者约占23%，最大的特点是生活没有计划，日常生活没有规律，而其他指标则均处于中间状态。这类消费者在年龄上比较分散，从，最大的特点是生活没有计划，日常生活没有规律，而其他指标则均处于中间状态。这类消费者在年龄上比较分散，从15岁到岁到54岁之间的各年龄段均有相当比例，平均教育程度一般，家庭月平均收入在岁之间的各年龄段均有相当比例，平均教育程度一般，家庭月平均收入在1900元左右。在职业上没有显著特征，但待岗人员的比例稍高于其他各类型。在性别上，男性稍高于女性。元左右。在职业上没有显著特征，但待岗人员的比例稍高于其他各类型。在性别上，男性稍高于女性。?在现实生活中，分类问题是十分常见的。在现实生活中，分类问题是十分常见的。?根据经济发展水平把各个国家分成发达国家、中等发达国家、发展中国家。根据经济发展水平把各个国家分成发达国家、中等发达国家、发展中国家。?按照消费者的特征对消费者分类，按照产品特征对产品分类。按照消费者的特征对消费者分类，按照产品特征对产品分类。聚类图示聚类图示聚类中没有任何指导信息，完全按照数据的分布进行类别划分聚类中没有任何指导信息，完全按照数据的分布进行类别划分1、什么是聚类、什么是聚类?俗语说，物以类聚、人以群分。俗语说，物以类聚、人以群分。?但什么是分类的根据呢？但什么是分类的根据呢？?比如，要想把中国的县分成若干类，就有很多种分类法；比如，要想把中国的县分成若干类，就有很多种分类法；?可以按照自然条件来分，可以按照自然条件来分，?比如考虑降水、土地、日照、湿度等各方面；比如考虑降水、土地、日照、湿度等各方面；?也可以考虑收入、教育水准、医疗条件、基础设施等指标；也可以考虑收入、教育水准、医疗条件、基础设施等指标；?既可以用某一项来分类，也可以同时考虑多项指标来分类。既可以用某一项来分类，也可以同时考虑多项指标来分类。2、什么是聚类分析？、什么是聚类分析？?对于一个数据，人们既可以对变量（指标）进行分类对于一个数据，人们既可以对变量（指标）进行分类(相当于对数据中的列分类相当于对数据中的列分类)，也可以对观测值（事件，样品）来分类（相当于对数据中的行分类）。，也可以对观测值（事件，样品）来分类（相当于对数据中的行分类）。?比如学生成绩数据就可以对学生按照理科或文科成绩（或者综合考虑各科成绩）分类，比如学生成绩数据就可以对学生按照理科或文科成绩（或者综合考虑各科成绩）分类，?当然，并不一定事先假定有多少类，完全可以按照数据本身的规律来分类。当然，并不一定事先假定有多少类，完全可以按照数据本身的规律来分类。?本章要介绍的分类的方法称为聚类分析本章要介绍的分类的方法称为聚类分析（cluster analysiscluster analysis）。）。）。聚类分析就是按照对象之间的）。聚类分析就是按照对象之间的“相似相似”程度把对象进行分类程度把对象进行分类?对变量的聚类称为对变量的聚类称为R型聚类，而对观测值聚类称为型聚类，而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的，没有什么不同。型聚类。这两种聚类在数学上是对称的，没有什么不同。?聚类原则是同一类中的个体有较大的相似性，不同类中的个体差异很大。聚类原则是同一类中的个体有较大的相似性，不同类中的个体差异很大。3、聚类分析的目的与条件、聚类分析的目的与条件依据研究对象（样品或指标）的特征，对其进行分类的方法，减少研究对象的数目。依据研究对象（样品或指标）的特征，对其进行分类的方法，减少研究对象的数目。各类事物缺乏可靠的历史资料，无法确定共有多少类别，目的是将性质相近事物归入一类。各类事物缺乏可靠的历史资料，无法确定共有多少类别，目的是将性质相近事物归入一类。能聚类分析的条件是各指标之间具有一定的相关关系。能聚类分析的条件是各指标之间具有一定的相关关系。聚类分析聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类或数值分类(numerical taxonomy)变量类型：定类变量、定量（离散和连续）变量变量类型：定类变量、定量（离散和连续）变量4、聚类分析的定义、聚类分析的定义5、聚类分析的方法、聚类分析的方法层次聚类（层次聚类（Hierarchical Clustering）合并法合并法分解法分解法树状图树状图非层次聚类非层次聚类K均值聚类法（均值聚类法（K-means Clustering）智能聚类法智能聚类法6、聚类分析的前期准备工作、聚类分析的前期准备工作?聚类分析是以完备的数据文件为基础的，这一数据文件除观测变量比较完备之外，一般还要求各个观测变量的量纲一致，即各变量取值的数量级一致，否则各变量在描述客观事物某方面特征差异性的作用有被夸大或缩小的可能。聚类分析是以完备的数据文件为基础的，这一数据文件除观测变量比较完备之外，一般还要求各个观测变量的量纲一致，即各变量取值的数量级一致，否则各变量在描述客观事物某方面特征差异性的作用有被夸大或缩小的可能。?所以，聚类分析前要检查各变量的量纲是否一致，不一致则需进行转换，如将各变量均作标准化转换就可保证量纲一致。所以，聚类分析前要检查各变量的量纲是否一致，不一致则需进行转换，如将各变量均作标准化转换就可保证量纲一致。?聚类分析是以完备的数据文件为基础的，这一数据文件除观测变量比较完备之外，一般还要求各个观测变量的量纲一致，即各变量取值的数量级一致，否则各变量在描述客观事物某方面特征差异性的作用有被夸大或缩小的可能。聚类分析是以完备的数据文件为基础的，这一数据文件除观测变量比较完备之外，一般还要求各个观测变量的量纲一致，即各变量取值的数量级一致，否则各变量在描述客观事物某方面特征差异性的作用有被夸大或缩小的可能。?所以，聚类分析前要检查各变量的量纲是否一致，不一致则需进行转换，如将各变量均作标准化转换就可保证量纲一致。所以，聚类分析前要检查各变量的量纲是否一致，不一致则需进行转换，如将各变量均作标准化转换就可保证量纲一致。6.1 聚类要素的数据处理聚类要素的数据处理在聚类分析中，聚类要素的选择是十分重要的，它直接影响分类结果的准确性和可靠性。在地理分类和分区研究中，被聚类的对象常常是多个要素构成的。在聚类分析中，聚类要素的选择是十分重要的，它直接影响分类结果的准确性和可靠性。在地理分类和分区研究中，被聚类的对象常常是多个要素构成的。不同要素的数据往往具有不同的单位和量纲，其数值的变异可能是很大的，这就会对分类结果产生影响。不同要素的数据往往具有不同的单位和量纲，其数值的变异可能是很大的，这就会对分类结果产生影响。因此当分类要素的对象确定之后，在进行聚类分析之前，首先要对聚类要素进行数据处理。因此当分类要素的对象确定之后，在进行聚类分析之前，首先要对聚类要素进行数据处理。假设有假设有m 个聚类的对象，每一个聚类对象都有个聚类的对象，每一个聚类对象都有n个要素构成。它们所对应的要素数据可用个要素构成。它们所对应的要素数据可用6.1给出。给出。表6.1 聚类对象与要素数据表6.1 聚类对象与要素数据要素聚类对象mi?21mnmjmminijiinjnjxxxxxxxxxxxxxxxx,2121222221111211?njxxxx,21?在聚类分析中，常用的聚类要素的数据处理方法有如下几种:在聚类分析中，常用的聚类要素的数据处理方法有如下几种:总和标准化。总和标准化。分别求出各聚类要素所对应的数据的总和，以各要素的数据除以该要素的数据的总和，即分别求出各聚类要素所对应的数据的总和，以各要素的数据除以该要素的数据的总和，即),2,1;,2,1(1njmixxxmiijijij?=这种标准化方法所得到的新数据满足这种标准化方法所得到的新数据满足=miijnjx1),2,1(1?标准差标准化。标准差标准化。即即),2,1;,2,1(njmisxxxjjijij?=由这种标准化方法所得到的新数据，各要素的平均值为由这种标准化方法所得到的新数据，各要素的平均值为0，标准差为，标准差为1，即有，即有1)(101121=mijijjmiijjxxmsxmx 极大值标准化。极大值标准化。即经过这种标准化所得的新数据，各要素的极大值为即经过这种标准化所得的新数据，各要素的极大值为1，其余各数值小于，其余各数值小于1。),2,1;,2,1(maxnjmixxxijiijij?=极差的标准化。极差的标准化。即经过这种标准化所得的新数据，各要素的极大值为即经过这种标准化所得的新数据，各要素的极大值为1，极小值为，极小值为0，其余的数值均在，其余的数值均在0与与1之间之间 ),2,1;,2,1(minmaxminnjmixxxxxijiijiijiijij?=例题:表6.2给出了某地区九个农业区的七项指标，它们经过极差标准化处理后，如表6.3所示。例题:表6.2给出了某地区九个农业区的七项指标，它们经过极差标准化处理后，如表6.3所示。表6.2 某地区九个农业区的七项经济指标数据表6.2 某地区九个农业区的七项经济指标数据1.17574.64231.594.82.90.4140.167G97.8771.73679.594.95.350.6660.293G880.17634.310689194.765.150.1810.075G748.17636.58973179.643.780.2110.082G680.38791.112249217.872.040.2120.081G50.92632.644581110.390.5270.179G46.49611.16934.5148.55.280.3160.123G30.85683.72773.595.10.390.9710.315G212.21036.44510.5113.65.631.0930.294G1稻谷占粮食比重x7（%）人均粮食x6（kg/人）粮食亩产x5（kg/hm2）复种指数x4（%）水田比重X3（%）劳均耕地X2（hm2/个）人均耕地X1（hm2/人）区代号表表6.3 极差标准化处理后的数据极差标准化处理后的数据0.090.430.100.000.070.530.91G80.000.000.150.000.040.260.38G91.000.130.840.810.900.000.00G70.590.130.650.690.610.030.03G61.000.451.001.001.000.030.03G50.000.130.180.130.000.380.44G40.070.080.440.440.070.150.20G30.000.240.000.000.000.871.00G20.141.000.180.150.071.000.91G1X7X6X5x4x3x2x16.2 相似性度量相似性度量?聚类分析中是用聚类分析中是用“距离距离”或或“相似系数相似系数”来度量对象之间的相似性。来度量对象之间的相似性。?例如，例如，31个地区的人均个地区的人均GDP数据就是直线上的数据就是直线上的31个点，每一个点对应一个地区；个点，每一个点对应一个地区；?如果按照人均如果按照人均GDP对它们进行分类，就可以把在直线上离得比较近的那些点归为一类。如果再考虑财政收入，那么人均对它们进行分类，就可以把在直线上离得比较近的那些点归为一类。如果再考虑财政收入，那么人均GDP和财政收入就是二维平面上的一个点，和财政收入就是二维平面上的一个点，31个地区就是平面中的个地区就是平面中的31个点；个点；?多个变量就是高维空间中的一个点，多个变量就是高维空间中的一个点，31个地区就是高维空间中的个地区就是高维空间中的31个点；个点；?各个点之间距离的远近就是分类的依据；各个点之间距离的远近就是分类的依据；6.2.1、按照远近程度来聚类需要明确两个概念：一个是、按照远近程度来聚类需要明确两个概念：一个是点和点之间点和点之间的距离，一个是的距离，一个是类和类之间类和类之间的距离。的距离。点间距离有很多定义方式。最简单的是欧氏距离，还有其他的距离，下面会详细介绍。点间距离有很多定义方式。最简单的是欧氏距离，还有其他的距离，下面会详细介绍。当然还有一些和距离相反但起同样作用的概念，比如相似性等，两点越相似度越大，就相当于距离越短。当然还有一些和距离相反但起同样作用的概念，比如相似性等，两点越相似度越大，就相当于距离越短。?由一个点组成的类是最基本的类；如果每一类都由一个点组成，那么点间的距离就是类间距离。但是如果某一类包含不止一个点，那么就要确定类间距离。由一个点组成的类是最基本的类；如果每一类都由一个点组成，那么点间的距离就是类间距离。但是如果某一类包含不止一个点，那么就要确定类间距离。?类间距离是基于点间距离定义的：比如类间距离是基于点间距离定义的：比如两类之间最近点之间的距离两类之间最近点之间的距离可以作为这两类之间的距离，也可以用可以作为这两类之间的距离，也可以用两类中最远点之间的距离两类中最远点之间的距离作为这两类之间的距离；当然也可以用各类的中心之间的距离来作为类间距离。在计算时，各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同，但一般不会差太多。作为这两类之间的距离；当然也可以用各类的中心之间的距离来作为类间距离。在计算时，各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同，但一般不会差太多。6.2.2、在对样本进行分类时，度量、在对样本进行分类时，度量样本之间样本之间的相似性使用的相似性使用点间距离点间距离；?点间距离的计算方法主要有：点间距离的计算方法主要有：?欧氏距离欧氏距离(Euclidean distance)?平方欧氏距离平方欧氏距离(Squared Euclidean distance)?Block距离距离(Block distance)?Chebychev距离距离(Chebychev distance)?马氏距离马氏距离(Minkovski distance)?最常用的是平方欧氏距离最常用的是平方欧氏距离相似性的度量相似性的度量(样本点间距离的计算方法样本点间距离的计算方法)马氏距离马氏距离Chebychev距离距离Block距离距离平方欧氏距离平方欧氏距离欧氏距离欧氏距离=piiiyx12)(qpiqiiyx=1iiyx max=piiiyx12)(=piiiyx16.2.3、在对变量进行分类时，度量变量之间的相似性常用相似系数，测度方法有：、在对变量进行分类时，度量变量之间的相似性常用相似系数，测度方法有：Pearson相关系数相关系数夹角余弦夹角余弦=iiiiiiixyyxyx22cos=iiiiiiixyyyxxyyxxr22)()()(6.2.4、类间距离的计算方法、类间距离的计算方法?在层次聚类法中，当类别多于在层次聚类法中，当类别多于1个时，就涉及到如何定义两个类别之间的距离问题个时，就涉及到如何定义两个类别之间的距离问题?计算类间距离计算类间距离(与上面介绍的点间距离不同与上面介绍的点间距离不同)的方法有很多，不同方法会得到不同的聚类结果的方法有很多，不同方法会得到不同的聚类结果?实际中较常用的是离差平方和法实际中较常用的是离差平方和法(Wards method)，又称，又称Ward法法离差平方和法离差平方和法(Wards method)组间平均距离组间平均距离(Between-groups linkage)重心法重心法(Centroid clustering)最长距离法最长距离法(Furthest neighbor)最短距离法最短距离法(Nearest neighbor)ijGxGxkldDljki=,minijGxGxkldDljki=,max)()(2lklkklxxxxD=kiliGxGxijlkkldnnD1lkmklWWWD=2?Nearest neighbor(最短距离法最短距离法)用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离?Furthest neighbor(最长距离法最长距离法)用两个类别中各个数据点之间最长的那个距离来表示两个类别之间的距离用两个类别中各个数据点之间最长的那个距离来表示两个类别之间的距离?Centroid clustering(重心法重心法)用两个类别的重心之间的距离来表示两个类别之间的距离用两个类别的重心之间的距离来表示两个类别之间的距离?between-groups linkage(组间平均距离法组间平均距离法)SPSS的默认方法。是用两个类别中间各个数据点之间的距离的平均来表示两个类别之间的距离的默认方法。是用两个类别中间各个数据点之间的距离的平均来表示两个类别之间的距离?Wards method(离差平方和法离差平方和法)使各类别中的离差平方和较小，而不同类别之间的离差平方和较大使各类别中的离差平方和较小，而不同类别之间的离差平方和较大7、层次聚类、层次聚类（hierarchical cluster）7.1 层次聚类的两种方式层次聚类的两种方式?层次聚类又称系统聚类层次聚类又称系统聚类?事先不确定要分多少类，而是先把每一个对象作为一类，然后一层一层进行分类事先不确定要分多少类，而是先把每一个对象作为一类，然后一层一层进行分类?根据运算的方向不同，层次聚类法又分为合并法和分解法，两种方法的运算原理一样，只是方向相反根据运算的方向不同，层次聚类法又分为合并法和分解法，两种方法的运算原理一样，只是方向相反1、合并法、合并法?将每一个样本作为一类，如果是将每一个样本作为一类，如果是k个样本就分成个样本就分成k类；类；?按照某种方法度量样本之间的距离，并将距离最近的两个样本合并为一个类别，从而形成了按照某种方法度量样本之间的距离，并将距离最近的两个样本合并为一个类别，从而形成了k-1个类别；个类别；?再计算出新产生的类别与其他各类别之间的距离，并将距离最近的两个类别合并为一类。这时，如果类别的个数仍然大于再计算出新产生的类别与其他各类别之间的距离，并将距离最近的两个类别合并为一类。这时，如果类别的个数仍然大于1，则继续重复这一步，直到所有的类别都合并成一类为止；，则继续重复这一步，直到所有的类别都合并成一类为止；?总是先把离得最近的两个类进行合并；总是先把离得最近的两个类进行合并；?合并越晚的类，距离越远；合并越晚的类，距离越远；?事先并不会指定最后要分成多少类，而是把所有可能的分类都列出，再视具体情况选择一个合适的分类结果事先并不会指定最后要分成多少类，而是把所有可能的分类都列出，再视具体情况选择一个合适的分类结果；2、分解法、分解法?分解方法原理与合并法相反；分解方法原理与合并法相反；?先把所有的对象先把所有的对象(样本或变量样本或变量)作为一大类，然后度量对象之间的距离或相似程度，并将距离或相似程度最远的对象分离出去，形成两大类作为一大类，然后度量对象之间的距离或相似程度，并将距离或相似程度最远的对象分离出去，形成两大类(其中的一类只有一个对象其中的一类只有一个对象)；?再度量类别中剩余对象之间的距离或相似程度，并将最远的分离出去，不断重复这一过程，直到所有的对象都自成一类为止再度量类别中剩余对象之间的距离或相似程度，并将最远的分离出去，不断重复这一过程，直到所有的对象都自成一类为止?SPSS中只提供了合并法中只提供了合并法【例】根据我国【例】根据我国31个省市自治区个省市自治区2006年的年的6项主要经济指标数据（见下表），采用层次聚类法进行分类，并对结果进行分析。项主要经济指标数据（见下表），采用层次聚类法进行分类，并对结果进行分析。7.2 层次聚类的应用层次聚类的应用实例分析实例分析用用SPSS进行层次聚类进行层次聚类Q聚类聚类第第1步步选择【Analyze】下拉菜单，并选择【Classify-Hierarchical Cluster】，进入主对话框第第2步步将用于聚类的所有变量选入【Variable(s)】；把区分样本的标签(本例为“地区”)选入【Label Cases by】；若对样本进行聚类，在【Cluster】下选择【Cases】(本例选择对样本聚类)，若对变量进行聚类，在【Cluster】下选择【Variables】第第3步步点入【Statistics】选中【Agglomeration schedule】，点击【Continue】回到主对话框第第4步步点入【Plots】选中【Dendrogram】，点击【Continue】回到主对话框第第5步步点入【Method】，在【Cluster Method】中选择类间距离的定义方法(本例选择Wards method)；在【Measure】下选择点间距离的定义方法(本例使用Squared Euclidean distance)；在【Transform Values】的【Standardize】框中选择否对原始数据进行标准化处理(本例选择了【Z scores】)。点击【Continue】回到主对话框第第6步步点入【Save】，在【Cluster Membership】下选择在原始数据中保留分类结果，其中【Single solution】表示指定要分成类时各样本所属的类，【Range of solution】表示指定要分成最少类、最多类时各样本所属的类(SPSS会将分类的结果以变量形式保存到原数据窗口中)，点击【Continue】?【OK】第一步：数据文件的准备。第一步：数据文件的准备。Q聚类分析是根据一系列观测变量的测量值对个案进行分类，分类的依据是个案之间的聚类分析是根据一系列观测变量的测量值对个案进行分类，分类的依据是个案之间的“距离距离”。聚类之前的数据文件包括：。聚类之前的数据文件包括：n个个案的个个案的k个观测值。此外还需要一个个案的标识变量。个观测值。此外还需要一个个案的标识变量。第一步：第一步：数据文件的准备。数据文件的准备。Q聚类分析是根据一系列观测变量的测量值对个案进行分类，分类的依据是个案之间的聚类分析是根据一系列观测变量的测量值对个案进行分类，分类的依据是个案之间的“距离距离”。聚类之前的数据文件包括：。聚类之前的数据文件包括：n个个案的个个案的k个观测值。此外还需要一个个案的标识变量。个观测值。此外还需要一个个案的标识变量。第二步：点击第二步：点击“Analyze”菜单选中菜单选中“Classify”的的“HierarchicalCluster Analysis”,打开对话框。将参与聚类分析的观测变量置入打开对话框。将参与聚类分析的观测变量置入“Variable(s)”下的方框中，将个案标识变量的变量名置入下的方框中，将个案标识变量的变量名置入“Label Cases By”下的方框中，同时在下的方框中，同时在 Cluster 之下选择之下选择Cases。然后选中。然后选中“Statistics”和和“Plots”。第二步：第二步：点击点击“Analyze”菜单选中菜单选中“Classify”的的“HierarchicalCluster Analysis”,打开对话框。将参与聚类分析的观测变量置入打开对话框。将参与聚类分析的观测变量置入“Variable(s)”下的方框中，将个案标识变量的变量名置入下的方框中，将个案标识变量的变量名置入“Label Cases By”下的方框中，同时在下的方框中，同时在 Cluster 之下选择之下选择Cases。然后选中。然后选中“Statistics”和和“Plots”。参考：Q聚类分析的SPSS过程参考：Q聚类分析的SPSS过程第三步：点击第三步：点击“Method”打开聚类分析的距离计算方法设置对话框，以实现对小类间距离、样本间距离计算方法的设置，同时对量纲不一致情况下的变量观测值进行转换：打开聚类分析的距离计算方法设置对话框，以实现对小类间距离、样本间距离计算方法的设置，同时对量纲不一致情况下的变量观测值进行转换：(1)小类间距离计算：默认方式是类间平均链锁法（小类间距离计算：默认方式是类间平均链锁法（Between-Groups linkage)，这种方法最充分地使用了数据资料；，这种方法最充分地使用了数据资料；(2)样本间距离计算：观测变量为连续变量，默认方法：欧氏距离平方；观测变量为顺序或名义变量，默认方法：卡方测量方法；观测变量为二项选择变量样本间距离计算：观测变量为连续变量，默认方法：欧氏距离平方；观测变量为顺序或名义变量，默认方法：卡方测量方法；观测变量为二项选择变量,默认方法：二元欧氏距离平方。默认方法：二元欧氏距离平方。(3)如果观测变量的量纲不一致，还需设置对不同量纲变量进标准化处理。默认状态是如果观测变量的量纲不一致，还需设置对不同量纲变量进标准化处理。默认状态是“none”,需要时可以选择需要时可以选择“Z-scores”,这是使用最广泛、最直观的转换方法。在进行量纲转换时，要选择这是使用最广泛、最直观的转换方法。在进行量纲转换时，要选择“By cases”表明是属于表明是属于Q聚类分析中的量纲转换。聚类分析中的量纲转换。第三步：第三步：点击点击“Method”打开聚类分析的距离计算方法设置对话框，以实现对小类间距离、样本间距离计算方法的设置，同时对量纲不一致情况下的变量观测值进行转换：打开聚类分析的距离计算方法设置对话框，以实现对小类间距离、样本间距离计算方法的设置，同时对量纲不一致情况下的变量观测值进行转换：(1)小类间距离计算：默认方式是类间平均链锁法（小类间距离计算：默认方式是类间平均链锁法（Between-Groups linkage)，这种方法最充分地使用了数据资料；，这种方法最充分地使用了数据资料；(2)样本间距离计算：样本间距离计算：观测变量为连续变量，默认方法：欧氏距离平方；观测变量为顺序或名义变量，默认方法：卡方测量方法；观测变量为二项选择变量观测变量为连续变量，默认方法：欧氏距离平方；观测变量为顺序或名义变量，默认方法：卡方测量方法；观测变量为二项选择变量,默认方法：二元欧氏距离平方。默认方法：二元欧氏距离平方。(3)如果观测变量的量纲不一致，还需设置对不同量纲变量进标准化处理。默认状态是如果观测变量的量纲不一致，还需设置对不同量纲变量进标准化处理。默认状态是“none”,需要时可以选择需要时可以选择“Z-scores”,这是使用最广泛、最直观的转换方法。在进行量纲转换时，要选择这是使用最广泛、最直观的转换方法。在进行量纲转换时，要选择“By cases”表明是属于表明是属于Q聚类分析中的量纲转换。聚类分析中的量纲转换。第四步：指定图形输出。层次聚类分析的图形结果有两种形式（第四步：指定图形输出。层次聚类分析的图形结果有两种形式（1）树形图（）树形图（Dendrogram）,它可以展现聚类分析的每一次合并过程，它可以展现聚类分析的每一次合并过程，SPSS首先将各类之间的距离重新转换到首先将各类之间的距离重新转换到 025之间，然后表现在图上。此图可以粗略地表现聚类的过程；（之间，然后表现在图上。此图可以粗略地表现聚类的过程；（2）冰柱图（）冰柱图（Icicle）,包括纵向冰柱图（包括纵向冰柱图（Vertical）和横向冰柱图）和横向冰柱图(Horizontal)。冰柱图用。冰柱图用X符号来表示聚类过程符号来表示聚类过程,其选择包括：全部、部分、无。其选择包括：全部、部分、无。第四步：第四步：指定图形输出。层次聚类分析的图形结果有两种形式（指定图形输出。层次聚类分析的图形结果有两种形式（1）树形图（）树形图（Dendrogram）,它可以展现聚类分析的每一次合并过程，它可以展现聚类分析的每一次合并过程，SPSS首先将各类之间的距离重新转换到首先将各类之间的距离重新转换到 025之间，然后表现在图上。此图可以粗略地表现聚类的过程；（之间，然后表现在图上。此图可以粗略地表现聚类的过程；（2）冰柱图（）冰柱图（Icicle）,包括纵向冰柱图（包括纵向冰柱图（Vertical）和横向冰柱图）和横向冰柱图(Horizontal)。冰柱图用。冰柱图用X符号来表示聚类过程符号来表示聚类过程,其选择包括：全部、部分、无。其选择包括：全部、部分、无。第五步：显示凝聚状态表。点击层次聚类分析对话框中的第五步：显示凝聚状态表。点击层次聚类分析对话框中的“statistics”可以打开设置凝聚状态对话框。（可以打开设置凝聚状态对话框。（1）选中）选中“Agglomeration schedule”，可以输出聚类分析详细过程，即每一阶段完成的是哪些个案或小类间的聚集；（，可以输出聚类分析详细过程，即每一阶段完成的是哪些个案或小类间的聚集；（2）选中）选中“Proximity matrix”,可以输出各个案的距离矩阵；（可以输出各个案的距离矩阵；（3）设置个案归属结果显示状态：选中）设置个案归属结果显示状态：选中none，不显示个案归属情况；选中，不显示个案归属情况；选中Single solution，则显示聚集成指定的，则显示聚集成指定的n类时个案归属情况；选中类时个案归属情况；选中Range of solutions，则显示聚集成，则显示聚集成n1到到n2范围内的各种情况下的个案归属情况。范围内的各种情况下的个案归属情况。第五步：第五步：显示凝聚状态表。点击层次聚类分析对话框中的显示凝聚状态表。点击层次聚类分析对话框中的“statistics”可以打开设置凝聚状态对话框。（可以打开设置凝聚状态对话框。（1）选中）选中“Agglomeration schedule”，可以输出聚类分析详细过程，即每一阶段完成的是哪些个案或小类间的聚集；（，可以输出聚类分析详细过程，即每一阶段完成的是哪些个案或小类间的聚集；（2）选中）选中“Proximity matrix”,可以输出各个案的距离矩阵；（可以输出各个案的距离矩阵；（3）设置个案归属结果显示状态：）设置个案归属结果显示状态：选中选中none，不显示个案归属情况；选中，不显示个案归属情况；选中Single solution，则显示聚集成指定的，则显示聚集成指定的n类时个案归属情况；选中类时个案归属情况；选中Range of solutions，则显示聚集成，则显示聚集成n1到到n2范围内的各种情况下的个案归属情况。范围内的各种情况下的个案归属情况。第六步：设定保存层次聚类分析的结果。点击层次聚类分析对话框中的第六步：设定保存层次聚类分析的结果。点击层次聚类分析对话框中的“save”可以打开设置保存分类结果的对话框。在可以打开设置保存分类结果的对话框。在“Clus

展开阅读全文