第十一章多元统计分析.doc

资源描述

第十一章多元统计分析第一节聚类分析聚类分析起源于分类学，在考古的分类学中,人们主要依靠经验和专业知识来实现分类，随着生产技术和科学的发展，分类越来越细，要求越来越高，仅靠经验和专业知识不能进行确切的分类，于是统计这个有用的工具逐渐被引进到分类学中，形成数值分类学。后来，数理统计的多元方法被引入到分类学中，从分类学中逐渐分离出聚类分析这个新的分支，逐渐形成了今天在自然科学领域及社会经济领域里广泛应用的聚类分析. 聚类分析是多元统计分析方法中的一种，它是根据样品的多种指标的数据，定量的确定它们之间存在的相似性,根据这些样品或指标的相似程度，将其归为若干个类群，构成分类谱系图。聚类分析可以分为Q型与R型两种，Q型聚类主要用于样品的分类，R型聚类主要用于指标的分类。基本思想：选择一个统计量用来衡量对象间的相似程度,按照相似程度的大小依次进行连结，从而绘制出分类谱系图。本节主要讨论Q型聚类分析。一、数据的变换处理在一些社会经济问题中,假设对n个样品测试其p个指标,得到如下数据矩阵: 其中,Xij是第i个样品的第j个指标的观测值. 特别,当各个指标的测量单位，测量结果的量纲存在较大差异时，有必要聚类之前对数据作相应得变换处理. 1、数据的中心化中心化变换是一种坐标轴平移处理方法，它是先求出每个变量的样本平均值，再从原始数据中减去该变量的均值，就得到中心化变换后的数据。令其中：中心化变换的结果是使每列数据之和均为0，即每个变量的均值为0。 2、数据的正规化规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值，这两者之差称为极差，然后从每个变量的每个原始数据中减去该变量中的最小值，再除以极差，就得到规格化数据。即有: 经过规格化变换后，数据矩阵中每列即每个变量的最大数值为1,最小数值为0，其余数据取值均在0－1之间；并且变换后的数据都不再具有量纲，便于不同的变量之间的比较。 3、数据的标准化标准化变换也是对变量的数值和量纲进行类似于规格化变换的一种数据处理方法。首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。即有: 经过标准化变换处理后，每个变量即数据矩阵中每列数据的平均值为0，方差为1,且也不再具有量纲，同样也便于不同变量之间的比较。二、聚类分析中的统计量研究样品或变量的亲疏程度的数量指标有两种，一种叫相似系数，性质越接近的变量或样品，它们的相似系数越接近于1或一l，而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类，不相似的为不同类；另一种叫距离，它是将每一个样品看作p维空间的一个点，并用某种度量测量点与点之间的距离，距离较近的归为一类,距离较远的点应属于不同的类。 1、距离在Q型聚类中，如果把n个样品(X中的n行)看成p维空间中的n个点，则两个样品间的相似程度可用p维空间中的两点的距离来度量。令表示样品与的距离。常用的距离：对于正规化的数据，有。越小，第i个样品与第j个样品就越相似；反之，相似性就越小。 2、相似系数研究样品之间的关系，除了用距离表示外，还有相似系数，顾名思义，相思系数是描述样品之间相似程度的一个度量，常用相似系数有: （1）夹角余弦将任何两个样品与看成p维空间的两个向量,这两个变量的余弦用表示，即为两个样品的相似系数：其中，。当接近于1，说明与相似密切；，说明与完全不一样；越接近于0,说明与差别大。（2）相关系数将第i个样品与第j个样品之间的相关系数定义为：其中：其中，。当接近于1，说明与相似密切；,说明与完全不一样；越接近于0，说明与差别大。由以上定义可知，对于标准化数据而言，相关系数与相似系数这两个统计量是完全一样的。三、分类的步骤分类之初,所有样品自成一类。（1）计算n个样品两两之间的距离{},记作D=(）（2）合并距离最近的两类为一新类（3）计算新类于当前各类的距离（4）画聚类图（5）决定分类个数和类在连结过程中，可采取最长距离法、中间距离法、最短距离法、重心法类、平均法等，根据实际情况选择。四、案例分析为了更深入了解我国人口文化现状程度,利用2006年全国人口变动情况抽样调查样本数据对全国31个省、市、自治区进行聚类分析。分析选取了三个指标: （1)大专及以上文化程度的人口占全部人口的百分比（x1) （2）高中化程度的人口占全部人口的百分比(x2) (3）初中文化程度的人口占全部人口的百分比（x3) 分别来反映较高、中等、较低文化程度人口的状况，原始数据如下表: 2006年全国人口变动情况抽样调查文化程度人口比例地区 x1 x2 x3 北京 29。36 23.15 29.47 天津 15。22 22.78 36。44 河北 3.93 11.43 47.36 山西 6。65 14。6 47.28 内蒙古 6。51 14。72 39.76 辽宁 9。57 14.65 45。18 吉林 7。02 16.91 41.98 黑龙江 6.11 14.82 44。52 上海 21。83 25.88 33.3 江苏 7.24 15.2 38.62 浙江 8。42 12.91 34。83 安徽 4.72 9.61 38.51 福建 5.83 12。39 34。13 江西 4.74 11.48 34。46 山东 5。73 13.32 41.88 河南 4。14 11.48 47.98 湖北 7。71 15.27 37.42 湖南 5.07 13。93 39.86 广东 5.7 15.09 42。06 广西 4。57 11.66 41 海南 5。43 13.57 43.86 重庆 4.49 10。93 33。45 四川 4。51 9。2 31。17 贵州 2.72 6。38 30.28 云南 3。1 6。76 28.33 西藏 1。06 2.84 11.22 陕西 7.46 15。12 38.79 甘肃 3.3 11.54 30。82 青海 5。95 10.77 27.72 宁夏 7.27 12。18 33。05 新疆 8.69 11.45 37.51 数据来源：中国统计年鉴2007（4—12）计算样品之间的欧式距离，使用Ward系统聚类法,将上机结果按地区画出聚类图如下：根据聚类图把31个样品分为四类能更好的反映我国实际情况。第一类:北京、上海、天津。经济文化相对发达的直辖市。第二类：江西、重庆、福建、宁夏、浙江、云南、贵州、四川、甘肃、青海.其中除浙江、福建外，大多是西部经济文化欠发达地区。浙江、福建较发达省份出现在这一类可能与近年来较多西部省份打工者涌入，人口变动有关。第三类：西藏。经济文化较落后的地区。第四类：其他省、直辖市、自治区。经济、文化在全国处于中等水平. 第二节判别分析判别分析是一种根据观测变量判断研究样本如何分类的多变量统计方法，它对于需要根据对样本中每个个案的观测来建立一个分组预测模式的情况是非常适用的。与聚类分析不同,判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样品的观测数据，在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说，一批给定样品要划分的类型事先并不知道，正需要通过聚类分析来给以确定.因此，判别分析和聚类分析往往联合起来应用。例如，可先用聚类分析对原来的一批分类不清楚的样品进行分类，然后再用判别分析建立判别式对新样品进行判别。判别分析的主要用于识别一个个体所属类别。包括预测新产品的成功与失败、决定一个学生师傅被录取、确定某人的信用风险的种类或者某人是否是某一特定险种的目标客户等。判别分析按照判别的组数来分，有两组判别分析和多组判别分析。根据不同的判断准则衍生出多种判别分析方法，常用的判别方法包括距离判别法、fisher判别法、Bayes判别法和逐步判别法。为了便于原理性的说明，我们仅讨论两总体的fisher判别。一、fisher判别的基本思想 Fisher判别的思想是投影，将两组p维数据投影到某一个方向，使得它们的投影组和组之间尽可能的分开,将待判样品也作相应的投影，从而判定其归属组。如图: 具体得做法:从两类总体中抽取具有ｐ个指标的样品的观测数据，借助于方差分析的思想构造一个判别函数，即其中系数确定的原则是使两组间的组间离差最大，而每个组的组内离差最小。当建立了判别式以后，对一个新的样品值，我们可以将他的P个指标值代入判别式中求出Y值，然后与某个临界值比较,就可以将该样品归某类。假设我们可以得到一个线性判别函数：我们可以把两个总体的样品代入上面的判别式，得：分别对上面两式左右相加，再除以样品个数，可得两个总体的重心：最佳的线性判别函数应该是：两个重心的距离越大越好，两个组内的离差平方和越小越好. 组间的离差：组内离差：二、判别函数的确定从fisher判别的整个过程可知,对于判别函数的确定是关键，根据fisher 准则：要使两组样品的p个变量经过线形变换后形成一个新变量，若要使得每个样品的新变量的值使两组样品能区分得好，关键是要使两组样品的重心距离很大，且使各组组内的离差平方和为最小。即要求（ 11。1）为最大. 根据微积分求极值的必要条件可求出使I达到最大值的c1,c2，…，cp。对(11。1）两边取对数得: 令（k=1,…，p）得即（k=1，…，p）计算得： ( ) 得到判别函数：三、判别准则定义临界点为：，不妨假定: 如果由原始数据y求得判别函数得分为Y＊，对与一个样品代入判别函数中，若Y*〉Y0，则判给G1，否则判给G2. 四、实例分析为了研究中小企业的破产模型，我们选定4个经济指标：（1) X1总负债率（现金收益/总负债）（2）X2收益性指标（纯收入/总财产) （3）X3短期支付能力（流动资产/流动负债）（4）X4生产效率性指标（流动资产/纯销售额）对17个破产企业（1类）和21个正常运行企业（2类）进行了调查，得如下资料： (1）建立判别式经计算得：从而：因此,判别式为：（2）求判别临界值y0，对所给样品判别分类 = -0.987 =0.799 因此 =0 由于〈，当样品带入判别式后，如果y＊〈，则判为第一组；如果y＊〉,则被判为第二组.回判结果如下: 样品序列号 y值原类号回判组别 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 -1。87498 -1。83522 -0。95892 -0。78017 -1。02595 —1。59139 -1.87648 —0.61102 -0。38331 -1.65347 0.01121 0.60156 —0.87087 —0。81188 —1。00669 -0.66301 —1.45208 1。31602 —0.20996 1。51214 0。37738 2。08347 2。20544 0.16587 -0。36785 0.46247 -0。16438 0。06848 0。93511 -0.99779 0。36822 —0.47413 0.49442 2.88353 0.18648 1.52926 0.5967 3。81179 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 2 2 1 1 1 1 1 2 1 2 2 2 2 2 1 2 1 2 2 1 2 1 2 2 2 2 2 2 待判样品判别结果: 样品序列 y值判属组别 39 40 41 42 43 44 45 46 —0.81204 —0。93329 -0.57936 -1。02157 0.09568 0。41162 0.31534 1.30423 1 1 1 1 2 2 2 2 上述回判结果表明，第一组的第11、12号被判回第二组，说明第11、12号样品被误分,第11、12 号企业之前被误判为破产企业，其实为正常企业。而第二组的第19、25、27、30、32号样品被回判到第一组，说明这5家企业被误判为正常企业,其实为破产企业。总的回代判对率为31/38=81。6％。第三节主成分分析在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑与之相关的许多经济指标，这样就产生了如下问题：一方面这些指标能从不同的侧面反映我们所研究的对象的特征，而另一方面随着考虑指标的增多增加了问题的复杂性，同时在某种程度上存在信息的重叠，这种信息的重叠甚至会抹杀事物的真正特征与内在规律。主成分分析（Principal Components Analysis，PCA）是一种试图在力保数据信息丢失最少的原则下，通过降维来简化数据结构的方法.通过主成分析，可以将多个变量(指标）化为少数几个相互无关的综合变量(综合指标)，称之为主成分,其中每个主成分都是原始变量的线形组合，且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。在考虑复杂问题的时候就可以只考虑少数几个主要成分而不至于损失太多信息，从而更容易抓住主要矛盾，揭示事物内部变量之间的规律性,简化问题，同时提高效率。本节主要介绍主成分分析的基本理论和方法及主成分分析的计算步骤。一、主成分分析的基本思想主成分分析就是设法将原来众多具有一定相关性的指标（比如p个指标），组合成一组新的相互无关的综合指标,即将原来p个指标作线性组合，作为新的综合指标。如果将选取的第一线性组合即第一个综合指标F1，自然希望F1尽可能多的反应原来指标信息，这里的“信息”用F1的方差来表达，即F1的方差越大，表示F1包含的信息越多。因此在所有的线性组合中所选的F1应该是方差最大的，故称F1为第一主成分.如果第一主成分不足以代表原来p个指标的信息再考虑选取F2即第二个线性组合，为有效的反映原来信息,F1已有的信息不需要再出现在F2中了，即Cov（F1, F2）=0,同理可构造第三，第四，…第p个主成分，这些主成分之间不相关且方差递减。实际处理问题时只挑选前几个最大主成分。二、主成分分析的数学模型及几何意义（一)数学模型假设对某一事物的研究涉及到p个指标，假定对n个样品测定其p个指标, X1，…，Xp，得到如下数据矩阵： (X1,X2，…，Xp） (公式11。1）其中， i=1，…，p 用矩阵X的p个向量X1，X2，…，Xp作的线性组合即X矩阵的第1到第p个主成分表示为：其中，上述方程要求：且系数由以下原则决定：（1）与(i≠j,i，j=1，…，p）不相关; （2)是X1，X2，…，Xp的一切线性组合中方差最大的，是与无关的X1，X2,…,Xp的一切线性组合中方差最大的，…,是与F1，F2，…，Fp-1无关的X1，X2,…,Xp的一切线性组合中方差最大的。（二）主成分的几何意义以下我们将原始指标标记为X1，…，Xp，将它们的主成分记为F1，…,Fp。为了方便,我们在二维空间中讨论主成分几何意义。即当p=2时，每个样品有两个观测变量X1和X2,在由变量X1和X2 所确定的二维平面中，n个样本点所散布的情况如椭圆状。由上图所示这n个样本点无论是沿着Xl 轴方向或X2轴方向都具有较大的离散性，其离散的程度可以分别用观测变量Xl的方差和X2的方差定量地表示。显然，如果只考虑Xl和X2中的任何一个，那么包含在原始数据中的经济信息将会有较大的损失。如果我们将Xl 轴和X2轴先平移，再同时按逆时针方向旋转q角度，得到新坐标轴Fl和F2。Fl和F2是两个新变量.旋转变换后使得n个样品点在Fl轴方向上的离散程度最大，即Fl的方差最大。变量Fl代表了原始数据的绝大部分信息，在研究某经济问题时，即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上，对数据中包含的信息起到了浓缩作用.那么Fl取什么方向使它的方差达到最大呢？这是主成分分析所要解决的问题. 三、主成分的导出及性质（一）主成分的导出主成分分析可以针对总体也可针对样本，一般情况下我们研究的经济问题时，取得的数据都是抽样数据,因此，以下我们主要讨论样本的主成分。总体未知时，设有p个指标，n个样品由数据矩阵(11.1），容易计算得到其相关系数和协方差，由于在标准化数据的情况下，样本相关系数与样本协方差等价即（ i，j=1，…，p) 为导出主成分,只需求得S阵的特征根和特征向量即可。为简单起见考虑p=2的情况，设有2个指标，抽取n个样品，其数据为标准化数据,且其相关系数为0。6，则其协方差矩阵为：为求其特征根，可由求得S的特征根与特征向量（过程略）特征根:1=1。6 ，2=0.4 对应特征向量为：得到第一主成分：第二主成分：（二）主成分性质得到主成分后,深刻理解其基本性质有助于对我们对主成分分析后的结论作进一步经济意义的挖掘，以下不加证明的给出主成分的相关性质。对于变量X1，X2,…，Xp的n个样品的数据矩阵,其协方差阵S的p个特征值1 ≥2…≥p≥0，对应的p个特征向量为：［e1…ep］（1)X1，X2，…，Xp的第i个主成分Fi系数即为第i个特征根i所对应的特征向量，即（2）方差为所有特征根之和说明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和。协方差矩阵S的对角线上的元素之和等于特征根之和。第i个主成分的方差在全部方差中所占比重，称为贡献率 ,反映了原来P个指标多大的信息，有多大的综合能力。前k个主成分共有多大的综合能力，用这k个主成分的方差和在全部方差中所占比重来描述,称为累积贡献率。我们进行主成分分析的目的之一是希望用尽可能少的主成分F1，F2，…，Fk（k≤p）代替原来的P个指标。到底应该选择多少个主成分，在实际工作中,主成分个数的多少取决于能够反映原来变量80％以上的信息量为依据，即当累积贡献率≥80%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。（3）原始变量xi与主成分Fj之间的相关系数为因子负荷，为Fj 提取的第i 原始变量信息的比重,可见xi和Fj的相关的密切程度取决于对应线性组合系数的大小. 四、实例分析为了评价顾客的信用等级，了解顾客的综合信用程度，从而加强企业的应收账款管理。某企业采用西方银行信用评估常用的5C方法（5C的目的是说明顾客违约的可能性)设定了以下五个指标. 1、品格（用X1表示),指顾客的信誉,履行偿还义务的可能性.企业可以通过过去的付款记录得到此项。 2、能力（用X2表示），指顾客的偿还能力。即其流动资产的数量和质量以及流动负载的比率。顾客的流动资产越多，其转化为现金支付款项的能力越强。同时，还应注意顾客流动资产的质量，看其是否会出现存货过多过时质量下降,影响其变现能力和支付能力。 3、资本（用X3表示）,指顾客的财务势力和财务状况，表明顾客可能偿还债务的背景。 4、附带的担保品（用X4表示),指借款人以容易出售的资产做抵押。 5、环境条件（用X5表示），指企业的外部因素，即指非企业本身能控制或操纵的因素。从中抽取了10家具有可比性的同类企业作为样本，又请8位专家分别给10个企业的5个指标打分，然后分别计算企业5个指标的平均值，得到10个企业在5个指标上的平均得分数据如下表： x1 x2 x3 x4 x5 1 92.00 76。50 65。00 68.90 66。40 2 70。60 76.50 77.50 85。60 90。70 3 73。00 81。50 73.60 68.50 87。30 4 67。60 76。00 70。90 70.00 91。00 5 68.10 75。80 69.80 62。20 81。50 6 78。50 71.70 74。80 76.50 80.00 7 94.00 85.00 57。70 70.00 84。60 8 94.00 79。20 60.40 69.20 66。90 9 87。50 80.30 57.40 71.70 68.80 10 89。50 84.40 60.80 64.90 64。80 对该实例作主成分分析. 计算其相关矩阵为: 其特征值为： 1=3。108 2=0。868 3=0。766 4=0。164 5=0.094 对应得特征向量分别为得到5个主成分，其中第一、第二主成分分别为：可以求出各主成分的方差和方差贡献，见下表: 主成分可解释的方差方差贡献率累计方差贡献率 F1 F2 F3 F4 F5 3.108 0.868 0。766 0。164 0。094 62。164％ 17.359% 15.314％ 3.281％ 1.882% 62.164％ 79.523％ 94.837％ 98.118% 100。000% 5.000 100% 100％有上表可知,前两个主成分的累积方差贡献率达到79.523％，这说明仅用前两个主成分F1和F2代替原来5个指标，不至于损失太多信息。第四节因子分析一、因子分析的基本思想因子分析（factor analysis）是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。因子分析可以看成是主成分分析的一种推广。它的基本目的是，用少数几个因子F1，F2 ，…,Fm 去描述多个变量X1，X2,…，Xp（m〉p）之间的关系。原始的变量X1，X2，…,Xp是可观测的显在变量，而因子F1，F2 ，…，Fm是不可观测的潜在变量。例如，在企业形象或品牌形象的研究中，消费者可以通过一个有24个指标构成的评价体系，评价百货商场的24个方面的优劣。但消费者主要关心的是三个方面，即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量，找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。因子分析的思想是，将可直接观测的变量进行分类，使彼此间相关性较高即联系比较紧密的变量分在同一类中,且使不同类的变量之间的相关性尽可能低。那么每一类的变量实际上就代表了一个本质因子,或一个基本结构.因子分析就是寻找这种类型的模型或者结构。二、因子分析的数学模型设p个指标的n个样品的观测数据矩阵为：我们将p个变量（指标）Xi（i=1，…,p）表示成因子F1，…，Fm以及i（i=1,…，p）线性组合：用矩阵表示为：因子分析把每个原始变量分解为两部分因素：一部分为F1，…,Fm为公共因子，是不可观测的变量，他们的系数称为因子载荷.另一部分为是特殊因子,是不能被前m个公共因子包含的部分。并且满足： (1）公共因子均值为零。（2）F1,…,Fm不相关且，方差为1. （3)公共因子与特殊因子不相关。（4）特殊因子均值为零（5）1,…，p不相关且,且方差不同。三、关于因子载荷的主要结论（一）因子载荷aij的统计意义因子载荷aij是第i个变量与第j个公共因子的相关系数在上式的左右两边乘以，两边求数学期望根据公共因子的模型性质，有（载荷矩阵中第i行，第j列的元素）反映了第i个变量与第j个公共因子的相关重要性。绝对值越大，相关的密切程度越高。 (二）变量共同度的统计意义变量Xi的共同度是因子载荷矩阵的第i行的元素的平方和。记为为了说明它的统计意义，对下式两边求方差对于标准化的变量其方差为1，即所有的公共因子和特殊因子对变量 Xi 的贡献为1。第一部分为共同度,如果非常靠近1,改变量的几乎所有信息都被所选取得公共因子说明，即由原始变量空间转化为因子空间的转化性质较好，保留原始变量的信息量多；越接近于0,则说明公共因子对的影响较小，主要由特殊因子来描述。第二部分是特殊因子所产生的方差，它是的方差为1的补充值。（三)公共因子方差贡献的统计意义因子载荷矩阵中各列元素的平方和称为所有的对Xi的方差贡献和。衡量的相对重要性。四、实例分析为了解了成都市民的需求和购车偏好，我们找到了成都市民对经济型私家车外观造型、仪表台、内部装饰、加速性能、噪音、操纵性、配置齐全性、整车价位、性价比9个指标进行评分的数据,期望通过因子分析找到几个影响成都市民的需求和购车偏好的主要因子，从而为汽车制造商和经销商营销策略提供市场依据。 (1)正交因子模型为： (2）根据因子模型，得到9个原始指标在4个潜在因子上的载荷矩阵：因子载荷矩阵因子 1 2 3 4 外观造型 0。738 仪表台 0。777 内部装饰 0.855 加速性能 0.683 噪音 0。856 操纵性 0.773 配置齐全性 0。571 整车价位 0.729 性价比 0。838 （3）对因子命名。高载荷指标意义 1 X4：加速性能 X5：噪音 X6：操纵性 X7：配备齐全整车性能评价因子 2 X2：仪表台 X3：内部装饰内部评价因子 3 X8:整车价位 X9：性价比价格评价因子 4 X1:外观造型外观评价因子 ①加速性能、噪音、操纵性和配备齐全都是关于汽车的整体方面性能的指标,所以将以上四个指标命名为整车性能评价因子。 ②仪表台、内部装饰是汽车内部的指标，所以命名为内部评价因子. ③整车价位，性价比是关系到汽车价格的主要指标，所以归为价格评价因子. ④外观造型指标单独说明汽车的外观因素，所以命名为外观评价因子. 第五节用SPSS进行多元统计分析 Spss（Statistical Package for the Social Science)即社会科学统计包，是目前应用最广最为著名的统计软件之一.如今在医学、心理学、社会学、市场学、经济学等领域有着广泛的普及和应用.目前已经使用到15.0的版本,该软件功能强大,操作简单，统计分析方法多元化。一下主要介绍如何使用spss进行聚类分析判别分析、判别分析、主成份分析、因子分析。一、聚类分析使用spss可以进行样本聚类和变量聚类。具体操作步骤如下：（1）打开数据或者录入原始数据，如图所示（数据来自于本章第一节的实例分析) 图11。1 数据编辑窗口（2）单击【Analyze】］菜单,在其下拉菜单中选择【Classify】命令，在弹出的窗口中单击【Hierarchical Cluster…】（如图11.2所示），项弹出分层聚类的主对话框（如图11.3所示）：图11.2 聚类分析的菜单选择图11。3 聚类分析主对话框（3)从对话框左侧的变量列表中选的三个变量点击向右的箭头按钮使之进入Variable(s）框。在【Cluster】处选择聚类类型，其中【Cases】项，表示作样本聚类，【Variables】表示变量聚类。本例选择【Cases】. (4)单击【Statistics】按钮弹出【Hierarchical Cluster Analysis Statistics】对话框选择【Proximty matrix】要求显示欧氏不相似系数平方矩阵,点击Continue 按钮返回【Hierarchical Cluster Analysis 】对话框，如图11。4。图11.4 Statistics对话框 (5）在聚类分析主对话框中，单击【Plots】按钮弹出【Hierarchical ClusterAnalysis Plots】对话框选择【Dendrogram】项（如图11。5），所示点击【Continue】按钮返Hierarchical Cluster Analysis 对话框。图11.5 plots对话框 ●Dendrogram 复选项树形图（谱系图） ●Icicle 冰柱图栏,对于生成什么样的冰柱图还可以进一步用以下选择项确定： ● All clusters 选项,聚类的每一步都表现在图中。可用此种图查看聚类的全过程。但如果参与聚类的个体很多会造成图过大，没有必要。可以使用下面一个选择项限定显示的范围 ● Specified range of clusters 选项，指定显示的聚类范围。当选择此项时,该项下面的选择框加亮，表示等待输入显示范围。在Start 后的矩形框中输入要求显示聚类过程的起始步数，在Stop 后的矩形框中输入显示中止于哪一步。把显示的两步之间的增量输入到By 后面的矩形框中，输入到矩形框中的数字必须是正整数 ● None 不生成冰柱图注:对于显示方向可以在Orientation 栏中确定 ●Vertical 选项纵向显示的冰柱图 ●Horizontal 选项显示水平的冰柱图（6)点击【Method】按钮弹出Hierarchical Cluster Analysis Method 对话框系统： ① 聚类方法选择用鼠标对准【Cluster Method】框中的向下箭头按钮单击鼠标键展开方法菜单表中列出可以选择的聚类方法,如图11。6: 图11。6 method对话框 ● Between-groups linkage 类间平均链锁，合并两类的结果使所有的两两项对之间的平均距离最小,项对的两个成员分别属于不同的类，该方法中使用的是各对之间的距离,即非最大距离,也非最小距离 ● Within-groups linkage 类内平均链锁法，若当两类合并为一类后，合并后的类中的所有项之间的平均最小.两类间的距离即是合并后的类中所有可能的观测量对之间的距离平方 ●Nearest neighbor 最近邻居法，该方法首先合并最近的或最相似的两项用两类间最近点间的距离代表两类间的距离 ●Furthest neighbor 最远邻居法，用两类之间最远点的距离代表两类之间的距离，也称之为完全连接法 ● Centroid clustering 重心法，应与欧氏距离平方法一起使用.像计算所有各项均值之间的距离那样计算两类之间的距离,该距离随聚类的进行不断减小 ● Median clustering 中间距离法,应与欧氏距离平方法一起使用 ● Ward’s method 离差平方和法，应与欧氏距离平方法一起使用 ②对距离的测度方法选择在【Measure】栏中指定的是，用哪两点间的距离决定是否合并两类.距离的具体计算方法还根据参与距离的变量类型从以下3 种对话框选择其一，展开选择菜单后再进行具体方法的选择这3 个对话框分别对应于等间隔测度的变量（一般为连续变量) 、计数变量(一般为离散变量)和二值变量以下为3 个对话框及其可选择的距离或不相似性测度方法，如图11.7：图11.7 method对话框 ●【Interval】：参数框应用于等间隔测度的变量如图11。7，单击矩形框右侧的向下箭头,展开下拉菜单在菜单中选择连续变量距离测度的方法： ●Euclidean distance Euclidean 距离,即两观察单位间的距离为其值差的平方和的平方根,该技术用于Q 型聚类 ●Squared Euclidean distance Euclidean 距离平方，即两观察单位间的距离为其值差的平方和,该技术用于Q 型聚类 ●

展开阅读全文