收藏 分销(赏)

因子分析与聚类分析含.pptx

上传人:胜**** 文档编号:941191 上传时间:2024-04-08 格式:PPTX 页数:55 大小:1.70MB
下载 相关 举报
因子分析与聚类分析含.pptx_第1页
第1页 / 共55页
因子分析与聚类分析含.pptx_第2页
第2页 / 共55页
因子分析与聚类分析含.pptx_第3页
第3页 / 共55页
因子分析与聚类分析含.pptx_第4页
第4页 / 共55页
因子分析与聚类分析含.pptx_第5页
第5页 / 共55页
点击查看更多>>
资源描述

1、第八章第八章 因子分析与聚类分析因子分析与聚类分析本章内容本章内容第一节第一节 因子分析因子分析第二节第二节 聚类分析聚类分析第一节第一节 因子分析因子分析一、因子分析的概念和特点一、因子分析的概念和特点(一)因子分析的概念(一)因子分析的概念 因子分析(因子分析(factor analysis)是利用降维的思想,)是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。综合因子的一种多变量统计分析方法。在会计实证研究中,因子分析发

2、挥着重要的作用,在会计实证研究中,因子分析发挥着重要的作用,如变量构造、变量筛选和综合评价等。如变量构造、变量筛选和综合评价等。(二)因子分析的特点(二)因子分析的特点 1、因子变量的数量远少于原有指标变量的数、因子变量的数量远少于原有指标变量的数量。量。2、因子变量并不是原有变量的简单取舍,而、因子变量并不是原有变量的简单取舍,而是对原有变量的重新组构。是对原有变量的重新组构。3、因子之间线性关系不显著。、因子之间线性关系不显著。4、因子变量具有命名解释性。、因子变量具有命名解释性。二、因子分析的数学模型和相关概念二、因子分析的数学模型和相关概念(一)因子分析的数学模型(一)因子分析的数学模

3、型 因子分析的数学模型为:因子分析的数学模型为:(8.1)写成矩阵形式为写成矩阵形式为 ,其中,其中 为原始变量向量,为原始变量向量,为公因子载荷矩阵,为公因子载荷矩阵,为公共因子,为公共因子,为特殊因子。为特殊因子。(二)因子分析中的基本概念(二)因子分析中的基本概念1、因子的含义、因子的含义 因子分析法中提到两种因子:公共因子和特殊因子。因子分析法中提到两种因子:公共因子和特殊因子。公共因子是每个原有变量的线性表达式中都共同出现的因子,公共因子是每个原有变量的线性表达式中都共同出现的因子,各公因子都是均值为各公因子都是均值为0,方差为,方差为1的独立正态随机变量。其协的独立正态随机变量。其

4、协方差矩阵为单位矩阵。方差矩阵为单位矩阵。特殊因子表示原有变量不能被公共因子解释的部分,其均值特殊因子表示原有变量不能被公共因子解释的部分,其均值为为0。各特殊因子之间以及特殊因子与所有公共因子之间都是互相各特殊因子之间以及特殊因子与所有公共因子之间都是互相独立的。独立的。2、因子载荷、因子载荷 模型中各公共因子的系数模型中各公共因子的系数 称为因子载荷,反映了第称为因子载荷,反映了第 个变个变量在第量在第 个公共因子上的相对重要性,个公共因子上的相对重要性,的绝对值的绝对值越大,表明越大,表明 与与 的相依程度越大。的相依程度越大。3、变量共同度、变量共同度 因子载荷矩阵中第因子载荷矩阵中第

5、 行元素的平方和,称为变量行元素的平方和,称为变量 的共同度,的共同度,即变量方差。此值越接近即变量方差。此值越接近1,表明该变量的几乎全部原始信,表明该变量的几乎全部原始信息都被所选择的公共因子说明了。此值接近于息都被所选择的公共因子说明了。此值接近于0,说明公共,说明公共因子对因子对 的影响很小,主要由特殊因子来描述。的影响很小,主要由特殊因子来描述。4、因子的方差贡献、因子的方差贡献 因子因子 的方差贡献是因子载荷矩阵的方差贡献是因子载荷矩阵 中第中第 列元素的平方和,列元素的平方和,反映了因子反映了因子 对原有变量总方差的解释能力,是衡量公共因对原有变量总方差的解释能力,是衡量公共因子

6、相对重要性的指标。此值越大,表明相应因子的重要性越子相对重要性的指标。此值越大,表明相应因子的重要性越高。计算出所有的指标,按其大小排序,就可以提炼出最有高。计算出所有的指标,按其大小排序,就可以提炼出最有影响的公共因子。影响的公共因子。三、因子分析的步骤三、因子分析的步骤(一)因子分析的适合性检验(一)因子分析的适合性检验 1、相关矩阵和反映像相关矩阵、相关矩阵和反映像相关矩阵 相关矩阵中大部分相关系数都小于相关矩阵中大部分相关系数都小于0.3,那么原则上这些数,那么原则上这些数据不适合做因子分析。另外,如果反映像相关矩阵中除对据不适合做因子分析。另外,如果反映像相关矩阵中除对角元素外,其他

7、大多数元素的绝对值均较小,对角线上元角元素外,其他大多数元素的绝对值均较小,对角线上元素的值较接近素的值较接近1,则适合进行因子分析。,则适合进行因子分析。2、检验检验 检验统计量是用于比较变量间简单相关系数和偏相检验统计量是用于比较变量间简单相关系数和偏相关系数的指标,取值在关系数的指标,取值在0和和1之间。值越接近于之间。值越接近于1,意味着变,意味着变量间的相关性越强,原有变量越适合做因子分析。量间的相关性越强,原有变量越适合做因子分析。3、巴特利特球度检验(巴特利特球度检验(Bartlett test of sphericity)巴特利特球度检验以原有变量的相关系数矩阵为出巴特利特球度

8、检验以原有变量的相关系数矩阵为出发点,其发点,其零假设是:相关矩阵为单位阵,即相关系零假设是:相关矩阵为单位阵,即相关系数矩阵为对角矩阵数矩阵为对角矩阵。巴特利特球度检验的检验统计。巴特利特球度检验的检验统计量是根据相关系数矩阵的行列式计算得到,且近似量是根据相关系数矩阵的行列式计算得到,且近似服从卡方分布。如果该统计量的观察值比较大且相服从卡方分布。如果该统计量的观察值比较大且相伴概率伴概率 值小于或等于给定的显著性水平,则应拒值小于或等于给定的显著性水平,则应拒绝原假设;反之,如果该统计量的观察值比较小且绝原假设;反之,如果该统计量的观察值比较小且相伴概率值大于给定的显著性水平,则不应拒绝

9、原相伴概率值大于给定的显著性水平,则不应拒绝原假设。假设。(二)因子提取和因子载荷矩阵的求解(二)因子提取和因子载荷矩阵的求解 因子分析的关键是根据样本数据求解因子载荷矩阵,因子分析的关键是根据样本数据求解因子载荷矩阵,SPSS提供了提供了7种提取因子的方法,其中占主要地位且使用最为广种提取因子的方法,其中占主要地位且使用最为广泛的是主成分分析法。泛的是主成分分析法。因子提取通常有以下三种方法:(因子提取通常有以下三种方法:(1)特征值准则,即取特)特征值准则,即取特征值大于等于征值大于等于1的主成分作为初始因子,放弃特征值小于的主成分作为初始因子,放弃特征值小于1的主成分。(的主成分。(2)

10、累积方差贡献率,因子累积解释的方差比)累积方差贡献率,因子累积解释的方差比例也是确定因子个数时可以参考的指标,一般应达到例也是确定因子个数时可以参考的指标,一般应达到70%-85%或以上。(或以上。(3)碎石检验准则,按照因子被提取的顺序,)碎石检验准则,按照因子被提取的顺序,画出因子的特征值随因子个数变化的散点图,图形由陡变画出因子的特征值随因子个数变化的散点图,图形由陡变平,曲线开始变平的前一个点被认为是提取的最大因子数。平,曲线开始变平的前一个点被认为是提取的最大因子数。(三)因子命名(三)因子命名 在因子分析模型中,公共因子与因子载荷阵的解不是唯一的。在因子分析模型中,公共因子与因子载

11、荷阵的解不是唯一的。因子分析的目的不仅是找出主因子,更重要的是知道每个主因子分析的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以利于对公共因子命名和解释结果,便于进一因子的意义,以利于对公共因子命名和解释结果,便于进一步的分析。若每个公共因子的涵义不清,难以找到合理的解步的分析。若每个公共因子的涵义不清,难以找到合理的解释,可对因子载荷矩阵实行旋转,使每个变量仅在一个公共释,可对因子载荷矩阵实行旋转,使每个变量仅在一个公共因子上有较大的载荷,而在其他公共因子上的载荷较小。因子上有较大的载荷,而在其他公共因子上的载荷较小。SPSS中有中有5种因子旋转的方式可供选择:种因子旋转的方式可供

12、选择:Varimax选项,方选项,方差最大旋转;差最大旋转;Direct Oblimin 选项,直接斜交旋转;选项,直接斜交旋转;Quartimax 选项,四次最大正交旋转;选项,四次最大正交旋转;Equamax 选项,平选项,平均正交旋转;均正交旋转;Promax 选项,斜交旋转方法。选项,斜交旋转方法。(四)计算因子得分,然后将它们用于各种进一步的分析中(四)计算因子得分,然后将它们用于各种进一步的分析中 当因子确定以后,便可以计算各因子在每个样本上的具体数当因子确定以后,便可以计算各因子在每个样本上的具体数值,这些数值称为因子得分,形成的变量称为因子变量。于值,这些数值称为因子得分,形成

13、的变量称为因子变量。于是在以后的分析中就可以因子变量代替原有变量进行数据建是在以后的分析中就可以因子变量代替原有变量进行数据建模,或者利用因子变量对样本进行分类或评价等研究,进而模,或者利用因子变量对样本进行分类或评价等研究,进而实现降维和简化问题的目标。实现降维和简化问题的目标。由于因子得分函数中方程的个数小于变量的个数,因此不能由于因子得分函数中方程的个数小于变量的个数,因此不能精确的计算出因子得分,只能对因子得分进行估计。估计的精确的计算出因子得分,只能对因子得分进行估计。估计的方法很多,方法很多,SPSS中列示了三种方法,常用的是中列示了三种方法,常用的是Regression回归法。回

14、归法。用因子得分还可以计算因子总分,根据因子总分可对样本用因子得分还可以计算因子总分,根据因子总分可对样本(变量)进行排序或归类,作为评价的依据。(变量)进行排序或归类,作为评价的依据。四、因子分析在四、因子分析在SPSS中的实现中的实现 1、建立或打开数据文件后,进入AnalyzeData ReductionFactor Analysis主对话框,如图8-1所示。图图8-1 因子分析主对话框因子分析主对话框 2、把参与分析的变量选到、把参与分析的变量选到Variables框中。框中。3、Selection Variable选择变量栏,用于限制有特殊值的选择变量栏,用于限制有特殊值的样本子集的

15、分析,当一个变量进入该栏时,激活右侧的样本子集的分析,当一个变量进入该栏时,激活右侧的“Value”按钮。待按钮。待“Value”按钮激活后,单击该键,打按钮激活后,单击该键,打开开Set Value对话框,如图对话框,如图8-2 所示,可在该对话框键入标所示,可在该对话框键入标识参与分析的观测量所具有的该变量值。识参与分析的观测量所具有的该变量值。图图8-2 Set Value 对话框对话框 4、单击、单击“Descriptivs”按钮,展开按钮,展开Descriptives对话框,对话框,如图如图8-3所示,可以选择单变量的描述统计量和初始分析结所示,可以选择单变量的描述统计量和初始分析结

16、果。果。图图8-3 Descriptives 对话框对话框(1)Statistics 统计量框统计量框 Univariate descriptive复选项,单变量描述统计量。复选项,单变量描述统计量。Initial solution复选项,初始分析结果。复选项,初始分析结果。(2)Correlation Matrix相关矩阵框相关矩阵框 Coefficients 复选项,显示相关系数。复选项,显示相关系数。Significance levels 复选项,显示相关系数的显著性水复选项,显示相关系数的显著性水平。平。Determinant 复选项,显示相关系数矩阵的行列式。复选项,显示相关系数矩阵

17、的行列式。Inverse 复选项,显示相关系数矩阵的逆矩阵。复选项,显示相关系数矩阵的逆矩阵。Reproduced 选项,显示再生相关阵。选项,显示再生相关阵。Anti-image 复选项,选择此项给出反映象相关矩阵。复选项,选择此项给出反映象相关矩阵。and Bartletts test of Sphericity 复选项,要求进复选项,要求进行行 检验和球形检验和球形Bartlett 检验。检验。5、单击、单击“Extraction”按钮,进入按钮,进入Extraction对话框,如对话框,如图图8-4 所示,可以选择不同的提取公因子的方法和控制提取所示,可以选择不同的提取公因子的方法和控

18、制提取结果的判据。结果的判据。图图8-4 Extraction 对话框对话框(1)Method框,因子提取方法选择项框,因子提取方法选择项 Principal components 选项,主成份法。选项,主成份法。Unweighted least Square 选项,不加权最小选项,不加权最小平方法。平方法。Generalized least squares 选项,用变量值选项,用变量值的倒数加权。的倒数加权。Maximum Likelihoud 选项,最大似然法。选项,最大似然法。Principal Axis factoring 选项,使用多元相选项,使用多元相关的平方作为对公因子方差的初始

19、估计。关的平方作为对公因子方差的初始估计。Alpha factoring 选项,因子提取法。选项,因子提取法。Image factoring 选项,映象因子提取法。选项,映象因子提取法。(2)Analyze 框,指定分析矩阵的选择项。框,指定分析矩阵的选择项。Correlation Matrix 选项,指定以分析变量的相选项,指定以分析变量的相关矩阵为提取因子的依据。关矩阵为提取因子的依据。Covariance matrix 选项,指定以分析变量的协选项,指定以分析变量的协方差矩阵为提取因子的依据。方差矩阵为提取因子的依据。(3)Display 框,指定与因子提取有关的输出项。框,指定与因子提

20、取有关的输出项。Unrotated factor solution 复选项,要求显示复选项,要求显示未经旋转的因子提取结果。未经旋转的因子提取结果。Scree plot 复选项,要求显示按特征值大小排列复选项,要求显示按特征值大小排列的因子序号,以特征值为两个坐标轴的碎石图。的因子序号,以特征值为两个坐标轴的碎石图。(4)Extract 框,控制提取进程和提取结果的选择项。框,控制提取进程和提取结果的选择项。Eigenvalues over 选项,指定提取的因子应该选项,指定提取的因子应该具有的特征值范围,在此项后面的矩形框中给出。具有的特征值范围,在此项后面的矩形框中给出。Number of

21、 factors 选项,指定提取公因子的选项,指定提取公因子的数目。数目。(5)Maximum iterations for Convergence 参数框,参数框,指定因子分析收敛的最大迭代次数。指定因子分析收敛的最大迭代次数。6、单击、单击“Rotation”按钮,展开按钮,展开Rotation对话框,如图对话框,如图8-5所示,可以选择因子旋转方法。所示,可以选择因子旋转方法。图图8-5 Rotation 对话框对话框 (1)Method 框,选择旋转方法。其中,框,选择旋转方法。其中,None 表示表示不进行旋转,不进行旋转,Varimax为方差最大旋转法,为方差最大旋转法,Direc

22、t Oblilmin为直接斜交旋转法,为直接斜交旋转法,Quartmax为四次最大为四次最大正交旋转法,正交旋转法,Equamax为平均正交旋转法,为平均正交旋转法,Promax为斜交旋转法。为斜交旋转法。(2)Display 框,选择有关输出的选项。其中:框,选择有关输出的选项。其中:Rotated solution 选项,显示旋转结果;选项,显示旋转结果;Loading plot(s)选项,显示因子载荷散点图。选项,显示因子载荷散点图。(3)Maximum iterations for Convergence 参数参数框,指定旋转收敛的最大迭代次数。框,指定旋转收敛的最大迭代次数。7、单击

23、、单击“Scores”按钮,进入按钮,进入Factor Scores对话框,对话框,如图如图8-6所示,可以要求计算因子得分,选择显示或作为新所示,可以要求计算因子得分,选择显示或作为新变量保存。变量保存。图图8-6 Factor Scores 对话框对话框 (1)Save as variables 复选项,将因子得分作为复选项,将因子得分作为新变量保存在数据文件中。新变量保存在数据文件中。(2)Method 栏,指定计算因子得分的方法。其中,栏,指定计算因子得分的方法。其中,Regression 选项为回归法,选项为回归法,Bartlett 选项为巴特利选项为巴特利特法,特法,Anderso

24、n-Rubin 选项是为了保证因子的正选项是为了保证因子的正交性而对交性而对Bartlett 因子得分的调整。因子得分的调整。(3)Display factor score coefficient matrix 复复选项,选择此项将在输出窗中显示因子得分系数矩选项,选择此项将在输出窗中显示因子得分系数矩阵,是标准化的得分系数。原始变量值进行标准化阵,是标准化的得分系数。原始变量值进行标准化后,可以根据该矩阵给出的系数计算各观测量的因后,可以根据该矩阵给出的系数计算各观测量的因子得分,还显示协方差矩阵。子得分,还显示协方差矩阵。8、单击、单击“Options”按钮,进入按钮,进入Options对

25、话框,可以进一对话框,可以进一步选择各种输出项。如图步选择各种输出项。如图8-7 所示。所示。图图8-7 Options 对话框对话框(1)Missing Values 栏,选择处理缺失值方法。栏,选择处理缺失值方法。Exclude cases listwise 选项,在分析过程中对那些指定选项,在分析过程中对那些指定的分析变量中有缺失值的观测量一律剔除。的分析变量中有缺失值的观测量一律剔除。Exclude cases pairwise 选项,成对剔除带有缺失值的选项,成对剔除带有缺失值的观测量。观测量。Replace with mean 选项,用该变量的均值代替该变量选项,用该变量的均值代替

26、该变量的所有缺失值。的所有缺失值。(2)Coefficient Display Format 栏,决定载荷系数的显示栏,决定载荷系数的显示格式。格式。Sorted by size 复选项,选中此项载荷系数按其数值的大复选项,选中此项载荷系数按其数值的大小排列并构成矩阵。小排列并构成矩阵。Suppress absolute values less than 复选项,选中此项,复选项,选中此项,不显示那些绝对值小于指定值的载荷系数。不显示那些绝对值小于指定值的载荷系数。第二节第二节 聚类分析聚类分析一、聚类分析概述一、聚类分析概述(一)聚类分析的概念(一)聚类分析的概念 聚类分析是一种建立分类的多

27、元统计分析方法,它聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,将所有的样本或变量分别聚合到不同的类自动分类,将所有的样本或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。个体差异较大。所谓所谓“没有先验知识没有先验知识”是指没有事先指定分类标准;是指没有事先指定分类标准;所谓所谓“亲疏程度亲疏程度”是指在各变量(特征)取值上

28、的总是指在各变量(特征)取值上的总体差异程度。体差异程度。(二)层次聚类和(二)层次聚类和K-Means聚类聚类1、层次聚类、层次聚类 层次聚类又称分层聚类、系统聚类,是指聚类过程是按照一层次聚类又称分层聚类、系统聚类,是指聚类过程是按照一定层次进行的。层次聚类按照不同特征分为以下两种:定层次进行的。层次聚类按照不同特征分为以下两种:(1)按照对象类型分为)按照对象类型分为 型聚类和型聚类和 型聚类型聚类 型聚类是对样本进行分类,主要作用为:型聚类是对样本进行分类,主要作用为:可综合利用可综合利用多个变量的信息对样本进行分类;多个变量的信息对样本进行分类;分类结果直观,聚类谱分类结果直观,聚类

29、谱系图非常清楚地表现分类结果;系图非常清楚地表现分类结果;所得结果比传统分类方法所得结果比传统分类方法更细致、全面、合理。更细致、全面、合理。型聚类是对变量进行分类处理,主要作用为:型聚类是对变量进行分类处理,主要作用为:可了解可了解个别变量之间及变量组合之间的亲疏程度;个别变量之间及变量组合之间的亲疏程度;根据变量的分根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分类结果以及它们之间的关系,可以选择主要变量进行回归分析或型聚类分析。析或型聚类分析。(2)根据聚类过程不同分为凝聚法和分解法。)根据聚类过程不同分为凝聚法和分解法。分解法:聚类开始把所有个体分解法:聚类开始把所有个

30、体(观测量或变量观测量或变量)都视为属于一都视为属于一大类,然后根据距离和相似性逐层分解,直到参与聚类的大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止。每个个体自成一类为止。凝聚法:聚类开始把参与聚类的每个个体凝聚法:聚类开始把参与聚类的每个个体(观测量或变量观测量或变量)视视为一类,根据两类之间的距离或相似性逐步合并,直到合为一类,根据两类之间的距离或相似性逐步合并,直到合并为一个大类为止。并为一个大类为止。无论哪种方法,其聚类原则都是近似的聚为一类,即距离无论哪种方法,其聚类原则都是近似的聚为一类,即距离最近或最相似的聚为一类。实际上以上两种方法是方向相最近或最相似

31、的聚为一类。实际上以上两种方法是方向相反的两种聚类过程。反的两种聚类过程。2、K-Means聚类聚类 K-Means聚类也称快速聚类,它仍将数据看成维空间上的聚类也称快速聚类,它仍将数据看成维空间上的点,仍以距离作为测度个体点,仍以距离作为测度个体“亲疏程度亲疏程度”的指标,并通过的指标,并通过牺牲多个解为代价换得高的执行效率。牺牲多个解为代价换得高的执行效率。K-Means聚类的核心步骤为:第一步,指定聚类数目聚类的核心步骤为:第一步,指定聚类数目 ;第二步,确定第二步,确定 个初始类中心;第三步,根据距离最近原个初始类中心;第三步,根据距离最近原则进行分类;第四步,重新确定则进行分类;第四

32、步,重新确定 个类中心;第五步,判个类中心;第五步,判断是否已满足终止聚类分析的条件。断是否已满足终止聚类分析的条件。从上述分析过程可以看出,从上述分析过程可以看出,K-Means Cluster快速聚类是一快速聚类是一个反复迭代的分类过程。在聚类过程中,样本所属的类会个反复迭代的分类过程。在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。不断调整,直到最终达到稳定为止。快速聚类适用于大样快速聚类适用于大样本的聚类分析。它能快速的把各观测量分到各类中去。本的聚类分析。它能快速的把各观测量分到各类中去。(三)聚类分析的几点说明(三)聚类分析的几点说明 1、所选择的变量应符合聚类的要求、

33、所选择的变量应符合聚类的要求 可根据实际工作经验和所研究问题的特征人为的选择变量,可根据实际工作经验和所研究问题的特征人为的选择变量,这些变量应该和分析的目标密切相关,反映分类对象的特征。这些变量应该和分析的目标密切相关,反映分类对象的特征。2、各变量的变量值不应有数量级上的差异、各变量的变量值不应有数量级上的差异 为了避免对变量单位选择的依赖,数据应当标准化。为了避免对变量单位选择的依赖,数据应当标准化。3、各变量间不应有较强的线性相关关系、各变量间不应有较强的线性相关关系 如果所选变量之间存在较高的线性关系,有两种处理方法:如果所选变量之间存在较高的线性关系,有两种处理方法:(1)首先进行

34、变量聚类,从每类中选一代表性变量,再进)首先进行变量聚类,从每类中选一代表性变量,再进行样本聚类;(行样本聚类;(2)进行主成分分析或因子分析,降维,使)进行主成分分析或因子分析,降维,使之成为不相关的新变量,再进行样本聚类。之成为不相关的新变量,再进行样本聚类。二、聚类分析中二、聚类分析中“亲疏程度亲疏程度”的度量的度量(一)个体间(一)个体间“亲疏程度亲疏程度”的度量的度量 聚类分析中,对聚类分析中,对“亲疏程度亲疏程度”的测度一般有两个角度:第一,的测度一般有两个角度:第一,个体之间的相似程度;第二,个体之间的差异程度。在个体之间的相似程度;第二,个体之间的差异程度。在SPSS中,对不同

35、度量类型的数据采用了不同的测定亲疏程中,对不同度量类型的数据采用了不同的测定亲疏程度的统计量。度的统计量。1、定距型变量个体间距离的计算方式、定距型变量个体间距离的计算方式 通常有欧式距离(通常有欧式距离(Euclidean distance)、平方欧式距离)、平方欧式距离(Squared Euclidean distance)、夹角余弦()、夹角余弦(Cosine)距离、相关系数距离(距离、相关系数距离(Pearson correlation)、切比雪夫距)、切比雪夫距离(离(Chebychev:Chebychev)、)、Block距离(距离(City-Block)或)或Manhattan

36、距离、明考斯基距离(距离、明考斯基距离(Minkowski)、用户)、用户自定义距离(自定义距离(Customized)等)等8种方法。这些方法分别适用种方法。这些方法分别适用于于 型聚类和型聚类和 型聚类型聚类 2、计数变量个体间距离的计算方式、计数变量个体间距离的计算方式 如果所涉及的个变量都是计数(如果所涉及的个变量都是计数(Count)的非连续变量,)的非连续变量,对计数变量的不相似性测度方法,是根据被计算的两个观对计数变量的不相似性测度方法,是根据被计算的两个观测量或两个变量总频数计算其不相似性。期望值来自观测测量或两个变量总频数计算其不相似性。期望值来自观测量或变量的独立模型。个体

37、间距离的定量通常有卡方距离量或变量的独立模型。个体间距离的定量通常有卡方距离(Chi-Square measure)Phi 方距离(方距离(Phi-Square measure)两种方式:)两种方式:3、二值变量个体间距离的计算方式、二值变量个体间距离的计算方式 如果所涉及的个变量都是二值(如果所涉及的个变量都是二值(Binary)变量,那么个体)变量,那么个体间距离的定义通常有简单匹配系数(间距离的定义通常有简单匹配系数(Simple matching和和雅科比系数(雅科比系数(Jaccard)两种方式。)两种方式。(二)个体与小类、小类与小类间亲疏程度的度量(二)个体与小类、小类与小类间亲

38、疏程度的度量 在在SPSS中提供了多种度量个体与小类、小类与小类间亲疏中提供了多种度量个体与小类、小类与小类间亲疏程度的方法,如最短距离法(程度的方法,如最短距离法(Nearest neighbor)、最长)、最长距离法(距离法(Furthest neighbor)、中间距离法()、中间距离法(Median clustering)、组间平均链锁法()、组间平均链锁法(Between-groups linkage)、组内平均链锁法()、组内平均链锁法(Within-groups linkage)、)、重心法(重心法(Centroid clustering)、离差平方和法()、离差平方和法(War

39、ds method)。)。在一般情况下,用不同的方法聚类的结果是不会完全一致在一般情况下,用不同的方法聚类的结果是不会完全一致的。在实际应用中,一般采用以下两种处理方法:的。在实际应用中,一般采用以下两种处理方法:根据根据分类问题本身的专业知识结合实际需要来选择分类方法,分类问题本身的专业知识结合实际需要来选择分类方法,并确定分类个数;并确定分类个数;多用几种分类方法去作,把结果中的多用几种分类方法去作,把结果中的共性提出来,对有争议的样本用判别分析去归类。共性提出来,对有争议的样本用判别分析去归类。三、层次聚类在三、层次聚类在SPSS中的实现中的实现 1建立或打开数据文件后,进入建立或打开数

40、据文件后,进入AnalyzeClassify-Hierachical Cluster Analysis 主对话框,如图主对话框,如图8-9所示。所示。图图8-9 层次聚类对话框层次聚类对话框 2、把参与分析的变量选到、把参与分析的变量选到Variable(s)框中。)框中。3、把一个字符型变量作为标记变量选到、把一个字符型变量作为标记变量选到Label Cases框中,它将大大增加聚类分析结果的可读性。框中,它将大大增加聚类分析结果的可读性。4、在、在Cluster框中选择聚类类型。其中框中选择聚类类型。其中Cases 项表项表示进行型聚类,示进行型聚类,Variables 项表示进行型聚类。

41、项表示进行型聚类。5、在、在Display框中选择输出内容。其中框中选择输出内容。其中Statistics表示输出聚类分析的相关统计量,表示输出聚类分析的相关统计量,Plots表示输出聚表示输出聚类分析的相关图形。类分析的相关图形。6、单击、单击Statistics按钮,选择要求输出的统计量,如图按钮,选择要求输出的统计量,如图8-10所示。所示。图图8-10 Statistics 对话框对话框 (1)Agglomeration schedule 复选项,表示输出聚类分析复选项,表示输出聚类分析的凝聚状态表。的凝聚状态表。(2)Proximity Matrix 复选项,表示输出个体间的距离矩阵

42、。复选项,表示输出个体间的距离矩阵。产生什么类型的矩阵取决于在产生什么类型的矩阵取决于在Method 对话框中对话框中Measure 栏中的选择。栏中的选择。(3)Cluster Membership(类成员栏类成员栏)选项,显示每个观测选项,显示每个观测量被分派到的类或显示若干步凝聚过程。其中:量被分派到的类或显示若干步凝聚过程。其中:None 选项,不显示类成员表,是系统默认值。选项,不显示类成员表,是系统默认值。Single solution 选项,要求列出聚为一定类数的各观测选项,要求列出聚为一定类数的各观测量所属的类。量所属的类。Range of solutions 选项,要求列出某

43、个范围中每一步选项,要求列出某个范围中每一步各观测量所属的类。各观测量所属的类。7、单击、单击Plots 按钮,选择输出统计图表,如图按钮,选择输出统计图表,如图8-11所示。所示。图图8-11 Plots 对话框对话框 (1)Dendrogram复选项,表示输出聚类分析的复选项,表示输出聚类分析的树形图。树形图。(2)Icicle复选项,表示输出聚类分析的冰柱图,复选项,表示输出聚类分析的冰柱图,其中:其中:All clusters 选项,聚类的每一步都表现选项,聚类的每一步都表现在图中。在图中。Specified range of clusters 选项,指选项,指定显示的聚类范围。定显示

44、的聚类范围。None,不生成冰柱图。,不生成冰柱图。(3)Orientation 栏指定如何显示冰柱图,其中栏指定如何显示冰柱图,其中Vertical表示纵向显示,表示纵向显示,Horizontal表示横向水表示横向水平的冰柱图。平的冰柱图。8、单击、单击“Method”按钮,展开按钮,展开Method 分层聚类分析的分层聚类分析的方法选择对话框,如图方法选择对话框,如图8-12所示。所示。图图8-12 Method 对话框对话框(1)Cluster Method 表中列出可以选择的聚类方法表中列出可以选择的聚类方法有有Between-groups linkage(类间平均链锁)、(类间平均链

45、锁)、Within-groups linkage(类内平均链锁法)、(类内平均链锁法)、Nearest neighbor(最近邻居法)、(最近邻居法)、Furthest neighbor(最远邻居法)、(最远邻居法)、Centroid clustering(重心法)、(重心法)、Median clustering(中间距离法)、(中间距离法)、Wards method(离差平方和法)。(离差平方和法)。(2)Measure框中给出的是不同变量类型下的个体框中给出的是不同变量类型下的个体距离的计算方法,其中距离的计算方法,其中Interval框中的方法适用于框中的方法适用于连续性定距变量,连续性

46、定距变量,Counts框中的方法适用于计数型框中的方法适用于计数型变量,变量,Binary框中的方法适用于二值变量。框中的方法适用于二值变量。(3)单击)单击Transform Values 框中的框中的Standardize右侧向下右侧向下的箭头按钮,展开标准化方法列表,只有选择了的箭头按钮,展开标准化方法列表,只有选择了Interval或或Counts后才可以进行标准化。后才可以进行标准化。By variable适用于适用于 型聚类型聚类分析;分析;By case适用于适用于 型聚类分析。型聚类分析。对数据进行标准化的可选择的方法有:对数据进行标准化的可选择的方法有:None 选项,不进选

47、项,不进行标准化;行标准化;scores 选项,把数值标准化到分数;选项,把数值标准化到分数;Range-1 to 1 选项,把数值标准化到选项,把数值标准化到-1 到到+1 的范围内;的范围内;Range 0 to l 选项,把数值标准化到选项,把数值标准化到0 到到+1 的范围内;的范围内;Maximum magnitude of 1选项,把数值标准化到最大值选项,把数值标准化到最大值1;Mean of 1 选项,把数值标准化到一个均值的范围内;选项,把数值标准化到一个均值的范围内;Standard deviation of 1 选项,把数值标准化到单位标准选项,把数值标准化到单位标准差。

48、差。(4)Transform Measure框为测度的转换方法选择框为测度的转换方法选择栏。其中:栏。其中:Absolute Values 复选项,把距离值取绝对值。复选项,把距离值取绝对值。当数值符号表示相关方向,且只对负相关关系感兴当数值符号表示相关方向,且只对负相关关系感兴趣时,使用此方法进行变换。趣时,使用此方法进行变换。Change sign 复选项,把相似性值变为不相似性复选项,把相似性值变为不相似性值或相反,用求反的方法使距离顺序颠倒。值或相反,用求反的方法使距离顺序颠倒。Rescale to 01 range 复选项,通过首先减去最复选项,通过首先减去最小值然后除以范围的方法使

49、距离标准化。小值然后除以范围的方法使距离标准化。9、聚类分析的结果可以用新变量保存在工作数据文件中。、聚类分析的结果可以用新变量保存在工作数据文件中。单击主对话框的单击主对话框的“Save”按钮,展开相应的对话框,如图按钮,展开相应的对话框,如图8-13所示。所示。图图8-13 Save New Variables 对话框对话框(1)None 选项,不建立新变量。选项,不建立新变量。(2)Single solution 选项,即单一结果。选项,即单一结果。(3)Range of solutions 选项,即指定范围内的选项,即指定范围内的结果。结果。10、执行、执行Cluster 过程,点击主

50、对话框中的过程,点击主对话框中的“OK”按钮即可。按钮即可。四、快速样本聚类在四、快速样本聚类在SPSS中的实现中的实现 1建立或读入数据文件后,进入建立或读入数据文件后,进入Analyze-Classify-K-Means Cluster Analysis 对话框,如图对话框,如图8-15所示。所示。图图8-15 K-Means Cluster Analysis 对话框对话框 2、指定参与、指定参与K-Means聚类的变量放入聚类的变量放入Variables框中。框中。3、把一个字符型变量作为标记变量选到、把一个字符型变量作为标记变量选到Label Cases框中,框中,它将大大增加聚类分析

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服