收藏 分销(赏)

SAS软件应用之因子分析ppt课件.ppt

上传人:二*** 文档编号:12527122 上传时间:2025-10-25 格式:PPT 页数:76 大小:881KB 下载积分:5 金币
下载 相关 举报
SAS软件应用之因子分析ppt课件.ppt_第1页
第1页 / 共76页
本文档共76页,全文阅读请下载到手机保存,查看更方便
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,第,17,章 因子分析,中国疾病预防控制中心,学习目标,熟悉因子分析的基本思想;,熟悉因子分析的基本原理;,了解因子分析的数学模型;,掌握因子模型的性质以及一些基本概念:公共度和方差贡献。,熟悉估计因子载荷的分析步骤、因子旋转和因子得分等;,掌握因子分析的步骤以及,FACTOR,过程实例。,因子分析基本思想,前面章节讨论了多元线性回归分析、主成分分析等,它们的共同特点是讨论内容为可测量变量之间的相互关系,即所分析的这些变量是可以直接观察或测量得到的。但是,在医学研究中,很多情况下我们所要研究的变量是不能直接测量的。例如,研究家庭环境、社会环境和学校环境对儿童智商的影响,这四个变量都是不能或不易直接观测得到的。我们称这种不能或不易直接观测得到的变量为潜在变量或潜在因子。虽然这些潜在变量不能直接测量,但是它们是一种抽象的客观存在,因此一定与某些可测量变量有着某种程度的关联。例如,脑部疾病患者的意识清醒状态是一个不可测变量,但可以通过患者的语言能力、辨识能力、记忆能力、理解能力等一系列可观测的指标来反映。,因子分析基本思想,对于多指标数据中呈现出的相关性,是否存在对这种相关性起支配作用的潜在变量?如果存在,如何找出这些潜在因素?这些潜在因素是怎样对原始指标起支配作用的?这些问题都可以通过因子分析来解决。,因子分析是一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法。,因子分析基本思想,其基本思想是从分析多变量数据的相关关系人手,找到支配这种相关关系的少数几个相关独立的潜在因子,并通过建立起这些潜在因子与原变量之间的数量关系来预测潜在因子的状态,帮助发现隐藏在原变量之间的某种客观规律性。因子分析和主成分分析都能够起到清理多个原始变量内在结构关系的作用,但主成分分析重在综合原始变量的信息,而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法。,因子分析基本思想,因子分析最初用于心理、智力测验的统计分析,随着计算技术的不断发展,如今已广泛应用于医学、气象、经济学等其他研究领域,在中医辨证论治研究中也有了初步成果。如李文林等利用因子分析法建立隐结构在慢性胃炎辨证中应用的初步分析,确定了,28,个原始变量中隐含的,12,个因子,并利用因子载荷最终分析出这,12,个因子,(,隐节点,),所对应的症状信息。陈启光等在中医证候规范研究中以,468,例高脂血症的,40,个四诊信息指标进行因子分析,结果表明:提取的,5,个公因子能包含四诊信息指标中,83,92,的信息,并提供所有测量指标在不同公因子载荷的大小,为医师评价该指标在不同证候中的主次关系提供了定量的分析手段。,因子分析基本思想,因子分析法就是寻找这些潜在因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的潜在因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。,例如,随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性,身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。那么,我们能否通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子呢?因子分析就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法。,因子分析基本思想,可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。,因子分析主要用于:,1,、减少分析变量个数;,2,、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共同的潜在因子代替该组变量。,因子分析基本思想,可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。,因子分析主要用于:,1,、减少分析变量个数;,2,、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共同的潜在因子代替该组变量。,因子分析基本思想,因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。,因子分析的基本原理,下表给出了三个指标之间的相关系数,其中,,x,1,是孩子的数学成绩,,x,2,是孩子的语文成绩,,x,3,是孩子的英语成绩。求影响支配这三个成绩指标变量的潜在因子。,三个指标之间的相关系数,因子分析的基本原理,令 是影响这三个指标变量的潜在因子。显然,每个成绩指标变量除了受这个潜在因子的影响外,可能还受其它因子的影响。把 以外的影响因子记为 ,从数学角度看,它们之间的关系可以表示为:,因子分析的基本原理,如果假设 是方差为1,、相互独立,并且假设指标变量被标准化为方差为1的变量 ,那么,,因子分析的基本原理,同理可以得到,,也就得到了,a,1,、,a,2,和,a,3,的一个方程组:,因子分析的基本原理,解上述方程组,得到一组解为:,a,1,=0.897,,,a,2,=0.959,,,a,3,=0.803,从而得到三个标准指标,X,i,与潜在因子以及误差项之间的关系表达式,即:,从这个关系表达式可以看出这个潜在因子对孩子的三门课的成绩都有影响,而且,影响程度比较均衡。,因子分析的基本原理,再看下面这组表达式,其中,X,1,-X,5,是五个指标变量,它们分别表示收缩压、舒张压、心跳间隔、呼吸间隔和舌下温度。从医学知识可知,这,5,个指标是受自主神经的交感神经和副交感神经支配的,而交感神经和副交感神经状态又不能直接测定。用,F,1,、,F,2,分别表示交感神经和副交感神经这,2,个因子,则可测指标,X,i,是不可测因子,F,j,的线性函数,,因子分析的基本原理,由于,F,1,、,F,2,与每一个,X,i,都有关,因此,研究这,5,个指标变量之间的关系可以转化为研究这两个潜在因子之间的关系。因子分析的基本原理就是依据可测指标变量之间的相关关系,从中寻找出合理的有实际意义的潜在因子,并估计出潜在因子对可测指标变量的影响程度。,因子分析的基本原理,F,j,对各,X,i,的影响是线性的,再加上其它影响因子,e,i,,则各,X,i,与,F,1,、,F,2,的关系可表示为:,因子分析的步骤,因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。,因子分析的步骤,因子分析常常有以下四个基本步骤:,确认待分析的原变量是否适合作因子分析;,构造因子变量;,利用旋转方法使因子变量更具有可解释性;,计算因子变量得分。,因子分析的步骤,因子分析的计算过程:,将原始数据标准化,以消除变量间在数量级和量纲上的不同;,求标准化数据的相关矩阵;,求相关矩阵的特征值和特征向量;,计算方差贡献率与累积方差贡献率;,确定因子:设,F,1,,,F,2,,,,,F,p,为,p,个因子,其中前,m,个因子包含的数据信息总量(即其累积贡献率)不低于,80%,时,可取前,m,个因子来反映原指标;,因子分析的步骤,因子旋转,若所得的,m,个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。,用原指标的线性组合来求各因子得分,采用回归估计法,,Bartlett,估计法或,Thomson,估计法计算因子得分。,综合得分,以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。,F=(w,1,F,1,+w,2,F,2,+w,m,F,m,),(w,1,+w,2,+w,m,),此处,w,i,为旋转前或旋转后因子的方差贡献率。,因子分析的应用,在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时,需要研究以下几个方面的问题:,简化系统结构,探讨系统内核。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳的子集合,从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍弃次要因素,以简化系统的结构,认识系统的内核。,因子分析的应用,构造预测模型,进行预报控制。在自然和社会科学领域的科研与生产中,探索多变量系统运动的客观规律及其与外部环境的关系,进行预测预报,以实现对系统的最优控制,是应用多元统计分析技术的主要目的。在多元分析中,用于预报控制的模型有两大类。一类是预测预报模型,通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型,通常采用聚类分析的建模技术。,因子分析的应用,进行数值分类,构造分类模式。在多变量系统的分析中,往往需要将系统性质相似的事物或现象归为一类。以便找出它们之间的联系和内在规律性。过去许多研究多是按单因素进行定性处理,以致处理结果反映不出系统的总的特征。进行数值分类,构造分类模式一般采用聚类分析和判别分析技术。,因子分析的应用,如何选择适当的方法来解决实际问题,需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。例如一个预报模型的建立,可先根据有关生物学、生态学原理,确定理论模型和试验设计;根据试验结果,收集试验资料;对资料进行初步提炼;然后应用统计分析方法,(,如相关分析、逐步回归分析、主成分分析等,),研究各个变量之间的相关性,选择最佳的变量子集合;在此基础上构造预报模型,最后对模型进行诊断和优化处理,并应用于生产实际。,因子分析SAS程序,SAS,系统中利用,FACTOR,过程对数据进行主成分分析。,FACTOR,过程的语法格式如下:,PROC FACTOR DATA=N=OUT=OUTSTAT=METHOD=ROTATE=MAXITER=RECORDER HEY,选项,;,VAR,变量,/,选项,;,PARTIAL,变量,;,RUN;,因子分析SAS程序,DATA,语句指定要分析的数据集名及一些选项,它可以是原,SAS,数据集,也可以是,corr,、,cov,、,ucorr,、,ucov,等矩阵。,N,用来确定潜在因子个数,该选择项缺省时,系统自动根据“特征值大于,1”,的原则确定潜在因子个数。,OUT,选择项用来保存原变量和因子得分变量,变量名为,factor1,,,factor2,,,。只有使用了,N,选择项,,OUT,选择项才能起作用。,因子分析SAS程序,OUTSTAT,指定输出结果的,SAS,数据集名,该数据集保存的是每一个指标的均值、标准差、样本数、相关系数矩阵或方差协方差矩阵、特征值和特征向量、事前共性方差、事后共性方差、未旋转因子载荷、旋转线性变换、旋转后的因子载荷以及因子得分系数。,METHOD,选择项用来确定因子分析的方法,可选用的有主成分分析法,prin,,最大似然分析法,ml,,主因子分析法,prinit,等,缺省是,prin,。,因子分析SAS程序,ROTATE,选择项用来指定因子旋转的方法,可选用的有最大方差旋转法,varimax,,正交最大方差旋转法,orthomax,,相等最大方差旋转法,equamax,,比例最大方差旋转法,promax,等,缺省是,none,,不旋转。,MAXITER,给出最大迭代次数,缺省是,30,。,RECORDER,指令系统将指标变量按每一个潜在因子载荷的绝对值由大到小重新排序。,HEY,表示将大于,1,的共性方差的值设定为,1,。,因子分析SAS程序,VAR,语句用于列出要分析的原始变量。如果该语句缺省,系统分析其它语句中未涉及到的所有指标变量。,PARTIAL,语句用于列出混杂变量,指定系统使用偏相关系数或偏方差、协方差来计算主成分。例如,,PARTIAL X,;它表示偏相关系数或偏方差、协方差是以变量,X,为混杂变量的,即所有的相关系数都表示的是在,X,不变的情况下,两个变量之间的关联程度。但是,该语句列出的变量不能出现在,VAR,语句中。,另外,,freq,语句、,weight,语句、,by,语句等也实用。,本章小节,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。,因子分析主要用于:,1,、减少分析变量个数;,2,、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共同的潜在因子代替该组变量。,本章小节,因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。,本章小节,本章介绍了因子分析的基本思想、基本原理、数学模型、因子模型的性质以及一些基本概念:公共度和方差贡献。,详细说明了潜在因子个数的确定以及因子载荷估计的分析步骤、因子旋转以及因子得分计算方法等。确定潜在因子的个数是因子分析的一个重要内容。,第,18,章 聚类分析,中国疾病预防控制中心,学习目标,了解聚类分析的基本思想;,了解聚类分析的一些常见统计量;,掌握聚类分析的基本方法;,通过实例练习掌握聚类分析的SAS过程步。,概述,聚类分析是将随机现象归类的统计学方法,已广泛应用于医学科学研究之中。聚类分析也称群分析、点群分析,他是研究分类的一种多元统计方法。,例如,我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等;国家之间根据其发展水平可以划分为发达国家、发展中国家;,概述,这些问题的本质就是希望能找到一种合理的方法将一批研究对象按其所属特性分门别类。统计学上用于解决这种分类问题的主要方法是聚类分析法和判别分析法。这一章主要讨论聚类分析。,聚类分析的基本思想,聚类分析是将样本个体或指标变量按其具有的特性进行分类的一种统计分析方法。我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。,聚类分析的基本思想,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思想。由此得知,聚类分析的任务有两个,第一就是寻找合理的度量事物相似性的统计量;第二是寻找合理的分类方法。,聚类分析的基本思想,在聚类分析中,通常我们将根据分类对象的不同分为,Q,型聚类分析和,R,型聚类分析两大类。,Q,型聚类分析是对样本进行分类处理,又称为样本聚类分析;,R,型聚类分析是对指标进行分类处理,称为指标聚类分析。对样品进行聚类的目的是将分类不明确的样品按性质相似程度分为若干组,从而发现同类样品的共性和不同样品间的差异。对指标进行聚类的目的是将分类不明确的指标按性质相似程度分成若干组,从而在尽量不损失信息的条件下,用一组少量的指标来代替原来的多个指标。,聚类分析的基本思想,R,型聚类分析的主要作用是:不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个指标组合之间的亲疏程度;根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或,Q,型聚类分析。,Q,型聚类分析的作用是:可以综合利用多个变量的信息对样本进行分类;分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;聚类分析所得到的结果比传统分类方法更细致、全面、合理。,聚类分析的基本思想,例如在医生医疗质量研究中,有N个医生参加医疗质量评比,每一个医生有K个医疗质量指标被记录。利用聚类分析可以将N个医生按其医疗质量的优劣分成几类,或者把K个医疗质量指标所反映的问题侧重点不同分成几类。前者是聚类分析中的样品聚类,后者是指标聚类。,聚类分析的统计量,无论是,R,型聚类或是,Q,型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性度量的统计量。,聚类分析中用来衡量样本个体之间属性相似程度的统计量和用来衡量指标变量之间属性相似程度的统计量是不同的,前者用的统计量是距离系数,后者用的统计量是相似系数。距离系数的定义有很多,如欧式距离、极端距离、绝对距离等。相似系数的定义也很多,如相关系数、列联系数等。下面给出它们的计算公式。,距离,明氏距离,马氏距离,兰氏距离,类间距离,类间距离,最短距离法,最长距离法,重心距离法,平均距离法,中间距离法,Ward离均差平方和法,相关系数,相关系数是最容易理解的一种统计量,它就是统计中经常用的两变量之间的简单相关系数。在聚类分析中,相关系数用来描述两个指标之间的相似程度。,是第,s,个指标变量,是第,t,个指标变量,,相关系数,两个指标变量和之间的相关系数是:,这是一个无量纲统计量。在指标聚类分析中,两个指标变量之间的相关系数越大,说明这两个指标变量的性质越相似。,类间相似系数,夹角余弦,相关系数,聚类分析的方法,聚类分析的方法很多,本章仅介绍常用的系统聚类法和逐步聚类法。系统聚类法适用于小样本的样本聚类或指标聚类。逐步聚类法适用于大样本的样本聚类。对于小样本的样本聚类,如果采用逐步聚类法,聚类结果将与样本的顺序有关。,聚类指标,一般用系统聚类法来聚类指标,它的基本思想是先把,k,个指标看成一类;然后用主成分分析法将它分解成若干类,分类的原则是使得每一类的类内指标总变异尽可能多地被该类的类成分所解释;如果每一类的类内指标总变异被类成分所解释的比例满足事先给出的要求,则聚类停止;否则,对比例小的类再继续进行分解,直到所有类的类内指标总变异被类成分所解释的比例都满足事先给出的要求为止。,聚类指标,系统聚类法对,k,个指标进行聚类的具体步骤如下:,确定每一类的类内指标总变异被类成分所解释的最低比例,P,;,把所有指标看成一类,计算类内指标总变异被类成分所解释的比例,如果所解释的比例大于或等于,P,,则聚类停止;否则进行;,聚类指标,将这个类分解成两个类,分类原则是使得每一类内的指标总变异尽可能地被该类的类成分所解释且类间相关系数达到最小,计算每一类的类内指标总变异被类成分所解释的比例,如果所解释的比例大于或等于,P,,则聚类停止;否则进行;,最解释比例最小的一类在继续进行分解;,重复以上步骤,直到所有类的类内指标总变异被类成分所解释的比例都大于或等于,P,为止。,系统聚类法聚类样本,用系统聚类法聚类样本,用系统聚类法聚类样本的基本思想是先把,n,个聚类样本看成,n,类,然后按类间距离将相似程度最大的两个类合并为一类,再将所有的类(包括合并形成的新类)中相似程度最大的两个类合并为一类。重复此过程,直到所有的类间距离达到一定的要求为止,或直至所有的样本被合并为一类为止,然后根据类间距离的要求以及实际意义选择一个适当的分类。,系统聚类法聚类样本,用系统聚类法对样本进行聚类的具体方法步骤如下:,把,n,个样本看成,n,类,类的个数,g=n,;,计算两两类间距离,并将类间距离最小的两个合并为一类,则,g=n-1,;,继续计算两两类间距离,并将类间距离最小的两个合并为一类,则,g=n-2,;,重复上述步骤,直到类间距离达到一定的要求为止,或所有的样本被合并为一类为止;,根据类间距离的要求以及实际意义选择一个适当的分类。,逐步聚类法聚类样本,用逐步聚类法聚类样本的基本思想是先选择若干个初始凝聚点,这些凝聚点可以是所有样本中的任意几个样本,也可以是随意确定的几个新样本观察值。然后把每一个样本按距离大小归入到与该样本最近的凝聚点所代表的初始类中,再以这些初始类的“重心”(类内各样本观察值的平均值)作为新的凝聚点重新将样本归类。重复以上步骤,直到分成的类再没有什么变化为止。,逐步聚类法聚类样本,用逐步聚类法对样本进行聚类的具体方法步骤如下:,确定初始凝聚点;,计算样本与每一个初始凝聚点的距离,并将每一个样本归入到与该样本最近的凝聚点所代表的初始类中;,计算上述初始类的新凝聚点,等于类内各样本观察值的平均值;,计算样本与上述新凝聚点的距离,并将每一个样本归入到与该样本最近的新凝聚点所代表的类中;,重复上述步骤,直到新分成的类再没有什么变化为止。,VARCLUS过程,SAS,系统中利用,VARCLUS,过程步进行指标聚类。,VARCLUS,过程的语法格式如下:,PROC VARCLUS DATA=OUTTREE=PROPORTION=MAXEIGEN=MAXC=MINC=,选项,;,VAR,变量,/,选项,;,RUN;,PROC TREE DATA=HORIZONTAL=PAGE=SPACE=;,ID _NAME_;,RUN;,VARCLUS过程,DATA,语句指定要分析的数据集名及一些选项,它可以是原,SAS,数据集,也可以是,corr,、,cov,、,ucorr,、,ucov,等矩阵。,OUTTREE,选择项用来保存用于绘制树状图的聚类信息。,PROPORTION,选择项用来指定所有类中指标变量的总变异至少应被类成分解释的比例。等号后面可以给出介于,0,和,1,之间的小数,也可以给出介于,1,和,100,之间的正数,,PROPORTION=75,和,PROPORTION=0.75,是等价的,表示聚类的结果必须满足所有类中指标变量的变异至少,75%,被类成分所解释,如果一个类的比例小于此值,就要将它继续分解为两类。,VARCLUS过程,MAXEIGEN选择项用来指定所有类中第二特征值的最大允许值,超过此值就要分割为两类。,MAXC选择项用来指定允许的最大类别数。,MINC选择项用来指定允许的最小类别数。,VARCLUS过程,第二个过程步用第一个过程步得到的结果绘制树状图,其中:,DATA,语句使用的是,VARCLUS,过程步的输出数据集,即由,OUTTREE,输出的数据集。,HORIZONTAL,选择项表示指令树状图的枝干绘制成水平的。,PAGE,选择项指定树状图所需的页数。,SPACE,选择项指定指标变量之间的间距(行数或列数)。,ID,语句给出的变量名用来作为树干刻度的标记,这个变量名是系统定义的,由指标变量名构成。,CLUSTER过程,SAS,系统中利用,CLUSTER,过程步进行小样本聚类。,CLUSTER,过程的语法格式如下:,PROC CLUSTER DATA=OUTTREE=METHOD=STANDARD NONORM RSQUARE ,选项,;,VAR,指标变量,/,选项,;,ID,样本序号变量,;,RUN;,PROC TREE DATA=HORIZONTAL=PAGE=SPACE=;,ID,样本序号变量,;,RUN;,CLUSTER过程,第一个过程步用于聚类样本中,其中,DATA,语句指定要分析的数据集名及一些选项,它可以是原,SAS,数据集,也可以是,corr,、,cov,、,ucorr,、,ucov,等矩阵。,OUTTREE,选择项用来保存用于绘制树状图的聚类信息。,METHOD,选择项用于确定聚类的方法,选择的方法有,single,、,complete,、,centroid,、,average,、,median,、,ward,,其中,single,表示最短距离法,,complete,表示最长距离法,,centroid,表示重心距离平均法,,average,表示平均距离平方法,,median,表示中间距离平均法,,ward,表示最小离均差平方和法。,CLUSTER过程,STANDARD,指令系统将原始数据标准化。,NONORM,表示类间距离不进行标准化。,RSQUARE,表述输出每一种聚类的复相关系数的平方和半偏复相关系数的平方,每一种聚类的复相关系数的平方等于总体变异被聚类成分所解释的比例,半偏复相关系数的平方等于由合并两个类引起的复相关系数平方的减少量。,VAR,语句给出用来聚类样本的指标变量。,ID,语句给出样本序号变量名。,CLUSTER过程,第二个过程步用第一个过程步得到的结果绘制树状图,其中:,DATA,语句使用的是,VARCLUS,过程步的输出数据集,即由,OUTTREE,输出的数据集。,HORIZONTAL,选择项表示指令树状图的枝干绘制成水平的。,PAGE,选择项指定树状图所需的页数。,SPACE,选择项指定指标变量之间的间距(行数或列数)。,ID,语句给出的变量名也是用来作为树干刻度的标记,但这个变量名由样本序号构成。,FASTCLUS过程,用于大样本样品聚类的,FASTCLUS,过程步使用的是逐步聚类法,其聚类原则是使得类间距离最小。,和,CLUSTER,过程步相比,,FASTCLUS,过程步的缺点是:,没有将原始数据标准化的功能;,不能自动确定类别数;,需要确定初始凝聚点;,不能输出作树状图的聚类信息。,FASTCLUS过程,因此,在使用FASTCLUS过程步前,要用STANDARD过程步将原始数据标准化,即将原始数据化为均值为0,标准差为1的标准化数据;要根据经验确定类别数;要根据经验选取凝聚点,或者在确定类别数的基础上指令系统自动选取初始凝聚点。,FASTCLUS过程,FASTCLUS,过程步的优点是能快速地对大样本进行样本聚类,且聚类后输出类内指标的均值,用于比较类间的差异,找出每一类的特性。,SAS,系统中利用,FASTCLUS,过程步进行大样本聚类。,FASTCLUS,过程的语法格式如下:,PROC STANDARD DATA=OUT=MEAN=0 STD=1;,VAR,指标变量,;,RUN;,PROC FASTCLUS DATA=MAXC=RADIUS=MAXITER=LIST DISTANCE OUT=OUTSTAT=VARDEF=,选项,;,VAR,指标变量,;,RUN;,FASTCLUS过程,各语句选项说明如下:,第一个过程步用于将数据标准化,标准化的数据存在新数据集中。,OUT,选择项给出含有标准化数据的新数据集名。,MEAN,选择项给出标准化数据的均值,一般取,MEAN=0,。,STD,选择项给出标准化数据的标准差,一般取,STD=1,。,VAR,语句给出需要标准化的变量。,FASTCLUS过程,第二个过程用来聚类样本,使用的数据是上面过程步得到的标准化变量。,DATA,语句给出上面过程步得到的含有标准化变量的新数据集。,MAXC,选择项用来指定允许的最大类别数。,RADIUS,给出确定新凝聚点的准则,r,,即只有当一个点在以原凝聚点为中心,以,r,为半径的圆外时,才能被选为新的凝聚点。如果这样的点不存在,则聚类停止。,MAXITER,给出递推运算的次数。,LIST,表明列出每一个样品的归类结果。,DISTANCE,表明输出类内样品均值间的距离。,本章小节,聚类分析是将样本个体或指标变量按其具有的特性进行分类的一种统计分析方法。聚类分析的任务有两个,第一就是寻找合理的度量事物相似性的统计量;第二是寻找合理的分类方法。,在聚类分析中,通常我们将根据分类对象的不同分为,Q,型聚类分析和,R,型聚类分析两大类。,Q,型聚类分析是对样本进行分类处理,又称为样本聚类分析;,R,型聚类分析是对指标进行分类处理,称为指标聚类分析。,本章小节,聚类分析中用来衡量样本个体之间属性相似程度的统计量和用来衡量指标变量之间属性相似程度的统计量是不同的,前者用的统计量是距离系数,后者用的统计量是相似系数。距离系数的定义有很多,如欧式距离、极端距离、绝对距离等。相似系数的定义也很多,如相关系数、列联系数等。,本章小节,聚类分析的方法很多,本章仅介绍常用的系统聚类法和逐步聚类法。系统聚类法适用于小样本的样本聚类或指标聚类。逐步聚类法适用于大样本的样本聚类。本章详细介绍了各种聚类方法的分析步骤。,通过实例介绍了聚类分析的常用四种,SAS,过程步(,VARCLUS,、,CLUSTER,、,FASTCLUS,和,ACECLUS,过程步)。在学习的过程中掌握这些,SAS,过程步的语法格式并会灵活运用。,此课件下载可自行编辑修改,供参考!,感谢您的支持,我们努力做得更好!,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 教育专区 > 初中其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服