资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,zf,*,第六章 因子分析,zf,1,因子分析的重点,1,、什么是因子分析?,2、理解因子分析的基本思想,3、因子分析的数学模型以及模型中公共因子、因子载荷变量共同度的统计意义,4、因子旋转的意义,5、结合,SPSS,软件进行案例分析,zf,2,6.1 因子分析的基本理论,1,、什么是因子分析?,因子分析是主成分分析的推广,也是利用,降维,的思想,由研究原始变量相关矩阵或协方差矩阵的内部依赖关系出发,把一些具有错综复杂关系的多个变量归结为少数几个综合因子的一种多元统计分析方法。,2、因子分析的基本思想:,把每个研究变量分解为几个影响因素变量,将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数几个,公共因子,组成的,另一部分是每个变量独自具有的因素,即,特殊因子,。,zf,3,3、因子分析的目的:,因子分析的目的之一,,简化变量维数。,即要使因素结构简单化,希望以最少的共同因素(公共因子),能对总变异量作最大的解释,因而抽取得因子愈少愈好,但抽取因子的累积解释的变异量愈大愈好。,在因子分析的公共因子抽取中,应最先抽取特征值最大的公共因子,其次是次大者,最后抽取公共因子的特征值最小 通常会接近0。,zf,4,例:在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。,但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。,而这三个公共因子可以表示为:,称 是不可观测的潜在因子,称为公共因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被,包含的部分 ,称为特殊因子。,zf,5,4、主成分分析分析与因子分析的联系和差异:,联系:,(1)因子分析是主成分分析的推广,是主成分分析的逆问题。(2)二者都是以降维为目的,都是从协方差矩阵或相关系数矩阵出发。,区别,:,(1),主成分分析模型是原始变量的线性组合,是将原始变量加以综合、归纳,仅仅是变量变换;而因子分析是将原始变量加以分解,描述原始变量协方差矩阵结构的模型;只有当提取的公因子个数等于原始变量个数时,因子分析才对应变量变换。(2)主成分分析,中每个主成分对应的系数是唯一确定的;因子分析中每个因子的相应系数即因子载荷不是唯一的。(3)因子分析中因子载荷的不唯一性有利于对公因子进行有效解释;而主成分分析对提取的主成分的解释能力有限。,zf,6,5、因子分析模型:,设 个变量,如果表示为,zf,7,(1),(2),称为 公共因子,是不可观测的变量,他们的系数称为因子载荷。是特殊因子,是不能被前,m,个公共因子包含的部分。其中:,相互独立即不相关;,即 互不相关,方差为1。,zf,8,(3),即互不相关,方差不一定相等,。,满足以上条件的,称为,正交因子模型,如果()不成立,即 各公共因子之间不独立,则因子分析模型为,斜交因子模型,zf,9,公因子,F1,公因子,F2,共同度,h,i,特殊因子,i,x,1=,代数1,0.896,0.341,0.919,0.081,x,2=,代数2,0.802,0.496,0.889,0.111,x,3=,几何,0.516,0.855,0.997,0.003,x,4=,三角,0.841,0.444,0.904,0.096,x,5=,解析几何,0.833,0.434,0.882,0.118,特征值,G,3.113,1.479,4.959,0.409,方差贡献率,(变异量),62.26%,29.58%,91.85%,因子分析案例,F,1,体现逻辑思维和运算能力,,F,2,体现空间思维和推理能力,zf,10,6、因子分析模型中的几个重要统计量的意义:,(1),因子负荷量(或称因子载荷),-是指因子结构中原始变量与因子分析时抽取出的公共因子的相关程度。,zf,11,在各公共因子不相关的前提下,,(载荷矩阵中第,i,行,第,j,列的元素),是随机变量,x,i,*,与公共因子,F,j,的相关系数,,表示,x,i,*,依赖于,F,j,的程度。,反映了第,i,个原始变量在第,j,个公共因子上的相对重要性。因此 绝对值越大,则公共因子,F,j,与原有变量,x,i,的关系越强。,zf,12,(2),共同度,-又称共性方差或公因子方差,(,community,或,common variance),就是变量与每个公共因子之负荷量的平方总和(一行中所有因素负荷量的平方和)。,变量 的共同度是因子载荷矩阵的第,i,行的元素的平方和。记为,从共同性的大小可以判断这个原始实测变量与公共因子间之关系程度。如因子分析案例中 共同度,h,1,2,=(0.896),平方+(0.341)平方=0.919,特殊因子方差(剩余方差),-,各变量的特殊因素影响大小就是1减掉该变量共同度的值。如,=1-0.919=0.081,zf,13,统计意义,:,两边求方差,所有的公共因子和特殊因子对变量 的贡献为1。,h,i,2,反映了全部公共因子对变量,X,i,*,的影响,是全部公共因子对变量方差所做出的贡献,或者说,X,i,*,对公共因子的共同依赖程度,称为公共因子对变量,X,i,*,的方差贡献。,H,i,2,接近于1,表明该变量的原始信息几乎都被选取的公共因子说明了。,特殊因子的方差,反映了原有变量方差中无法被公共因子描述的比例。,zf,14,(3),特征值,-是第,j,个公共因子,F,j,对于,X,*,的每一分量,X,i,*,所提供的方差的总和。又称第,j,个公共因子的方差贡献。即,每个变量与某一共同因素之因素负荷量的平方总和,(因子载荷矩阵中某一公共因子列所有因子负荷量的平方和)。,如因子分析案例中,F1,的特征值,G=(0.896),平方+(0.802)平方+(0.516)平方+(0.841)平方+(0.833)平方=3.113,(4)方差贡献率,-指公共因子对实测变量的贡献,又称变异量 方差贡献率=特征值,G/,实测变量数,p,,是衡量公共因子相对重要性的指标,,G,i,越大,表明公共因子,F,j,对,X,*,的贡献越大,该因子的重要程度越高,如因子分析案例中,F1,的贡献率为3.113/5=62.26%,zf,15,6.2 因子的基本内容,1、因子分析的基本步骤:,(1)因子分析的前提条件鉴定,考察原始变量之间是否存在较强的相关关系,是否适合进行因子分析。因为:,因子分析的主要任务之一就是对原有变量中信息重叠的部分提取和综合成因子,最终实现减少变量个数的目的。所以要求原有变量之间应存在较强的相关关系。否则,如果原有变量相互独立,不存在信息重叠,也就无需进行综合和因子分析。,(2)因子提取,研究如何在样本数据的基础上提取综合因子。,zf,16,(3)因子旋转,通过正交旋转或斜交旋转使提取出的因子具有可解释性。,(4)计算因子得分,通过各种方法求解各样本在各因子上的得分,为进一步分析奠定基础。,zf,17,2、因子分析前提条件相关性分析:,分析方法主要有:,(1)计算相关系数矩阵(,correlation coefficients matrix),如果相关系数矩阵中的大部分相关系数值均小于0.3,即各变量间大多为弱相关,原则上这些变量不适合进行因子分析。,(2)计算反映象相关矩阵(,Anti-image correlation matrix),zf,18,反映象相关矩阵,如果其主对角线外的元素大多绝对值较小,对角线上的元素值较接近1,则说明这些变量的相关性较强,适合进行因子分析。,其中主对角线上的元素为某变量的,MSA(Measure of Sample Adequacy):,是变量 和变量 (,),间的简单相关系数,是变量 和变量(,),在控制了其他变量影响下的偏相关系数,即净相关系数。取值在0和1之间,越接近1,意味着变量 与其他变量间的相关性越强,越接近0则相关性越弱。,zf,19,(3)巴特利特球度检验(,Bartlett test of sphericity),该检验以原有变量的相关系数矩阵为出发点,其零假设,H0,是:相关系数矩阵为单位矩阵,即相关系数矩阵主对角元素均为1,非主对角元素均为0。(即原始变量之间无相关关系)。,依据相关系数矩阵的行列式计算可得其近似服从卡方分布。如果统计量卡方值较大且对应的,sig,值小于给定的显著性水平,a,时,零假设不成立。即说明相关系数矩阵不太可能是单位矩阵,变量之间存在相关关系,适合做因子分析。,zf,20,(4),KMO(Kaiser-Meyer-Olkin),检验,KMO,检验的统计量是用于比较变量间简单相关系数矩阵和偏相关系数的指标,数学定义为:,KMO,与,MSA,区别是它将相关系数矩阵中的所有元素都加入到了平方和计算中。,KMO,值越接近1,意味着变量间的相关性越强,原有变量适合做因子分析;越接近0,意味变量间的相关性越弱,越不适合作因子分析。,Kaiser,给出的,KMO,度量标准:0.9以上非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。,zf,21,3、因子提取和因子载荷矩阵的求解:,因子载荷矩阵求解的方法:,(1)基于主成分模型的主成分分析法,(2)基于因子分析模型的主轴因子法,(3),极大似然法,(4)最小二乘法,(5),a,因子提取法,(6)映象分析法,zf,22,(1)基于主成分模型的主成分分析法,Principal components,设随机向量 的均值为,,协方差为,为,的特征根,为对应的,标准化特征向量,则,zf,23,上式给出的,表达式是精确的,然而,它实际上是毫无价值的,因为我们的目的是寻求用少数几个公共因子解释,故略去后面的,p-m,项的贡献,有:,zf,24,上式有一个假定,模型中的特殊因子是不重要的,因而从,的分解中忽略了特殊因子的方差。,zf,25,例:,假定某地固定资产投资率 ,通货膨胀率 ,失业率 ,相关系数矩阵为,试用主成分分析法求因子分析模型。,zf,26,(1)求解特征根,(2),求解特征向量:,(3)因子载荷矩阵:,zf,27,(4)因子分析模型:,可取前两个因子,F1,和,F,2,为公共因子,第一公因子,F,1,物价就业因子,对,X,的贡献为1.55。第一公因子,F,2,为投资因子,对,X,的贡献为0.85。共同度分别为1,0.706,0.706。,zf,28,(2)基于因子分析模型的主轴因子法,Principal axis factoring,是对主成分方法的修正,假定我们首先对变量进行标准化变换。则,R=AA+D,R,*,=AA=R-D,称,R,*,为约相关矩阵,,R,*,对角线上的元素是 ,而不是1。,zf,29,直接求,R,*,的前,p,个特征根和对应的正交特征向量。得如下的矩阵:,zf,30,当特殊因子 的方差,已知:,zf,31,方差矩阵未知,估计的方法有如下几种:,1)取 ,在这个情况下主因子解与主成分解等价;,2)取 ,为,x,i,与其他所有的原始变量,x,j,的复相关系数的平方,即,x,i,对其余的,p-1,个,x,j,的回归方程的判定系数,这是因为,x,i,与公共因子的关系是通过其余的,p-1,个,x,j,的线性组合联系起来的;,3)取 ,这意味着取,x,i,与其余的,x,j,的简单相关系数的绝对值最大者;,zf,32,4)取 ,其中要求该值为正数。,5)取 ,其中 是 的对角元素。,zf,33,例:,假定某地固定资产投资率 ,通货膨胀率 ,失业率 ,相关系数矩阵为,试用主因子分析法求因子分析模型。假定用,代替初始的 。,。,zf,34,(1)求解特征根:,(2)对应的非0特征向量:,(3)因子载荷矩阵表:,zf,35,(4)因子分析模型:,(5)新的共同度:,zf,36,4、因子旋转:,为什么要旋转因子?,建立了因子分析数学目的不仅仅要找出公共因子以及对变量进行分组,更重要的要知道每个公共因子的意义,以便进行进一步的分析,如果每个公共因子的含义不清,则不便于进行实际背景的解释。,由于因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。,目的是,使每个变量在尽可能少的因子上有比较高的载荷,让某个变量在某个因子上的载荷趋于1,而在其他因子上的载荷趋于0,。,即:,使载荷矩阵每列或行的元素平方值向0和1两极分化。,zf,37,奥运会十项全能运动项目,得分数据的因子分析,百米跑成绩,跳远成绩,铅球成绩,跳高成绩,400米跑成绩,百米跨栏,铁饼成绩,撑杆跳远成绩,标枪成绩,1500米跑成绩,zf,38,zf,39,因子载荷矩阵,因子载荷矩阵可以看出,除第一因子在所有的变量在公共因子上有较大的正载荷,可以称为一般运动因子。其他的3个因子不太容易解释。似乎是跑和投掷的能力对比,似乎是长跑耐力和短跑速度的对比。于是考虑旋转因子,得下表,zf,40,旋转变幻后因子载荷矩阵,zf,41,通过旋转,因子有了较为明确的含义。百米跑,,跳远和 400米跑,需要爆发力的项目在 有较大的载荷,可以称为短跑速度因子;,铅球,铁饼和 标枪在 上有较大的载荷,可以称为爆发性臂力因子;,百米跨栏,撑杆跳远,跳远和为 跳高在 上有较大的载荷,爆发腿力因子;长跑耐力因子。,zf,42,旋转的方法,有:,(1)正交旋转;(2)斜交旋转,(1)正交旋转,由初始载荷矩阵,A,左乘一正交矩阵得到;,目的是新的载荷系数尽可能的接近于,0,或尽可能的远离,0,;只是在,旋转后的新的公因子仍保持独立性。主要有以下方法:,varimax:,方差最大旋转。简化对因子的解释,quartmax:,四次最大正交旋转。简化对变量的解释,equamax:,等量正交旋转,zf,43,A、,方差最大法,方差最大法从简化因子载荷矩阵的每一,列,出发,使和每个因子有关的载荷的平方的方差最大。当只有少数几个变量在某个因子上有较高的载荷时,对因子的解释最简单。,方差最大的直观意义是希望通过因子旋转后,使每个因子上的载荷尽量拉开距离,一部分的载荷趋于,1,另一部分趋于0。,zf,44,B、,四次方最大旋转,四次方最大旋转是从简化载荷矩阵的,行,出发,通过旋转初始因子,使每个变量只在一个因子上有较高的载荷,而在其它的因子上尽可能低的载荷。如果每个变量只在一个因子上有非零的载荷,这时的因子解释,是最简单的。,四次方最大法通过使因子载荷矩阵中每一行的因子载荷平方的方差达到最大。,zf,45,C、,等量最大法,等量最大法把四次方最大法和方差最大法结合起来求行和列因子载荷平方的方差的加权平均最大。,zf,46,(2)斜交旋转,目的是新的载荷系数尽可能的接近于,0,或尽可能的远离,0,;只是在旋转时,放弃了因子之间彼此独立的限制,旋转后的新公因子更容易解释。主要有以下的方法:,direct oblimin:,直接斜交旋转。允许因子之间具有相关性;,promax:,斜交旋转方法。允许因子之间具有相关性;,zf,47,5、因子得分,因子得分的概念,前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果我们要使用这些因子做其他的研究,比如把得到的因子作为自变量来做回归分析,对样本进行分类或评价,这就需要我们对公共因子进行测度,即给出,公共因子的值,。,zf,48,例:,人均要素变量因子分析,。对我国32个省市自治区的要素状况作因子分析。指标体系中有如下指标:,X1:,人口(万人),X2:,面积(万平方公里),X3:GDP(,亿元),X4:,人均水资源(立方米/人),X5:,人均生物量(吨/人),X6:,万人拥有的大学生数(人),X7:,万人拥有科学家、工程师数(人),Rotated Factor Pattern,FACTOR1 FACTOR2 FACTOR3,X1 -0.21522 -0.27397 0.89092,X2 0.63973 -0.28739 -0.28755,X3 -0.15791 0.06334 0.94855,X4 0.95898 -0.01501 -0.07556,X5 0.97224 -0.06778 -0.17535,X6 -0.11416 0.98328 -0.08300,X7 -0.11041 0.97851 -0.07246,zf,49,X1=-0.21522F1-0.27397F2+0.89092F3,X2=0.63973F1-0.28739F2-0.28755F3,X3=-0.15791F1+0.06334F2+0.94855F3,X4=0.95898F1-0.01501F2-0.07556F3,X5=0.97224F1-0.06778F2-0.17535F3,X6=-0.11416F1+0.98328F2-0.08300F3,X7=-0.11041F1+0.97851F2-0.07246F3,zf,50,高载荷指标,因子命名,因子1,X2;,面积(万平方公里),X4:,人均水资源(立方米/人),X5:,人均生物量(吨/人),自然资源因子,因子2,X6:,万人拥有的大学生数(人),X7:,万人拥有的科学家、工程师数(人),人力资源因子,因子3,X1;,人口(万人),X3:GDP(,亿元),经济发展总量因子,zf,51,Standardized Scoring Coefficients,FACTOR1,FACTOR2,FACTOR3,X1,0.05764,-0.06098,0.50391,X2,0.22724,-0.09901,-0.07713,X3,0.14635,0.12957,0.59715,X4,0.47920,0.11228,0.17062,X5,0.45583,0.07419,0.10129,X6,0.05416,0.48629,0.04099,X7,0.05790,0.48562,0.04822,F1=0.05764X1+0.22724X2+0.14635X3+0.47920X4+0.45583X5+0.05416X6+0.05790X7,F2=-0.06098X1-0.09901X2+0.12957X3+0.11228X4+0.07419X5+0.48629X6+0.48562X7,F3=0.50391X1-0.07713X2+0.59715X3+0.17062X4+0.10129X5+0.04099X6+0.04822X7,zf,52,前三个因子得分,REGION,FACTOR1,FACTOR2,FACTOR3,beijing,-0.08169,4.23473,-0.37983,tianjin,-0.47422,1.31789,-0.87891,hebei,-0.22192,-0.35802,0.86263,shanxi1,-0.48214,-0.32643,-0.54219,neimeng,0.54446,-0.66668,-0.92621,liaoning,-0.20511,0.46377,0.34087,jilin,-0.21499,0.10608,-0.57431,heilongj,0.10839,-0.11717,-0.02219,shanghai,-0.20069,2.38962,-0.04259,zf,53,因子分析的数学模型为:,原变量被表示为公共因子的线性组合,当载荷矩阵旋转之后,公共因子可以做出解释,通常的情况下,我们还想反过来把公共因子表示为原变量的线性组合。,因子得分函数:,zf,54,可见,要求得每个因子的得分,必须求得分函数的系数,而由于,pm,,所以不能得到精确的得分,只能通过估计。,因子得分的,计算方法:,(1)运用回归分析思想求解,(2),Bartlett,(3),Anderson-rubin,zf,55,(1)运用回归分析思想求解,zf,56,则,我们有如下的方程组:,zf,57,j=1,2,m,zf,58,注:共需要解,m,次才能解出 所有的得分函数的系数。,zf,59,(2),Bartlett,法,(即:加权最小二乘法),把一个个体的,p,个变量的取值,X,*,当作因变量,把求因子解中得到的,A,作为自变量数据阵,对于这个个体在公因子上的取值,f,,当作未知参数,而特殊因子的取值看作误差,e,,于是得到如下的线性回归模型:,x,*,=Af+e,,则称未知参数,f,为取值为,X,*,的因子得分。,最小二乘法,zf,60,(3),Anderson-rubin(,略),zf,61,案例分析:,国民生活质量的因素分析,国家发展的最终目标,是为了全面提高全体国民的生活质量,满足广大国民日益增长的物质和文化的合理需求。在可持续发展消费的统一理念下,增加社会财富,创造更多的物质文明和精神文明,保持人类的健康延续和生生不息,在人类与自然协同进化的基础上,维系人类与自然的平衡,达到完整的代际公平和区际公平(即时间过程的最大合理性与空间分布的最大合理化)。,从1990年开始,联合国开发计划署(,UYNP),首次采用“人文发展系数”指标对于国民生活质量进行测度。人文发展系数利用三类内涵丰富的指标组合,即人的健康状况(使用出生时的人均预期寿命表达)、人的智力程度(使用组合的教育成就表达)、人的福利水平(使用人均国民收入或人均,GDP,表达),并且特别强调三类指标组合的整体表达内涵,去衡量一个国家或地区的社会发展总体状况以及国民生活质量的总水平。,zf,62,在这个指标体系中有如下的指标:,X,1,预期寿命,X,2,成人识字率,X,3,综合入学率,X,4,人均,GDP(,美圆),X,5,预期寿命指数,X,6,教育成就指数,X,7,人均,GDP,指数,zf,63,旋转后的因子结构,Rotated Factor Pattern,FACTOR1 FACTOR2 FACTOR3,X1 0.38129 0.41765,0.81714,X2 0.12166,0.84828,0.45981,X3 0.64803,0.61822,0.22398,X4,0.90410,0.20531 0.34100,X5 0.38854 0.43295,0.80848,X6 0.28207,0.85325,0.43289,X7,0.90091,0.20612 0.35052,FACTOR1,为经济发展因子,FACTOR2,为教育成就因子,FACTOR3,为健康水平因子,zf,64,被每个因子解释的方差和共同度:,Variance explained by each factor,FACTOR1 FACTOR2 FACTOR3,2.439700 2.276317 2.009490,Final Communality Estimates:Total=6.725507,X1 X2 X3 X4 X5,0.987530 0.945796 0.852306 0.975830 0.992050,X6 X7,0.994995 0.976999,zf,65,Standardized Scoring Coefficients,标准化得分系数,FACTOR1 FACTOR2 FACTOR3,X1 -0.18875 -0.34397 0.85077,X2 -0.24109 0.60335 -0.10234,X3 0.35462 0.50232 -0.59895,X4 0.53990 -0.17336 -0.10355,X5 -0.17918 -0.31604 0.81490,X6 -0.09230 0.62258 -0.24876,zf,66,生育率的影响因素分析,生育率受社会、经济、文化、计划生育政策等很多因素影响,但这些因素对生育率的影响并不是完全独立的,而是交织在一起,如果直接用选定的变量对生育率进行多元回归分析,最终结果往往只能保留两三个变量,其他变量的信息就损失了。因此,考虑用因子分析的方法,找出变量间的数据结构,在信息损失最少的情况下用新生成的因子对生育率进行分析。,选择的变量有:多子率、综合节育率、初中以上文化程度比例、城镇人口比例、人均国民收入。下表是1990年中国30个省、自治区、直辖市的数据。,zf,67,zf,68,特征根与各因子的贡献,Eigenvalue,Difference,Proportion,Cumulative,3.24917597,2.03464291,0.6498,0.6498,1.21453306,0.96296800,0.2429,0.8927,0.25156507,0.06743397,0.0503,0.9431,0.18413109,0.08353629,0.0368,0.9799,0.10059480,0.0201,1.0000,zf,69,没有旋转的因子结构,Factor1,Factor2,x1,-0.76062,0.55316,x2,0.56898,-0.76662,x3,0.89184,0.25374,x4,0.87066,0.34618,x5,0.89076,0.36962,zf,70,各旋转后的共同度,0.88454023,0.91143998,0.85977061,0.87789453,0.93006369,Factor1,可解释方差,Factor2,可解释方差,2.9975429,2.1642615,zf,71,在这个例子中我们得到了两个因子,第一个因子是社会经济,发展水平因子,第二个是计划生育因子。有了因子得分值后,则,可以利用因子得分为变量,进行其他的统计分析。,Factor1,Factor2,x1,-0.35310,-0.87170,x2,0.07757,0.95154,x3,0.89114,0.25621,x4,0.92204,0.16655,x5,0.95149,0.15728,Factor1,Factor2,x1,-0.05897,-0.49252,x2,-0.05805,0.58056,x3,0.33042,0.03497,x4,0.35108,-0.02506,x5,0.36366,-0.03493,方差最大旋转后的因子结构,标准化得分函数,zf,72,6.3 因子分析的上机操作,问题,题 项,从未,使用,很少,使用,有时,使用,经常,使用,总是,使用,1,2,3,4,5,A1,电脑,A2,录音磁带,A3,录像带,A4,网上资料,A5,校园网或因特网,A6,电子邮件,A7,电子讨论网,A8,CAI,课件,A9,视频会议,A10,视听会议,zf,73,题目,编号,A1,A2,A3,A4,A5,A6,A7,A8,A9,A10,01,1,5,5,1,1,1,1,1,1,1,02,2,5,5,2,2,2,1,2,1,1,03,4,3,3,3,4,3,1,4,1,1,04,4,3,4,4,4,4,2,4,2,2,05,4,4,3,3,4,4,1,4,1,1,06,4,3,3,3,3,4,2,3,2,1,07,4,4,4,4,3,3,2,4,1,1,08,1,5,3,1,1,1,1,1,1,1,09,4,4,5,4,4,4,2,4,1,1,10,5,4,3,5,5,4,3,5,3,3,11,5,4,3,4,4,4,2,5,2,2,12,5,4,5,4,4,4,3,5,2,2,13,3,5,5,2,2,2,1,3,1,1,14,5,3,4,3,3,3,2,5,2,2,15,4,5,5,3,3,3,2,5,2,2,16,4,4,4,4,3,5,1,4,1,1,17,5,4,4,5,5,5,4,5,4,4,18,5,4,4,2,3,4,1,5,1,1,19,5,4,5,5,5,5,3,5,3,3,20,5,4,4,5,5,5,2,5,2,1,zf,74,(01)建立数据文件,zf,75,(02)选择分析变量,选,SPSS Analyze,菜单中的(,Data Reduction)(Factor),出现,【,Factor Analysis】,对话框;,在,【,Factor Analysis】,对话框中左边的原始变量中,选择将进行因子分析的变量选入(,Variables),栏。,zf,76,(03)设置描述性统计量,在,【,Factor Analysis】,框中选,【,Descriptives】,按钮,出现,【,Descriptives】,对话框;,选择,Initial solution(,未转轴的统计量)选项,选择,KMO,选项,点击(,Contiue),按钮确定。,zf,77,zf,78,(04)设置对因子的抽取选项,在,【,Factor Analysis】,框中点击,【,Extraction】,按钮,出现,【,Factor Analysis:Extraction】,对话框;,在,Method,栏中选择(,Principal components),选项;,在,Analyze,栏中选择,Correlation matrix,选项;,在,Display,栏中选择,Unrotated factor solution,选项;,在,Extract,栏中选择,Eigenvalues over,并填上 1;,点击(,Contiue),按钮确定,回到,【,Factor Analysis】,对话框中。,zf,79,zf,80,zf,81,(05)设置因子转轴,在,【,Factor Analysis】,对话框中,点击,【,Rotation】,按钮,出现,【,Factor Analysis:Rotation】(,因子分析:旋转)对话框。,在,Method,栏中选择,Varimax(,最大变异法),在,Display,栏中选择,Rotated solution(,转轴后的解),点击(,Contiue),按钮确定,回到,【,Factor Analysis】,对话框中。,zf,82,zf,83,(06)设置因素分数,在,【,Factor Analysis】,对话框中,点击【,Scores】,按钮,出现,【,Factor Analysis:Scores】(,因素分析:分数)对话框。,一般取默认值。,点击(,Contiue),按钮确定,回到,【,Factor Analysis】,对话框。,zf,84,zf,85,(07)设置因子分析的选项,在,【,Factor Analysis】,对话框中,单击,【,Options】,按钮,出现,【,Factor Analysis:Options】(,因素分析:选项)对话框。,在,Missing Values,栏中选择,Exclude cases listwise(,完全排除缺失值),在,Coefficient Display Format(,系数显示格式)栏中选择,Sorted by size(,依据因素负荷量排序)项;,在,Coefficient Display Format(,系数显示格式)勾选“,Suppress absolute values less than”,,其后空格内的数字不用修改,默认为0.1。,如果研究者要呈现所有因素负荷量,就不用选取“,Suppress absolute values less than”,选项。在例题中为了让研究者明白此项的意义,才勾选了此项,正式的研究中应呈现题项完整的因素负荷量较为适宜。,单击“,Continue”,按钮确定。,zf,86,zf,87,zf,88,对,SPSS,因子分析结果的解释,取样适当性(,KMO),检验,KMO,值越大,表示变量间的共同因素越多,越适合进行因素分析,要求,KMO,0.5,要求,Barlett,s,的卡方值达到显著程度,zf,89,2.共同度检查,zf,90,3.因子陡坡检查,除去坡线平坦部分的因子,图中第三个因子以后较为平坦,故保留3个因子,zf,91,4.方差贡献率检验,取特征值大于 1 的因子,共有3 个,分别(6.358)(1.547)(1.032);,变异量分别为(63.58%)(15.467%)(10.32%),zf,92,5.显示未转轴的因子矩阵,zf,93,6.分析转轴后的因子矩阵-根据因子负荷量形成3个公共因子,zf,94,7.形成综合分析结果,题项,贡献率(解释变异量),累积贡献率(累积解释变异量),Component(,抽取的因子),因子1,负荷量,因子2,负荷量,因子3,负荷量,共同性,A1,电脑,A8 CAI,课件,A6,电子邮件,A5,校园网或因特网,A4,网上资料,43.885,43.885,0.915,0.912,0.884,0.824,0.789,0.928,0.907,0.867,0.901,0.872,A10,视听会议,A9,视频会议,A7,电子讨论网,31.372,75.257,0.939,0.924,0.858,0.939,0.965,0.919,A3,录像带,A2,录音磁带,14.108,89.366,0.948,0.652,0.900,0.738,特征值,4.389,3.137,1.411,zf,95,例1:对美国洛杉矶12个人口调查区的5个经济学变量的数据进行因子分析(12个地区调查表.,sav),菜单:,AnalyzeData ReductionFactor,Variables:pop,School,employ,Services,house,其他使用默认值(主成分分析法,Principal components,,选取特征值1,不旋转),zf,96,输出结果:,zf,97,zf,98,比较有用的结果:两个主成分(因子),f1,f2,及因子载荷矩阵(,Component Matrix),,根据该表可以写出每个原始变量(标准化值)的因子表达式:,Pop,0.581f1+0.806f2,School,0.767f1-0.545f2,employ,0.672f1+0.726f2,Services,0.932f1-0.104f2,house,0.791f1-0.558f2,每个原始变量都可以是5个因子的线性组合,提取两个因子,f1,和,f2,,可以概括原始变量所包含信息的93.4%。,f1,和,f2,前的系数表示该因子对变量的影响程度,也称为变量在因子上的载荷。,但每个因子(主成分)的系数(载荷)没有很明显的差别,所以不好命名。,因此为了对因子进行命名,可以进行旋转,使系数向0和1两极分化。,zf,99,由于系数没有很明显的差别,所以要进行旋转(,Rotation:method,一般用,Varimax,方差最大旋转),使系数向0和1两极分化。,菜单:,AnalyzeData ReductionFactor,Variables:pop,School,employ,Services,house,Extraction:,使用默认值(,method:,Principal components,,选取特征值1),Rotation:method,选,Varimax,Score:Save as variables,和,Display factor score Coefficient matrix,zf,100,输出结果:(表,13,同前),zf,101,旋转后的因子载荷矩阵:,zf,102,因子旋转中的正交矩阵:,因子得分系数矩阵:,因子得分协方差矩阵:,zf,103,比较有用的结果:两个主成分(因子),f1,f2,及旋转后的因子载荷矩阵(,Rotated Component Matrix),,根据该表可以写出每个原始变量(标准化值)的因子表达式:,Pop,0.01602,f1+0.9946f2,School,0.941f1-0.00882f2,employ,0.137f1+0.98f2,Services,0.825f1+0.447f2,house,0.968f1-0.00605f2,F1 0.01602 Pop+0.941 School+,0.137 employ+0.825 Services+0.96
展开阅读全文