1、第十章 SPSS的因子分析2024/2/27 周二1因子分析的提出为尽可能全面、完整描述一个事物,往往要收集它的许多相关指标,对高等学校科研状况的评价研究,可能会收集诸如投入科研活动的人年数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标学生综合评价研究中,可能会收集诸如基础课成绩、学科基础课成绩、专业课成绩等各类课程的成绩以及获得奖学金的次数等多指标产生的问题:计算处理麻烦,高维变量和海量数据是不容忽视的问题变量间的相关性问题,收集到的诸多变量之间通常会存在或多或少的相关性,变量间信息的高度重叠和高度相关会给统计方法的应用带来许多问题。如多重共线性指
2、标过少产生的问题:造成信息丢失和信息不全面等问题2024/2/27 周二2因子分析是解决上述问题的一种非常有效的方法。它以最少的信息丢失,将原始众多变量综合成较少的几个综合指标(因子),能够起到有效降维的目的因子分析的基本出发点将原始指标综合成较少的综合指标,名为因子。这些指标能够反映原始指标的绝大部分信息(方差)这些综合指标之间没有相关性因子变量的特点因子变量个数远远少于原变量个数,是原变量的重造因子变量可反映原变量的绝大部分信息因子变量间不相关性。解决共线性问题因子可命名解释性。有助于对因子分析结果的解释评价2024/2/27 周二3因子分析的数学模型因子分析的核心是用较少的互相独立的因子
3、反映原有变量的绝大部分信息。数学模型(xi为标准化的原始变量,fi为因子变量;kp)也可以矩阵的形式表示为:X=AF+aij是第i个原有变量在第j个因子上的负荷。如果把变量xi看成k维因子空间中的一个向量,则aij表示xi在坐标轴j上的投影,相当于多元线性回归模型中的标准化回归系数。f:因子变量A:因子载荷阵aij:因子载荷:特殊因子2024/2/27 周二4因子分析的相关概念因子载荷在因子变量不相关的条件下,aij就是第i个原始变量与第j个因子变量的相关系数,反映了变量xi与因子fj的相关程度。aij绝对值越大,则xi与fi的相关性越强。同时因子载荷aij也反映了因子fj对解释变量xij的重
4、要作用和程度。变量共同度(Communality)也称变量方差。xi的变量共同度为因子载荷矩阵A中第i行元素的平方和在变量xi标准化时,由于变量xi的方差可以表示成 ,因此原有变量xi的方差可分解释为变量共同度和特殊因子的平方2024/2/27 周二5因子分析的相关概念第一部分为变量共同度 反应了全部因子变量对原有变量xi总方差解释说明的比例,体现了因子全体对原有变量xi的解释贡献程度。可见,越接近1,说明因子全体己经解释说明了原有变量xi的几乎全部信息;第二部分是特殊因子:它反应了原有变量方差中无法被因子全体刻画的比例可见:xi的共同度反映了全部因子变量对xi总方差的解释的程度,是评价变量x
5、i信息丢失程度的重要指标。如果大部分变量的共同度都高于0.8,则说明提取出的公共因子已经基本反映了各原始变量80%以上的信息,仅有较少的信息丢失,因子分析效果较好。2024/2/27 周二6因子分析的相关概念因子fj的方差贡献因子变量fj的方差贡献为因子载荷矩阵A中第j列各元素的平方和因子变量fj的方差贡献体现了同一因子fj对原始所有变量总方差的解释能力,该值越高,说明相应因子的重要性越高。因此,因子的方差贡献和方差贡献率是衡量因子重要性的关键指标。表示了第j个因子解释原所有变量总方差的比例初始变量经标准化,方差为1,总方差为p2024/2/27 周二7因子分析的基本步骤因子分析的前提条件,通
6、过各种方法分析原有变量是否存在相关关系,确认待分析的原始变量是否适合作因子分析。提取因子变量,研究如何在样本数据的基础上提取和综合成少数几个因子。使因子具有命名解释性,利用旋转方法使因子变量实际含义清晰,使因子具有命名解释性。计算每个样本的因子变量得分,通过各种方法计算各样本在各因子上的得分,以便在进一步的分析中用较少的因子代替原有变量参与数据建模。2024/2/27 周二8因子分析的前提条件因子分析的目的,是从原有众多的变量中综合出少量具有代表意义的因子变量,这必定有一个潜在的前提要求,即原有变量之间应具有较强的相关关系。如果原有变量之间不存在较强的相关关系,那么根本无法从中综合出能够反映某
7、些变量共同特性的几个较少的公共因子变量来。因此,一般在因子分析时,需要对原有变量进行相关分析。方法相关系数检验反映像相关矩阵检验巴特利特球度检验KMO检验2024/2/27 周二9相关系数检验计算原有变量之间的相关系数矩阵并进行统计检验观察变量的相关系数矩阵,如果相关系数矩阵中的大部分相关系数都小于0.3且未通过统计检验,那么,这些变量就不适合作因子分析2024/2/27 周二10反映像相关矩阵(Anti-image Correlation Matrix)反映像相关矩阵的对角线上的元素为某变量的MSA(Measure of Sample Adequacy)统计量,其数学定义为:式中,rij是变
8、量xi和其他变量xj间的简单相关系数;pij是变量xi和其他变量xj在控制了剩余变量下的偏相关系数。由式可知:某变量xi的MSAi统计量的取值在0-1之间。2024/2/27 周二11反映像相关矩阵偏相关系数是在控制了其他变量对两变量影响的条件下计算出来的净相关系数。如果原有变量之间确实存在较强的相互重叠以及传递影响,也就是说,如果原有变量中确实能够提取出公共因子,那么在控制了这些影响后的偏相关系数必然很小。当它与其他所有变量间的简单相关系数平方和远大于偏相关系数平方和时,MSAi值接近1.MSAi值越接近1,意味着变量xi与其他变量间的相关性越强。当它与其他所有变量间的简单相关系数平方和接近
9、0时,MSAi值接近0。MSAi越接近0,意味着变量xi与其他变量间的相关性越弱。观察反映像相关矩阵,如果反映像相关矩阵中除主对角线元素外,其他大多数元素的绝对值均较小,对角线上元素的值较接近1,则说明这些变量的相关性较强,适合进行因子分析。2024/2/27 周二12巴特利特球度检验巴特利特球度检验(Bartlett Test of Sphericity)以原有变量的相关系数矩阵为出发点,其原假设是:相关系数矩阵是单位阵,即相关系数矩阵为对角阵(对角元素不为0,非对角元素均为0)且主对角元素均为1。即:变量间不相关。巴特利特球度检验的检验统计量根据相关系数矩阵的行列式计算得到,且近似服从卡方
10、分布。如果该统计量的观测值比较大,且对应的概率P值小于给定的显著性水平a,则应拒绝原假设,认为相关系数矩阵不太可能是单位阵,原有变量适合作因子分析;反之,如果检验统计量的观测值比较小,且对应的概率P-值大于给定的显著性水平a,则不能拒绝原假设,可以认为相关系数矩阵与单位阵无显著差异,原有变量不适合作因子分析。2024/2/27 周二13KMO检验KMO检验(Kaiser-Meyer-Olkin)统计量是用于比较变量间简单相关系数和偏相关系数的指标,数学定义为:式中rij 和pij同前,KMO将相关系数矩阵中的所有元素都加人到平方和的计算中。由公式可知:KMO统计量的取值在0-1之间。当所有变量
11、间的简单相关系数平方和远大于偏相关系数平方和时,KMO值接近1.KMO值越接近1,意味着变量间的相关性越强,原有变量越适合作因子分析。Kaiser给出了常用的KMO度量标准:0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。2024/2/27 周二14因子提取和因子载荷矩阵的求解因子分析的关键是根据样本数据求解因子载荷矩阵。因子载荷矩阵的求解方法基于主成分模型的主成分分析法基于因子分析模型的主轴因子法极大似然法最小二乘法a因子提取法映像分析法主成分分析法能够为因子分析提供初始解,因子分析是对主成分分析结果的延伸和拓展。2024/2/27 周二1
12、5确定因子变量-主成份分析主成份分析法的数学模型该方程组要求:主成分分析法通过坐标变换的手段,将原有的p个相关变量xi标准化后进行线性变换转成另一组不相关的变量yi2024/2/27 周二16确定因子变量-主成分分析系数uij依照两个原则来确定yi与yj(ij,i,j=1,2,3,p)互不相关;y1是x1,x2,x3,xp的一切线性组合(系数满足上述方程组)中方差最大的;y2是与y1不相关的x1,x2,x3,xp的一切线性组合中方差次大的;yP是与y1,y2,y3,yp都不相关的x1,x2,x3,xp的一切线性组合中方差最小的;根据上述原则确定的变量 y1,y2,y3,yp次称为原有变量x1,
13、x2,x3,xp的第1,2,3,p个主成分。其中,y1在总方差中所占比例最大,它综合原有变量的能力最强,其余变量在总方差中所占比例依次递减,即:其余变量综合原有变量的能力依次减弱。2024/2/27 周二17主成分分析在主成分分析的实际应用中,一般只选取前面几个方差较大的主成分。这样既减少了变量的数目,又能够用较少的主成分反映原有变量的绝大部分信息。主成分分析法的核心是通过原有变量的线性组合以及各个主成分的求解来实现变量降维的。可从几何意义的角度理解这个核心原理。以二维空间为例。设有两个变量x1 x2,n个样本,可将这n个样本看成是由x1和x2构成的二维空间中的n个点,如下图所示。2024/2
14、/27 周二18确定因子变量-主成分分析2024/2/27 周二192024/2/27 周二20确定因子变量-主成份分析主成分分析中关键的步骤就是如何求出上述方程组中的系数uij。通过公式的计算推导可以发现,每个方程中的系数向量uij(u1j,u2j,upj)恰好是原有变量相关系数矩阵R的特征值对应的特征向量。主成份分析数学模型的系数求解基本步骤:将原始数据标准化计算变量间简单相关系数矩阵R求R的特征值123p0及对应的单位特征向量1,2,3,p通过上述步骤,计算得到:yi=u1ix1+u2ix2+upixp便得到各个主成分其中的p个特征值和对应的特征向量便是因子分析的初始解。2024/2/2
15、7 周二21确定因子变量计算因子载荷利用上述P个特征值和对应的特征向量,并在此基础之上计算因子载荷矩阵:选取前k个特征值和对应的特征向量,得到式包含k个因子的因子载荷矩阵:2024/2/27 周二22确定因子变量个数k根据特征值i确定:取特征值大于1的特征根根据累计贡献率:一般累计贡献率应在70%以上。第一个因子的累计方差贡献率定义为:第二个因子的累计方差贡献率定义为:于是,前k个因子的累计方差贡献率定义为:第一个因子的方差贡献率是它的方差贡献除以总方差。由于原有的p个变量已经进行了标准化处理(均值为0,方差为1),因此总方差为p。根据上式计算因子的累计方差贡献率。通常选取累计方差贡献率大于0
16、.85时的特征值个数为因子个数k。2024/2/27 周二23通过观察碎石图的方式确定因子变量的个数。确定因子变量个数k2024/2/27 周二24因子变量的命名解释aij的绝对值在某一行的许多列上都有较大的取值某个原有变量xi可能同时与几个因子都有比较大的相关关系,也就是说,某个原有变量xi的信息需要由若干个因子变量来共同解释aij的绝对值在某一列的许多行上都有较大的取值虽然一个因子变量可能能够解释许多变量的信息,但它却只能解释某个变量的一少部分信息,不是任何一个变量的典型代表结论:因子变量的实际含义不清楚2024/2/27 周二25因子变量的命名解释在实际分析工作中,人们却希望对因子变量的
17、含义有比较清楚的认识。为解决这个问题,可通过某种手段使每个变量在尽可能少的因子上又有比较高的载荷,即:在理想状态下,让某个变量在某个因子上的载荷趋于1,而在其他因子上的载荷趋于0。这样,一个因子变量就能够成为某个变量代表,那么它的实际含义也就清楚了。实现方法:对因子载荷矩阵进行旋转。2024/2/27 周二26载荷散点图:以因子变量为坐标轴绘制原有变量的散点图。经过坐标旋转后,原有变量点应出现在靠近轴的端点和圆点附近在轴的端点上变量是只在那个因子上有较高载荷的变量靠近图的圆点的变量对两个因子都具有小的载荷。不靠近轴的变量是被两个因子共同解释,旋转后应尽可能少地出现这种情况2024/2/27 周
18、二27因子旋转所谓因子旋转就是将因子载荷矩阵A右乘一个正交矩阵后得到一个新的矩阵B。它并不影响变量xi的共同度 ,却会改变因子的方差贡献率 。因子旋转通过改变坐标轴,能够重新分配各个因子解释原始变量方差的比例,使因子更易于理解,因此,坐标旋转后应尽可能使原有变量点出现在某个坐标轴的附近,同时远离其他坐标轴。在某个坐标轴附近的变量只在该因子上有较高载荷,而在其他因子上只有很低的载荷。2024/2/27 周二28因子旋转方式正交旋转:坐标轴始终保持垂直90度角旋转,于是新生成的因子仍可保持不相关性斜交旋转:坐标轴中的夹角可以是任意度数,因此新生成的因子之间不能保证不相关性。在使因子具有命名解释性方
19、面,斜交旋转通常会优于正交旋转,但却以不能保持因子的不相关性为代价。因此应用中一般会选用正交旋转方式。正交旋转方式四次方最大法(Quartimax)方差极大法(Varimax)等量最大法(Equamax)2024/2/27 周二29计算因子得分因子得分是因子变量构造的最终体现。在因子变量确定以后,对每个样本数据,就计算它们在不同因子上的具体数据值,这些数值称为因子得分,形成的变量称为因子变量。在以后的分析中就可以因子变量代替原有变量进行数据建模,或利用因子变量对样本进行分类或评价等研究,进而实现降维和简化问题的目的。基本思想:将因子变量表示为原有变量的线性组合(与因子分析的数学模型正好相反),
20、即:通过因子得分函数计算因子得分,因子得分可看作各变量值的权数总和,权数的大小表示了变量对因子的重要程度 2024/2/27 周二30因子分析的基本操作选择菜单AnalyzeData ReductionFactor,出现主窗口2024/2/27 周二312、把参与因子分析的变量选到Variables框中。3、选择参与因子分析的样本。把作为条件变量的变量指定到Selection Variable框中并单击Value按钮输入变量值,只有满足条件的样本数据才参与因子分析。4、Descriptives按钮指定输出结果5、Extraction按钮指定提取因子的方法6、Rotation按钮选择因子旋转方法
21、7、Scores按钮选择计算因子得分的方法8、Options按钮指定缺失值的处理方法和因子载荷矩阵的输出方法2024/2/27 周二32Statistics框中指定输出哪些基本统计量,Univariate descriptives表示输出各个变量的基本描述统计量Initial solution表示输出因子分析的初始解Correlation Matrix框中指定考察因子分析条件的方法及输出结果Coefficients表示输出相关系数矩阵Significance levels表示输出相关系数检验的概率p值Determinant表示输出变量相关系数矩阵的行列式值Inverse表示输出相关系数矩阵的逆
22、矩阵Anti-image表示输出反映象相关矩阵KMO and Bartletts test of sphericity表示进行巴特利特球度检验和KMO检验2024/2/27 周二33在Method框中提供了多种提取因子的方法Principal components是主成分分析法,是SPSS默认的方法在Analyze框中指定提取因子的依据Correlation matrix为相关系数矩阵,当原有变量存在数量级的差异时,通常选择该选项Covariance matrix为协方差阵在Extract框中选择如何确定因子数目在Eigenvaluse over后输入一个特征根值(默认值为1),SPSS将提取
23、大于该值的特征根在Number of factors框后输入提取因子的个数在Display框中选择输出哪些与因子提取有关的信息Unrotated factor solution表示输出未旋转的因子载荷矩阵Scree plot表示输出因子的碎石图2024/2/27 周二34在Method框中选择因子旋转方法None表示不旋转(默认选项)Varimax为方差最大法Quartimax为四次方最大法Equamax为等量最大法其他为斜交旋转法在Display框指定输出与因子旋转相关的信息Rotated Solution表示输出旋转后的因子载荷矩阵BLoading plots表示输出旋转后的因子载荷散点图
24、2024/2/27 周二35Save as variables项表示将因子得分保存到SPSS变量中生成几个因子便产生几个SPSS变量。变量名的形式为FACn_m,其中n为因子编号,以数字序号的形式表示;m表示是第几次分析的结果Display factor score coefficient matrix项表示输出因子得分函数中的各因子得分系数在Method框中指定计算因子得分的方法Regression为回归法2024/2/27 周二36在Missing Values框中指定如何处理缺失值在Coefficient Display Format框中指定因子载荷矩阵的输出方式Sorted by size表示以第一因子得分的降序输出因子载荷矩阵在Suppress absolute values less than框后输入一数值,表示输出大于该值的因子载荷2024/2/27 周二37例题 9.1为研究全国各地区年人均收入的差异性和相似性,收集到1997年全国31个省市自治区各类经济单位包括国有经济单位、集体经济单位、联营经济单位、股份制经济单位、外商投资经济单位、港澳台经济单位和其他经济单位的年人均收入数据。由于涉及的变量较多,直接进行地区间的比较分析较为繁琐,因此首先考虑采用因子分析方法减少变量个数,之后再进行比较和综合评价。2024/2/27 周二382024/2/27 周二39