资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1,第四章 因子分析,2,第一节 因子分析的基本思想,3,因子分析的基本思想,因子分析是根据相关矩阵内部的依赖关系,把一些具有错综复杂关系的变量综合为,数量较少,的几个因子。通过不同,因子,来分析决定某些,变量的本质,及其,分类,的一种统计方法。,简单地说,就是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。,每组变量代表一个基本结构,,这个基本结构称为,因子,。,4,例如,某机关对其职员就以下,6,个方面进行考核,这,6,个方面是职员的词汇、阅读、写作能力,以及数字、代数、微积分的运算能力。而这,6,个方面可归结为职员的,语文,能力和,数学,能力两个方面。,5,例如,某公司与,48,名申请工作的人进行面谈,然后就申请人十五个方面进行打分,这,十五个方面,分别是:,申请书的形式、外貌、学术能力、讨人喜欢的能力、自信心、洞察力、诚实、推销能力、经验、工作积极性、抱负、理解能力、潜力、入围公司的强烈程度、适应性,。,这,15,个方面可归结为应聘者的,外露能力、讨人喜欢的能力、经验、专业能力,这,4,个方面。,6,因子分析,(,factor analysis,),是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。,例如,在企业形象或品牌形象的研究中,消费者可以通过一个有,24,个指标构成的评价体系,评价百货商场的,24,个方面的优劣。,7,但消费者主要关心的是三个方面,即商店的,环境,、商店的,服务,和,商品的价格,。因子分析方法可以通过,24,个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。,而这三个公共因子可以表示为:,称 是不可观测的,潜在因子,。,24,个变量共享这三个因子,但是每个变量又有自己的个性,不被,包含的部分 ,称为,特殊因子,。,8,注意:,因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义。,主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。,主成分分析:原始变量的线性组合表示新的综合变量,即主成分。,因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。,9,第二节,因子分析模型,一、数学模型,设 个变量,如果表示为,10,称为 公共因子,是不可观测的变量,他们的系数称为因子载荷。是特殊因子,是不能被前,m,个公共因子包含的部分。并且满足:,即不相关;,11,即 互不相关,方差为,1,。,12,即互不相关,方差不一定相等,。,13,用矩阵的表达方式,14,1,、因子载荷,a,ij,的统计意义,因子载荷 是第,i,个变量与第,j,个公共因子的相关系数,模型为,(载荷矩阵中第,i,行,第,j,列的元素)反映了第,i,个变量与第,j,个公共因子的相关性。绝对值越大,相关的密切程度越高。,根据公共因子的模型性质,有,三、因子载荷矩阵中的几个统计特征,15,因子载荷不是惟一的,且满足因子模型的条件,设,T,为一个,pp,的正交矩阵,令,A*=AT,,则模型可以表示为,16,2,、变量共同度的统计意义,统计意义,:,两边求方差,所有的公共因子和特殊因子对变量 的贡献为,1,。如果 非常靠近,1,,非常小,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好。,定义:变量 的共同度是因子载荷矩阵的第,i,行的元素的平方和。记为,17,3,、公共因子 方差贡献的统计意义,因子载荷矩阵中各列元素的平方和,称为所有的 对 的方差贡献和。衡量,的相对重要性。,18,第三节 因子载荷矩阵的估计方法,设随机向量 的均值为,,协方差为,为,的特征根,为对应的,标准化特征向量,则,主成分分析法,19,上式给出的,表达式是精确的,然而,它实际上是毫无价值的,因为我们的目的是寻求用少数几个公共因子解释,故略去后面的,p-m,项的贡献,有,20,上式有一个假定,模型中的特殊因子是不重要的,因而从,的分解中忽略了特殊因子的方差。,21,22,例,假定某地固定资产投资率 ,通货膨胀率 ,失业率 ,相关系数矩阵为,试用主成分分析法求因子分析模型。,23,特征根为,:,24,可取前两个因子,F1,和,F2,为公共因子,第一公,因子,F1,物价就业因子,对,X,的贡献率为,51.67%,。第二公因子,F2,为投资因子,对,X,的贡献为,28.33%,。共同度分别为,1,,,0.706,,,0.706,。,25,第四节 因子旋转(正交变换),因子分析的数学目的不仅仅要找出公共因子以及对变量进行分组,更重要的要知道每个公共因子的含义,以便进行进一步的分析。如果每个公共因子的含义不清,则不便于进行实际背景的解释。由于因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素,平方值,向,0,和,1,两极分化。主要的正交旋转法有,方差最大法,和,四次方最大法,。,(一)为什么要旋转因子,26,百米跑成绩,跳远成绩,铅球成绩,跳高成绩,400,米跑成绩,百米跨栏,铁饼成绩,撑杆跳远成绩,标枪成绩,1500,米跑成绩,奥运会十项全能运动项目,得分数据的因子分析,27,因子载荷矩阵可以看出,除第一因子中所有的变量在公共因子上有较大的正载荷,可以称为一般运动因子。其他的,3,个因子不太容易解释。似乎是跑和投掷的能力对比,似乎是长跑耐力和短跑速度的对比。于是考虑旋转因子,得下表,28,变量,F,1,F,2,F,3,F,4,共同度,X,1,X,2,X,3,X,4,X,5,X,6,X,7,X,8,X,9,X,10,0.884,0.631,0.245,0.239,0.797,0.404,0.186,-0.036,-0.048,0.045,0.136,0.194,0.825,0.150,0.075,0.153,0.814,0.176,0.735,-0.041,0.156,0.515,0.223,0.750,0.102,0.635,0.147,0.762,0.110,0.112,-0.113,-0.006,-0.148,0.076,0.468,-0.17,-0.079,0.217,0.141,0.934,0.84,0.70,0.81,0.65,0.87,0.62,0.72,0.66,0.57,0.89,29,通过旋转,因子有了较为明确的含义。百米跑,,跳远和,400,米跑,需要爆发力的项目在 有较大的载荷,可以称为短跑速度因子;,铅球,铁饼和 标枪在 上有较大的载荷,可以称为爆发性臂力因子;,百米跨栏,撑杆跳远,跳远和为 跳高在 上有较大的载荷,爆发腿力因子;,为长跑耐力因子。,30,(二)旋转方法,1,、,方差最大法,2,、,四次方最大旋转,31,1,、方差最大法,方差最大法从简化因子载荷矩阵的,每一列,出发,使和每个因子有关的载荷值平方的方差最大。当只有少数几个变量在某个因子上有较高的载荷值时,对因子的解释最简单。,方差最大的直观意义是希望通过因子旋转后,使每个因子上的载荷值尽量拉开距离,一部分的载荷趋于,1,,另一部分趋于,0,。,32,33,根据求极值的原理,使,,由此可求出因子轴旋转角度,34,当公共因子个数,m2,时,可以将上述,m=2,的方法用于,逐次对每两个公共因子进行旋转。每旋转一次,,V,值就会增大,即,V,是单调不减的,并且,V,是有界的,因为因子载荷的绝对值不大于,1,。因此,经过若干次旋转后,,V,变化相对就不大了,即可停止旋转。,对两因子的旋转,,35,2,、四次方最大旋转,四次方最大旋转是从简化载荷矩阵的行出发,通过旋转初始因子,使每个变量只在一个因子上有较高的载荷,而在其它的因子上尽可能低的载荷。,如果每个变量只在一个因子上有非零的载荷,这时的因子解释,是最简单的。,四次方最大法通过使因子载荷矩阵中,每一行,的因子载荷平方的方差达到最大。,36,37,旋转后因子的共同度,设,正交矩阵,做正交变换,旋转后因子的共同度没有发生变化!,38,旋转后公共因子的方差贡献,设,正交矩阵,做正交变换,旋转后公共因子的方差贡献发生了变化!,39,第五节 因子得分,(一)因子得分的概念,前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果我们要使用这些因子做其他的研究,比如把得到的因子作为自变量来做回归分析,对样本进行分类或评价,这就需要我们对公共因子进行测度,即给出公共因子的值。,40,因子分析的数学模型为:,因子得分函数:,可见,要求得每个因子的得分,必须求得分函数的系数,而由于,pm,,所以不能得到精确的得分,只能通过估计。,41,2,、回归,法,1),思想,其中,42,43,简记为,其中,因此,44,而因子载荷阵,故,45,人均要素变量因子分析,。,对我国,31,个省市自治区的要素状况作因子分析。指标体系中有如下指标:,X1,:人口(万人),X2,:面积(万平方公里),X3,:,GDP,(亿元),X4,:人均水资源(立方米,/,人),X5,:人均生物量(吨,/,人),X6,:万人拥有的大学生数(人),X7,:万人拥有科学家、工程师数(人),Rotated Factor Pattern,FACTOR1 FACTOR2 FACTOR3,X1 -0.21522 -0.27397,0.89092,X2,0.63973,-0.28739 -0.28755,X3 -0.15791 0.06334,0.94855,X4,0.95898,-0.01501 -0.07556,X5,0.97224,-0.06778 -0.17535,X6 -0.11416,0.98328,-0.08300,X7 -0.11041,0.97851,-0.07246,46,高载荷指标,因子命名,因子,1,X2,;面积(万平方公里),X4:,人均水资源(立方米,/,人),X5:,人均生物量(吨,/,人),自然资源因子,因子,2,X6,:万人拥有的大学生数(人),X7,:万人拥有的科学家、工程师数(人),人力资源因子,因子,3,X1;,人口(万人),X3:GDP(,亿元,),经济发展总量因子,X1=-0.21522F1-0.27397F2+0.89092F3+,X2=0.63973F1-0.28739F2-0.28755F3+,X3=-0.15791F1+0.06334F2+0.94855F3+,X4=0.95898F1-0.01501F2-0.07556F3,X5=0.97224F1-0.06778F2-0.17535F3,X6=-0.11416F1+0.98328F2-0.08300F3,X7=-0.11041F1+0.97851F2-0.07246F3,47,Standardized Scoring Coefficients,FACTOR1,FACTOR2,FACTOR3,X1 0.05764,-0.06098,0.50391,X2 0.22724,-0.09901,-0.07713,X3 0.14635,0.12957,0.59715,X4 0.47920,0.11228,0.17062,X5 0.45583,0.07419,0.10129,X6 0.05416,0.48629,0.04099,X7 0.05790,0.48562,0.04822,F1=0.05764X1+0.22724X2+0.14635X3+0.47920X4+0.45583X5+0.05416X6+0.05790X7,F2=-0.06098X1-0.09901X2+0.12957X3+0.11228X4+0.07419X5+0.48629X6+0.48562X7,F3=0.50391X1-0.07713X2+0.59715X3+0.17062X4+0.10129X5+0.04099X6+0.04822X7,48,REGION,FACTOR1,FACTOR2,FACTOR3,beijing,-0.08169,4.23473,-0.37983,tianjin,-0.47422,1.31789,-0.87891,hebei,-0.22192,-0.35802,0.86263,shanxi1,-0.48214,-0.32643,-0.54219,neimeng,0.54446,-0.66668,-0.92621,liaoning,-0.20511,0.46377,0.34087,jilin,-0.21499,0.10608,-0.57431,heilongj,0.10839,-0.11717,-0.02219,shanghai,-0.20069,2.38962,-0.04259,前三个因子得分,49,国民生活质量的因素分析,国家发展的最终目标,是为了全面提高全体国民的生活质量,满足广大国民日益增长的物质和文化的合理需求。在可持续发展消费的统一理念下,增加社会财富,创自更多的物质文明和精神文明,保持人类的健康延续和生生不息,在人类与自然协同进化的基础上,维系人类与自然的平衡,达到完整的代际公平和区际公平,(,即时间过程的最大合理性与空间分布的最大合理化,),。,从,1990,年开始,联合国开发计划署,(UYNP),首次采用,“,人文发展系数,”,指标对于国民生活质量进行测度。人文发展系数利用三类内涵丰富的指标组合,即人的健康状况,(,使用出生时的人均预期寿命表达,),、人的智力程度,(,使用组合的教育成就表达,),、人的福利水平,(,使用人均国民收入或人均,GDP,表达,),,并且特别强调三类指标组合的整体表达内涵,去衡量一个国家或地区的社会发展总体状况以及国民生活质量的总水平。,50,在这个指标体系中有如下的指标:,X1,预期寿命,X2,成人识字率,X3,综合入学率,X4,人均,GDP,(美元),X5,预期寿命指数,X6,教育成就指数,X7,人均,GDP,指数,51,旋转后的因子结构,Rotated Factor Pattern,FACTOR1 FACTOR2 FACTOR3,X1,0.38129,0.41765,0.81714,X2,0.12166,0.84828,0.45981,X3,0.64803,0.61822,0.22398,X4,0.90410,0.20531 0.34100,X5,0.38854,0.43295,0.80848,X6,0.28207,0.85325,0.43289,X7,0.90091,0.20612,0.35052,FACTOR1,为,经济发展因子,FACTOR2,为,教育成就因子,FACTOR3,为,健康水平因子,52,被每个因子解释的方差和共同度,Variance explained by each factor,FACTOR1 FACTOR2 FACTOR3,2.439700 2.276317 2.009490,Final Communality Estimates:Total=6.725507,X1 X2 X3 X4 X5,0.987530 0.945796 0.852306 0.975830 0.992050,X6 X7,0.994995 0.976999,53,Standardized Scoring Coefficients,标准化得分系数,FACTOR1 FACTOR2 FACTOR3,X1 -0.18875 -0.34397 0.85077,X2 -0.24109 0.60335 -0.10234,X3 0.35462 0.50232 -0.59895,X4 0.53990 -0.17336 -0.10355,X5 -0.17918 -0.31604 0.81490,X6 -0.09230 0.62258 -0.24876,54,第六节 因子分析的步骤、展望和建议,计算所选原始变量的相关系数矩阵,相关系数矩阵描述了原始变量之间的相关关系。可以,帮助判断原始变量之间是否存在相关关系,这对因子分析,是非常重要的,因为如果所选变量之间无关系,做因子分,析是不恰当的。并且相关系数矩阵是估计因子结构的基础。,选择分析的变量,用定性分析和定量分析的方法选择变量,因子分析的前,提条件是观测变量间有较强的相关性,因为如果变量之间,无相关性或相关性较小的话,他们不会有共享因子,所以,原始变量间应该有较强的相关性。,一、因子分析通常包括以下五个步骤,55,提取公共因子,这一步要确定因子求解的方法和因子的个数。需要,根据研究者的设计方案或有关的经验或知识事先确定。因子个数的确定可以根据因子方差的大小。只取方差大于,1(,或特征值大于,1),的那些因子,因为方差小于,1,的因子其贡献可能很小;按照因子的累计方差贡献率来确定,一般认为要达到,70,才能符合要求;,因子旋转,通过坐标变换使每个原始变量在尽可能少的因子之间有密切的关系,这样因子解的实际意义更容易解释,并为每个潜在因子赋予有实际意义的名字。,56,计算因子得分,求出各样本的因子得分,有了因子得分值,则可以在许多分析中使用这些因子,例如以因子的得分做聚类分析的变量,做回归分析中的回归因子。,57,通过因子分析,取,m,个,公共因子 ,,以每个公共因子 的方差贡献率,为权,构造,综合评价函数,按,F,值的大小对样品进行排序比较或分类。,用因子分析方法进行综合评价,58,因子分析是十分主观的,在许多出版的资料中,因子分析模型都用少数可阐述因子提供了合理解释。实际上,绝大多数因子分析并没有产生如此明确的结果。不幸的是,评价因子分析质量的法则尚未很好量化,质量问题只好依赖一个,“,哇!,”,准则,如果在仔细检查因子分析的时候,研究人员能够喊出“哇,我明白这些因子”的时候,就可看着是成功运用了因子分析方法。,59,作业:,阐述因子分析的基本思想,因子模型与回归模型相比较之异同,因子分析与主成分分析之比较,proc factor data=,文件名,r=v n=,?,out=,文件名,1,outstat=,文件名,2,;,run;,SAS,程序,data=,文件名,r=v,n=,说明,指定公共因子的个数,指定用于分析的数据文件,指定旋转的方法,是,rotate=varimax,的缩写,也可以用,rotate=quartimax(r=q),out=,outstat,=,文件名自己取,保存原始数据和因子得分,文件名自己取,保存因子分析过程中的统计量,特别注意,分号表示一个语句的结束,不能遗漏。,主成份分析和因子分析的异同,降维、简化数据结构,基于变量之间的内部依赖关系(,R,),可以用于综合评价,可以用于图解样品,和回归分析结合,因子载荷的统计含义,相同之处,主成份分析和因子分析的异同,数学模型不同,主成份是原变量的线性组合,是综合的过程;因子分析实际上是对原变量进行分组,因子载荷矩阵,综合评价函数的构造方法(主成份分析:取第一主成份,因子分析:,和回归分析结合时,主成份、公共因子的作用是不同的,不同之处,
展开阅读全文