1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,因子分析,1,一、什么是因子分析,因子分析,(factor analysis),是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。,例如,在企业形象或品牌形象的研究中,消费者可以通过一个有,24,个指标构成的评价体系,评价百货商场的,24,个方面的优劣。,2,但消费者主要关心的是三个方面,即商店的环境、商店的
2、服务和商品的价格。因子分析方法可以通过,24,个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。,而这三个公共因子可以表示为:,称 是不可观测的潜在因子。,24,个变量共享这三个因子,但是每个变量又有自己的个性,不被,包含的部分 ,称为特殊因子。,3,注:,因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义;,主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。,主成分分析,:,原始变量的线性组合表示新的综合变量,即主成分;,因子分析:潜在的假想变量和随机影响变量的线性组合表示原始
3、变量。,4,二、,因子分析的数学模型,(一)数学模型,1,、型因子分析数学模型,设 个变量,如果表示为,5,称为 公共因子,是不可观测的变量,他们的系数称为因子载荷。是特殊因子,是不能被前,m,个公共因子包含的部分。并且满足:,,即不相关;,即 互不相关,方差为,1,。,M,称为复杂度。,6,即互不相关,方差不一定相等,。,7,2,、型因子分析数学模型,设 个样品,,,如果表示为,8,称为 公共因子,是不可观测的变量,他们的系数称为因子载荷。是特殊因子,是不能被前,m,个公共因子包含的部分。并且满足:,,即不相关;,即 互不相关,方差为,1,。,9,即互不相关,方差不一定相等,。,因子模型形式
4、不受观测值量纲的影响,模型的参数矩阵随观测,值量纲的变化而变化;因子载荷数值不唯一。,10,(二)因子分析中的几个统计特征,1,、因子载荷的统计意义(假定,x,已经标准化),因子载荷 是第,i,个变量与第,j,个公共因子的相关系数,模型为,在上式的左右两边乘以,再求数学期望,根据公共因子的模型性质,有,(载荷矩阵中第,i,行,第,j,列的元素),反映了第,i,个变量与第,j,个公共因子的相关重要性。绝对值越大,相关的密切程度越高。,11,2,、变量共同度的统计意义,定义:,变量 的共同度是因子载荷矩阵的第,i,行的元素的平方和。记为,统计意义,:,两边求方差,所有的公共因子和特殊因子对变量 的
5、贡献为,1,。如果 非常靠近,1,,非常小,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好。,12,3,、公共因子 方差贡献的统计意义,因子载荷矩阵中各列元素的平方和,称为所有的 对 的方差贡献和。衡量,的相对重要性。,13,三、因子载荷矩阵的估计方法,(一),当特殊因子 的方差为零时,(,主成分法),如果默认特殊因子的方差为零,则 与主成分分析类似。,14,因为,R,矩阵是对称阵,所以存在正交,U,,,满足,15,例,假定某地固定资产投资率,,,通货膨胀率,,,失业率 ,相关系数矩阵为,试用主成分分析法求因子分析模型。,则载荷矩阵为:,有 ,。而有非零特征根对应得特征向量分别为,
6、16,特征根为,:,17,可取前两个因子,F1,和,F,2,为公共因子,第一公因子,F,1,物价就业因子,对,X,的贡献为,1.55,。第一公因子,F,2,为,投资因子,对,X,的贡献为,0.85,。共同度分别为,1,,,0.706,,,0.706,。,18,假定原始变量已经作了标准化变换。,如果变量满足相关系数阵为,称 为约相关矩阵,由于,是一个对角阵,所以 中对角线上的元素是共同度 ,而不是,1,,非对角向上的元素,R,与,R,*,完全一样。,(二),当特殊因子 的方差不为零时(主因子法),19,如果特性方差是已知的,问题非常好解决,但通常,情况下,方差是未知的。所以我们要估计个性方差。,
7、20,(1),个性方差矩阵 已知(主因子法),R,*,=AA=,R,X,-,,,我们在前面已经讨论了因子载荷矩阵,A,的列平方和是,称为,F,j,对所有的,X,i,的方差贡献,衡量,F,j,的相对重要性。因此我们希望先求出贡献大的因子,然后在依次求出贡献相对较小的因子。,由因子模型可知,R,*,=AA,为,R,*,=AA,中得,元素,21,设使,S,2,1,最大的向量为 ,显然向量必须满足,p,2,个约束条件,因此这是一个条件极值的问题,用拉格朗日乘数法由目标函数,可以证明,使目标函数,T,最大的,S,2,1,是,R,*,=AA,的,最大的特征根,,其单位特征向量为,r,1,,,则,类推可以求
8、的载荷矩阵的其他列。,22,23,24,若,,。,而有非零特征根对应得特征向量分别为,25,(,2,)在实际的应用中,个性方差矩阵一般都是未知的,可以通过一组样本来估计。,估计的,方法有如下几种,:,首先,求 的初始估计值,构造出,1,),取 ,在这个情况下主因子解与主成分解等价;,2,)取 ,为,x,i,与其他所有的原始变量,x,j,的复相关系数的平方,即,x,i,对其余的,p-1,个,x,j,的,回归方程的判定系数,;,26,3,)取 ,这意味着取,x,i,与其余的,x,j,的,简单相关系数的绝对值最大者;,4,)取 ,其中要求该值为正数。,5,)取 ,其中 是 的对角元素。,27,假定某
9、地固定资产投资率,,,通货膨胀率,,,失业率 ,相关系数矩阵为,试用主因子分析法求因子分析模型。假定用,代替初始的 。,28,特征根为,:,对应的非零特征向量为:,29,30,四、因子旋转(正交变换),建立了因子分析数学目的不仅仅要找出公共因子以及对变量进行分组,更重要的要知道每个公共因子的意义,以便进行进一步的分析,如果每个公共因子的含义不清,则不便于进行实际背景的解释。由于因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向,0,和,1,两极分化。,有三种主要的正交旋转法。四次方最大法、方差最大法和等量最大法。,(一)为什么要旋
10、转因子,31,百米跑成绩,跳远成绩,铅球成绩,跳高成绩,400,米跑成绩,百米跨栏,铁饼成绩,撑杆跳远成绩,标枪成绩,1500,米跑成绩,奥运会十项全能运动项目,得分数据的因子分析,32,33,因子载荷矩阵可以看出,除第一因子在所有的变量在公共因子上有较大的正载荷,可以称为一般运动因子。其他的,3,个因子不太容易解释。似乎是跑和投掷的能力对比,似乎是长跑耐力和短跑速度的对比。于是考虑旋转因子,得下表,34,35,通过旋转,因子有了较为明确的含义。百米跑,,跳远和,400,米跑,需要爆发力的项目在 有较大的载荷,可以称为短跑速度因子;,铅球,,铁饼和 标枪在 上有较大的载荷,可以称为爆发性臂力因
11、子;,百米跨栏,撑杆跳远,跳远和为 跳高在 上有较大的载荷,爆发腿力因子;长跑耐力因子。,36,变换后因子的共同度,设,正交矩阵,做正交变换,变换后因子的共同度化没有发生!,37,变换后因子贡献,设,正交矩阵,做正交变换,变换后因子的贡献发生了变化,!,38,1,、四次方最大旋转,四次方最大旋转是从简化载荷矩阵的行出发,通过旋转初始因子,使每个变量只在一个因子上又较高的载荷,而在其它的因子上尽可能低的载荷。,如果每个变量只在一个因子上又非零的载荷,这是的因子解释是最简单的。,四次方最大法通过使因子载荷矩阵中每一行的因子载荷平方的方差达到最大。,(,二)旋转方法,39,40,41,2,、方差最大
12、法,方差最大法和四次方最大法类似,所不同的使它从简化因子载荷矩阵的每一列出发,使和每个因子有关的载荷的平方的方差最大。当只有少数几个变量在某个因子上又较高的载荷时,对因子的解释最简单。,方差最大的直观意义是希望通过因子旋转后,使每个因子上的载荷尽量拉开距离,一部分的载荷趋于,1,,另一部分趋于,0,。,42,3,、等量最大法,等量最大法把四次方最大法和方差最大法结合起来求,Q,和,V,的加权平均最大。,权数,等于,m/2,,,与因子数有关。,43,五、,因子得分,(一)因子得分的概念,前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果我们要使用这些因子做其他的研究,比如把
13、得到的因子作为自变量来做回归分析,对样本进行分类或评价,这就需要我们对公共因子进行测度,即给出公共因子的值。,44,人均要素变量因子分析,。,对我国,32,个省市自治区的要素状况作因子分析。指标体系中有如下指标:,X1,:,人口(万人),X2,:,面积(万平方公里),X3,:,GDP,(,亿元),X4,:,人均水资源(立方米,/,人),X5,:,人均生物量(吨,/,人),X6,:,万人拥有的大学生数(人),X7,:,万人拥有科学家、工程师数(人),Rotated Factor Pattern,FACTOR1 FACTOR2 FACTOR3,X1 -0.21522 -0.27397 0.8909
14、2,X2 0.63973 -0.28739 -0.28755,X3 -0.15791 0.06334 0.94855,X4 0.95898 -0.01501 -0.07556,X5 0.97224 -0.06778 -0.17535,X6 -0.11416 0.98328 -0.08300,X7 -0.11041 0.97851 -0.07246,45,高载荷指标,因子命名,因子,1,X2,;,面积(万平方公里),X4:,人均水资源(立方米,/,人),X5:,人均生物量(吨,/,人),自然资源因子,因子,2,X6,:,万人拥有的大学生数(人),X7,:,万人拥有的科学家、工程师数(人),人力资
15、源因子,因子,3,X1;,人口(万人),X3:GDP(,亿元,),经济发展总量因子,X1=-0.21522F1-0.27397F2+0.89092F3,X2=0.63973F1-0.28739F2-0.28755F3,X3=-0.15791F1+0.06334F2+0.94855F3,X4=0.95898F1-0.01501F2-0.07556F3,X5=0.97224F1-0.06778F2-0.17535F3,X6=-0.11416F1+0.98328F2-0.08300F3,X7=-0.11041F1+0.97851F2-0.07246F3,46,Standardized Scoring
16、 Coefficients,FACTOR1,FACTOR2,FACTOR3,X1,0.05764,-0.06098,0.50391,X2,0.22724,-0.09901,-0.07713,X3,0.14635,0.12957,0.59715,X4,0.47920,0.11228,0.17062,X5,0.45583,0.07419,0.10129,X6,0.05416,0.48629,0.04099,X7,0.05790,0.48562,0.04822,F1=0.05764X1+0.22724X2+0.14635X3+0.47920X4+0.45583X5+0.05416X6+0.05790
17、X7,F2=-0.06098X1-0.09901X2+0.12957X3+0.11228X4+0.07419X5+0.48629X6+0.48562X7,F3=0.50391X1-0.07713X2+0.59715X3+0.17062X4+0.10129X5+0.04099X6+0.04822X7,47,REGION,FACTOR1,FACTOR2,FACTOR3,beijing,-0.08169,4.23473,-0.37983,tianjin,-0.47422,1.31789,-0.87891,hebei,-0.22192,-0.35802,0.86263,shanxi1,-0.48214
18、0.32643,-0.54219,neimeng,0.54446,-0.66668,-0.92621,liaoning,-0.20511,0.46377,0.34087,jilin,-0.21499,0.10608,-0.57431,heilongj,0.10839,-0.11717,-0.02219,shanghai,-0.20069,2.38962,-0.04259,前三个因子得分,48,因子分析的数学模型为:,原变量被表示为公共因子的线性组合,当载荷矩阵旋转之后,公共因子可以做出解释,通常的情况下,我们还想反过来把公共因子表示为原标量的线性组合。,因子得分函数:,可见,要求得每个因子
19、的得分,必须求得分函数的系数,而由于,pm,,,所以不能得到精确的得分,只能通过估计。,49,1,、,巴特莱特因子得分,巴特莱特因子得分计算方法的思想,:,把 看作因变量;,把因子载荷矩阵 看成自变量的观测;,把某个个案的得分 看着最小二乘法需要求的系数,。,50,由于特殊因子的方差相异,所以用加权最小二乘法求得分,每个各案作一次,要求出所有样品的得分,需要作 次。,51,2,、,Thompson,方法,52,则,我们有如下的方程组:,53,j=1,2,m,54,注:共需要解,m,次才能解,出 所有的得分函数的系数。,55,六、因子分析的步骤,因子分析通常包括以下五个步骤,计算所选原始变量的相
20、关系数矩阵,相关系数矩阵描述了原始变量之间的相关关系。可以,帮助判断原始变量之间是否存在相关关系,这对因子分析,是非常重要的,因为如果所选变量之间无关系,做因子分,析是不恰当的。并且相关系数矩阵是估计因子结构的基础。,选择分析的变量,用定性分析和定量分析的方法选择变量,因子分析的前,提条件是观测变量间有较强的相关性,因为如果变量之间,无相关性或相关性较小的话,他们不会有共享因子,所以,原始变量间应该有较强的相关性。,56,提取公共因子,这一步要确定因子求解的方法和因子的个数。需要,根据研究者的设计方案或有关的经验或知识事先确定。因子个数的确定可以根据因子方差的大小。只取方差大于,1,(,或特征
21、值大于,1),的那些因子,因为方差小于,1,的因子其贡献可能很小;按照因子的累计方差贡献率来确定,一般认为要达到,60,才能符合要求;,因子旋转,通过坐标变换使每个原始变量在尽可能少的因子之间有密切的关系,这样因子解的实际意义更容易解释,并为每个潜在因子赋予有实际意义的名字。,57,计算因子得分,求出各样本的因子得分,有了因子得分值,则可以在许多分析中使用这些因子,例如以因子的得分做聚类分析的变量,做回归分析中的回归因子。,58,国民生活质量的因素分析,国家发展的最终目标,是为了全面提高全体国民的生活质量,满足广大国民日益增长的物质和文化的合理需求。在可持续发展消费的统一理念下,增加社会财富,
22、创自更多的物质文明和精神文明,保持人类的健康延续和生生不息,在人类与自然协同进化的基础上,维系人类与自然的平衡,达到完整的代际公平和区际公平,(,即时间过程的最大合理性与空间分布的最大合理化,),。,从,1990,年开始,联合国开发计划署,(UYNP),首次采用,“,人文发展系数,”,指标对于国民生活质量进行测度。人文发展系数利用三类内涵丰富的指标组合,即人的健康状况,(,使用出生时的人均预期寿命表达,),、人的智力程度,(,使用组合的教育成就表达,),、人的福利水平,(,使用人均国民收入或人均,GDP,表达,),,并且特别强调三类指标组合的整体表达内涵,去衡量一个国家或地区的社会发展总体状况
23、以及国民生活质量的总水平。,59,在这个指标体系中有如下的指标:,X,1,预期寿命,X,2,成人识字率,X,3,综合入学率,X,4,人均,GDP,(,美圆),X,5,预期寿命指数,X,6,教育成就指数,X,7,人均,GDP,指数,60,旋转后的因子结构,Rotated Factor Pattern,FACTOR1 FACTOR2 FACTOR3,X1 0.38129 0.41765,0.81714,X2 0.12166,0.84828,0.45981,X3 0.64803,0.61822,0.22398,X4,0.90410,0.20531 0.34100,X5 0.38854 0.43295
24、0.80848,X6 0.28207,0.85325,0.43289,X7,0.90091,0.20612 0.35052,FACTOR1,为经济发展因子,FACTOR2,为,教育成就因子,FACTOR3,为,健康水平因子,61,被每个因子解释的方差和共同度,Variance explained by each factor,FACTOR1 FACTOR2 FACTOR3,2.439700 2.276317 2.009490,Final Communality Estimates:Total=6.725507,X1 X2 X3 X4 X5,0.987530 0.945796 0.852306
25、 0.975830 0.992050,X6 X7,0.994995 0.976999,62,Standardized Scoring Coefficients,标准化得分系数,FACTOR1 FACTOR2 FACTOR3,X1 -0.18875 -0.34397 0.85077,X2 -0.24109 0.60335 -0.10234,X3 0.35462 0.50232 -0.59895,X4 0.53990 -0.17336 -0.10355,X5 -0.17918 -0.31604 0.81490,X6 -0.09230 0.62258 -0.24876,63,生育率的影响因素分析,生
26、育率受社会、经济、文化、计划生育政策等很多,因素影响,但这些因素对生育率的影响并不是完全独立,的,而是交织在一起,如果直接用选定的变量对生育率,进行多元回归分析,最终结果往往只能保留两三个变量,,其他变量的信息就损失了。因此,考虑用因子分析的方,法,找出变量间的数据结构,在信息损失最少的情况下,用新生成的因子对生育率进行分析。,选择的变量有:多子率、综合节育率、初中以上文化,程度比例、城镇人口比例、人均国民收入。下表是,1990,年中国,30,个省、自治区、直辖市的数据。,64,65,Eigenvalue,Difference,Proportion,Cumulative,3.24917597,
27、2.03464291,0.6498,0.6498,1.21453306,0.96296800,0.2429,0.8927,0.25156507,0.06743397,0.0503,0.9431,0.18413109,0.08353629,0.0368,0.9799,0.10059480,0.0201,1.0000,特征根与各因子的贡献,66,Factor1,Factor2,x1,-0.76062,0.55316,x2,0.56898,-0.76662,x3,0.89184,0.25374,x4,0.87066,0.34618,x5,0.89076,0.36962,没有旋转的因子结构,67,Fa
28、ctor1,可解释方差,Factor2,可解释方差,2.9975429,2.1642615,各旋转后的共同度,0.88454023,0.91143998,0.85977061,0.87789453,0.93006369,68,在这个例子中我们得到了两个因子,第一个因子是社会经济,发展水平因子,第二个是计划生育因子。有了因子得分值后,则,可以利用因子得分为变量,进行其他的统计分析。,Factor1,Factor2,x1,-0.35310,-0.87170,x2,0.07757,0.95154,x3,0.89114,0.25621,x4,0.92204,0.16655,x5,0.95149,0.15728,Factor1,Factor2,x1,-0.05897,-0.49252,x2,-0.05805,0.58056,x3,0.33042,0.03497,x4,0.35108,-0.02506,x5,0.36366,-0.03493,方差最大旋转后的因子结构,标准化得分函数,69,






