收藏 分销(赏)

第八章因子分析.ppt

上传人:a199****6536 文档编号:2380060 上传时间:2024-05-29 格式:PPT 页数:50 大小:1.99MB
下载 相关 举报
第八章因子分析.ppt_第1页
第1页 / 共50页
第八章因子分析.ppt_第2页
第2页 / 共50页
第八章因子分析.ppt_第3页
第3页 / 共50页
第八章因子分析.ppt_第4页
第4页 / 共50页
第八章因子分析.ppt_第5页
第5页 / 共50页
点击查看更多>>
资源描述

1、第八章 因子分析v8.1 引言 v8.2 正交因子模型 v8.3 参数估计 v8.4 因子旋转 v8.5 因子得分 8.1 引言 v主成分分析的成功需满足如下两点:(1)前(少数)几个主成分具有较高的累计贡献率;(通常较易得到满足)(2)对主成分给出符合实际背景和意义的解释。(往往正是主成分分析的困难之处)v因子分析的用途与主成分分析类似,它也是一种降维方法。由于因子往往比主成分更易得到解释,故因子分析比主成分分析更容易成功,从而有更广泛的应用。v从方法上来说,因子分析比主成分分析更为精细,自然理论上也就更为复杂。主成分分析只涉及一般的线性变换,不涉及模型,仅需假定二阶矩存在。而因子分析需建立

2、一个数学模型,并作一定的假定。v因子分析起源于20世纪初,K.皮尔逊(Pearson)和C.斯皮尔曼(Spearman)等学者为定义和测定智力所作的努力,主要是由对心理测量学有兴趣的科学家们培育和发展了因子分析。v因子分析的目的是为了降维,降维的方式是试图用少数几个潜在的、不可观测的随机变量来描述原始变量间的协方差关系。v例8.1.1 林登(Linden)根据他收集的来自139名运动员的比赛数据,对第二次世界大战以来奥林匹克十项全能比赛的得分作了因子分析研究。这十个全能项目为:100米跑(x1),跳远(x2),铅球(x3),跳高(x4),400米跑(x5),11米跨栏(x6),铁饼(x7),撑

3、杆跳高(x8),标枪(x9),1500米跑(x10)。经标准化后所作的因子分析表明,十项得分基本上可归结于他们的短跑速度、爆发性臂力、爆发性腿力和耐力这四个方面,每一方面都称为一个因子。十项得分与这四个因子之间的关系可以描述为如下的因子模型:xi=i+fi1+fi2+fi3+fi4+i,i=1,2,10 其中f1,f2,f3,f4表示四个因子,称为公共因子(common factor),aij称为xi在因子fj上的载荷(loading),i是xi的均值,i是xi不能被四个公共因子解释的部分,称之为特殊因子(specific factor)。v例8.1.3 公司老板对48名应聘者进行面试,并给出

4、他们在15个方面所得的分数,这15个方面是:x1:申请书的形式x9:经验x2:外貌x10:积极性x3:专业能力x11:抱负x4:讨人喜欢x12:理解能力x5:自信心x13:潜力x6:精明x14:交际能力x7:诚实x15:适应性x8:推销能力通过因子分析,这15个方面可以归结为应聘者的外露能力、经验、讨人喜欢的程度、专业能力和外貌这五个因子。8.2 正交因子模型v一、数学模型 v二、正交因子模型的性质v三、因子载荷矩阵的统计意义一、数学模型v设有p维可观测的随机向量 ,其均值为 ,协差阵为=(ij)。因子分析的一般模型为其中f1,f2,fm为公共因子,1,2,p为特殊因子,它们都是不可观测的随机

5、变量。公共因子出现在每一个原始变量的表达式中,可理解为原始变量共同具有的公共因素。上式可用矩阵表示为x=+Af+式中 为公共因子向量,为特殊因子向量,称为因子载荷矩阵。通常假定v该假定和上述关系式构成了正交因子模型。由上述假定可以看出,公共因子彼此不相关且具有单位方差,特殊因子也彼此不相关且和公共因子也不相关。二、正交因子模型的性质v1.x的协差阵的分解v2.模型不受单位的影响v3.因子载荷是不惟一的1.x的协差阵的分解 故得=AA+D如果x为各分量已标准化了的随机向量,则就是相关阵R=(ij),即有R=AA+Dv例8.2.1 设随机向量x=(x1,x2,x3,x4)的协方差矩阵为则可分解为=

6、AA+D其中v若取 ,则有分解式此时m=p,没有达到降维目的,故所作的因子分析没有意义。v出于降维的需要,我们常常希望m要比p小得多,这样前述的分解式通常只能近似成立,即有=AA+D近似程度越好,表明因子模型拟合得越佳。一般来说,m选取得越小,上述近似效果就越差,即因子模型拟合得越不理想。拟合得太差的因子模型是没有什么实际意义的,故实践中m也不应选得过小。2.模型不受单位的影响v将x的单位作变化,通常是作一变换x*=Cx,这里C=diag(c1,c2,cp),ci0,i=1,2,p,于是x*=C+CAf+C 令*=C,A*=CA,*=C,则有x*=*+A*f+*这个模型能满足类似于前述因子模型

7、的假定,即其中 因此,单位变换后新的模型仍为正交因子模型。3.因子载荷是不惟一的v设T为任一mm正交矩阵,令A*=AT,f*=Tf,则模型能表示为x=+A*f*+因为E(f*)=TE(f)=0V(f*)=TV(f)T=TT=ICov(f*,)=E(f*)=TE(f)=0所以仍满足模型条件。也可分解为=A*A*+Dv因此,因子载荷矩阵A不是惟一的,在实际应用中常常利用这一点,通过因子的旋转(见稍后的8.4),使得新的因子有更好的实际意义。三、因子载荷矩阵的统计意义v1.A的元素aijv2.A的行元素平方和v3.A的列元素平方和1.A的元素aijv xi=i+ai1f1+ai2f2+aimfm+i

8、即aij是xi与fj之间的协方差。v若x为各分量已标准化了的随机向量,则xi与fj的相关系数 此时aij表示xi与fj之间的相关系数。2.A的行元素平方和v xi=i+ai1f1+ai2f2+aimfm+i令于是v 反映了公共因子对xi的影响,可以看成是公共因子f1,f2,fm对xi的方差贡献,称为共性方差(communality);而 是特殊因子i对xi的方差贡献,称为特殊方差(specific variance)。v当x为各分量已标准化了的随机向量时,ii=1,此时有 3.A的列元素平方和其中 反映了公共因子fj对x1,x2,xp的影响,是衡量公共因子fj重要性的一个尺度,可视为公共因子f

9、j对x1,x2,xp的总方差贡献。8.3 参数估计v一、主成分法v二、主因子法v三、极大似然法一、主成分法v设样本协方差矩阵S的特征值依次为,相应的正交单位特征向量为。选取相对较小的因子数m,并使得累计贡献率 达到一个较高的百分比,则S可近似分解如下:其中 为pm矩阵,i=1,2,p。这里的 和 就是因子模型的一个主成分解。v对主成分解,当因子数增加时,原来因子的估计载荷并不变,第j个因子fj对x的总方差贡献仍为 。v例8.3.1 在例7.3.2中,分别取m=1和m=2,用主成分法估计的因子载荷和共性方差列于表8.3.1。表8.3.1当m=1和m=2时的主成分解变 量m=1m=2因子载荷共性方

10、差因子载荷共性方差f1 f2f1 f2 :100米0.8170.6680.8170.5310.950 :200米0.8670.7520.8670.4320.939 :400米0.9150.8380.9150.2330.892 :800米0.9490.9000.9490.0120.900 :1500米0.9590.9200.959-0.1310.938 :5000米0.9380.8790.938-0.2920.965 :10000米0.9440.8910.944-0.2870.973 :马拉松0.8800.7740.880-0.4110.943所解释的总方差的累计比例0.8280.8280.93

11、8主成分解的近似关系式主成分解的因子解释与主成分的解释完全相同。因子f1代表在径赛项目上的总体实力,可称为强弱因子;因子f2反映了速度与耐力的对比。二、主因子法v假定原始向量x的各分量已作了标准化变换。如果随机向量x满足正交因子模型,则有R=AA+D其中R为x的相关矩阵,令R*=RD=AA 则称R*为x的约相关矩阵(reduced correlation matrix)。vR*中的对角线元素是 ,而不是1,非对角线元素和R中是完全一样的,并且R*也是一个非负定矩阵。v设 是特殊方差 的一个合适的初始估计,则约相关矩阵可估计为其中 是 的初始估计。又设 的前m个特征值依次为 ,相应的正交单位特征

12、向量为 ,则A的主因子解为由此我们可以重新估计特殊方差,的最终估计为v如果我们希望求得拟合程度更好的解,则可以采用迭代的方法,即利用上式中的 再作为特殊方差的初始估计,重复上述步骤,直至解稳定为止。特殊(或共性)方差的常用初始估计方法v(1)取 ,其中rii是 的第i个对角线元素,此时共性方差的估计为 ,它是xi和其他p1个变量间样本复相关系数的平方,该初始估计方法最为常用。v(2)取 ,此时 。v(3)取 ,此时 ,得到的 是一个主成分解。v例8.3.2 在例7.3.2中,取m=2,为求得主因子解,选用xi与其他七个变量的复相关系数平方作为 的初始估计值。计算得于是约相关矩阵为 的特征值为

13、从 起特征值已接近于0,故取m=2,相应的计算结果列于表8.3.2。表8.3.2 当m=2时的主因子解变 量因子载荷共性方差f1f2 :100米0.8070.4960.897 :200米0.8580.4120.906 :400米0.8900.2160.856 :800米0.9390.0240.881 :1500米0.9560.1140.926 :5000米0.9380.2820.960 :10000米0.9460.2810.974 :马拉松0.8740.3780.907所解释的总方差的累计比例0.8160.914三、极大似然法v设公共因子fNm(0,I),特殊因子Np(0,D),且相互独立,则

14、必然有原始向量xNp(,)。由样本x1,x2,xn计算得到的似然函数是和的函数L(,)。由于=AA+D,故似然函数可更清楚地表示为L(,A,D)。记(,A,D)的极大似然估计为(),即有v可以证明,而 满足以下方程组:其中 。由于A的解是不惟一的,故为了得到惟一解,可附加计算上方便的惟一性条件:AD1A是对角矩阵上述方程组中的 一般可用迭代方法解得。v对极大似然解,当因子数增加时,原来因子的估计载荷及对x的贡献将发生变化,这与主成分解及主因子解不同。v例8.3.3 在例7.3.2中,取m=2,极大似然法的计算结果列于表8.3.3。的初始估计值与例8.3.2相同。表8.3.3 当m=2时的极大似

15、然解变 量因子载荷共性方差f1f2 :100米0.7310.6200.919 :200米0.7920.5450.924 :400米0.8550.3430.849 :800米0.9160.1610.865 :1500米0.9580.0260.918 :5000米0.9720.1440.966 :10000米0.9810.1430.982 :马拉松0.9230.2490.914所解释的总方差的累计比例0.8010.9178.4 因子旋转v因子的解释带有一定的主观性,我们常常通过旋转公共因子的方法来减少这种主观性。v公共因子是否易于解释,很大程度上取决于因子载荷矩阵A的元素结构。v如果载荷矩阵A的所

16、有元素都接近0或1,则模型的公共因子就易于解释。反之,如果载荷矩阵A的元素多数居中,不大不小,则对模型的公共因子往往就不易作出解释,此时应考虑进行因子旋转,使得旋转之后的载荷矩阵在每一列上元素的绝对值尽量地拉开大小距离。v因子旋转方法有正交旋转和斜交旋转两类,本章只讨论正交旋转。v对公共因子作正交旋转相当于对载荷矩阵A作一正交变换,右乘正交矩阵T,使A*=AT能有更鲜明的实际意义。旋转后的公共因子向量为f*=Tf,它的几何意义是在m维空间上对原因子轴作一刚性旋转。v因子旋转不改变共性方差,这是因为A*A*=ATTA=AAv正交矩阵T的不同选取法构成了正交旋转的各种不同方法,在这些方法中使用最普

17、遍的是最大方差旋转法(varimax),本节仅介绍这一种正交旋转法。v例8.4.1 在例8.3.1至例8.3.3中分别使用最大方差旋转法,旋转后的因子载荷矩阵列于表8.4.1。表8.4.1旋转后的因子载荷估计变 量主成分主因子极大似然 :100米0.2740.9350.2870.9030.2880.914 :200米0.3760.8930.3810.8720.3790.883 :400米0.5430.7730.5410.7510.5410.746 :800米0.7120.6270.6950.6310.6890.624 :1500米0.8130.5250.7990.5370.7970.532 :

18、5000米0.9020.3890.8950.3990.8990.397 :10000米0.9030.3970.9000.4050.9060.402 :马拉松0.9360.2610.9090.2840.9140.281所解释的总方差的累计比例0.5230.9380.5100.9140.5120.917三种方法的因子载荷估计经因子旋转之后给出了大致相同的结果,在因子 上的载荷依次增大,在因子 上的载荷依次减小,可称 为耐力因子,称 为(短跑)速度因子。将(主成分解的)因子载荷配对()在图8.4.1中用点表示,在点上标出相应变量的序号。使用最大方差旋转法后,因子按顺时针方向旋转了=40.6,点i在新

19、坐标系下的坐标为旋转后的因子载荷配对()。从图中容易直接看出旋转后因子的实际意义。图8.4.1 主成分解的因子旋转v例8.4.2 沪市604家上市公司2001年财务报表中有这样十个主要财务指标(数据可从前言中提及的作者网页上下载):x1:主营业务收入(元)x6:每股净资产(元)x2:主营业务利润(元)x7:净资产收益率(%)x3:利润总额(元)x8:总资产收益率(%)x4:净利润(元)x9:资产总计(元)x5:每股收益(元)x10:股本上述十个指标的样本相关矩阵列于表8.4.2。从相关矩阵出发,选择主成分法,相关矩阵的前三个特征值为 累计贡献率为83.82%,取因子数m=3,相应结果列于表8.

20、4.3。表8.4.2 十个财务指标的样本相关矩阵x1x2x3x4x5x6x7x8x9x10 x11.000 x20.7231.000 x30.4270.7431.000 x40.4070.6970.9821.000 x50.1710.3250.5390.5591.000 x60.1490.2280.2840.2740.5851.000 x70.0960.1770.3620.4020.7760.2181.000 x80.0660.2040.4550.5000.8490.2900.8331.000 x90.7480.7680.5740.5670.1250.1380.0670.0581.000 x1

21、00.6220.6190.4850.5000.002-0.0660.0330.0510.8611.000表8.4.3 m=3时的主成分解变量因子载荷共性方差f1f2f3 :主营业务收入0.6590.4720.1210.672 :主营业务利润0.8350.3460.0970.826 :利润总额0.8860.0030.0370.786 :净利润0.8880.0370.0820.796 :每股收益0.6660.6920.1090.934 :每股净资产0.3910.3670.8140.951 :净资产收益率0.5270.6700.3250.832 :总资产收益率0.5810.7030.2600.899

22、 :资产总计0.7470.5640.0190.877 :股本0.6360.5960.2190.808所解释的总方差的累计比例0.4880.7450.838表8.4.4 旋转后的因子载荷估计变量因子载荷共性方差 :主营业务收入0.809-0.0290.1290.672 :主营业务利润0.8740.1710.1820.826 :利润总额0.7060.5090.1670.786 :净利润0.6880.5520.1350.796 :每股收益0.1150.8490.4470.934 :每股净资产0.0820.1990.9510.951 :净资产收益率0.0220.9120.0040.832 :总资产收益

23、率0.0450.9430.0870.899 :资产总计0.936-0.0120.0280.877 :股本0.869-0.013-0.2280.808所解释的总方差的累计比例0.4040.7120.8388.5 因子得分 v一、加权最小二乘法v二、回归法一、加权最小二乘法 v采用类似于回归分析中加权最小二乘估计的想法将 估计为 在实际应用中,用估计值 分别代替上述公式中的,A和D,并将样品xj的数据代入,便可得到相应的因子得分二、回归法v在正交因子模型中,假设 服从(m+p)元正态分布,用回归预测方法可将 估计为在实际应用中,可用 分别代替上式中的,A和 来得到因子得分。样品xj的因子得分v例8

24、.5.1 在例8.4.2中,用回归法得到的因子得分为其中 为xi的标准化值,i=1,2,p,经计算:序号股票名称序号股票名称1上海石化8.580-2.704-2.1682东方航空7.446-2.089-1.861595康美药业-0.7010.2311.6243兖州煤碳6.9241.513-0.044596潜江制药-0.706-0.4302.0854马钢股份6.175-1.251-2.804597浏阳花炮-0.7090.1460.6555宁沪高速5.3410.835-2.220598浪潮软件-0.7131.625-1.3136广州控股4.1012.5960.640599兆维科技-0.7282.5

25、11-1.3667青岛海尔4.0220.9543.160600PT农商社-0.7510.5160.5108四川长虹3.996-2.0271.907601三佳模具-0.7760.5270.3859仪征化工3.873-0.964-1.598602雄震集团-0.8171.175-1.40710上海汽车3.8341.293-0.666603中软股份-1.0232.715-1.685604天地科技-1.0232.355-0.946表8.5.1 按规模因子得分 的排序序号股票名称序号股票名称1中软股份-1.0232.715-1.6852广州控股4.1012.5960.640595东方电机-0.246-3.

26、212-0.3853广汇股份0.5172.534-1.608596ST嘉陵-0.144-3.570-0.2844兆维科技-0.7282.511-1.366597ST海药-0.089-3.7090.2255长江通讯-0.6572.3691.899598鼎天科技0.034-4.230-0.2096天地科技-1.0232.355-0.946599大元股份0.111-4.5590.2847申能股份3.2482.158-0.498600新城B股-0.080-4.687-0.0868上港集箱2.9922.1121.624601银鸽投资-0.063-4.869-0.0869中远航运-0.5881.957-1

27、.449602济南百货0.083-4.9680.01210创业环保0.7971.755-2.099603ST东锅0.263-5.9790.272604国嘉实业0.491-7.7301.055表8.5.2 按收益因子得分 的排序序号股票名称序号股票名称1贵州茅台0.8771.3665.7502用友软件-0.581-0.0615.165595PT宝信-0.5711.145-1.7603亿阳信通-0.5230.1244.059596东方航空7.446-2.089-1.8614华泰股份-0.2240.0613.420597ST成量-0.5250.042-1.8735太太药业0.0470.7473.234598ST自仪-0.185-0.012-1.9056赣粤高速0.2060.1003.178599创业环保0.7971.755-2.0997青岛海尔4.0220.9543.160600上海石化8.580-2.704-2.1688美克股份-0.6990.0882.752601山东基建2.2750.797-2.1809宇通客车-0.2640.6042.619602ST中纺机-0.3900.278-2.18210东方通讯2.401-0.7502.593603宁沪高速5.3410.835-2.220604马钢股份6.175-1.251-2.804表8.5.3 按每股价值因子得分 的排序

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 考试专区 > 中考

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服