资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第五章,主成分分析,1,什么是主成分分析,主成分分析(,Principal Components Analysis,),也称主分量分析,是将多个指标,化为少数几个不相关的,综合指标的一种统计方法。,2,在综合评价工业企业的经济效益中,考核指标有:,1,每百元固定资产原值实现产值、,2,每百元固定资产原值实现利税、,3,每百元资金实现利税、,4,每百元工业总产值实现利税、,5,每百元销售收入实现利税、,6,每吨标准煤实现工业产值、,7,每千瓦电力实现工业产值、,8,全员劳动生产率、,9,每百元流动资金实现的产值,指标间信息有重叠,指标数量又多。,经过主成分分析计算,最后确定选择了,2,个主成分作为综合评价工业企业经济效益的依据,变量数由,9,个减少到,2,个,这两个主成分代表的信息达,91.6%,,使所研究的问题简化。,3,第一节,主成分分析的,几何意义,4,X,1,X,2,几何意义,:,为了直观,先在二维空间中讨论主成分的几何意义。,设对每个样品观测两个变量,X,1,和,X,2,的数据如下,X,1,1 2 3 4 5 6,X,2,2 4 6 8 10 12,样品点完全在同一条直线上。,X,1,X,2,其散点图如下,5,X,1,Y,2,X,2,Y,1,因为样品点都在,Y,1,轴上,,Y,1,方向有离散性,,Y,2,方向无离散性,,也就无区别。可以用,Y,1,来描述这些样品点,,因此在新坐标系,中只需用,Y,1,一个变量就可以描述原来需用两个变量,X,1,和,X,2,描述,的样品。那么,Y,1,包含了原来变量,X,1,和,X,2,的,100%,的信息,。,在实际问题中,这样的情况是很少见的,。,6,一般情况下,例如有,n,个样品,每个样品有两个变量值,X,1,和,X,2,,这,n,个样品的散点图如带状,.,由图可见这,n,个样品点无论是沿着,X,1,轴方向或,X,2,轴方向都具有较大的离散性,其离散的程度可以分别用观测变量,X,1,的方差和,X,2,的方差定量地表示。,X,1,X,2,7,X,2,Y,2,Y,1,X,1,同样我们将,X,1,轴和,X,2,轴同时按逆时针方向旋转,角度,得到新坐标轴,Y,1,和,Y,2,。,Y,1,和,Y,2,是两个新变量。根据解析几何中的坐标旋转变换公式:,8,第二节 主成分的求解,假设我们所讨论的实际问题中,有,p,个指标,我们把这,p,个指标看作,p,个随机变量,记为,X,1,,,X,2,,,,,X,p,主成分分析就是要把这,p,个指标的问题,转变为讨论,p,个指标的线性组合的问题,9,主成分分析通常的做法是,寻求原指标的线性组合,Y,i,。,并且满足:,1 (i=1,2,P)*,2,不相关性,,Y,i,与,Y,j,不相关。,3,方差极大条件,,10,主成分的求解:,求系数 ,而其正是观测变量相关矩阵的单位特征向量。因此,通过求解 的特征方程,得到,P,个特征根和,P,个单位特征向量,把,P,个特征根按从大到小的顺序排列,记作,i,(i=1,2,p),,它们分别代表,P,个主成分所解释的观测变量的方差,即,Var(Y,i,)=,i,(i=1,2,p),。相应的,P,个单位特征向量就是主成分的系数 (,i=1,2,p,)。,11,主成分,Y=,由 的单位特征向量构成,U,,,即由,|-I|=0,求出,然后代入(,-I)Z=0,求出单位特征向量 ,构成,U,12,变量的标准化,:,由于主成分是根据变量的离散度也即方差的大小来确定主成分的,这样当不同指标的量纲不同时,不同指标的方差大小差別很大,主成分会受到影响,,例如:,X,1,表年收入,从万元到百万元变化,,X,2,表净收入与总资产之比,从,0.01,到,0.60,变化,那么,X,1,的方差的绝对量将远远大于,X,2,的方差,这样主成分会过于照顾方差大的变量,为使主成分能均等地对待每一个原变量,应将原变量作标准化处理,.,13,标准化公式,:,(i=1,2,P),这时有,=,因此求,U,时可用 的特征向量。,还可以证明,=,所以,=,14,在实际问题中,利用主成分的目的是为了减少变量的个数,所以一般不用,P,个主成分,而是根据如下方法选取前,K,个主成分。,定义,为第,i,主成分,Y,i,的方差贡献率。,这个值越大,说明这个主成分,Y,i,综合原指标信息的能力越强。,主成分的方差贡献率,15,定义,(,KP,),为主成分,Y,l,Y,2,Y,k,的累积方差贡献率。,当前,K,个主成分的累积方差贡献率达到,85%,以上时,就取,K,个主成分。这样,K,个主成分基本反映了原指标的信息,指标数目由,P,个减少到,K,个。,这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。,16,(i=1,2,P),对于标准化后的变量,则,原始,变量与主成分之间的相关系数,17,主成分得分,:,当选取了,n,个主成分后,把样本数据代入各主成分表达式可得样本的主成分得分。,若主成分是由原始数据协方差阵计算的,则计算主成分得分时,用原始数据。,若主成分是由标准化数据计算,即由,R,计算,则计算主成分得分时,一定要用标准化数据,否则会出现错误。,18,主成分的综合得分,利用主成分,Y,l,Y,2,Y,k,作线性组合,并以每个主成分,Y,i,的方差贡献率作为权数构造一个综合函数:,Y=,根据计算出的,Y,值大小进行排序。,19,主成分的计算步骤,:,原始数据矩阵,1,、原始数据标准化,2,、计算样本协差阵或相关系数矩阵,R,3,、求,R,的非零特征根及对应的标准正交特征向量,4,、,求出主成分,(i=1,2,P),根据累计方差贡献率大于等于,80%,,,85%,,,90%,等,确,定选取主成分个数。,结合专业知识将各主成分给出恰当的解释,并运用其来判断样品的特性。,20,例一 应收账款是指企业因对外销售产品、材料、提供劳务及其它原因,应向购货单位或接受劳务的单位收取的款项。出于扩大销售的竞争需要,企业不得不以赊销或其它优惠的方式招揽顾客,由于销售和收款的时间差,于是产生了应收款项。,应收款赊销的效果的好坏,不仅依赖于企业的信用政策,还依赖于顾客的信用程度。由此,评价顾客的信用等级,了解顾客的综合信用程度,对加强企业的应收账款管理大有帮助。某企业为了了解其客户的信用程度,采用西方银行信用评估常用的,5C,方法,,5C,的目的是说明顾客违约的可能性。,21,1,、品格(用,X,1,表示),指顾客的信誉,履行偿还义务的可能性。企业可以通过过去的付款记录得到此项。,2,、能力(用,X,2,表示),指顾客的偿还能力。即其流动资产的数量和质量以及流动负载的比率。顾客的流动资产越多,其转化为现金支付款项的能力越强。同时,还应注意顾客流动资产的质量,看其是否会出现存货过多过时质量下降,影响其变现能力和支付能力。,3,、资本(用,X,3,表示),指顾客的财务势力和财务状况,表明顾客可能偿还债务的背景。,4,、附带的担保品(用,X,4,表示),指借款人以容易出售的资产做抵押。,5,、环境条件(用,X,5,表示),指企业的外部因素,即指非企业本身能控制或操纵的因素。,22,首先抽取了,10,家具有可比性的同类企业作为样本,又请,8,位专家分别给,10,个企业的,5,个指标打分,然后分别计算企业,5,个指标的平均值,如表。,76.5,81.5,76,75.8,71.7,85,79.2,80.3,84.4,76.5,70.6,73,67.6,68.1,78.5,94,94,87.5,89.5,92,90.7,87.3,91,81.5,80,84.6,66.9,68.8,64.8,66.4,77.5,73.6,70.9,69.8,74.8,57.7,60.4,57.4,60.8,65,85.6,68.5,70,62.2,76.5,70,69.2,71.7,64.9,68.9,;,23,第一主成份的贡献率为,84.6%,,第一主成份,Z,1,=0.469X,1,+0.485X,2,+0.473X,3,+0.462X,4,+0.329X,5,的各项系数大致相等,且均为正数,是对所有指标的一个综合测度,可以作为综合的信用等级指标。可以用来排序。计算各企业的得分,并按分值大小排序,:,在正确评估了顾客的信用等级后,就能正确制定出对其的信用期、收帐政策等,这对于加强应收帐款的管理大有帮助。,序号,1,2,3,4,5,6,7,8,9,10,得分,3.16,13.6,-9.01,35.9,25.1,-10.3,-4.36,-33.8,-6.41,-13.8,排序,4,3,7,1,2,8,5,10,6,9,24,例,对全国,30,个省市自汉区经济发展基本情况的八项指标作主成分分析,原始数据如下:,25,GDP,X,1,居民消费水平,X,2,固定资产投资,X,3,职工平均工资,X,4,货物周转,量,X,5,居民消费价格指数,X,6,商品零售价格指数,X,7,工业总产,值,X,8,北京,天津,河北,山西,内蒙,辽宁,吉林,黑龙江,上海,江苏,浙江,安徽,福建,江西,山东,河南,湖北,湖南,广东,广西,海南,四川,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆,1394.89,920.11,2849.52,1092.18,832.88,2793.37,1129.2,2014.53,2462.57,5155.25,3524.79,2003.58,2160.52,1205.11,5002.34,3002.71,2391.42,2195.7,5381.72,1606.15,364.17,3534,630.07,1206.68,55.98,1000.03,553.35,165.31,169.75,843.57,2505,2720,1258,1250,1387,2697,1872,2334,5343,1926,2249,1254,2320,1182,1527,1034,1527,1408,2699,1314,1814,1261,942,1261,1110,1208,1007,1445,1355,1469,519.01,345.46,704.87,290.9,250.23,387.99,320.45,435.73,996.48,1434.95,1006.39,474,553.97,282.84,1229.55,670.35,571.68,422.61,1639.83,382.59,198.35,822.54,150.84,334,17.87,300.27,114.81,47.76,61.98,376.95,8144,6501,4839,4721,4134,4911,4430,4145,9279,5943,6619,4609,5857,4211,5145,4344,4685,4797,8250,5105,5340,4645,4475,5149,7382,4396,5493,5753,5079,5348,373.9,342.8,2033.3,717.3,781.7,1371.1,497.4,824.8,207.4,1025.5,754.4,908.3,609.3,411.7,1196.6,1574.4,849,1011.8,656.5,556,232.1,902.3,301.1,310.4,4.2,500.9,507,61.6,121.8,339,117.3,115.2,115.2,116.9,117.5,116.1,115.2,116.1,118.7,115.8,116.6,114.8,115.2,116.8,117.6,116.5,120,119,114,118.4,113.5,118.5,121.4,121.3,117.3,119,119.8,118,117.1,119.7,112.6,110.6,115.8,115.6,116.8,114,114.2,114.3,113,114.3,113.5,112.7,114.4,115.9,114.2,114.9,116.6,115.5,111.6,116.4,111.3,117,117.2,118.1,114.9,117,116.5,116.3,115.3,116.7,843.43,582.51,1234.85,697.25,419.39,1840.55,762.47,1240.37,1642.95,2026.64,916.59,824.14,433.67,571.84,2207.69,1367.92,1220.72,843.83,1396.35,554.97,64.33,1431.81,324.72,716.65,5.57,600.98,468.79,105.8,114.4,428.76,26,第一步,将原始数据标准化。,第二步,建立指标之间的相关数阵,R,如下:,X,1,X,2,X,3,X,4,X,5,X,6,X,7,X,8,X,1,X,2,X,3,X,4,X,5,X,6,X,7,X,8,1.000,.267,.951,.191,.617,-.274,-.264,.874,.267,1.000,.426,.718,-.151,-.234,-.593,.363,.951,.426,.1000,.400,.431,-.282,-.359,.792,.191,.718,.400,1.000,-.356,-.134,-.539,-.104,.617,-.151,.431,-.356,1.000,-.255,.022,.659,-.274,-.234,-.282,-.134,-.255,1.000,.760,-.126,-.264,-.593,-.359,-.539,.022,.760,1.000,-1.92,.874,.363,.792,.104,.659,-.126,-.192,1.000,27,第三步,求,R,的特征值和特征向量。,从上表看,前,3,个特征值累计贡献率已达,89.564%,,说明前,3,个主成分基本包含了全部指标具有的信息,我们取前,3,个特征值,并计算出相应的特征向量:,主成分,特征值,方差贡献率,累计贡献率,1,2,3,4,5,6,7,8,3.755,2.195,1.214,.403,.213,.139,6.594E-02,1.462E-02,46.943,27.443,15.178,5.033,2.660,1.737,.842,.183,46.943,74.386,89.564,94.596,97.256,98.993,99.817,100.000,28,从上表看,前,3,个特征值计累计贡献率已达,89.564%,,说明前,3,个主成分基本包含了全部指标具有的信息,我们取前,3,个特征值,并计算出相应的特征向量:,第一特征向量,a,1,第二,特征向量,a,2,第三特征向量,a,3,0.456708,0.313245,0.470641,0.240481,0.250802,-0.262670,-0.319440,-0.424712,0.258464,-0.403539,0.107995,-0.488680,0.498801,0.167392,0.400931,0.287536,0.109773,0.245856,0.192410,0.332179,-0.24777,0.723351,0.397525,0.19241,29,因而前三个主成分为:,第一主成分:,F,1,=0.456708X,1,+0.312729X,2,+0.470641X,3,+0.240481X,4,+0.250802X,5,-0.26267 X,6,-0.31944 X,7,+0.424712 X,8,第二主成分:,F,1,=0.258512 X,1,-0.40431X,2,0.107995X,3,-,0.48868 X,4,+0.498801 X,5,0.167392 X,6,+0.400931 X,7,0.287536 X,8,第三主成分:,F,1,=0.109819 X,1,+0.24505 X,2,+0.19241 X,3,+0.332179 X,4,-0.24777 X,5,+0.723351 X,6,+0.397525 X,7,+0.19241 X,8,30,如果一个主成分仅仅对某一个原始变量有作用,则称为特殊成分。,如果一个主成分所有的原始变量都起作用,称为公共成分。,31,选题参考:,1,、(我国)房地产发展因素的主成分分析,2,、(全国)工业企业市场竞争力的主成分分析,3,、(各地区)工业企业经济效益的主成分分析,4,、我国城市,(,农村)居民消费支出的主成分分析,5,、(各地区)农业发展状况的主成分分析,6,、我国各省市社会发展状况的主成分分析,7,、零售物价指数影响因素的主成分分析,8,、(我国)信息产业发展因素的主成分分析,9,、城市环境质量影响因素的主成分分析,32,10,、(各地区)经济发展水平的主成分分析,11,、(各地区)综合竞争力的主成分分析,12,、股票价格指数影响因素的主成分分析,13,、城市环境质量因素的主成分分析,14,、(各地区)保险业发展状况的主成分分析,15,、上市公司业绩评价的主成分分析,16,、大学生网络面试的主成分分析,17,、中国外贸进出口影响因素的主成分分析,18,、影响国民经济增长因素的主成分分析,33,19,、各省市保险业发展状况影响因素的主成分分析,34,9,、城市环境质量影响因素:,(,1,)人均工业总产值,(,2,)人均国民收入,(,3,)人均居住面积,(,4,)人均生活用水量,(,5,)消费指数,=,社会零售总额,/,市区人口总数,(,6,)人均绿化面积,(,7,)人均道路面积,(,8,)人均公共车辆数,(,9,)万人病床数,(,10,)万人医生数,(,11,)每百人拥有电话机数,(,12,)每千人中中级技术职称以上人数,(,13,)工业废水污染负荷,=,工业废水排放量,/,市区总面积,(,14,)二氧化硫污染负荷,=,二氧化硫年排放量,/,市区总面积,(,15,)烟尘污染负荷,=,烟尘年排放量,/,市区总面积,(,16,)噪声平均值,=,区域环境噪声平均值和城市交通干线噪声,平均值的平均值,35,19,、各省市保险业发展状况影响因素有:,(,1,)保费收入,(,2,)保费增长速度,(,3,)赔付率,(,4,)完成计划率,(,5,)国内业务承保金额,(,6,)国内业务赔付件数,(,7,)机构个数,(,8,)人员数,(,9,)涉外业务保费收入,(,10,)涉外业务赔付率,36,17,、中国外贸进出口影响因素:,(,1,),GDP,(,2,)固定资产投资,(,3,)城乡居民储蓄余额,(,4,)利用外资,(,5,)外汇储备,(,6,)货币发行,(,7,)汇率,(,8,)全球经济增长率,(,9,)零售商品价格指数,(,10,)关税率,(,11,)对外开放度,37,
展开阅读全文