1、Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,2,*,z,主成分分析,(Principal Components Analysis),知识点,什么是主成分和主成分分析?,理解主成分分析的基本思想和几何意义?,理解并掌握基于协方差矩阵或相关系数矩阵求解主成分?,如何确定主成分个数?,如何解释主成分?,掌握运用,SPSS,软件求解主成分,对软件输出结果进行正确分析,1,2,蒋亮,罗汉,我国东西部城市经济实力比较的主
2、成分分析,,,经济数学,,,2003,年,3,期,田波平等,主成分分析在中国上市公司综合评价中的作用,,,数学的实践与认识,,,2004,年,4,期,江冬明,主成份分析在证券市场个股评析中的应用,,,数理统计与管理,,,2001,年,3,期,主成分分析在综合评价中的应用:,2,2,陈耀辉,景睿,沪深股市市场收益率成因的主成份分析,,,南京航空航天大学学报,,,2000,年,2,期。,主成分用于成因分析:,3,2,王冬:,我国外汇储备增长因素主成分分析,,,北京工商大学学报,(,社会科学版,),,,2006,年,4,期。,主成分回归分析:,主成分用于判别分析等统计方法中,4,2,多个指标的问题:
3、,1、,指标与指标可能存在相关关系,信息重叠,分析偏误,2、,指标太多,增加问题的,复杂性,和,分析难度,如何避免?,5,2,主成分分析的,基本思想,一项十分著名的工作是美国的统计学家斯通(,stone),在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。,在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入,F1、,总收入变化率,F2,和经济发展或衰退的趋势,F3。,6,2,更
4、有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入,I、,总收入变化率,I,以及时间,t,因素做相关分析,得到下表:,F1,F2,F3,i,i,t,F1,1,F2,0,1,F3,0,0,1,i,0.995,-0.041,0.057,l,i,-0.056,0.948,-0.124,-0.102,l,t,-0.369,-0.282,-0.836,-0.414,-0.112,1,7,2,主成分分析:,将原来具有相关关系的多个指标简化为少数几个新的综合指标的多元统计方法。,主成分:,由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等
5、等。,主成分与原始变量之间的关系,:,(1)主成分保留了原始变量绝大多数信息。,(2)主成分的个数大大少于原始变量的数目。,(3)各个主成分之间互不相关。,(4)每个主成分都是原始变量的线性组合。,8,2,主成分分析通常的做法:寻求原指标的线性组合,F,i,。,数学模型主成分表达式,9,2,假设有,n,个样品,每个样品有两个观测变量,x,l,和,x,2,,,在由变量,x,l,和,x,2,所确定的二维平面中,,n,个样本点所散布的情况如椭圆状。如图所示:,几何解释坐标旋转变换,平移、旋转坐标轴,10,2,平移、旋转坐标轴,11,2,平移、旋转坐标轴,12,2,由图可以看出这,n,个样本点无论是沿
6、着,x,l,轴方向或,x,2,轴方向都具有较大的离散性,其离散的程度可以分别用观测变量,x,l,的方差和,x,2,的方差定量地表示。显然,如果只考虑,x,l,和,x,2,中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。,如果我们将,x,l,轴和,x,2,轴先平移,再同时按逆时针方向旋转,角度,得到新坐标轴,F,l,和,F,2,。F,l,和,F,2,是两个新变量。,F,l,轴方向上的离散程度最大,即,F,l,的方差最大。说明变量,F,l,代表了原始数据的绝大部分信息,即使不考虑变量,F2,也无损大局。,13,2,旋转变换的目的:,将原始数据的大部分信息集中到,F,l,轴上,对数据中
7、包含的信息起到了浓缩作用。,主成分分析的,几何意义,:主成分分析的过程也就是坐标旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,新坐标系中各坐标轴的方向就是原始数据方差最大的方向。,其优点:,(,1,)可达到简化数据结构的目的。(,2,)新产生的综合变量,Fl,F2,具有不相关的性质,从而避免了信息重叠所带来的虚假性。,14,2,了解了主成分分析的基本思想、数学和几何意义后,问题的关键:,1、如何求解主成分?,2、如何确定主成分个数?,3、如何解释主成分所包含的经济意义?,15,2,如何求解主成分?,(,1,)基于协方差矩阵求解主成分,假设有,n,个样本,每个样本有,p,个观测变量
8、。运用主成分分析构造以下,p,个主成分关于原始变量的线性组合模型,:,16,2,假设,p,个原始变量的协方差阵为,:,对角线外的元素不为,0,意味着:原始变量之间有相关关系,17,2,如何运用主成分分析将这些具有相关关系的变量转化为没有相关关系的新变量(主成分)呢?,新变量(即主成分)之间没有相关关系,其协方差阵为,对角矩阵,:,对角线上的元素,1,、,2,p,分别为第一、二,第,p,个主成分方差;同时也是原始变量协方差阵的特征根,主成分表达式的系数项即是,1,、,2,p,的特征向量,18,2,1,、主成分的协方差阵为对角矩阵;,2,、,3,、,4、第,j,个主成分的方差贡献为,:,主成分包含
9、了原始变量的所有信息,协方差矩阵求解中主成分的性质,该比率为第,j,个主成分方差与原始变量的总方差之比。,19,2,k,个主成分的累积方差贡献率为:,累积方差贡献率越接近,1,,表示,k,个主成分包含原始变量的信息越多。,5.,主成分载荷:,6.,主成分,F,j,与原始变量,X,i,相关系数的平方,:,(,1,)可看作为第,j,个主成分可解释,X,i,多少比率的信息,(,2,)可看作为,X,i,在第,j,个主成分中的相对重要性,20,2,主成分的求解,(,2,),基于相关系数矩阵求解主成分,假设,p,个原始变量的相关系数矩阵阵为,:,注意(,1,),:,相关系数矩阵可看作原始变量协方差阵的标准
10、化形式,,即:,原始变量,标准化的协方差矩阵。,注意(,2,),:,运用主成分分析法时,若原始变量量纲不一致时,需对变量进行标准化处理基于协方差阵求解主成分;若不标准化则基于相关系数矩阵求解主成分。,对角线外元素不全为,0,:,原始变量间有相关关系,21,2,转化形成的没有相关关系的新变量(即主成分)的协方差阵为,对角矩阵,:,对角线上的元素,1,、,2,p,分别为第一、二,第,p,个主成分方差;同时也是原始变量相关系数矩阵的特征根,主成分表达式的系数项即是,1,、,2,p,的特征向量,22,2,相关系数矩阵求解中主成分的性质,1、主成分的协方差矩阵为对角阵,.,2.,3、,4、第,k,个主成
11、分的方差贡献率为:,前,k,个主成分的累积方差贡献率为:,5、主成分载荷:,6,、主成分载荷的平方:,在解释第,j,个主成分的意义上起着重要作用,(,1,)可看作为第,j,个主成分可解释,X,i,多少比率的信息(或:,X,i,的信息有多少可被第,j,个主成分解释,);,(,2,)可看作为,X,i,在第,j,个主成分中的相对重要性。,23,2,主成分个数的确定,累积方差贡献率(,Cumulative variance explained by components,),:,通常要求累积方差贡献率达到85%以上来确定主成分个数。,特征根(,eigenvalue,),:,根据特征根来确定 ;数据标准
12、化情况下:,碎石图(,Scree plot,):,依据,特征值的变化来确定,即特征值,变化趋势图由陡坡变为平坦的转折点即为主成分选择的最佳个数。,24,2,主成分的解释,运用主成分载荷解释主成分:,陈耀辉,景睿沪深股市市场收益率成因的主成份分析,南京航空航天大学学报,2000年2期。,蒋亮,罗汉我国东西部城市经济实力比较的主成分分析,经济数学,2003年3期。,运用主成分得分系数矩阵解释主成分:,王冬我国外汇储备增长因素主成分分析,北京工商大学学报,2006年4期。,田波平等主成分分析在中国上市公司综合评价中的作用,数学的实践与认识,2004年4期,25,2,基于相关系数矩阵的主成分分析。对美
13、国纽约上市的有关化学产业的三支股票,(,Allied Chemical,du Pont,Union Carbide,),和石油产业的2支股票,(,Exxon and Texaco,),做了100周的收益率调查(1975年1月1976年10月)。,1)利用相关系数矩阵做主成分分析。,2)决定要保留的主成分个数,并解释意义。,主成分解释的案例分析,26,2,(1),相关系数矩阵:,1,0.577,0.509,0.387,0.462,0.577,1,0.599,0.389,0.322,0.509,0.599,1,0.436,0.426,0.387,0.389,0.436,1,0.523,0.462,
14、0.322,0.426,0.523,1,运用主成分分析法进行分析得到以下结果:,27,2,(,2,)相关系数矩阵的特征根:,Eigenvalues of the Correlation Matrix,Eigenvalue Difference Proportion Cumulative,PRIN1 2.85671 2.04755 0.571342 0.57134,PRIN2 0.80916 0.26949 0.161833 0.73317,PRIN3 0.53968 0.08818 0.107935 0.84111,PRIN4 0.45150 0.10855 0.090300 0.93141,
15、PRIN5 0.34295 .0.068590 1.00000,(,3,)特征根所对应的特征向量:,Eigenvectors,PRIN1 PRIN2 PRIN3 PRIN4 PRIN5,X1 0.463605 -.240339 -.611705 0.386635 -.451262,X2 0.457108 -.509305 0.178189 0.206474 0.676223,X3 0.470176 -.260448 0.335056 -.662445 -.400007,X4 0.421459 0.525665 0.540763 0.472006 -.175599,X5 0.421224 0.5
16、81970 -.435176 -.382439 0.385024,28,2,(,4,)前两大主成分的累积方差贡献率:,(,5,)前两大主成分的表达式:,29,2,(,6,)碎石图:,30,2,主成分的解释:,1、,第一大主成分,PRIN1,几乎是,5,只股票的等权平均;可将它看做股票收益率的“市场影响因素”(,market component,),2、,第二大主成分,PRIN2,系数在,AC,DP,UC(chemical stocks),等,3,只股票上表现为负,而在,EX,TE(oil stocks),等两只股票的系数表现为正;,可将它看作为股票收益率的“行业影响因素”(,industry
17、component,),31,2,主成分分析步骤及框图,主成分分析步骤:,1.,根据研究问题选取初始分析变量;,2.,根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分;,3.,求协差阵或相关阵的特征根与相应标准特征向量;,4.,判断是否存在明显的多重共线性,若存在,则回到第一步;,5.,得到主成分的表达式并确定主成分个数,选取主成分;,6.,结合主成分对研究问题进行分析并深入研究。,32,2,主成分分析框图:,特征值,标准正交特征向量,是否有接近,0,的情况,是,其他处理,否,主成分,对主成分进行分析,深入分析,选择初始变量,度量或取值范围相同?,是,否,(否),对比,分析相关阵,分
18、析协方差阵,33,2,主成分分析的上机实现,SPSS,操作,1、,analyze-description statistic-description-save standardized as variables,(,若需要数据标准化,则进行该操作,一般在主成分分析过程中软件已自动进行了此操作),2、analyze-data reduction-Factor,3、,指定参与分析的变量,4、运行,factor,过程,34,2,案例,1:,某分析师试图对汽车销量进行预测,选择了汽车品牌、汽车外观、油耗等,10,个 变量作为影响变量(即自变量)(见数据,car_sales.sav,)。但是,这些影响变
19、量之间存在相关关系,分析师担心直接进行回归预测会引起分析结果偏误。,分析师首先对,10,个影响变量进行主成分分析,将其转化少数几个无相关关系的新变量。,(,1,)可用新变量与销量进行回归预测,(,2,)依据新变量,对各品牌汽车进行评价,35,2,(01)选择分析变量,选,SPSS,分析,Analyze,菜单中的(降维,Data Reduction)(Factor),出现【因子分析,Factor Analysis】,对话框;,在【因子,Factor Analysis】,对话框中左边的原始变量中,选择将进行因子分析的变量选入(变量,Variables),栏。,36,2,(02)设置描述性统计量,在
20、【,Factor Analysis】,框中选【描述,Descriptives】,按钮,出现【描述统计,Descriptives】,对话框;,选择原始分析结果,Initial solution,选项,选择系数,Coefficients,选项,点击(继续,Contiue),按钮确定。,显示相关系数矩阵:检验原始变量有无相关关系,显示,共同度表,,反映每个原始变量的信息有多少被新变量提取了,37,2,38,2,主成分分析前提条件,相关性分析:,分析方法主要有:,1)计算相关系数矩阵,(,correlation coefficients matrix),如果相关系数矩阵中的大部分相关系数值均小于0.3
21、,即各变量间大多为弱相关,原则上这些变量不适合进行因子分析。,2)计算反映象相关矩阵,(,Anti-image correlation matrix),如果其主对角线外的元素大多绝对值较小,对角线上的元素值较接近1,则说明这些变量的相关性较强,适合进行因子分析。,39,2,其中主对角线上的元素为某变量的,MSA(Measure of Sample Adequacy):,是变量 和变量 ()间的简单相关系数;是变量 和变量 ()在控制了其他变量影响下的偏相关系数,即净相关系数。取值在0和1之间,越接近1,意味着变量 与其他变量间的相关性越强,越接近0则相关性越弱。,40,2,3)巴特利特球度检验
22、(,Bartlett test of sphericity),该检验以原有变量的相关系数矩阵为出发点,其零假设,H0,是:相关系数矩阵为单位矩阵,即相关系数矩阵主对角元素均为1,非主对角元素均为0。(即,原始变量之间无相关关系,)。,依据相关系数矩阵的行列式计算可得其近似服从卡方分布。如果统计量卡方值较大且对应的,sig,值小于给定的显著性水平,a,时,零假设不成立。即说明相关系数矩阵不太可能是单位矩阵,变量之间存在相关关系,适合做因子分析。,41,2,4),KMO(Kaiser-Meyer-Olkin),检验,KMO,检验的统计量是用于比较变量间简单相关系数矩阵和偏相关系数的指标,数学定义为
23、:,KMO,与,MSA,区别是它将相关系数矩阵中的所有元素都加入到了平方和计算中。,KMO,值越接近1,意味着变量间的相关性越强,原有变量适合做因子分析;越接近0,意味变量间的相关性越弱,越不适合作因子分析。,Kaiser,给出的,KMO,度量标准:0.9以上非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。,42,2,(03)设置对主成分或因子的提取选项,在【因子分析,Factor Analysis】,框中点击【抽取,Extraction】,按钮,出现【因子分析:抽取,Factor Analysis:Extraction】,对话框;,在方法,Method,
24、栏中选择(主成分,Principal components),选项;,在分析,Analyze,栏中选择相关性矩阵,Correlation matrix,选项(基于相关系数求解主成分);,在输出,Display,栏中选择未旋转的因子解,Unrotated factor solution,选项(主成分载荷矩阵);,在抽取,Extract,栏中选择基于特征根,Eigenvalues over,并填上 1(依据特征根大于,1,的原则提取主成分);,点击(继续,Continue),按钮确定,回到【因子分析,Factor Analysis】,对话框中。,43,2,44,2,(04)设置主成分得分(或因子得
25、分),在【因子分析,Factor Analysis】,对话框中,点击【得分,Scores】,按钮,出现【因子分析:因子得分,Factor Analysis:Scores,对话框。,选择保存为变量,save as variable,(,将新变量得分值保存到数据文件,)。,选择,display factor score coefficient matrix,(,显示主成分表达式的系数矩阵,),点击(继续,Contiue),按钮确定,回到【因子分析,Factor Analysis】,对话框。,45,2,46,2,(05)设置主成分分析(或因子分析)的选项,在【因子分析,Factor Analysis
26、】,对话框中,单击【选项,Options】,按钮,出现【因子分析:选项,Factor Analysis:Options,对话框。,缺失值,Missing Values,栏中的,Exclude cases listwise,按列表排除个案,Coefficient Display Format(,系数显示格式)中的按大小排序,Sorted by size,表示依据主成分(因子)载荷量排序;“取消小系数,Suppress absolute values less than”,,默认为0.1;表示列示所有载荷量大于0.1的载荷系数。,47,2,48,2,分析结果:,1.描述性统计,均值、标准差等的描述
27、,Descriptive,Statistics,Vehicle type,.26,.442,152,Price in thousands,27.33182,14.418669,152,Engine size,3.049,1.0498,152,Horsepower,184.81,56.823,152,Wheelbase,107.414,7.7178,152,Width,71.089,3.4647,152,Length,187.059,13.4712,152,Curb weight,3.37618,.636593,152,Fuel capacity,17.959,3.9376,152,Mean,S
28、td.Deviation,Analysis N,Fuel efficiency,23.84,4.305,152,49,2,2.相关系数矩阵,描述原始变量之间是否存在相关关系,相关系数矩阵众对角线外的元素不全为,0,,而且很多的相关系数大于,0.5,,这表明原始变量之间有相关关系,适合进行主成分分析。,50,2,3.共同度表,Communalities,Vehicle type,1.000,.930,Price in thousands,1.000,.876,Engine size,1.000,.843,Horsepower,1.000,.933,Wheelbase,1.000,.881,Wid
29、th,1.000,.776,Length,1.000,.919,Curb weight,1.000,.891,Fuel capacity,1.000,.861,Initial,Extraction,Fuel efficiency,1.000,.860,Extraction Method:Principal Component Analysis.,Communalities,(共同度),:每个原始变量的变异(信息)有多少可被主成分解释,.,Initial,:,每个原始变量的变异(信息,)有多少可被所有的主成分解释。基于相关系数进行分析时,,该值都为,1,。,Extraction,:,每个原始变量
30、的信息有多少被提取的主成分给提取了。(提取的主成分包含了每个原始变量的信息多少),如果共同度中,extraction,值越高,这意味着提取的主成分能很好的代表原始变量。如果,extraction,值很低,我们则需要再提取一个或多个主成分,0.930,,,0.876,分别代表原始变量,vehicle type,和,price,等有,93%,和,87.6%,被我们提取的主成分提取了。,基于协方差进行分析时,每个变量的,Initial,又是如何呢,?,51,2,4.碎石图(陡坡检查),除去坡线平坦部分的主成分(因子),图中第三个因子以后较为平坦,故保留3个因子,碎石图有助于我们确定最优的主成分个数。
31、横轴代表第几主成分,纵轴代表相应主成分的特征值(方差)。,通常,提取碎石图较为陡峭部分的主成分;,斜坡处的主成分的方差贡献较小,不考虑,原始变量的信息遗漏也较少。,陡坡与斜坡的转折点在第,3,和第,4,主成分之间,从第,4,至第,10,主成分的方差很小且差别不大,所以该例提取,3,个主成分较为合适。,52,2,5.方差贡献率表,取特征值大于 1 的因子,共有3 个,分别(5.994)(1.654)(1.123);,方差贡献率分别为(59.94%)(16.54%)(11.23%),Total variance explained,Extraction Method:Principal Compo
32、nent Analysis.,1,5.994,59.938,59.938,5.994,59.938,59.938,2,1.654,16.545,76.482,1.654,16.545,76.482,3,1.123,11.227,87.709,1.123,11.227,87.709,4,.339,3.389,91.098,5,.254,2.541,93.640,6,.199,1.994,95.633,7,.155,1.547,97.181,8,.130,1.299,98.480,9,.091,.905,99.385,Component,Initial Eigenvalues,Extraction
33、 Sums of Squared Loadings,Total,%,of Variance,Cumulative%,Total,%,of Variance,Cumulative%,10,.061,.615,100.000,Total,这栏给出的是特征根,即每个主成分的方差(或者说,所有原始变量的信息有多少落到各个主成分上去),.,%of Variance,这栏代表主成分的方差贡献率,即每个主成分方差占原始变量总方差的比率,.,Cumulative%,这栏代表累积方差贡献率,即为前,n,个主成分的方差贡献率之和。如累积贡献率,76.482%=,第一主成分的方差贡献,59.938%+,第二主成分的
34、方差贡献,16.545,.,原始变量有,10,个,提取了,10,个主成分,且,10,个主成分的方差之和,=10,个原始变量的方差之和;依据特征根大于,1,,我们提取了,3,个主成分。,53,2,6.主成分(因子载荷)矩阵表,Component Matrix(a),Vehicle type,.471,.533,-.651,Price in thousands,.580,-.729,-.092,Engine size,.871,-.290,.018,Horsepower,.740,-.618,.058,Wheelbase,.732,.480,.340,Width,.821,.114,.298,Le
35、ngth,.719,.304,.556,Curb weight,.934,.063,-.121,Fuel capacity,.885,.184,-.210,Component,1,2,3,Fuel efficiency,-.863,.004,.339,Extraction Method:Principal Component Analysis.,a 3 components extracted.,主成分载荷矩阵表主要反映原始变量和主成分的相关关系,有助于我们进行主成分的解释。,.,其中:第一主成分与,Engine size,Horsepower,Wheelbase,width,length,c
36、urb weight,Fuel capacity,Fuel efficiency,等高度相关,.,第二主成分与,Price in thousands,高度相关,.,第三主成分与,Vehicle type,高度相关,.,从该表我们也可看到原始变量的信息如何被各个主成分提取的。如:,Var,(,Vehicle type,*,),=0.471,2,+0.533,2,+(-0.651),2,Var,(,Fuel efficiency,*,),=(-,0.863),2,+0.004,2,+,0.339,2,根据该表我们可写出因子分析模型,:,Vehicle type,*,=0.471,f1,+0.533
37、,f2,-0.651,f3,Fuel efficiency,*,=-,0.863,f1,+0.004,f2,-0.339,f3,从该表也可得到每个主成分方差是如何从各原始变量中提取的,:,Var(,f,1,)=0.471,2,+0.580,2,+0.871,2,+.+(-0.863),2,Var(,f,2,),=0.53,3,2,+(-0.729),2,+,(-0.290),2,+(0.004),2,Var(,f,3,),=(-0.651),2,+(-0.092),2,+0.018,2,+(0.339),2,54,2,7.主成分(因子)得分系数表,Component Score Coeffic
38、ient Matrix,Vehicle type,.079,.322,-.579,Price in thousands,.097,-.440,-.082,Engine size,.145,-.175,.016,Horsepower,.124,-.373,.052,Wheelbase,.122,.290,.302,Width,.137,.069,.266,Length,.120,.184,.495,Curb weight,.156,.038,-.108,Fuel capacity,.148,.111,-.187,Component,1,2,3,Fuel efficiency,-.144,.002
39、,.302,Extraction Method:Principal Component Analysis.,依据该表,我们可写出主成分分析模型,:,f,1,*,=0.079,Vehicletype,*,+0.097Price,*,+0.145 Engine size,*,+-0.144 Fuel efficiency,*,.,每个样本的原始变量信息带入以上模型,我们则可得到每个样本,:,f,1,*,f,2,*,f,3,*,的取值。依据该取值我们可评价哪些品牌汽车在外观及油耗性能(,f,1,*,)上占优或处于劣势;哪些在,f,2,*,(汽车价位)上占优或处于劣势;,,要提升各品牌汽车应从何着手。
40、,综合,f,1,*,f,2,*,f,3,*,的信息对各种品牌汽车的进行综合评价,依据各主成分的方差贡献产生新变量:,f,=0.5999,f,1,*,+0.165,f,2,*,+0.112,f,3,*,55,2,8.主成分(因子)得分协方差矩阵,Component Score Covariance Matrix,1,1.000,.000,.000,2,.000,1.000,.000,Component,1,2,3,3,.000,.000,1.000,Extraction Method:Principal Component Analysis.,该矩阵为单位阵,意味着主成分之间互不相关。,56,2
41、,以上例子是采用基于相关系数求解主成分,试用协方差矩阵求解,结果如何?,由协方差矩阵或相关系数矩阵求解主成分,结果一致吗,?应,如何选择,?,57,2,主成分分析求解应注意的问题:,1,、由协方差矩阵出发求解主成分所得的结果与由相关系数矩阵求解主成分所得结果有很大不同:所得的主成分的方差贡献率与主成分表达式均有显著差别。,(,1,)一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标,不直接由其协方差矩阵进行主成分分析,而应该考虑将数据标准化。(若不标准化,则基于相关系数矩阵进行主成分分析),例:对上市公司的财务状况进行分析时,常常涉及利润总额、市盈率、每股净利率等。其中利润总额取
42、值常在几十万到上百万或千万,市盈率一般取值在五到六七十之间,而每股净利率在,1,以下,不同指标取值范围相差很大,若直接用协方差矩阵进行主成分分析,利润总额的作用将起重要支配作用,而其他两个指标的作用很难在主成分中体现出来,此时应该考虑对数据进行标准化处理。,58,2,(,2,)对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。因为:对数据标准化的过程实际上也就是抹杀原始变量离散程度差异的过程,标准化后的各变量方差相等均为,1,,而方差是数据信息的重要概括形式。数据标准化后抹杀了一部分重要信息,使得标准化后各变量在对主成分构成中的作用趋于相等。,对于采用何种方法求解主成分没
43、有定论。在实际研究中,从不同角度求解并研究其结果的差别以及产生差别的原因,以确定哪种结果更为可信。,59,2,2,、主成分是有效剔除了原始变量中的重叠信息,还是按原来的模式将原始信息中的绝大部分用几个不相关的新变量表示出来,还值得讨论。,如果计算所得协方差阵(或相关系数矩阵)的最小特征值接近于,0,,则意味着中心化以后的原始变量之间存在着多重共线性问题,即原始变量存在着不可忽视的重叠信息。此时,应注意对主成分的解释,或者考虑对最初纳入分析的指标进行筛选,。,对原始变量存在多重共线性问题,在应用主成分分析时一定要慎重,应考虑所选初始变量是否合适,是否真实地反映事物的本来面目;,主成分分析不能有效
44、地剔除重叠信息,,但它至少可发现原始变量是否存在重叠信息,这对减少分析中的失误是有帮助的。,?,60,2,练习:,1.,某主管局管辖20个工厂,现要对每个工厂作经济效益分析,经研究确定从所取得的生产成果同所消耗的人力,物力,财力的比率,选取五个指标作分析,x1-,固定资产产值率,X2-,净产值劳动生产率,X3-,百元产值流动资金占用率,X4-,百元产值利润率,X5-,百元资金利润率.(数据见,ex301,),2.,职工健康(数据见,职工健康情况分析,),61,2,主成分分析在综合评价中的应用:,思想,1,:,通过主成分分析,选择,m,个主成分,y,1,y,2,y,m,,,以每个主成分,y,i,
45、的方差贡献率,i,作为权数,构造综合评价函数:,其中 为第,i,个主成分的得分。,思想,2,:,通过主成分分析,选择,m,个主成分,y,1,y,2,y,m,,,以每个主成分,y,i,占所选的,m,个主成分的方差贡献率,u,i,作为权数,构造综合评价函数:,62,2,案例:,蒋亮,罗汉,我国东西部城市经济实力比较的主成分分析,,,经济数学,,,2003,年,3,期,田波平等,主成分分析在中国上市公司综合评价中的作用,,,数学的实践与认识,,,2004,年,4,期,江冬明,主成份分析在证券市场个股评析中的应用,,,数理统计与管理,,,2001,年,3,期,63,2,例:全国重点水泥企业某年的经济效
46、益分析.,X1,为固定资产利税率,X2,为资金利税率,X3,为销售收入利税率,X4,为资金利润率,X5,为固定资产产值率,X6-,流动资金周转天数,X7-,万元产值能耗,X8-,全员劳动生产率.(数据见,ex308,),64,2,练习:,在企业经济效益的评价中,涉及的指标往往很多.为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求主成分.在对我国部分省,市,自治区独立核算的工业企业的经济效益评价中,涉及到9项指标,x1-100,元固定资产原值实现产值,X2-100,元固定资产原值实现利税,X3-100,元资金实现利税,X4-100,元工业总产值实现利税,X5-100,元
47、销售收入实现利税,X6-,每吨标准煤实现工业产值,X7-,每千瓦时电力实现工业产值,X8-,全员劳动生产率,X9-100,元流动资金实现产值(数据见,ex302,),65,2,陈耀辉,景睿,沪深股市市场收益率成因的主成份分析,,,南京航空航天大学学报,,,2000,年,2,期。,主成分用于成因分析:,66,2,王冬:,我国外汇储备增长因素主成分分析,,,北京工商大学学报,(,社会科学版,),,,2006,年,4,期。,主成分回归分析:,67,2,练习:,影响电的需求量的指标有,:(1)钢的产量,x1;(2),生铁产量,x2;(3),钢材产量,x3;(4),有色金属产量,x4;(5),原煤产量,x5;(6),水泥产量,x6;(7),机械工业总产值,x7;(8),化肥产量,x8;(9),硫酸产量,x9;(10),烧碱产量,x10;(11),棉纱产量,x11,共11个指标。收集了23年的指标值,建立发电站需求模型。(数据见,ex310,),68,