资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,主成分分析,(,Principal Component Analysis,简称,PCA,)是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。,主成分分析的一般目的是:,(1),变量的降维;,(2),主成分的解释。,分别称为第一主成份和第二主成份,.,则在,轴上,分散性,(,样本方差,),最大,4.1,总体的主成分,一、主成分的定义及导出,由此得第一主成份,.,与前面向量垂直即,:,由此得第二主成份,.,(,1,)总体主成份的求法,类似可得其余主成份的表达式,.,各主成份的方差等于相应的特征值,.,(2),总体主成份的性质,1),主成份的协方差矩阵及总方差,总方差为,主成份分析,:,把总方差分解为不相关变量,的方差和,.,2),主成份的贡献率与累计贡献率,由此可知,第,1,个主成分贡献率最大,依次而弱,.,.,求各主成分,.,(3),标准化变量的主成分,原始量纲不一,大方差不一定是主要的,有时不当,.,1),先标准化,实用中,多应从相关系数矩阵出发,.,三、样本主成分,4.3,样本主成分,设样本观测值为,其中,关于样本,有如下结论,:,依次代入,n,个观测值,得,例 对十家上市公司的获利能力和经营,发展能力,选取如下,6,个指标进行分析,下表为前,3,年关于,6,个指标的加权平均,对其做主成分分析,并按第一主成份得分,对这些公司排序,.,取前,2,个主成份,:,主成分分析的一般目的是变量的降维,总体主成分分析,标准化变量的主成份,样本主成分,下表是我国,31,个省、市、自治区城镇居民家庭,平均每人生活消费支出数据,(,元,/,人,),保存在数据,文件“,data.exam4.1.txt”,主要统计指标如下,x1,:食品支出,x2,:衣着支出,x3,:居住支出,x4,家庭设备及服务支出,x5,:交通和通信支出,x6,:文教、娱乐用品即服务支出,x7:,医疗保健支出,x8,:其它商品及服务支出,.,试应用主成分分析进行综合评价,.,x std1.x rownames(std1.x)std.x prin1 summary(prin1),#,列出主成分分析的主要结果,loadings(prin1),#,各主成分对应的系数,相关阵,R,的单位化,正交化的特征向量,screeplot(prin1,type=lines),#,画主成分的碎石图,biplot(prin1),#,画数据关于前两个主成分的散点图和原坐标在主成分下的方向,输出的主要结果,Importance of components:(,只写出前三个,),Comp.1 Comp.2 Comp.3.,Standard deviation 2.3879139 1.0139830 0.70995939.,Proportion of Variance 0.7127666 0.1285202 0.06300529.,Cumulative Proportion 0.7127666 0.8412868 0.90429210.,Standard deviation,表示主成分的标准差,也就是特征值的开方,Proportion of Variance,表示方差的贡献率,Cumulative Proportion,分别和累积贡献率,.,为各主成分对应的系数,即相关阵,R,的,单位化正交化的特征向量,.,前三个主成分为,累积贡献率达到,90%,计算各个样本的主成分值,pre cor(std1.x),y e1 e2 e3 scores scores,输出结果为,(,只写出部分结果,),碎石图,散点图,
展开阅读全文