收藏 分销(赏)

主成分分析PCA(含有详细推导过程以和案例分析matlab版).doc

上传人:精*** 文档编号:2329438 上传时间:2024-05-28 格式:DOC 页数:11 大小:316.05KB
下载 相关 举报
主成分分析PCA(含有详细推导过程以和案例分析matlab版).doc_第1页
第1页 / 共11页
主成分分析PCA(含有详细推导过程以和案例分析matlab版).doc_第2页
第2页 / 共11页
主成分分析PCA(含有详细推导过程以和案例分析matlab版).doc_第3页
第3页 / 共11页
主成分分析PCA(含有详细推导过程以和案例分析matlab版).doc_第4页
第4页 / 共11页
主成分分析PCA(含有详细推导过程以和案例分析matlab版).doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

1、主成分分析法(PCA)在实际问题中.我们经常会遇到研究多个变量的问题.而且在多数情况下.多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性.势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量.既能够代表原始变量的绝大多数信息.又互不相关.并且在新的综合变量基础上.可以进一步的统计分析.这时就需要进行主成分分析。I. 主成分分析法(PCA)模型(一)主成分分析的基本思想主成分分析是采取一种数学降维的方法.找出几个综合变量来代替原来众多的变量.使这些综合变量能尽可能地代表原来变量的信息量.而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的

2、统计分析方法就叫做主成分分析或主分量分析。主成分分析所要做的就是设法将原来众多具有一定相关性的变量.重新组合为一组新的相互无关的综合变量来代替原来变量。通常.数学上的处理方法就是将原来的变量做线性组合.作为新的综合变量.但是这种组合如果不加以限制.则可以有很多.应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为.自然希望它尽可能多地反映原来变量的信息.这里“信息”用方差来测量.即希望越大.表示包含的信息越多。因此在所有的线性组合中所选取的应该是方差最大的.故称为第一主成分。如果第一主成分不足以代表原来个变量的信息.再考虑选取即第二个线性组合.为了有效地反映原来信息.已有的信息就不需

3、要再出现在中.用数学语言表达就是要求.称为第二主成分.依此类推可以构造出第三、四第个主成分。(二)主成分分析的数学模型对于一个样本资料.观测个变量.个样品的数据资料阵为:其中:主成分分析就是将个观测变量综合成为个新的变量(综合变量).即简写为: 要求模型满足以下条件:互不相关(.)的方差大于的方差大于的方差.依次类推 于是.称为第一主成分.为第二主成分.依此类推.有第个主成分。主成分又叫主分量。这里我们称为主成分系数。上述模型可用矩阵表示为:.其中 称为主成分系数矩阵。(三)主成分分析的几何解释假设有个样品.每个样品有二个变量.即在二维空间中讨论主成分的几何意义。设个样品在二维空间中的分布大致

4、为一个椭园.如下图所示:图1 主成分几何解释图将坐标系进行正交旋转一个角度.使其椭圆长轴方向取坐标.在椭圆短轴方向取坐标.旋转公式为写成矩阵形式为:其中为坐标旋转变换矩阵.它是正交矩阵.即有.即满足。经过旋转变换后.得到下图的新坐标:图2 主成分几何解释图新坐标有如下性质:(1)个点的坐标和的相关几乎为零。(2)二维平面上的个点的方差大部分都归结为轴上.而轴上的方差较小。和称为原始变量和的综合变量。由于个点在轴上的方差最大.因而将二维空间的点用在轴上的一维综合变量来代替.所损失的信息量最小.由此称轴为第一主成分.轴与轴正交.有较小的方差.称它为第二主成分。II. 主成分分析法(PCA)推导一、

5、主成分的导出 根据主成分分析的数学模型的定义.要进行主成分分析.就需要根据原始数据.以及模型的三个条件的要求.如何求出主成分系数.以便得到主成分模型。这就是导出主成分所要解决的问题。1、根据主成分数学模型的条件要求主成分之间互不相关.为此主成分之间的协差阵应该是一个对角阵。即.对于主成分.其协差阵应为.=2、设原始数据的协方差阵为.如果原始数据进行了标准化处理后则协方差阵等于相关矩阵.即有.3、再由主成分数学模型条件和正交矩阵的性质.若能够满足条件最好要求为正交矩阵.即满足于是.将原始数据的协方差代入主成分的协差阵公式得展开上式得展开等式两边.根据矩阵相等的性质.这里只根据第一列得出的方程为:

6、为了得到该齐次方程的解.要求其系数矩阵行列式为0.即显然.是相关系数矩阵的特征值.是相应的特征向量。根据第二列、第三列等可以得到类似的方程.于是是方程的个根.为特征方程的特征根.是其特征向量的分量。4、下面再证明主成分的方差是依次递减设相关系数矩阵的个特征根为.相应的特征向量为相对于的方差为同样有:.即主成分的方差依次递减。并且协方差为:综上所述.根据证明有.主成分分析中的主成分协方差应该是对角矩阵.其对角线上的元素恰好是原始数据相关矩阵的特征值.而主成分系数矩阵的元素则是原始数据相关矩阵特征值相应的特征向量。矩阵是一个正交矩阵。于是.变量经过变换后得到新的综合变量新的随机变量彼此不相关.且方

7、差依次递减。二、主成分分析的计算步骤假设样本观测数据矩阵为:第一步:对原始数据进行标准化处理。 其中 第二步:计算样本相关系数矩阵。为方便.假定原始数据标准化后仍用表示.则经标准化处理后的数据的相关系数为: 第三步:用雅克比方法求相关系数矩阵的特征值()和相应的特征向量。第四步:选择重要的主成分.并写出主成分表达式。主成分分析可以得到个主成分.但是.由于各个主成分的方差是递减的.包含的信息量也是递减的.所以实际分析时.一般不是选取个主成分.而是根据各个主成分累计贡献率的大小选取前个主成分.这里贡献率就是指某个主成分的方差占全部方差的比重.实际也就是某个特征值占全部特征值合计的比重。即贡献率=贡

8、献率越大.说明该主成分所包含的原始变量的信息越强。主成分个数的选取.主要根据主成分的累积贡献率来决定.即一般要求累计贡献率达到85%以上.这样才能保证综合变量能包括原始变量的绝大多数信息。另外.在实际应用中.选择了重要的主成分后.还要注意主成分实际含义解释。主成分分析中一个很关键的问题是如何给主成分赋予新的意义.给出合理的解释。一般而言.这个解释是根据主成分表达式的系数结合定性分析来进行的。主成分是原来变量的线性组合.在这个线性组合中个变量的系数有大有小.有正有负.有的大小相当.因而不能简单地认为这个主成分是某个原变量的属性的作用.线性组合中各变量系数的绝对值大者表明该主成分主要综合了绝对值大

9、的变量.有几个变量系数大小相当时.应认为这一主成分是这几个变量的总和.这几个变量综合在一起应赋予怎样的实际意义.这要结合具体实际问题和专业.给出恰当的解释.进而才能达到深刻分析的目的。第五步:计算主成分得分。根据标准化的原始数据.按照各个样品.分别代入主成分表达式.就可以得到各主成分下的各个样品的新数据.即为主成分得分。具体形式可如下。第六步:依据主成分得分的数据.则可以进行进一步的统计分析。其中.常见的应用有主成份回归.变量子集合的选择.综合评价等。III. 主成分分析法(PCA)案例为了系统的分析某IT类企业的经济效益.选择统计了8个不同的利润指标.15家企业关于这8个指标的统计数据如下所

10、示.试对此进行主成分分析.并进行相关评价。 15家企业的利润指标的统计数据变量企业序号净产值利润率(%) 固定资产利润率(%) 总产值利润率(%)销售收入利润率(%)产品成本利润率(%)物耗利润率(%)人均利润率 (千元/人) 流动资金利润率(%)140.424.77.26.18.38.72.44220.0225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50.5783.6422.36.75.63.76.07.40.1767.3534.311.87.17.18.08.91.72627.5635.612.516.416.722.829.33.

11、01726.6722.07.89.910.212.617.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.8743.9121.80.60.70.70.81.10.0561.01332.313.99.48.39.813.32.12617.11438.59.111.39.512.216.41.32711.61526.210.15.615.67.730.10.12625.9解:根据题目中

12、的数据.利用matlab软件编程求解.对问题进行主成分分析。求解结果如下:1.标准化结果如下:v = 1.0023 2.3473 -0.3410 -0.5714 -0.3496 -0.6574 0.9030 0.4483 -0.2286 0.3072 0.4774 0.3896 0.2835 0.4309 1.9108 -0.6218 -1.1718 -1.2909 -1.0162 -0.9244 -0.8863 -0.9603 -0.8049 -1.1617 -0.4444 -0.7129 -0.6684 -1.0421 -0.6661 -0.7805 -1.1732 -0.7985 0.5

13、148 0.1541 -0.3615 -0.3752 -0.3909 -0.6385 0.2470 1.1846 0.6187 0.2732 1.5414 1.5075 1.6460 1.2922 1.4298 1.0963 -0.4684 -0.5259 0.2114 0.2327 0.2422 0.1849 -0.5584 -0.4745 1.6418 0.4262 0.4160 0.1739 0.0083 -0.1653 0.2891 0.2323 1.0183 1.3952 2.2371 1.9586 2.5956 2.2670 0.9094 1.9995 -0.2446 -0.491

14、9 0.1910 -0.0222 0.1459 0.0524 -0.6115 -0.1702 -1.2277 -0.2029 -0.9549 -0.9440 -0.8588 -0.8656 -0.5337 -1.1323 -2.0830 -1.7500 -1.6710 -1.6304 -1.3818 -1.3767 -1.2831 -1.4170 0.3549 0.5112 0.1091 -0.1399 -0.1431 -0.2221 0.6134 0.1636 0.8505 -0.3049 0.4979 0.0954 0.1872 0.0713 -0.1186 -0.3763 -0.1327

15、 -0.1349 -0.6684 1.2918 -0.4321 1.3679 -1.2190 1.02762.相关系数矩阵:std = 1.0000 0.7630 0.7017 0.5868 0.5959 0.4896 0.5973 0.7300 0.7630 1.0000 0.5504 0.4667 0.5158 0.4196 0.7046 0.6717 0.7017 0.5504 1.0000 0.8407 0.9760 0.8161 0.6941 0.6825 0.5868 0.4667 0.8407 1.0000 0.8667 0.9823 0.4926 0.7938 0.5959 0

16、.5158 0.9760 0.8667 1.0000 0.8667 0.6260 0.7153 0.4896 0.4196 0.8161 0.9823 0.8667 1.0000 0.4216 0.7505 0.5973 0.7046 0.6941 0.4926 0.6260 0.4216 1.0000 0.4656 0.7300 0.6717 0.6825 0.7938 0.7153 0.7505 0.4656 1.00003.特征向量(vec)及特征值(val):vec = 0.2182 0.1370 -0.2781 0.2283 0.6727 0.3115 0.3788 0.3334 -

17、0.0745 -0.1102 -0.2276 -0.5733 -0.4046 0.1871 0.5562 0.3063 -0.7186 -0.0520 0.1186 -0.2240 0.3874 -0.3182 -0.1148 0.3900 0.0386 -0.6914 -0.3808 0.2788 -0.1547 0.0888 -0.3508 0.3780 0.6385 -0.0660 0.3451 -0.4158 0.1518 -0.2715 -0.2254 0.3853 -0.0123 0.6864 -0.3738 -0.0066 -0.2554 0.0696 -0.4337 0.361

18、6 0.0675 0.1057 0.0716 0.5033 -0.2816 -0.6189 0.4147 0.3026 -0.1286 0.0413 0.6692 0.2552 -0.2055 0.5452 -0.0031 0.3596val = 0.0027 0 0 0 0 0 0 0 0 0.0060 0 0 0 0 0 0 0 0 0.1369 0 0 0 0 0 0 0 0 0.1456 0 0 0 0 0 0 0 0 0.2858 0 0 0 0 0 0 0 0 0.5896 0 0 0 0 0 0 0 0 1.0972 0 0 0 0 0 0 0 0 5.7361特征根从大到小排序

19、:5.736141.097230.5896340.2857910.145620.1368830.005986810.002710844.根据累计贡献率.假设阈值为90%.选出主成分.计算如下:贡献率:newrate = 0.7170 0.1372 0.0737 0.0357 0.0182 0.0171 0.0007 0.0003主成分数:3主成分载荷: 0.7985 0.3968 0.2392 0.7336 0.5826 0.1436 0.9340 -0.1202 -0.2443 0.9052 -0.3674 0.0682 0.9228 -0.2361 -0.2085 0.8661 -0.45

20、43 0.0535 0.7246 0.4344 -0.4752 0.8613 -0.0032 0.41865.计算得分.倒数第二列表示的是各企业的得分情况.最后一列表示的是各企业的排序顺序:score = 1.8350 2.7882 0.4175 5.0408 3.0000 2.3254 0.4571 -1.3051 1.4774 7.0000 -6.9020 -0.4556 -0.2508 -7.6085 14.0000 -5.2739 -0.1237 0.2040 -5.1937 12.0000 0.1324 0.9612 0.6339 1.7275 5.0000 8.1171 -0.69

21、26 -0.5812 6.8432 2.0000 -0.7813 -0.9854 -0.1972 -1.9640 11.0000 2.4436 0.9838 0.3134 3.7409 4.0000 12.4388 -1.0258 0.0159 11.4289 1.0000 -0.8076 -0.7218 0.0144 -1.5150 10.0000 -5.7797 0.2241 -0.2415 -5.7971 13.0000 -10.6013 -0.6473 -0.2214 -11.4700 15.0000 0.8947 0.8776 -0.0830 1.6893 6.0000 0.8313 -0.0620 -0.0919 0.6774 9.0000 1.1278 -1.5779 1.3731 0.9230 8.0000可以看出.第9家企业的综合效益最好.第12家企业的综合效益最差。. .

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 考试专区 > 中考

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服