资源描述
主成分分析法主成分分析法(MATLAB应用应用)第一组:吴伟、李璇、朱璇2024/5/21 周二1应用matlab进行主成分分析pca步骤简介1相关函数简介2案例分析3数据分析42024/5/21 周二2主成分分析简介主成分分析(principal component analysis,简称PCA)是在处理数据时,在保留绝大多数信息的条件下将多个变量综合为几个主要变量,进而在新的综合变量基础上,对数据进一步的分析解释及推断的一种方法。2024/5/21 周二3pca步骤第一步:对原始数据进行第一步:对原始数据进行标准化标准化处理;处理;第二步:计算标准化后数据数组第二步:计算标准化后数据数组协方差矩阵或相关矩阵协方差矩阵或相关矩阵;第三步:求协方差矩阵的第三步:求协方差矩阵的特征值和相应的特征向量;特征值和相应的特征向量;第四步:计算主第四步:计算主成份贡献率及累计贡献率成份贡献率及累计贡献率;第五步:依据方差贡献率选取第五步:依据方差贡献率选取主成份主成份;第六步:计算主成份第六步:计算主成份得分得分;第七步:结论解释与推断。第七步:结论解释与推断。2024/5/21 周二4相关函数简介std(x)%求矩阵x的标准差;zscore(x)%对矩阵x进行标准化;cov(x)%求矩阵x的协方差矩阵;corrcoef(x)%求矩阵x的相关系数矩阵;coeff,latent,explained=pcacov(x)%对x进行主成分分析;sum(x)%对向量x求和;cumsum(x)%表示x向量不同维数的累加和,x向量中第m行的元素是A中第1行到第m行的所有元素累加和。2024/5/21 周二5相关函数介绍pcacov函数介绍:格式:coeff,latent,explained=pcacov(x)coeff表示各个主成分的系数;latent表示矩阵特征值;explained:每个特征向量表征在观测量总方差中所占的百分数也就是各个主成分的贡献率。2024/5/21 周二67一:标准化数据 stddata=zscore(x);二:求协方差矩阵或相关系数矩阵 covtrix=cov(stddata)或 cortrix=corrcoef(stddata)三:求矩阵特征值和相应的特征向量 coeff,latent,explained=pcacov(covtrix)或coeff,latent,explained=pcacov(cortrix)matlab主成分分析步骤2024/5/21 周二四:计算主成份贡献率及累计贡献率四:计算主成份贡献率及累计贡献率步骤三中步骤三中pcacovpcacov函数中返回的函数中返回的explainedexplained即即主成分贡献率;主成分贡献率;累积贡献率:累积贡献率:per=100*cumsum(latent)./sum(latent)per=100*cumsum(latent)./sum(latent)五:选取主成分五:选取主成分六:计算各主成份得分六:计算各主成份得分 score=stddata*coeffscore=stddata*coeff七:结论解释与推断七:结论解释与推断2024/5/21 周二8案例分析 我们对江苏省十个城市的生态环境状况进行了调查,得到生态环境指标的指数值,见表1。现对生态环境水平分析和评价。2024/5/21 周二9案例分析 在matlab中输入观察数据:x=0.7883 0.7633 0.4745 0.8246 0.8791 0.9538 0.8785 0.6305 0.8928 0.7391 0.7287 0.5126 0.7603 0.8736 0.9257 0.8542 0.6187 0.7831 0.8111 0.7629 0.8810 0.6888 0.8183 0.9285 0.8537 0.6313 0.5608 0.6587 0.8552 0.8903 0.8977 0.9446 0.9434 0.9027 0.7415 0.8419 0.6543 0.7564 0.8288 0.7926 0.9202 0.9154 0.8729 0.6398 0.8464 0.8259 0.7455 0.7850 0.7856 0.9263 0.8871 0.8485 0.6142 0.7616 0.8486 0.7800 0.8032 0.6509 0.9185 0.9357 0.8473 0.5734 0.8234 0.6834 0.9490 0.8862 0.8902 0.9505 0.8760 0.9044 0.8980 0.6384 0.8495 0.8918 0.3987 0.6799 0.8620 0.9579 0.8866 0.6186 0.9604 0.7846 0.8954 0.3970 0.9877 0.8873 0.9741 0.9035 0.7382 0.85142024/5/21 周二10案例分析 一:标准化数据 stddata=zscore(x);标准化后数据2024/5/21 周二11案例分析 二:求协方差矩阵或相关系数矩阵 covtrix=cov(stddata);协方差矩阵2024/5/21 周二12案例分析 三:求矩阵特征值和相应的特征向量 coeff,latent,explained=pcacov(covtrix)各特征向量即各主成分荷载系数2024/5/21 周二13案例分析四:计算主成份累计贡献率四:计算主成份累计贡献率per=100*cumsum(latent)./sum(latent)per=100*cumsum(latent)./sum(latent)五:选取主成分五:选取主成分六:计算各主成份得分六:计算各主成份得分 score=stddata*coeffscore=stddata*coeff累计贡献率个主成分得分2024/5/21 周二14数据分析 七:结论解释与推断七:结论解释与推断 第一主成分贡献率为第一主成分贡献率为43.1243.12,第二主成分贡献率为,第二主成分贡献率为29.3429.34,第三主成分贡献率为,第三主成分贡献率为11.9711.97,前三个主成分累计贡献率达前三个主成分累计贡献率达84.2484.24。如果按如果按8080 以上的信息量选取新因子,则可以选取前三个新因子。以上的信息量选取新因子,则可以选取前三个新因子。第一新因子第一新因子z1 z1 包含的信息量最大为包含的信息量最大为43.1243.12,它的主要代表变量为,它的主要代表变量为X8(0.4815X8(0.4815城市文明城市文明)、X7(0.4236X7(0.4236生产效率生产效率)、X4(0.4048X4(0.4048城市绿化城市绿化),),这三个变量与生态环境水平密切相关,这三个变量与生态环境水平密切相关,第一主成分是人为因素的影响。第一主成分是人为因素的影响。2024/5/21 周二15数据分析 第二新因子第二新因子Z2Z2包含的信息量次之为包含的信息量次之为29.3429.34,它的主要代表变量为,它的主要代表变量为X3(-0.5299X3(-0.5299地地理结构理结构)、X6(0.5273X6(0.5273资源配置资源配置)、X9(0.4589X9(0.4589可持续性可持续性),第二主成分是自然因,第二主成分是自然因素的影响。素的影响。第三新因子第三新因子Z3Z3包含的信息量为包含的信息量为11.9711.97,代表变量为,代表变量为 X9(0.5933 X9(0.5933可持续性可持续性)、X5(0.5664X5(0.5664物质还原物质还原),其他的变量荷载值都很小。因此,第三主成分表示可,其他的变量荷载值都很小。因此,第三主成分表示可持续性和物质还原对环境水平的影响。持续性和物质还原对环境水平的影响。根据前三个主成分得分,用其贡献率加权,即得十个城市各自的综合得分根据前三个主成分得分,用其贡献率加权,即得十个城市各自的综合得分2024/5/21 周二16数据分析 根据得分情况排序,结果见下表。根据得分情况排序,结果见下表。2024/5/21 周二17 THANKS2024/5/21 周二18
展开阅读全文