收藏 分销(赏)

数学建模主成分分析市公开课一等奖百校联赛特等奖课件.pptx

上传人:精**** 文档编号:4126303 上传时间:2024-07-31 格式:PPTX 页数:76 大小:1,011.73KB
下载 相关 举报
数学建模主成分分析市公开课一等奖百校联赛特等奖课件.pptx_第1页
第1页 / 共76页
数学建模主成分分析市公开课一等奖百校联赛特等奖课件.pptx_第2页
第2页 / 共76页
数学建模主成分分析市公开课一等奖百校联赛特等奖课件.pptx_第3页
第3页 / 共76页
数学建模主成分分析市公开课一等奖百校联赛特等奖课件.pptx_第4页
第4页 / 共76页
数学建模主成分分析市公开课一等奖百校联赛特等奖课件.pptx_第5页
第5页 / 共76页
点击查看更多>>
资源描述

1、主成份分析主成份分析Principal component analysis第1页主成份分析基本思想主成份分析基本思想主成份数学模型与几何解释主成份数学模型与几何解释主成份推导主成份推导主成份分析应用主成份分析应用主成份回归主成份回归第2页主成份分析,是一个经过主成份分析,是一个经过降维降维来简化数据结构方法:来简化数据结构方法:把把多个多个变量化为变量化为少数少数几个综合变量(综合指标)几个综合变量(综合指标),而而这这几几个个综综合合变变量量能能够够反反应应原原来来多多个个变变量量大大部部分分信信息息,(85%85%以以上上),所所含含信信息息又又互互不不重重合合,即即各各个个指指标标它它

2、们之间要相互们之间要相互独立独立,互不相关互不相关。主成份分析主要起着主成份分析主要起着降维降维和和简化数据结构简化数据结构作用。作用。这些综合变量就叫这些综合变量就叫因子因子或或主成份主成份,它是不可观察,即,它是不可观察,即它不是详细变量它不是详细变量,只是几个指标只是几个指标综合综合。1 基本思想第3页例:小学各科成绩例:小学各科成绩评定评定能够用下面能够用下面综合综合成绩来表达:成绩来表达:a1a1语文语文a2a2数学数学a3a3自然自然a4a4社会科学社会科学 确定权重系数过程就能够看作是确定权重系数过程就能够看作是主成份主成份分析分析过程,得到加权成绩总和就相对于过程,得到加权成绩

3、总和就相对于新综合变量新综合变量主成份主成份 主成份分析法是一个惯用基于变量主成份分析法是一个惯用基于变量协方差矩阵协方差矩阵对信息进行处理、压缩和抽提有效方法。对信息进行处理、压缩和抽提有效方法。第4页为何要依据方差确定主成份?为何要依据方差确定主成份?为何要依据方差确定主成份?为何要依据方差确定主成份?情形情形II II下总分方差为下总分方差为0 0,显然不能反应三个学生各科,显然不能反应三个学生各科成绩各有所长实际情形,而成绩各有所长实际情形,而红色红色标识变量对应方差最标识变量对应方差最大,可反应原始数据大部分信息大,可反应原始数据大部分信息第5页对主成份要求对主成份要求对主成份要求对

4、主成份要求 上例可见,用上例可见,用总分总分 有时能够反应原分数表情况,保留原有信息;有时能够反应原分数表情况,保留原有信息;有时则把信息丢尽,不能反应原理情况和差异。有时则把信息丢尽,不能反应原理情况和差异。依据总分所对应依据总分所对应方差方差能够确定其代表了多大能够确定其代表了多大 百分比原始数据(分数)信息。百分比原始数据(分数)信息。普通来说,我们希望能用一个或少数几个综合指普通来说,我们希望能用一个或少数几个综合指标(分数)来标(分数)来代替代替原来分数表做统计分析,而且希原来分数表做统计分析,而且希望新综合指标能够尽可能地保留原有信息,并含有望新综合指标能够尽可能地保留原有信息,并

5、含有最大方差。最大方差。第6页2 2 数学模型与几何解释数学模型与几何解释 假设我们所讨论实际问题中,有假设我们所讨论实际问题中,有p p个指标,我个指标,我们把这们把这p p个指标看作个指标看作p p个随机变量,记为个随机变量,记为X1,X2,Xp,主成份分析就是要把这主成份分析就是要把这p p个指标问题,转变为讨论个指标问题,转变为讨论 m m 个新个新指标指标F1,F2,Fm (m|t|Intercept x1X2x31111-10.12799-0.051400.586950.286851.212160.070280.094620.10221-8.36-0.73 6.202.810.00

6、01 0.48830.00040.0263Parameter EstimatesDependent Mean 21.89091R-Square0.9919Root MSE 0.48887Adj R-Sq0.9884Summary of Fit第57页F1F2F3x1X2x30.70630.04350.7065-0.03570.9990-0.02580.70700.0070-0.7072EigenvectorsEigenvalueDifference ProportionCumulativePCR1PCR2PCR31.9992 0.99820.00261.00100.99550.6664 0.3

7、327 0.00090.6664 0.99911.0000Eigenvalues of the Correlation MatrixF1=0.7063x1+0.0435x2+0.7065x3F2=-0.0357x1+0.9990 x2-0.0258x3第58页 Obs x1 x2 x3 y*F1 F2 F3 1 -1.50972 0.54571 -1.53319 -1.31852 -2.12589 0.63866 0.020722 2 -1.11305 0.48507 -1.20848 -1.20848 -1.61893 0.55554 0.071113 3 -0.76971 -0.12127

8、 -0.80140 -0.63625 -1.11517 -0.07298 0.021730 4 -0.63637 -0.12127 -0.62209 -0.61424 -0.89430 -0.08237 -0.010813 5 -0.45970 -1.33395 -0.37008 -0.68027 -0.64421 -1.30669 -0.072582 6 -0.12970 -0.66697 -0.09869 -0.32813 -0.19035 -0.65915 -0.026553 7 0.25031 -0.72761 0.30355 0.17807 0.35962 -0.74367 -0.0

9、42781 8 0.59365 1.39458 0.69610 1.01440 0.97180 1.35406 -0.062863 9 1.05032 1.03078 1.09350 1.36654 1.55932 0.96405 -0.023574 10 1.24366 1.09141 1.19042 1.25649 1.76700 1.01522 0.044988 11 1.48033 -1.57648 1.35035 0.97038 1.93110 -1.66266 0.080613第59页 SourceDFSum of SquaresMean SquareF 值值ProbFModelE

10、rrorTotal28109.88280.117210.00004.94140.0147337.23020.0001Analysis of VarianceVariableDFEstimateStandard Errort 值值Prob|t|F1F2110.69000.19130.02710.038325.4859 4.99300.00010.0011Parameter Estimates第60页标准化后变量把标准化变量还原,代入得:第61页影响人们外出旅游原因有居民收入、交通、闲暇影响人们外出旅游原因有居民收入、交通、闲暇时间、旅游目标地治安情况、旅游目标地环境卫时间、旅游目标地治安情况、旅

11、游目标地环境卫生以及接待能力等等。生以及接待能力等等。因为资料可得性和代表性,选择以下变量因为资料可得性和代表性,选择以下变量。国内旅游人数(百万人)农村居民人均纯收入(元)城镇居民人均可支配收入(元)公路线路里程(万公里)数据见sasuser.tourmx例例2 国内旅游人数模型国内旅游人数模型第62页VariableDFEstimateStandardErrort 值值Prob|t|Intercept IncomeonIncomeocHighway1111417.8201-0.13810.1737-3.000974.02300.06990.03020.81925.6445-1.97595.

12、7589-3.66330.0005 0.08360.00040.0064Parameter EstimatesDependent Mean 558.1017R-Square0.9920Root MSE 19.Adj R-Sq0.9890Summary of Fit第63页F1F2F3x1X2x30.58100.59180.5588-0.5167-0.26230.81500.6289-0.76220.1533EigenvectorsEigenvalueDifference ProportionCumulativePCR1PCR2PCR32.8088 0.18500.00622.62380.178

13、80.9363 0.06170.00210.9363 0.99791.0000Eigenvalues of the Correlation MatrixF1=0.5810 x1+0.5918x2+0.5588x3F2=-0.5167x1-0.2623x2+0.8150 x3第64页 SourceDFSum of SquaresMean SquareF 值值ProbFModelErrorTotal291110.71130.288711.00005.35560.0321166.93280.0001Analysis of VarianceVariableDFEstimateStandard Erro

14、rt 值值Prob|t|F1F2110.5767-0.46200.03220.125617.8977-3.67940.00010.0051Parameter Estimates第65页标准化后变量把标准化变量还原,代入得:第66页主成份改进1、无量纲化改进无量纲化改进从标准化数据提取主成份,实际上只包含了各指标间相互从标准化数据提取主成份,实际上只包含了各指标间相互影响这一部分信息,不能准确反应原始数据所包含全部信影响这一部分信息,不能准确反应原始数据所包含全部信息。息。第67页改进原始数据无量纲化方法改进原始数据无量纲化方法u 均值化方法均值化方法均值化后,数据协方差矩阵均值化后,数据协方差

15、矩阵S 中元素中元素第68页均值化后,数据协方差矩阵均值化后,数据协方差矩阵对角线上是原变量标准差系数平方,其它位置上对角线上是原变量标准差系数平方,其它位置上是变量两两之间相互关系。是变量两两之间相互关系。均值化处理后协方差矩阵不但消除了指标量纲与数均值化处理后协方差矩阵不但消除了指标量纲与数量级影响,还能包含原始数据全部信息。量级影响,还能包含原始数据全部信息。第69页2、广义主成份分析广义主成份分析 非线性主成份非线性主成份第70页有许多实际问题,其观察数据阵并非线性结构,而展现非线性结构。对于非线性结构观察阵,应依据指标变量详细非线性结构,选取适当曲面作坐标平面。采取原指标非线性函数结

16、构综合指标。由Grandesikan(1966)和Wilkinson(1968)提出。他们提议用原变量 广义线性式其中为X已知函数形式第71页对于给定观察数据阵,若采取线性主成份分析效果很差(S或R特征值取值分散,指标压缩极少或分析结果严重违反客观实际),可采取非线性主成份分析。计算Y观察数据阵 .依据已给定函数关系式对Y求线性主成份,求得 k 个线性主成份第72页广义主成份分析关键在于确定非线性函数终究取何种形式,应视详细情况,结合相关专业理论或实践经验给定。第73页成份向量成份向量广义主成份分析广义主成份分析设随机向量设随机向量 满足以下条件:满足以下条件:从而每一分量可视为某一成份含量,则称从而每一分量可视为某一成份含量,则称X为为成份向量。成份向量。其观察数据阵其观察数据阵称为合成数据称为合成数据第74页“对数对数-线性比线性比”主成份主成份Aitchison教授(教授(1981年)提出用年)提出用“对数对数-比比”变换变换为成份向量为成份向量X任一恒正函数。任一恒正函数。普通可取普通可取对应对应Y观察数据阵为观察数据阵为称之为称之为“对数对数-中心化中心化”变换变换第75页第76页

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服