ImageVerifierCode 换一换
格式:PPT , 页数:44 ,大小:998.50KB ,
资源ID:10030794      下载积分:12 金币
验证码下载
登录下载
邮箱/手机:
图形码:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/10030794.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请。


权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4009-655-100;投诉/维权电话:18658249818。

注意事项

本文(主成分分析的原理与SPSS实现PPT学习课件.ppt)为本站上传会员【天****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

主成分分析的原理与SPSS实现PPT学习课件.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1,一、主成分分析概述,2,假定你是一个公司的财务经理,掌握了公司的所有数据,这包括,众多的变量,,比如,固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等,。,如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都,原封不动地摆出去吗,?,引子,3,当然不能。,汇报什么?,发现在如此多的变量之中,有很多是相关的。人们希望能够找出它们的,少数,“,代表,”,来对它们进行描述。,需要把这种有,很多变量,的数据进行高度概括,,用

2、少数几个指标简单明了地把情况说清楚。,4,主成分分析(,Principal Components Analysis,)和因子分析(,Factor Analysis,),就是把变量维数降低以便于描述、理解和分析的方法。,主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标),而这几个综合变量可以反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。,这些综合变量就叫因子或主成分,它是不可观测的,即,它不是具体的变量,(这与聚类分析不同),,只是几个指标的综合,。,在引入主成分分析之前,先看下面的例子。,什么是主

3、成分分析法?,5,成绩数据,53,个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,6,从本例可能提出的问题,能不能把这个数据表中的,6,个变量用一两个综合变量来表示呢?,这一两个综合变量包含有多少原来的信息呢?,能不能利用找到的综合变量来对学生排序呢?,7,事实上,以上的三个问题在地理学研究中,也会经常遇到。它,所涉及的问题可以推广到对企业、对学校、对区域进行,分析、评价、排序和分类,等。,比如对,n,个区域进行综合评价,可选的描述区域特征的指标很多,而这些指标往往存在,一定的相关性,(既不完全独立,又不完全相关),这就给研究带来很大不便。,若选指标太多,会增加分析问题的难度

4、与复杂性,选指标太少,有可能会漏掉对区域影响较大的指标,影响结果的可靠性。,8,这就需要我们在相关分析的基础上,采用主成分分析法找到几个,新的相互独立的综合指标,,达到既减少指标数量、又能区分区域间差异的目的。,9,二、主成分分析的基本原理,10,(一)主成分分析的几何解释,例中数据点是六维的;即每个观测值是,6,维空间中的一个点。希望把,6,维空间用低维空间表示。,先假定只有二维,即只有两个变量,语文成绩(,x,1,)和数学成绩(,x,2,),分别由横坐标和纵坐标所代表;,每个学生都是二维坐标系中的一个点。,11,空间的点,如果这些数据形成一个椭圆形状的点阵(这在二维正态的假定下是可能的)该

5、椭圆有一个长轴和一个短轴。在短轴方向上数据变化很少;,在极端的情况,短轴如退化成一点,长轴的方向可以完全解释这些点的变化,由二维到一维的降维就自然完成了。,12,假定语文成绩(,X,1,)和数学成绩(,X,2,)的相关系数,=0.6,。,设,X,1,和,X,2,分别为标准化后的分数,右图为其散点图。,13,那么随机向量,的方差,协方差矩阵为,可以看出,在变量标准化的情况下的方差,协方差矩阵与其相关矩阵相等。,由求矩阵特征值和特征向量的方法:令,可以求出:,14,对应的特征向量分别为:,显然,这两个特征向量是,相互正交的,单位向量。而且它们与原来的坐标轴,X,1,和,X,2,的夹角都分别等于,4

6、5,。如果将坐标轴,X,1,和,X,2,旋转,45,,那么点在新坐标系中的坐标(,Y,1,Y,2,)与原坐标(,X,1,X,2,)有如下的关系:,Y,1,和,Y,2,均是,X,1,和,X,2,的线性组合,系数代表什么?,15,在新坐标系中,可以发现:虽然散点图的形状没有改变,但新的随机变量,Y,1,和,Y,2,已经不再相关。而且大部分点沿,Y,1,轴散开,在,Y,1,轴方向的变异较大(即,Y,1,的方差较大),相对来说,在,Y,2,轴方向的变异较小(即,Y,2,的方差较小)。,16,事实上,随机变量,Y,1,和,Y,2,的方差分别为:,可以看出,,最大变动,方向,是由特征向量所决定的,而特征值

7、则刻画了对应的方差。,这只是我们举的一个例子,对于一般情况,数学上也能证明。,17,在上面的例子中,Y,1,和,Y,2,就是原变量,X,1,和,X,2,的第一主成分和第二主成分。实际上第一主成分,Y,1,就基本上反映了,X,1,和,X,2,的主要信息,因为图中的各点在新坐标系中的,Y,1,坐标基本上就代表了这些点的分布情况,因此可以选,Y,1,为一个新的综合变量。当然如果再选,Y,2,也作为综合变量,那么,Y,1,和,Y,2,则反映了,X,1,和,X,2,的全部信息。,18,从几何上看,找主成分的问题就是找出,p,维空间中椭球体的主轴问题,就是要在,x,1,x,p,的相关矩阵中,m,个较大特征

8、值所对应的特征向量。,究竟提取几个主成分或因子,一般有两种方法:,特征值,1,累计贡献率,0.8,那么如何提取主成分呢?,(二)主成分分析的基本思想,19,假定有,n,个地理样本,每个样本共有,p,个变量,构成一个,n,p,阶的地理数据矩阵,(,3.5.1,),综合指标如何选取呢?这些综合指标要想尽可能多地反映原指标的信息,综合指标的表达式中要含有原指标,那么我们通常是取原指标的线性组合,适当调整它们的系数,使综合指标间相互独立且代表性好。,20,定义:记,x,1,,,x,2,,,,,x,P,为原变量指标,,z,1,,,z,2,,,,,z,m,(,m,p,)为新变量指标,(3.5.2),可以看

9、出,新指标对原指标有多个线性组合,新指标对哪个原指标反映的多,哪个少,取决于它的系数。系数,l,ij,的确定原则:,z,i,与,z,k,(,i,k,;,i,,,k,=1,,,2,,,,,m;,j=,1,,,2,,,,,p,)相互无关;,21,z,1,是,x,1,,,x,2,,,,,x,P,的一切线性组合中方差最大者,(,最能解释它们之间的变化),,z,2,是与,z,1,不相关的,x,1,,,x,2,,,,,x,P,的所有线性组合中方差最大者,;,;,z,m,是与,z,1,,,z,2,,,,,z,m,1,都不相关的,x,1,,,x,2,,,x,P,,,的所有线性组合中方差最大者。,则新变量指标,

10、z,1,,,z,2,,,,,z,m,分别称为原变量指标,x,1,,,x,2,,,,,x,P,的第,1,,第,2,,,,第,m,主成分。,22,从以上的分析可以看出,主成分分析的实质就是确定原来变量,x,j,(,j,=1,,,2,,,,,p,)在诸主成分,z,i,(,i,=1,,,2,,,,,m,)上的荷载,l,ij,(,i,=1,,,2,,,,,m,;,j,=1,,,2,,,,,p,)。,从数学上可以证明,它们分别是相关矩阵(也就是,x1,,,x2,,,,,x,P,的相关系数矩阵),m,个较大的特征值所对应的特征向量。,23,三、主成分分析的计算步骤,24,(,一)计算相关系数矩阵,r,ij,

11、i,,,j,=1,,,2,,,,,p,)为原变量,x,i,与,x,j,标准化后的相关系数,,r,ij,=,r,ji,,,其计算公式为,(,3.5.3,),(,3.5.4,),25,(二)计算特征值与特征向量,1,、解特征方程,求出特征值,并使其按大小顺序排列 ;,2,、分别求出对应于特征值 的特征向量,,要求,=1,,即,其中表示向量 的第,j,个分量,也就是说 为单位向量。,26,3,、计算主成分贡献率及累计贡献率,贡献率,累计贡献率,一般取累计贡献率达,85%95%,的特征值,所对应的第,1,、第,2,、,、第,m,(,m,p,)个主成分。,27,4,、,计算主成分载荷,在主成分之间不

12、相关时,,主成分载荷就是主成分,z,i,与变量,x,j,之间的相关系数,(在数学上可以证明),5,、各主成分的得分,得到各主成分的载荷以后,可以按照(,3.5.2,)计算各主成分的得分,(,3.5.5,),28,(,3.5.6,),每个地区的综合评价值为:对各个主成分进行加权求和。权重为每个主成分方差的贡献率。,29,四、,SPSS,在主成分分析中的应用,30,以全国,31,个省市的,8,项经济指标为例,进行主成分分析。,第一步:录入或调入数据(图,1,)。,图,1,原始数据(未经标准化),31,32,设置描述,(,Descriptives),选项。,单击,描述,按钮,弹出,描述,对话框,选中

13、单变量描述性,(Univariate descriptives),复选项,,则输出结果中将会给出原始数据的抽样均值、方差和样本数目,选中原始分析结果,(Initial solution),复选项,,则会给出主成分载荷的,公因子方差(这一栏数据分析时有用)。,在相关矩阵,(Correlation Matrix),栏中,选中系数,(Coefficients),复选项,,,则会给出原始变量的相关系数矩阵;选中行列式,(Determinant),复选项,则会给出,相关系数矩阵的行列式,如果希望在,Excel,中对某些计算过程进行了解,,可选此项,否则用途不大。其它复选项一般不用,但在特殊情况下可以用到

14、设置完成以后,单击,Continue,按钮完成设置(图,5,)。,33,打开抽取对话框。因子提取方法主要有,7,种,在方法,(Method),栏中可以看到,,系统默认的提取方法是主成分,.,因此对此栏不作变动,就是认可了主成分分析方法。,设置抽取,(Extraction),选项。,在分析,(Analyze),栏中,选中相关性矩阵,(Correlation matirx),复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中协方差矩阵,(Covariance matrix),复选项,则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任

15、选其一即可。,34,在输出,(Display),栏中,选中,Unrotated factor solution,(非旋转因子解)复选项,,则在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言,这一项,选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,,以便对比。,选中,Scree Plot,(碎石图),则在分析结果中给出特征根按大小分布的折线图,以便我们直观地判定因子的提取数量是否准确。,35,在抽取栏中,有两种方法可以决定提取主成分(因子)的数目。,一是根据特征根,(,Eigenvalues,),的数值,系统默认的是,=1,。,我们知道,在主成分分析中,主成分得

16、分的方差就是对应的特征根数值。如果默认,=1,,则所有方差大于等于,1,的主成分将被保留,其余舍弃。如果觉得最后选取的主成分数量不足,可以将,值降低,例如取,=0.9,;如果认为最后的提取的主成分数量偏多,则可以提高,值,例如取,=1.1,。主成分数目是否合适,要在进行一轮分析以后才能肯定。,因此,特征根数值的设定,要在反复试验,以后才能决定。一般而言,在初次分析时,,最好降低特征根的临界值(如取,=0.8,),,这样提取的主成分将会偏多,根据初次,分析的结果,在第二轮分析过程中可以,调整特征根的大小。,36,第二种方法是直接指定主成分的数目即因子数目,,这要选中,Number of fact

17、ors,复选项。主成分的数目选多少合适?开始我们并不十分清楚。因此,首次不妨将数值设大一些,但,不能超过变量数目,。本例有,8,个变量,因此,最大的主成分提取数目为,8,,不得超过此数。在我们第一轮分析中,采用系统默认的方法提取主成分。,需要注意的是:,主成分计算是利用迭代(,Iterations,)方法,系统默认的迭代次数,是,25,次。但是,当数据量较大时,,25,次迭代是不够的,需要改为,50,次、,100,次乃,至更多。对于本例而言,变量较少,,25,次迭代足够,故无需改动。,设置完成以后,单击,Continue,按钮完成设置。,37,选中保存为变量,(Save as variable

18、s),栏,则分析结果中给出标准化的主成分得分(在数据表的后面)。至于方法复选项,对主成分分析而言,三种方法没有分别,采用系统默认的,“,回归,”,(,Regression,)法即可。,选中显示因子得分系数矩阵,(Display factor score coefficient matrix),,则在,分析结果中给出因子得分系数矩阵及其相关矩阵。,设置完成以后,单击,Continue,按钮完成设置。,设置得分,(Scores),设置。,38,其它,对于主成分分析而言,旋转项(,Rotation,)可以不必设置;对于数据,没有缺失的情况下,选项,(Option),项可以不必理会。,全部设置完成以后

19、点击,OK,确定,,SPSS,很快给出计算结果,实例:全国,31,个省市的,8,项经济指标,39,按顺序排列的主成分得分的方差,(Total),,在数值上等于相关系数矩阵的各个特征根,全部解释方差表,(Total Variance Explained),每一个主成分的方差百分比(,%of Variance):,由于全部特征根的总和等于变量数目,即有,m=i=8,,故每一一个特征根的方差百分比为,i/m,从左边栏目中提取的三个主成分及有关参数,40,主成分的数目可以根据相关系数矩阵的特征根来判定,,根据,值决定主成分数目的准则有三:,i,只取,1,的特征根对应的主成分,从,Total Vari

20、ance Explained,表中可见,第一、第二和第三个主成分对应的,值都大于,1,,这意味着这三个主成分得分的方差都大于,1,。本例正是根据这条准则提取主成分的。,ii,累计百分比达到,80%85%,以上的,值对应的主成分,在,Total Variance Explained,表可以看出,前三个主成分对应的,值累计百分比达到,89.324%,,这暗示只要选取三个主成分,信息量就够了。,iii,根据特征根变化的突变点决定主成分的数量,从特征根分布的折线图(碎石图)上可以看到,第,4,个,值是一个明显的折点,这暗示选取的主成分数目应有,p4,。那么,究竟是,3,个还是,4,个呢?根据前面两条准

21、则,选,3,个大致合适。,41,都显示了各个变量与有关主成分的相关系数,注:主成分得分或因子得分有,3,种说法,(1),成分矩阵,(2),成分得分系数矩阵,(3),成分矩阵(按列),/,特征根的开根,(,用,TRANSFORM,COMPUTE,来计算特征向量,),42,主成分计算,矩阵的按列线性组合,怎么解释这三个主成分。前面说过主成分是原始八个变量的线性组合。是怎么样的组合呢?,这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。,这些系数称为主成分载荷(,loading,),它表示主成分和相应的原先变量的相关系数。,相关系数,(,绝对值)越大,主成分对该变量的代表性也越大。,43,

22、从,Component Matrix,即主成分载荷表中可以看出,国内生产总值、固定资产投资和工业产值在第一主成分上载荷较大,亦即与第一主成分的相关系数较高;职工工资和货物周转量在第二主成分上的载荷绝对值较大,即负相关程度较高;消费价格指数在第三主成分上的载荷较大,即相关程度较高。,因此可将主成分命名如下:,第一主成分:,投入产出主成分,;,第二主成分:,工资物流主成分,;,第三主成分:,消费价格主成分,。,问题在于:一方面,居民消费和商品零售价格指数的归类比较含混;另一方面,主成分的命名结构不清。因此,有必要作进一步的因子分析。,计算结果分析,44,不仅如此,原数据文件中增加了,FAC1_1,、,FAC2_1,和,FAC3_1,三 个变量,它们表示了三个因子在不同省份的得分值。,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服