ImageVerifierCode 换一换
格式:DOCX , 页数:17 ,大小:239.14KB ,
资源ID:6154590      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/6154590.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(R语言主成分和因子分析.docx)为本站上传会员【pc****0】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

R语言主成分和因子分析.docx

1、R语言主成分和因子分析 主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。 探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法,通过寻找一组更小 的、潜在的或隐藏的结构来解释已观测到的、变量间的关系。 1.R中的主成分和因子分析 R的基础安装包中提供了PCA和EFA的函数,分别为princomp ()和factanal() psych包中有用的因子分析函数 函数 描述  principal() 含多种可选的方差放置方法的主成分分析 fa() 可用主轴、最小残差、加权最小平方或最大似然法估计的因子分析

2、 fa.parallel() 含平等分析的碎石图 factor.plot() 绘制因子分析或主成分分析的结果 fa.diagram() 绘制因子分析或主成分分析的载荷矩阵 scree() 因子分析和主成分分析的碎石图 PCA/EFA 分析流程: (1)数据预处理;PCA和EFA都是根据观测变量间的相关性来推导结果。用户可以输入原始数据矩阵或相关系数矩阵列到principal()和fa()函数中,若输出初始结果,相关系数矩阵将会被自动计算,在计算前请确保数据中没有缺失值; (2)选择因子分析模型。判断是PCA(数据降维)还是EFA(发现潜在结构)更符合你的分析目标。若选择E

3、FA方法时,还需要选择一种估计因子模型的方法(如最大似然估计)。 (3)判断要选择的主成分/因子数目; (4)选择主成分/因子; (5)旋转主成分/因子; (6)解释结果; (7)计算主成分或因子得分。 2.主成分分析 PCA的目标是用一组较少的不相关变量代替大量相关变量,同时尽可能保留初始变量的信息,这些推导所得的变量称为主成分,它们是观测变量的线性组合。如第一主成分为: PC1=a1X1=a2X2+……+akXk  它是k个观测变量的加权组合,对初始变量集的方差解释性最大。 第二主成分是初始变量的线性组合,对方差的解释性排第二, 同时与第一主成分正交(不相关)。后面每一个

4、主成分都最大化它对方差的解释程度,同时与之前所有的主成分都正交,但从实用的角度来看,都希望能用较少的主成分来近似全变量集。 (1)判断主成分的个数 PCA中需要多少个主成分的准则: 根据先验经验和理论知识判断主成分数; 根据要解释变量方差的积累值的阈值来判断需要的主成分数; 通过检查变量间k*k的相关系数矩阵来判断保留的主成分数。 最常见的是基于特征值的方法,每个主成分都与相关系数矩阵的特征值 关联,第一主成分与最大的特征值相关联,第二主成分与第二大的特征值相关联,依此类推。 Kaiser-Harris准则建议保留特征值大于1的主成分,特征值小于1的成分所解释的方差比包含在单个变

5、量中的方差更少。 Cattell碎石检验则绘制了特征值与主成分数的图形,这类图形可以展示图形弯曲状况,在图形变化最大处之上的主成分都保留。 最后,还可以进行模拟,依据与初始矩阵相同大小的随机数矩阵来判断要提取的特征值。若基于真实数据的某个特征值大于一组随机数据矩阵相应的平均特征值,那么该主成分可以保留。该方法称作平行分析。 利用fa.parallel()函数,可同时对三种特征值判别准则进行评价。 [plain] view plain copy   1. library(psych)   2. fa.parallel(USJudgeRatings[,-1],fa="PC",n.it

6、er=100,show.legend=FALSE,main="Screen plot with parallel analysis")   碎石头、特征值大于1准则和100次模拟的平行分析(虚线)都表明保留一个主成分即可保留数据集的大部分信息,下一步是使用principal()函数挑选出相应的主成分。 (2)提取主成分 principal()函数可根据原始数据矩阵或相关系数矩阵做主成分分析 格式为:principal(的,nfactors=,rotate=,scores=) 其中:r是相关系数矩阵或原始数据矩阵; nfactors设定主成分数(默认为1); rotate指定旋

7、转的方式[默认最大方差旋转(varimax)] scores设定是否需要计算主成分得分(默认不需要)。 [plain] view plain copy   1. 美国法官评分的主成分分析   2. library(psych)   3. pc<-principal(USJudgeRatings[,-1],nfactors=1)   4. pc   此处,输入的是没有ONT变量的原始,并指定获取一个未旋转的主成分。由于PCA只对相关系数矩阵进行分析,在获取主成分前,原始数据将会被自动转换为相关系数矩阵。 PC1栏包含了成分载荷,指观测变量与主成分的相关系数。如果提取不止一个

8、主成分,则还将会有PC2、PC3等栏。成分载荷(component loadings)可用来解释主成分的含义。此处可看到,第一主成分(PC1)与每个变量都高度相关,也就是说,它是一个可用来进行一般性评价的维度。 h2柆指成分公因子方差-----主成分对每个变量的方差解释度。 u2栏指成分唯一性-------方差无法 被主成分解释的比例(1-h2)。 SS loadings行包含了主成分相关联的特征值,指的是与特定主成分相关联的标准化后的方差值。 Proportin Var行表示的是每个主成分对整个数据集的解释程度。 结果不止一个主成分的情况 [plain] view plain

9、 copy   1. library(psych)   2. fa.parallel(Harman23.cor$cov,n.obs=302,fa="pc",n.iter=100,show.legend=FALSE,main="Scree plot with parallel analysis")   载荷阵解释了成分和因子的含义,第一成分与每个身体测量指标都正相关,看起来似乎是一个一般性的衡量因子;第二主成分与前四个变量负相关,与后四个变量正相关,因此它看起来似乎是一个长度容量因子。但理念上的东西都不容易构建,当提取了多个成分时,对它们进行旋转可使结果更具有解释性。 (3

10、主成分旋转 旋转是一系列将成分载荷阵变得更容易解释的数学方法,它们尽可能地对成分去噪。 旋转方法有两种:使选择的成分保持不相关(正效旋转),和让它们变得相关(斜交旋转)。 旋转方法也会依据去噪定义的不同而不同。 最流行的下次旋转是方差极大旋转,它试图对载荷阵的列进行去噪,使得每个成分只是由一组有限的变量来解释(即载荷阵每列只有少数几个很大的载荷,其他都是很小的载荷)。 [plain] view plain copy   1. install.packages("GPArotation")   2. library(GPArotation)   3. rc<-principa

11、l(Harman23.cor$cov,nfactors=2,rotate="varimax")   4. rc   列名从PC变成了RC,以表示成分被旋转 观察可以发现第一主成分主要由前四个变量来解释,第二主成分主要由变量5到变量8来解释。 注意两个主成分仍不相关,对变量的解释性不变,这是因为变量的群组没有发生变化。另外,两个主成分放置后的累积方差解释性没有变化,变的只是各个主成分对方差的解释(成分1从58%变为44%,成分2从22%变为37%)。各成分的方差解释度趋同,准确来说,此时应该称它们为成分而不是主成分。 (4)获取主成分得分 利用principal()函数,很容易获

12、得每个调查对象在该主成分上的得分。 [plain] view plain copy   1. 从原始数据中获取成分得分   [plain] view plain copy   1. library(psych)   2. pc<-principal(USJudgeRatings[,-1],nfactors=1,score=TRUE)   3. head(pc$scores)   当scores=TRUE时,主成分得分存储在principal()函数返回对象的scores元素中。 [plain] view plain copy   1

13、 cor(USJudgeRatings$CONT,PC$scores)   [plain] view plain copy   1. 获取主成分得分的系数   [plain] view plain copy   1. library(psych)   2. rc<-principal(Harman23.cor$cov,nfactor=2,rotate="varimax")   3. round(unclass(rc$weights),2)   得到主成分得分: PC1=0.28*height+0.30*arm.span+0.30*

14、forearm+0.29*lower.leg-0.06*weight-0.08*bitro.diameter-0.10*chest.girth-0.04*chest.width PC2=-0.05*height-0.08*arm.span-0.09*forearm-0.06*lower.leg+0.33*weight+0.32*bitro.diameter+0.34*chest.girth+0.27*chest.width 3.探索性因子分析 EFA的目标是通过发掘隐藏在数据下的一组较少的、更为基本的无法观测的变量,来解释一组可观测变量的相关性。这些虚拟的、无法观测的变量称作因子。(每个

15、因子被认为可解释多个观测变量间共有的方差,也叫作公共因子) 模型的形式为: Xi=a1F1+a2F2+……apFp+Ui Xi是第i个可观测变量(i=1,2,……k) Fj是公共因子(j=1,2,……p) 并且p

16、数将其转化为相关系数矩阵 (1)判断需提取的公共因子数 [plain] view plain copy   1. library(psych)   2. convariances<-ability.cov$cov   3. correlations<-cov2cor(covariances)   4. fa.parallel(correlations,n.obs=112,fa="both",n.iter=100,main="Scree plots with parallel analysis")   若使用PCA方法,可能会选择一个成分或两个成分。当摇摆不定时,高估因子数通

17、常比低估因子数的结果好,因为高估因子数一般较少曲解“真实”情况。 (2)提取公共因子 可使用fa()函数来提取因子 fa()函数的格式为: fa(r,nfactors=,n.obs=,rotate=,scores=,fm) r是相关系数矩阵或原始数据矩阵; nfactors设定提取的因子数(默认为1); n.obs是观测数(输入相关系数矩阵时需要填写); rotate设定放置的方法(默认互变异数最小法); scores设定是否计算因子得分(默认不计算); fm设定因子化方法(默认极小残差法)。 与PCA不同,提取公共因子的方法很多,包括最大似然法(ml)、主轴迭代法(

18、pa)、加权最小二乘法(wls)、广义加权最小二乘法(gls)和最小残差法(minres)。 [plain] view plain copy   1. 未旋转的主轴迭代因子法   [plain] view plain copy   1. fa<-fa(correlations,nfactors=2,rotate="none",fm="pa")   2. fa   (3)因子旋转 [plain] view plain copy   1. 用正交旋转提取因子   [plain] view plain

19、 copy   1. fa.varimax<-fa(correlations,nfactors=2,rotate="varimax",fm="pa")   2. fa.varimax   [plain] view plain copy   1. 正交放置将人为地强制两个因子不相关   [plain] view plain copy   1. 正交旋转,因子分析的重点在于因子结构矩阵(变量与因子的相关系数)   用斜交旋转提取因子 [plain] view plain copy   1. f

20、a.promax<-fa(correlations,nfactors=2,rotate="promax",fm="pa")   2. fa.promax   [plain] view plain copy   1. 对于斜交旋转,因子分析会考虑三个矩阵:因子结构矩阵、因子模式矩阵和因子关联矩阵   [plain] view plain copy   1. 因子模式矩阵即标准化的回归系数矩阵,它列出了因子的预测变量的权重;   [plain] view plain copy   1. 因子关联

21、矩阵即因子相关系数矩阵;   [plain] view plain copy   1. 因子结构矩阵(或称因子载荷阵),可使用公式F=P*Phi来计算得到,其中F是载荷阵,P为因子模式矩阵,Phi为因子关联矩阵。   [plain] view plain copy   1. fsm<-function(oblique){   2.   if(class(oblique)[2]=="fa"&is.null(oblique$Phi)){   3.     warning("Object doesn't look like 

22、oblique EFA")   4.   }else{   5.     P<-unclass(oblique$loading)   6.     F<-P%*%oblique$Phi   7.     colnames(F)<-c("PA1","PA2")   8.     return (F)   9.   }   10. }   11. fsm(fa.promax)   可以看到变量与因子间的相关系数。将它们与正交旋转所得因子载荷阵相比,发现该载荷阵列的噪音较大,这是因为之前允许潜在因子相关。虽然斜交方法更为复杂,但模型将更加符合真实数据。 使用factor.

23、plot()或fa.diagram()函数,可绘制正交或斜交结果的图形 [plain] view plain copy   1. factor.plot(fa.promax,labels=rownames(fa.promax$loadings))   [plain] view plain copy   1. fa.diagram(fa.promax,simple=TRUE)   (4)因子得分 EFA并不十分关注因子得分,在fa()函数中添加score=TRUE选项,便可轻松地得到因子得分。另外还可以得到得分系数(标准化的回归权重),它在返回对象的weights元素

24、中。 [plain] view plain copy   1. fa.promax$weights   4.其他  (1) 对因子分析非常有用的软件包,FactoMineR包不仅提供了PCA和EFA方法,还包含潜变量模型。 FAiR包使用遗传算法来估计因子分析模型,增强了模型参数估计能力,能够处理不等式的约束条件; GPArotation包提供了许多因子旋转方法 nFactors包,提供了用来判断因子数目方法。 (2)其他潜变量模型 先验知识的模型:先从一些先验知识开始,比如变量背后有几个因子、变量在因子上的载荷是怎样的、因子间的相关性如何,然后通过收集数

25、据检验这些先验知识。这种方法称作验证性因子分析(CFA)。   做CFA的软件包:sem、openMx和lavaan等。 ltm包可以用来拟合测验和问卷中各项目的潜变量模型。 潜类别模型(潜在的因子被认为是类别型而非连续型)可通过FlexMix、lcmm、randomLCA和poLC包进行拟合。lcda包可做潜类别判别分析,而lsa可做潜在语义分析----一种自然语言处理中的方法。ca包提供了可做简单和多重对应分析的函数。 R中还包含了众多的多维标度法(MDS)计算工具。MDS即可用发现解释相似性和可测对象间距离的潜在维度。 cmdscale()函数可做经典的MDS MASS包中的isoMDS()函数可做非线性MDS vagan包中则包含了两种MDS的函数

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服