ImageVerifierCode 换一换
格式:DOC , 页数:6 ,大小:398KB ,
资源ID:3066942      下载积分:6 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/3066942.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(Pearson相关系数和Spearman秩相关系数介绍.doc)为本站上传会员【丰****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

Pearson相关系数和Spearman秩相关系数介绍.doc

1、皮尔逊积矩相关系数(Pearson product-moment correlation coefficient) 1 定义 在统计学中,皮尔逊积矩相关系数(Pearson product-moment correlation coefficient),有时也简称为PMCC,通常用r或是ρ表示,是用来度量两个变量X和Y之间的相互关系(线性相关)的,取值范围在[-1,+1]之间。皮尔逊积矩相关系数在学术研究中被广泛应用来度量两个变量线性相关性的强弱,它是由Karl Pearson在19世纪80年代从Francis Galton介绍的想法基础发展起来的,但是发展后原想法相似但略有不同的,这种相

2、关系数常被称为“Pearson的r”。 两个变量之间的皮尔逊积矩相关系数定义为这两个变量的协方差与二者标准差积的商,即 上式定义了总体相关系数,一般用希腊字母ρ(rho)表示。若用样本计算的协方差和标准差代替总体的协方差和标准差,则为样本相关系数,一般用r表示: 另外一个与上式等效的定义相关系数的公式是通过标准化以后变量均值的积定义的。假设样本可以记为,则样本Pearson相关系数为 其中,和分别为标准化变量,样本均值和样本标准差。 2 皮尔逊积矩相关系数的数学特性 不论是样本的还是总体的Pearson相关系数绝对值均小于等于1,相关系数等于1或-1时,所有数据的点都精

3、确地落在一条直线上(为样本相关系数的情况),或是两变量的分布完全由一条直线支撑(为总体相关系数的情况)。Pearson相关系数具有对称性,即:corr。 Pearson相关系数的一个关键的特性就是它并不随着变量的位置或是大小的变化而变化。也就是说,我们可以把X变为a+bX,把Y变为c+dY,其中a,b,c和d都是常数,而并不会改变相互之间的相关系数(这点对总体和样本Pearson相关系数都成立)。 Pearson相关系数可以用原点矩的形式表示。因为 ,, 对于Y也有相似的表达式。又 于是式(1)可写为 上述形式对于样本的Pearson相关系数同样是可用的,有 上式提供

4、了一个非常简单的计算样本相关系数的算法,但是有时受数据的影响,可上式可能存在数值上的不稳定性。 相关系数取值范围为[-1,1]。取1时表示变量X和Y之间具有线性变化的关系,即Y随着X的增加而增加,而且所有的点都落在一条直线上。取-1时则是所有点落在一条直线上,但是变量Y随着X的增加而减小。相关系数值为0是表示变量之间没有线性相关关系。 更一般地,应该注意到,只要和落在各自均值的同一侧,那么就是大于0的。也就是说,只要和同时趋近于大于或是同时趋近于小于他们各自的均值,那么它们的相关系数为正。反之,当二者区于在相反的一边时,二者相关系数为负。 几种的(x,y)点即相应的x、y的相关系数。可以

5、看出,相关反映线性关系分散程度和方向(第一行),但是不能反映线性关系时的斜率(第二行),也不能反映出非线性关系的许多方面(最底下一行)。注:图中第二行第四个小图的直线斜率是0,在这种情况下,相关系数是没有意义的,因为Y的方差是零。 3 几何解释 对于相对中心性的数据(例如,一组已经通过样本均值转换为均值为0的数据),相关系数可以看做是由两随机变量样本绘出的两个向量之间夹角的余弦值。 有些学者则比较倾向于非中心性(费皮尔逊兼容)的相关系数。以下通过一个例子比较二者之间的差异。 假设有5个国家,国民生产总值分别为10亿美元、20亿美元、30亿美元、50亿美元和80亿美元,而贫困人数占总人口

6、的比例分别为11%、12%、13%、15%和18%。则可令X = (10,20,30,50,80),Y = (0.11,0.12,0.13,0.15,0.18)。 有一般的计算两个向量之间的角度的过程(点乘)可得非中心性相关系数为: 应该注意到,上述数据是特意从完全线性相关的线性函数Y=0.10+0.001X中挑选出来的,所以Pearson相关系数应该精确地为1。将数据中心化(将X减去E(X)=38,Y减去E(Y)=0.138),可得X’=(-28,-18,-0.8,12,42),Y’=(-0.028,-0.018,-0.08,0.012,0.042),并有 跟期望的一样。 相

7、关系数大小与相关性大小的关系 许多学者都提出了通过相关系数大小判断变量相关性的标准。但是正如Cohen(1988)所指出的一样,这些标准或多或少的有些武断,不应该过于严格地遵守。相同相关系数对相关性大小的判断取决于不同的背景和目的。同样是0.9的相关系数,在使用很精确的仪器验证物理定律的时候可能被认为是很低的,但是社会科学中,在评定许多复杂因素的贡献时,却可能被认为是很高的相关性。 相关系数与相关性的关系 相关性 负值 正值 不相关 −0.09~0.0 0.0~0.09 低相关 −0.3~−0.1 0.1~0.3 中等相关 −0.5~−0.3 0.3~0.5 显著

8、相关 −1.0~−0.5 0.5~1.0 4 对数据分布的敏感性 4.1 存在性 总体的Pearson相关系数是通过原点矩来定义的,所以二元概率分布的总体协方差以及变量边缘总体反差必须是有意义且是非零的。一些概率分布例如柯西(Cauchy)分布的反差就是无意义的,因此在X或Y服从这种分布时,也是没有意义的。在一些实际应用中,例如那些涉及数据在尾部比较集中的情况,考虑这点就是很重要的。但是,相关系数的存在性通常不是我们关注的焦点,因为一般只要分布是有界的,那么就可以被定义。 4.2 大样本性 在二元正态分布中,若已知变量的边缘分布的均值和标准差,那么由Pearson相关系数就

9、可以完全确定该分布的特性。但是对于其它的二元分布,情况就有所不同。然而,不论变量之间的联合概率密度函数是不是正态的,Pearson相关系数都是用来衡量两个随机变量之间的线性相关程度的。对于二元正态数据,样本的相关系数是总体相关系数的极大似然估计,并且具有渐进无偏性和有效性,也即是说在数据来自正态分布,且样本大小适中或是足够大的时候,不可能构造一个比样本相关相关系数更加精确的量来估计变量之间的相关性。对于非正态总体,样本相关系数依然是渐进无偏的,但是可能不是有效的估计。只要样本均值、方差、协方差是一致的(可以通过应用大数定律来保证),样本相关系数是总体相关系数的一个一致估计量。 图中显示了

10、在给定的样本大小时,在置信水平为0.05时,具有显著非零Pearson相关系数的的最小值。A graph showing the minimum value of Pearson's correlation coefficient that is significantly different from zero at the 0.05 level, for a given sample size. 5 鲁棒性(Robustness) 与其他一些广泛应用的统计量相同,样本统计量r是不可靠的,在存在异常值的时候,r的值可能会误导我们。也就是说,PMCC不仅受变量分布的影响,还随异常值非常敏感

11、观察X、Y之间的散点图,就可以看出,缺少鲁棒性确实是一个很大的问题,在这种情况下,就需要采用更加稳健的参量来度量变量的相关性。但是值得一提的是,无论采用多么稳健的参量来度量变量之间的相关性,都与Pearson相关系数在数值大小保持很好的一致性。 基于Pearson相关系数的统计推断对数据的分布类型是很敏感的。所以只有在数据是近似正态分布的时候,基于Fisher变换的精确检验和近似检验才能被采用,否则就可能导致错误的结论。在某些情况下,引导可用于构造置信区间,并置换测试可用于进行假设检验。在二元正态不成立时,非参数的方法在某些情况下可能会得到更有意义的结果。但这些方法的标准版本依赖于数据的互

12、换性,也就是说,在没有特定的顺序或是数据可供分析时,可能影响相关估计的行为。 Spearman秩相关系数(Spearman's rank correlation coefficient) Pearson线性相关系数只是许多可能中的一种情况,为了使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的,并且数据至少在逻辑范畴内必须是等间距的数据。如果这两条件不符合,一种可能就是采用Spearman秩相关系数来代替Pearson线性相关系数。Spearman秩相关系数是一个非参数性质(与分布无关)的秩统计参数,由Spearman在1904年提出,用来度量两个变量之间联系的强弱(Le

13、hmann and D'Abrera 1998)。Spearman秩相关系数可以用于R检验,同样可以在数据的分布使得Pearson线性相关系数不能用来描述或是用来描述或导致错误的结论时,作为变量之间单调联系强弱的度量。 在统计学中,Spearman秩相关系数或称为Spearman的ρ,是由Charles Spearman命名的,一般用希腊字母ρs(rho)或是rs表示。Spearman秩相关系数是一个非参数的度量两个变量之间的统计相关性的指标,用来评估当用单调函数来描述是两个变量之间的关系有多好。在没有重复的数据的情况下,如果一个变量是两外一个变量的严格单调的函数,则二者之间的Spearma

14、n秩相关系数就是+1或-1,称变量完全Spearman相关。 Spearman秩相关系数通常被认为是排列后的变量之间的Pearson线性相关系数,在实际计算中,有更简单的计算ρs的方法。假设原始的数据xi,yi已经按从大到小的顺序排列,记x’i,y’i为原xi,yi在排列后数据所在的位置,则x’i,y’i称为变量x’i,y’i的秩次,则di=x’i-y’i为xi,yi的秩次之差。 如果没有相同的秩次,则ρs可由下式计算 如果有相同的秩次存在,那么就需要计算秩次之间的Pearson的线性相关系数 一个相同的值在一列数据中必须有相同的秩次,那么在计算中采用的秩次就是数值在按从大到小

15、排列时所在位置的平均值。表1为一个球平均秩次的例子。注意在秩次相同时,用他们在排列后的数据中所在的位置的平均值作为秩次。 表1 有相同数值时秩次的计算 变量xi 从大到小排列时的位置 秩次x’i 0.8 5 5 1.2 4 (4+3)/2=3.5 1.2 3 (4+3)/2=3.5 2.3 2 2 18 1 1 Spearman秩相关系数的符号表示X和Y之间联系的方向。如果Y随着X的增加而增加,那么Spearman秩相关系数是正的,反之,若果Y随着X的增加而减小,Spearman秩相关系数就是负的。Spearman秩相关系数为0表示随着X的增加,Y没有

16、增大或减小的趋势。随着X和Y越来越接近严格单调的函数关系,Spearman秩相关系数在数值上越来越大。当X、Y有严格单增的关系是,它们之间的Spearman秩相关系数为1,反之,在X、Y有严格单减的关系时,Spearman秩相关系数为-1。严格单增的关系为对于任意的两对数据值Xi,Yi和Xj,Yj,Xi-Yi和Xj-Yj都具有相同的符号。严格单减则上述差值在任何时候都具有相反的符号。 Spearman秩相关系数经常被称为非参数相关系数,这具有两层含义:第一,只要在X和Y具有单调的函数关系的关系,那么X和Y就是完全Spearman相关的,这与Pearson相关性不同,后者只有在变量之间具有线性

17、关系时才是完全相关的。两外一个关于Spearman秩相关系数的非参数性的理解就是样本之间精确的分布可以在不知道X和Y的联合概率密度函数时获得。 不管变量之间的关系是不是线性的,只要变量之间具有严格的单调增加的函数关系,变量之间的Spearman秩相关系数就是1,相同情况下,Pearson相关性在变量不是线性函数关系时,并不是完全相关的。 在数据大略地呈椭圆形分布,而且没有明显的外形轮廓的时候,Spearman秩相关系数和Pearson线性相关系数大小比较接近。 Spearman秩相关系数对样本的尾部与具有明显的外形轮廓样本偏离比较大的情况没有Pearson线性相关系数敏感。 正的Spearman秩相关系数对应于X、Y之间单调增加的变化趋势,负的Spearman秩相关系数对应于X、Y之间单调减小的变化趋势。

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服