资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第5章-两个样本和多个样本的相关分析,参数统计的关联性分析,1.,提出假设:,H,0,:,;,H,1,:,0,2.,计算检验的统计量:,3.,确定显著性水平,并作出决策。,相关系数非常高的样本也有可能来自无相关关系的总体。为了排除这种情况,需要对相关系数进行显著性检验。检验的步骤是:,这一检验在零假设成立且两个变量服从正态分布的情况下得出的。,皮尔逊相关系数的局限性,皮尔逊相关系数及其显著性检验是建立在数据变量为定量且服从正态分布的前提下。若这一前提不成立,则结果不可信或是错误的。此时需要非参数方法。,皮尔逊相关系数只能用来度量两个变量的线性相关性,不能用来度量两者的相关性。,例,已知,X,,,Y,,,g(X),是,X,的单调函数,则有:,X,和,Y,的接近时,,Y,和,g(X),的可能接近于。,皮尔逊相关系数,错误!,变量:,连续型,正态分布,线性关系,连续数据,(Pearson,积矩相关系数不讲):,Kendall,秩相关检验,Spearman,秩相关检验,偏秩相关,Kendall,评定协和系数,本章主要内容,5.1 Spearman,秩相关检验,Spearman,秩相关是利用斯皮尔曼等级相关系数测定变量间等级相关程度的一种非参数统计相关分析方法。,5.1.1,基本思路与检验步骤,设,x,,,y,是抽自两个不同总体,X,,,Y,的样本,其观察值为 ,将它们配对形成 ;如果将,各自排序,分别评出 在两个顺序样本中所在位置的名次(称为秩),记作 ,得到,n,对秩:,n,对秩可能完全相同,也可能完全相反,或者不完全相同。,可见,当,X,与,Y,完全相关时,记作 。其中,可以用来度量,x,和,y,的相关程度:越大,,x,与,y,之间的相关越不完全。由于,可正可负,直接用 测度相关会缩小 之间的差值,故用 来反映 的差值大小;但 既受 不一致程度的影响,也受观察值个数,n,的多少之影响。为了准确度量,x,和,y,的相关程度,我们用 的最大值去除 ,则得到了一个相对测量指标,称为等级相关系数,记为,R,。的最大值反映了,x,与,y,之间完全负相关,它等于:,检验步骤:,(,1,)建立假设:,或,或,(,2,)计算检验统计量:,斯皮尔曼等级相关系数是测定两个样本相关程度的重要指标:,式中:,的取值范围在,-1,到,+1,之间。,0,为正相关,,0.8,为相关程度越高。,(,3,)做出决策:,当 时,拒绝 ;当 ,不能拒绝 。,是临界值(书中记为 ),它是根据样本观测之个数,n,、备择假设(单或双侧)以及给定的显著性水平查,Spearman,秩相关系数检验临界值表,查得。,注意:,1,:遇到打结的情况时,如果,x,或,y,打结不多,可以用平均秩解决;如果打结过多(超过全部数据的,1/5,),在计算时需要加上校正因子(公式略)。,2,:当,n,为大样本时,,近似服从正态分布,N(0,1),。,单侧:,P()=,;,双侧:,2P()=2,。,5.1.2,应用,某班,15,名学生的数学成绩与统计学成绩如下表所示,:,试分析学生的数学成绩和统计学成绩的相关性(),。,解:(,1,):提出假设:,(,2,):计算检验统计量,(,3,):作决策,所以拒绝 ,可以在,5%,的显著性水平下认为数学成绩与统计学成绩存在正相关关系。又因为 ,两者呈高度正相关,相关程度达,82.5%,。,5.1.3,练习,在一次跳水比赛中,有,2,名裁判员给运动员的评分引起了争议。下表列出了他们给,12,名选手的评分情况。试在,5%,的显著性水平下对这两名裁判员在本次比赛中的评分进行,相关分析,。,5.2 Kendall,秩相关检验,这种方法与,Spearman,秩相关检验一样,也是利用秩来研究两个变量之间的相关程度,只是考虑问题的角度不同而已。,7.2.1,基本思路与检验步骤,对于,n,对配对数据,现分别评出,x,与,y,两个数列的秩,然后将,x,的,n,个数据的秩按自然顺序排列,再考察,x,的秩与,y,的秩的一致性。如果两个秩次由小到大排列,则称为一个一致对,记作,+1,;否则成为非一致对,记作,-1,。由于,x,的秩次是按照自然序列由小到大排列的,因此,x,的观察值每两个秩之间都是一致对。,例如,,对于样本数据,(10,6,),,(8,12,),,(11,7,),,(9,8,)而言,,x,与,y,的秩为:,X,的秩:,R 3 1 4 2,Y,的秩:,S 1 4 2 3,将,x,的秩按自然顺序排列,四对秩的顺序变为:,X,的秩:,R 1 2 3 4,Y,的秩:,S 4 3 1 2,x,与,y,的一致对和非一致对的数目计算:,在,x,的秩按自然顺序排列时,,y,的一致对最大数目产生于,y,的秩也按自然顺序排列的情形,此时它等于 。所以,用,y,的一致对数目与最大可能一致对数目相比较,可以测定,x,与,y,的相关程度。,Y,的一致对数目与最大可能一致对数目之比为:,Y,的非一致对数目与最大可能一致对数目之比为:,当,y,的秩完全按自然顺序排列时,(,1,)式的值为,1,,(,2,)式的值为,0,;当,y,的秩完全与,x,的秩相反时,(,1,)式的值为,0,,(,2,)式的值为,1,。,为测定两组秩之间的相关程度,定义的相关系数取值范围从,-1,到,+1,。,Kendall,秩相关系数的定义公式为:,令,,则,Kendall,秩相关系数 公式为:,如果,x,与,y,有完全相同的评秩,则 ,表明,x,与,y,完全正相关;如果,x,与,y,有完全相反的评秩,则 ,表明,x,与,y,完全负相关。一般认为,两组秩次相关程度较高。,Kendall,秩相关系数的概率解释,对于对配对数据两两比较,将会出现三种情形,即:,和谐、不和谐和同分的概率分别记为,且有:,对于连续数据,一般有,肯德尔系数的被定义为:,前面计算公式就是这一公式的一个估计。,检验步骤:,(,1,)建立假设:,或,或,(,2,)计算检验统计量,(,3,)作决策,当 或 时,拒绝 ;,当 或 时,不能拒绝 。,注:一般的表只是当,k,或 为正的情况。在,k0,,且,,所以拒绝 ,可以认为总体数学成绩与统计学成绩之间确实存在正相关关系。,练习,1.,10,个国家和地区,1999,年的国际化程度和国际竞争力排名情况如下表所示:,试分析国家化程度与国际竞争力的相互关系,(),2.,美国阿尔塔郡的市长对每年一次的美男子比赛感兴趣。比赛按,5,个方面来评选参赛者:容貌,知识,才能,体形和音质。市长想知道这,5,个方面(变量)之间有无联系。比赛之后,他得到了,7,位参赛选手的容貌和才能的得分(见下表),试分析容貌是否和才能有关。,参赛者编号 容貌 才能,1 50 12,2 48 10,3 30 40,4 47 13,5 20 50,6 25 45,7 40 20,3.,试根据下列资料分析驾校训练场模拟驾驶考试的成绩与在公路上的实地驾驶考试的成绩之间是否相关。,12,名学员两次考试的结果,学员编号 模拟考试 实地路考,1 97 94,2 60 61,3 52 48,4 87 85,5 77 76,6 89 87,7 79 75,8 98 97,9 94 92,10 83 80,11 74 71,12 73 72,若有结时,用估计就会低估。这时需要修正公式。,对于一个有个相同观测值的结情形,共有,个对子,显然一个修正可以如下:,5.2.3,有结修正与大样本近似,式中,是,x,中打结观察值的个数,(,结长,),;是,y,中打结观察值的个数。,解:计算对子的原则是相同的不计入。,顺序对,反序对,0.9,100,9,2,0.9,104,6,3,1.0,96,10,0,1.3,113,1,6,1.5,106,4,4,1.6,102,2,1,1.6,104,2,1,1.6,104,2,1,1.6,109,2,1,1.6,115,0,3,1.7,113,0,1,1.8,113,0,1,2.2,98,0,0,38,24,当,n40,时,可以视为大样本,用正态分布逼近:,大样本近似,5.3,偏秩相关,当研究两个样本的相关性时,可能计算出来的相关系数并不直接反映两个样本间存在真正的或直接的关系。这种相关性是因为两个样本都和第三个样本有关系而产生的。这个问题在参数统计中是通过偏相关解决的,在非参数统计中也可以用偏相关的测算方法处理。本节介绍,Kendall,偏秩相关系数。,5.3.1,基本思路,若,X,、,Y,与第三个样本,Z,有关,即由于,Z,的变化对,X,、,Y,之间的关系有影响,则考察去掉,Z,的影响,仅仅研究,X,、,Y,之间的相关就是偏相关。在统计上,偏相关就是保持,Z,恒定下,X,、,Y,之间的相关。,若有三个样本,X,、,Y,、,Z,,每个样本有,n,个数据,且都至少是在定序尺度上测量,则根据,Kendall,秩相关系数的定义,表示,X,与,Y,之间的秩相关程度,表示,X,与,Z,之间的秩相关程度,表示,Y,与,Z,之间的秩相关程度。,Kendall,偏秩相关系数:,是,Z,不变时,X,与,Y,之间的相关系数,,其取值范围是,-1,到,+1,之间,但它的抽样分布迄今未知,因而无法对其进行显著性检验。,5.3.2,应用,例 社会上普遍认为:取得学士学位以后在工作中继续研究生课程的学习很重要,也就说在职继续学习比单纯地学院式学习更有意义。今调查了,7,个人的年龄、花在继续学习上的时间以及月收入情况,得到下列数据。试根据上述资料分析收入与继续受教育程度的相关性。,序号 年龄(岁)继续学习时间(小时)月收入(千元),(Z)(X)(Y),1 40 18 2.5,2 35 0 2.0,3 30 6 1.5,4 36 15 2.4,5 41 24 3.0,6 45 30 2.8,7 48 45 2.9,解:对于要分析研究的收入与继续学习的关系,在调查中增加了年龄,这可以看作是第三个样本。分析收入与继续学习的关系,可以利用上表资料计算相关系数。虽然表中数据均为定比尺度测量,但样本数目较少,不符合参数统计中计算积相关系数的要求,且对总体不做任何假设,采用非参数统计方法中的,Kendall,秩相关系数较为合适。,X,0 6 15 18 24 30 45,Y 2.0 1.5 2.4 2.5 3.0 2.8 2.9,y=5+5+4+3+0+1+0=18,xy=4(18)/7(7-1)-1=0.7143,根据,n=7,,,=0.7143,,查表可得到,,p,近似等于,0.015,,对于,0.05,的显著性水平来讲,,p,值足够小,因此数据拒绝不相关的零假设,表明收入与继续学习的时间存在相关。由于,=0.7143,,表明两者的相关程度不算高。,但考虑到收入可能受年龄的影响,继续学习的时间也会受到年龄的影响,因而应排除年龄因素的影响,计算偏秩相关系数,。,为此,先要计算 和,。,将,X,依次排序,得到,Z,的排列及相应的相关系数:,X 0 6 15 18 24 30 45,Z 35 30 36 40 41 45 48,u,xz,=5+5+4+3+2+1+0=20,=40,(,20,),/7,(,7-1,),-1=0.9048,将,Y,依次排序,得到,Z,的排列及相应的相关系数:,Y 1.5 2.0 2.4 2.5 2.8 2.9 3.0,Z 30 35 36 40 45 48 41 u,yz,=6+5+4+3+1+0+0=19,=4,(,19,),/7,(,7-1,),-1=0.8095,所以,,与 比较相差甚远。仅仅是一个很小的数值,以至无法做出存在相关的结论。但它与 共同使用可以说明收入与继续学习的时间,在年龄因素的影响下存在一定的相关。除了年龄的影响外,两者之间几乎没有什么联系。,5.4 Kendall,协同系数检验,检验问题:,H0,:对于不同个体的评判是否随机或不相关。,H1,:对于不同个体的评判是正相关的或一致的。,Kendall,协同系数:,Kendall,协同系数的简易公式,简易手工计算公式,Kendall,协同系数的显著性检验,W,值越大,,Kendall,协同系数越应该拒绝零假设,接受备择假设。,在零假设,H0,下,对于固定的,m,,当,n,趋于无穷大时,,可以进行显著性检验决策。,实例,四个独立的环境研究单位对,10,个城市的空气等级排序如下:,评估机构,m=4,被评估城市的排名,A,B,C,D,E,F,G,H,I,J,A,9,2,4,10,7,6,8,5,3,1,B,10,1,3,8,7,5,9,6,4,2,C,8,4,2,10,9,7,5,6,3,1,D,9,1,2,10,6,7,4,8,5,3,秩和,36,8,11,38,29,25,26,25,15,7,解:,m=4,,,n=10,统计量的值为:,m(n-1)W=36*0.8530=30.7091,。在显著性水平,5,下,其临界值为:。显然应该协同系数具有显著性。,此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢,
展开阅读全文