1、Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,两指标间的关系分析,Linear correlation,线性相关,10.1,相关关系与确定性关系,确定性关系,:两变量间的函数关系,圆的周长与半径的关系:,C,2,R,速度、时间与路程的关系:,L,ST,X,与,Y,的函数关系:,Y,a+b,X,R,1,R,1,R,2,R,1,R,2,R,3,10.1,相关关系与确定性关系,10.1,相关关系与确定性关系
2、非确定性关系,:两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。,青少年身高与年龄的关系;,年龄与血脂的关系;身高与体重的关系;,体重与体表面积的关系;,药物浓度与反应率的关系;,10.1,相关关系与确定性关系,相关关系与确定性关系,(2),当对事物的规律了解加深时,相关关系可以转变为确定性关系。,父亲患白化病,X,(,X,=,是,否,);,子女患白化病,Y,(,Y,=,是,否,);,X,与,Y,的关系,不确定,。,当母亲患白化病时,,X,与,Y,的关系,确定,:,X,=,是,则,Y,=,是;,X,=,否,则,Y,=,否。,(,父亲为异常基因的携带者除外。,),相关关系,当一个变量
3、增大,另一个也随之增大,(,或减少,),,我们称这种现象为共变,或相关,(correlation),。,两个变量有共变现象,称为有相关关系。,相关关系不一定是因果关系。,10.2,定量资料的相关,反映两定量指标间的,线性相关关系,用,Pearson,相关系数。,(Pearson correlation coefficient),例,10.1 10,名,3,岁男童体重与体表面积的关系,编号 体重,(,X,kg),体表面积,(,Y,10,3,cm,2,),111.05.283,211.85.299,312.05.358,412.35.292,513.15.602,613.76.014,714.45
4、830,814.96.102,915.26.075,1016.06.411,合计,134.457.266,10,名,3,岁男童体重与体表面积散点图,11,12,13,14,15,16,5.0,5.5,6.0,6.5,体重,(kg),,,X,体,表,面,积,Y,(10,3,cm,2,),散点图的特点,总的趋势:体表面积随体重的增加而增加。,总的趋势:直线,无弯曲度。,部分观察点的分布有时并不反映这个总趋势,甚至和总趋势相背离。,绝大部分散点分布在一条不太宽的倾斜的“带状”区域内,Pearson,相关系数的计算,X,的离均差平方和,:,Y,的离均差平方和,:,X,与,Y,间的离均差积和,:,相关
5、系数的含义,(了解),协方差,(covariance,COV),:,两个变量与其均值离差乘积的平均数,是相互关系的一种度量。,样本协方差,相关系数的含义,(了解),cm,kg,mm,kg,大于,基本结论:协方差受计量单位影响,从而,不能,真实反映相关的程度。,相关系数的含义,(1),相关系数:协方差与两变量标准差乘积的比值,是没有量纲的、,标准化的协方差,。,协方差,标准差,相关系数的含义,(2),标准化离差,离均差平方和、离均差积和的展开:,r,=0,(h),r,0,(f),r,-1,(d),r,1,(b),0,r,1,(a),-1,r,0,(c),r,0,(e),r,0,(g),零相关,正
6、相关,负相关,完全正相关,完全负相关,零相关,零相关,零相关,相关关系示意图,相关系数的性质,-1,r,1,r,0,为正相关,r,0,为负相关,r,0,为零相关或无相关,|,r,|=1,为完全相关,|,r,|,越大说明相关程度越密切,相关系数的正负,11,12,13,14,15,16,5.0,5.5,6.0,6.5,体重,(kg),,,X,体,表,面,积,Y,(10,3,cm,2,),例,10.1,资料相关系数的计算,相关系数的假设检验,H,0,:,0,,,体重与体表面积无相关关系;,H,1,:,0,,,体重与体表面积有相关关系。,=0.05,。,t,服从自由度为,n,-2,的,t,分布。,例
7、10.1,资料相关系数的假设检验,自由度,10,2,,,P,0.001,拒绝,H,0,,,接受,H,1,。,可以认为,3,岁男童体重与体表面积之间,有正相关关系。,总体相关系数,的区间估计,0,:,r,的分布是对称的,0,:,r,呈偏态分布,0,:,r,呈负偏态分布,0,:,r,呈正偏态分布,R.A.Fisher(1921),的,z,变换,z,近似服从均数为,,,标准差为,的正态分布。,0,0.2,0.4,0.6,0.8,1.0,0,100,200,300,=,-,0.8,=0,=0.8,0,0.5,1.0,1.5,2.0,0,50,100,150,200,-0.8,-0.6,-0.4,-0
8、2,0.0,0,100,200,300,-1.0,(,a,),r,(,d,),z,-1.0,-0.8,-0.6,-0.4,-0.2,0.0,0.2,0.4,0.6,0.8,1.0,0,100,200,300,-2,-1,0,1,2,0,50,100,150,200,(,b,),r,(,e,),z,0,1,2,3,4,0,50,100,150,200,250,(c),r,(,f,),z,相关系数的可信区间估计,(1),将,r,变换为,z,;,(2),根据,z,服从正态分布,估计,Z,的可信区间;,(3),再将,z,变换回,r,。,相关系数的可信区间估计,r,Fishers,变换,z,正态近似,
9、Z,的,95,CI,Fishers,反变换,的,95,CI,例,10.2,相关系数的可信区间,r=0.9579,,,则,Z,的,95%,可信区间:,1.91981.960.3780=(,1.1789,,,2.6607,),例,10.2,相关系数的可信区间,的,95%,可信限为:,的,95%,可信区间:,0.8271,0.9903,例,10.3,24,名成年男女的心率,(,X,),与收缩时间,(,Y,),男性 女性,心率 收缩时间,心率,收缩时间,(,次,/,分,)(,毫秒,)(,次,/,分,)(,毫秒,),5740556391,6139359410,6339763387,6640067374,
10、6738067385,6838368376,6937670378,7038272384,7538875370,7936679350,8337087357,8634594329,24,名成年男女的心率,(,X,),与收缩时间,(,Y,),的散点图,男性 女性,50,60,70,80,90,100,300,350,400,450,心率,(,次,/,分,),收,缩,时,间,(,毫秒,),50,60,70,80,90,300,350,400,450,100,心率,(,次,/,分,),24,名成年男女的心率,(,X,),与收缩时间,(,Y,),的相关分析,男性 女性,相关系数,-0.8827 -0.91
11、79,t,值,5.9398 7.3149,P,值 ,0.0001,0.0001,z,变换值,-1.3897 -1.5755,两相关系数的比较,H,0,:,男子心率与心脏左室电机械收缩时间的相关与,女子的相等,,1,2,;,H,1,:,男子心率与心脏左室电机械收缩时间的相关与,女子的不等,,1,2,。,=0.10,。,P=0.6906,。,不拒绝,H,0,,,尚不能认为男子和女子的心率与心脏左室电机械收缩时间间的相关系数不等。,10.3,定性资料的相关,配对四格表的,Pearson,点相关系数,列联系数,(contingency coefficient),10.3.1,四格表的列联系数,甲法,乙
12、法 ,a b,c d,-1,r,n,+1,例,10.4,两种方法观察舌象结果的相关性,某中医师采用两种方法观察舌象,200,例,观察结果如下,试分析两种观察方法的结果有无联系?,甲法,乙法 ,84(a)16(b),20(c)80(d),10.3.2,列联表的列联系数,Cramr,修正列联系数,:,R,C,分别是列联表的行数和列数。,2,是列联表的,2,检验。,0,r,C,1,例,10.5,两种血型系统的相关性,某人按两种血型系统统计某地,6094,人的血型分布,结果见表,10.5,,问两种血型的分布间有无关系?,ABO MN,血型,血型,MNMN,合计,O,431490902,1823,A,3
13、88410800,1598,B,495587950,2032,AB,137179325,641,合计,1451166629776094,2,为列联表的,2,。,列联系数的假设检验,等价于列联表的构成比的假设检验。,例题,10.4,H,0,:,两种方法观察舌象的结果无相关;,H,1,:,两种方法观察舌象的结果有相关。,=0.05,。,v,1,P,0.000,,,按,=0.05,水准,拒绝,H,0,,,接受,H,1,,,认为甲乙两种方法观察舌象的结果有正相关关系。,例题,10.5,H,0,:,不同的,ABO,血型,其,MN,的血型构成相同,;,H,1,:,不同的,ABO,血型,其,MN,的血型构成
14、不同,;,=0.05,。,自由度,(4-1)(3-1),6,,,P,0.1979,。,10.4,等级资料的相关,Spearman,等级相关,将各变量,X,Y,分别编秩,R,X,R,Y,;,计算,R,X,与,R,Y,的,Pearson,相关;,所得结果即为,Spearman,等级相关,r,S,。,-1,r,s,1,例,10.6,抗白指数与临床疗效的关系,某研究所用野百合治疗白血病,并作抗白血病指数,(,简称抗白指数,),及疗效的分析,问抗白指数与临床疗效间有无关系?,病例号 抗白指数,X,临床疗效,Y,(1)(2),12+,23+,39+,410+,511+,630,735,845,955+,1
15、070+,1188,1290,R,X,(3),1,2,3,4,5,6,7,8,9,10,11,12,R,Y,(4),9,9,9,11.5,11.5,3,3,3,6.5,6.5,3,3,等级相关的假设检验,H,0,:,S,0,,,抗白指数与疗效无相关关系;,H,1,:,S,0,,,抗白指数与疗效有相关关系。,=0.05,。,当,n,50,时,用查“等级相关界值表”;,当,n,50,时,用,t,检验:,t,服从自由度为,n,-2,的,t,分布。,例,10.6,资料的假设检验,本例,n,=12,查界值表,得:,r,s(0.05,12),=0.587,即,若,H,0,成立,则等级相关系数有,95%,的
16、可能在,(-0.587,0.587),之间。,现,r,s,=-0.6894,,,故,P,0.05,。,可以认为,抗白指数与疗效有等级相关关系。,例,10.7,母亲文化程度与儿童智商的关系,母亲文化程度 儿童智商等级,(,Y,),合计,(X),中下中等中上上等,小学,2281303136,初中,5723613526454,高中或中专,1111210517245,大专及以上,1410722,合计,9143328053857,r,s,=0.2261,大样本时的等级相关检验,本例,n,=857,,,大于,50,,用,t,检验:,P,0.01,。,可以认为,母亲文化程度,与儿童智商等级间存在相关关系,母
17、亲文化程度越高,儿童智商等级亦高。,等级相关的含义,等级相关反映的是两变量等级间的相关,并不反映两变量间的数值关系。,例1,XY,11,22,33,44,55,例2,XY,11,24,39,416,525,例3,XY,11,21.1,31.2,41.3,51.4,例4,XY,11,210,3100,41000,510000,相关分析的正确应用,(1),相关关系是一种共变关系,不一定是因果关系;,定量资料在进行相关分析,(Pearson,相关,),前,需作散点图,从散点图的趋势判断是否可以作线性相关分析;,某地,160,名,20,岁男子身高与体重散点图,成都市男中小学生,12,个年龄组的平均身高,大白鼠进食量,(X,g),与体重增加,(Y,g),的关系,免疫球蛋白,A(IgA,g,),与火箭电泳高度,(Y,mm),的关系,相关分析的正确应用,(1),识别离群值;,P,Q,图,10.5,离群值对相关的影响,相关分析的正确应用,(2),排除间杂性。,(,a,),(,b,),样本甲观察点,样本乙观察点,图,10.6,样本的间杂性对相关性的误导,Many thanks,






