1、第第10章章两指标间的关系分析两指标间的关系分析Linear correlation线性相关线性相关曾平曾平流行病与流行病与卫生统计学教研室卫生统计学教研室 0516-1/53内容内容相关关系与确定性关系相关关系与确定性关系定量资料的相关定量资料的相关定性资料的相关定性资料的相关等级资料的相关等级资料的相关相关分析的正确应用相关分析的正确应用210.1 相关关系与确定性关系相关关系与确定性关系确定性关系确定性关系:两变量间的函数关系:两变量间的函数关系 圆的周长与半径的关系:圆的周长与半径的关系:C2 R X与与Y的函数关系:的函数关系:Ya+bX 非确定性关系非确定性关系:两变量在:两变量在
2、宏观上宏观上存在关系,存在关系,但并未精确到可以用函数关系来表达。但并未精确到可以用函数关系来表达。收入与消费的关系;收入与消费的关系;青少年身高与体重的关系;青少年身高与体重的关系;3当一个变量增大,另一个也随之增大当一个变量增大,另一个也随之增大(或减少或减少),称这种现象为共变,或相关,称这种现象为共变,或相关(correlation)。两个变量有共变现象,称为有相关关系。两个变量有共变现象,称为有相关关系。相关关系不一定是相关关系不一定是因果关系因果关系。反映两定量指标间的直线相关关系用反映两定量指标间的直线相关关系用 Pearson 相关系数。相关系数。(Pearson correl
3、ation coefficient)10.2 定量资料的相关定量资料的相关4r=0(h)r 0(f)r-1(d)r1(b)0r1(a)-1r0为正相关,为正相关,r0为为负相关,负相关,r=0为无线性关系为无线性关系;(3)r的绝对值表示相关的密切程度:的绝对值表示相关的密切程度:绝对值越绝对值越接近于接近于1,相关性越好;绝对值越接近于,相关性越好;绝对值越接近于0,相,相关性越差。关性越差。11例例10.1 10名名3岁男童体重与体表面积的关系岁男童体重与体表面积的关系 编号编号 体重体重(X,kg)体表面积体表面积(Y,103cm2)111.05.283211.85.299312.05.
4、358412.35.292513.15.602613.76.014714.45.830814.96.102915.26.075 1016.06.411 合计合计 133.4 57.26612分析步骤分析步骤1、散点图、散点图2、计算相关系数计算、计算相关系数计算3、相关系数的假设检验、相关系数的假设检验1310名名3岁男童体重与体表面积散点图岁男童体重与体表面积散点图1112131415165.05.56.06.5体重体重/kg X体体表表面面积积Y/103cm214例例10.1资料相关系数的计算资料相关系数的计算151610.2.2 相关系数的假设检验相关系数的假设检验H 0:0,体重与体表
5、面积无相关关系;体重与体表面积无相关关系;H 1:0,体重与体表面积有相关关系。体重与体表面积有相关关系。=0.05t 服从自由度为服从自由度为 n-2 的的 t 分布。分布。17例例10.1资料相关系数的假设检验资料相关系数的假设检验自由度:自由度:v102,P0.001拒绝拒绝 H0,接受,接受 H1。可以认为可以认为3岁男童体重与体岁男童体重与体表面积之间有表面积之间有强的强的 正的正的 线性的线性的 相关关系相关关系。1810.2.3 总体相关系数总体相关系数 的区间估计的区间估计相关系数相关系数 分布分布相关系数相关系数 =0 n样本相关系数的分布是对称的,当样本样本相关系数的分布是
6、对称的,当样本含量较大时,近似正态分布含量较大时,近似正态分布 相关系数相关系数 不等于不等于0 n样本相关系数的分布是偏态样本相关系数的分布是偏态 19-0.8-0.6-0.4-0.20.00100200300-1.000.51.01.52.0050100150200-2-1012050100150200 01234050100150200250 00.20.40.60.81.00100200300 =0 =-0.8 =0.8 zzz20z变换变换(双曲正切变换双曲正切变换)R.A.Fisher(1921)提出的提出的其反变换其反变换 21z值值 的分布的分布变换值变换值 z 近似服从均数为
7、近似服从均数为标准差为标准差为 的正态分布的正态分布将相关系数将相关系数 r 变换为变换为 z 值,并按正态分布原值,并按正态分布原理估计理估计 z 的的 100(1-)%的可信限的可信限然后再进行反变换,求出然后再进行反变换,求出 的可信区间的可信区间22以例以例10.1数据为例,试计算总体相关系数数据为例,试计算总体相关系数 的的95%及及99%可信区间可信区间 z的的95%可信区间:可信区间:1.91981.960.3780=(1.1789,2.6607)z的的99%可信区间:可信区间:1.91982.580.3780=(0.9446,2.8950)23r的的95%可信区间:可信区间:0
8、.82710.9903r的的99%可信区间:可信区间:0.73730.9939 2410.2.4 两样本相关系数的比较两样本相关系数的比较例例10.3 某医院分别测定正常成年男子某医院分别测定正常成年男子12人和正常成年女子人和正常成年女子12人的心率人的心率(X,次次/分分)与心脏左室电机械收缩时间与心脏左室电机械收缩时间QS(Y,毫秒毫秒)的的数据见表数据见表10.2,试比较男子和女子的心率,试比较男子和女子的心率(次次/分分)与心脏左室电机械收缩时间与心脏左室电机械收缩时间QS(毫秒毫秒)的相关是否相同的相关是否相同。25表表10.2 24名成年男女的心率名成年男女的心率(X)与收缩时间
9、与收缩时间(Y)男子男子女子女子心率,心率,X(次次/分分)收收缩时间缩时间,Y(毫秒毫秒)心率,心率,X(次次/分分)收收缩时间缩时间,Y(毫秒毫秒)57405563916139359410633976338766400673746738067385683836837669376703787038272384753887537079366793508337087357863459432926分析思路分析思路分析男、女心率与机械收缩时间是否有关分析男、女心率与机械收缩时间是否有关散点图散点图相关系数相关系数相关系数假设检验相关系数假设检验(?)比较两相关系数是否相同比较两相关系数是否相同27(
10、1)散点图散点图 5060708090100300350400450心率(次/分)收收缩缩时时间间(毫毫秒秒)5060708090300350400450100心率(次/分)收收缩缩时时间间(毫毫秒秒)男男女女28(2)分别计算两样本相关系数分别计算两样本相关系数r 男性男性女性女性29(3)对两相关系数进行假设检验对两相关系数进行假设检验 统计量统计量男男女女30=12-2=10,则,则P10.001,P20.20,故尚不能认为男子和女子的心率,故尚不能认为男子和女子的心率与心脏左室电机械收缩时间间的相关系数不等。与心脏左室电机械收缩时间间的相关系数不等。3510.3 定性资料定性资料的相关
11、的相关列联系数列联系数contingency coefficient3610.3.1 四格表的列联系数四格表的列联系数 甲法甲法乙法乙法 a b c d-1 rn+137例例10.4 两种方法观察舌象结果的相关性两种方法观察舌象结果的相关性某中医师采用两种方法观察舌象某中医师采用两种方法观察舌象200例,观察结例,观察结果如下,试分析两种观察方法的结果有无联系?果如下,试分析两种观察方法的结果有无联系?甲法甲法 乙法乙法 84(a)16(b)20(c)80(d)3810.3.2 列联表的列联系数列联表的列联系数Cramr修正列联系数修正列联系数 rC :R,C分别是列联表的行数和列数。分别是列
12、联表的行数和列数。2是列是列 联表的联表的 2检验的检验的 2 值。值。0 rC 139例例10.5 两种血型系统的相关性两种血型系统的相关性 ABO MN血型血型 血型血型 MNMN 合计合计O4314909021823A3884108001598B4955879502032AB137179325641 合计合计1451166629776094某人按两种血型系统统计某地某人按两种血型系统统计某地6094人的血型分布,人的血型分布,结果见表结果见表10.5,问两种血型的分布间有无关系?,问两种血型的分布间有无关系?40构成比的检验:构成比的检验:H0:不同的不同的ABO血型血型,其其MN的血型
13、构成相同的血型构成相同;H1:不同的不同的ABO血型血型,其其MN的血型构成不同的血型构成不同;自由度自由度(4-1)(3-1)6,P0.1979。41 2为列联表的为列联表的 2。42列联系数的假设检验列联系数的假设检验 等价于四个表卡方检验和列联表的构成比的等价于四个表卡方检验和列联表的构成比的假设检验。假设检验。4310.4 等级资料的相关等级资料的相关(rank correlation)Spearman等级相关等级相关将各变量将各变量X,Y分别编秩分别编秩RX,RY;计算计算RX与与RY的的Pearson相关相关;10.12所得结果即为所得结果即为Spearman等级相关等级相关rs。
14、-1rs144例例10.6 抗白指数与临床疗效的关系抗白指数与临床疗效的关系某研究所用野百合治疗白血病,并作抗白血病指数某研究所用野百合治疗白血病,并作抗白血病指数(简称抗白简称抗白指数指数)及疗效的分析,问抗白指数与临床疗效间有无关系?及疗效的分析,问抗白指数与临床疗效间有无关系?病例号病例号 抗白指数抗白指数X 临床疗效临床疗效Y(1)(2)12+23+39+410+511+630735845955+1070+11881290RX(3)123456789101112RY(4)99911.511.53336.56.53345等级相关的假设检验等级相关的假设检验H 0:S0,抗白指数与疗效无相
15、关关系;抗白指数与疗效无相关关系;H 1:S 0,抗白指数与疗效有相关关系。抗白指数与疗效有相关关系。=0.05。当当n50时,用查时,用查“等级相关界值表等级相关界值表”;当当n50时,用时,用 t 检验:检验:t 服从自由度为服从自由度为n-2的的 t 分布。分布。46例例10.6资料的假设检验资料的假设检验本例本例 n=12,查界值表查界值表15,得:,得:rs(0.05/2,12)=0.587即,若即,若 H0 成立,则等级相关系数有成立,则等级相关系数有95%的可能的可能在在(-0.587,0.587)之间。之间。现现 rs=-0.6894,故故 P 0.05。可以认为,抗白指数与疗
16、效有等级相关关系。可以认为,抗白指数与疗效有等级相关关系。47例10.7 母亲文化程度与儿童智商的关系母亲文化程度母亲文化程度 儿童智商等级儿童智商等级(Y)合计合计 (X)中下中下 中等中等 中上中上 上等上等 小学小学 22 81 30 3 136 初中初中 57 236 135 26 454高中或中专高中或中专 11 112 105 17 245大专及以上大专及以上 1 4 10 7 22 合计合计 91 433 280 53 857X的秩的秩次范围次范围x的平的平均秩次均秩次 1136 68.5137590 363.5591835 713836835 857rs=0.2261y的秩次范
17、围的秩次范围 191 92524 525804 805857y的平均秩次的平均秩次 46 308 664.5 83148大样本时的等级相关检验大样本时的等级相关检验本例本例 n=857,大于大于50,用,用 t 检验:检验:P0.01。可以认为,母亲文化程度与儿童智商等级间可以认为,母亲文化程度与儿童智商等级间存在相关关系,母亲文化程度越高,儿童智存在相关关系,母亲文化程度越高,儿童智商等级亦高。商等级亦高。49等级相关的含义等级相关的含义等级相关反映的是两变量等级间的相关,并等级相关反映的是两变量等级间的相关,并不反映两变量间的数值关系。不反映两变量间的数值关系。例例1 XY11223344
18、55例例2 XY1124394 165 25例例3XY112 1.13 1.24 1.35 1.4例例4XY1121031004 100051000050相关分析的正确应用相关分析的正确应用(1)相关关系是一种共变关系,相关关系是一种共变关系,不一定是因果不一定是因果关系关系;定量资料在进行相关分析定量资料在进行相关分析(Pearson相关相关)前,前,需作散点图需作散点图,从散点图的趋势判断是,从散点图的趋势判断是否可以作线性相关分析;否可以作线性相关分析;51相关分析的正确应用相关分析的正确应用(1)识别离群值;识别离群值;PQ图10.5 离群值对相关的影响52相关分析的正确应用相关分析的正确应用(2)排除资料的间杂性。排除资料的间杂性。(a)(b)样本甲观察点样本甲观察点 样本乙观察点样本乙观察点图图10.6 样本的间杂性对相关性的误导样本的间杂性对相关性的误导5354