1、第十章 直线回归与相关本章介绍双变量资料的直线回归(linear regression)与直线相关(linearcorrelation)的统计方法,用以研究两个变量的数量关系,包括统计描述和统计推断。第一节 直线回归一、直线回归方程统计研究的双变量有2种情况:一个变量是选定变量,以X表示,其X值是选定的;一个变量是随机变量,以 Y 表示,其 Y 值是随机变化的。医学和生物学中常见的是各X 值处 Y 服从正态分布。例如选定变量为年龄 X,用1 岁作间距,随机变量为各岁处人群的身高Y,则各 X值处 Y 服从正态分布。两个变量都是随机变量,以 X和Y表示。常见的是(X, Y)服从双变量正态分布(bi
2、variation normal distribution),即任意X值处Y服从正态分布,任意Y 值处X 服从正态分布。例如某个人群的身高和体重用X 和 Y表示,则(X,Y)服从双变量正态分布。双变量资料的统计方法是研究随机变量和选定变量或两个随机变量的数量关系。这种研究是群体研究,其数量关系为统计关系或不确定关系。X 值处的个体Y值是不确定的,而是以其均数为中心随机变化。例如不同年龄处的个体身高值是不确定的,而是以该年龄的身高均数为中心而随机变化。这和一般数学研究两个变量的个体函数关系或确定关系不同。两个变量的数量关系就研究目的来说有依存关系和互依关系。依存关系中一个为自变量,常以X表示;一
3、个为应变量,常以Y表示。研究X对Y的作用或Y 对X 的依赖,用回归分析。互依关系中两个变量可令为X 和 Y。研究X和Y的彼此关系或彼此影响,用相关分析。一般说来,相关分析只适用于双随机变量。两个变量的数量关系就数学形式来说有直线关系和曲线关系(或非直线关系)。直线关系为最简单和最基本关系,用直线回归与直线相关描述。本节介绍直线回归。如果选定变量各 X 值处随机变量 Y 服从正态分布且方差相等,各 X 值处 Y 的总体均数Y.x不等且在一条直线上,则该直线称为总体的Y.X对 X的回归直线。双变量正态分布总体若X和Y的总体相关系数(见下节)不等于零,则存在Y.X对X和Y.X(Y值处X的总体均数)对
4、 Y的两条回归直线,但实际应用中一般只研究一条回归直线,可定自变量为X,应变量为Y。设样本的n对变量值为:(X1,Y2),(X2,Y2),(Xn,Yn)。如果观察到Y随X的变化有直线趋势,即Y随X增大而有相应的增大或减小趋势,把 n 对变量值在直角坐标图上描出相应的 n 点,散点图(scatterdiagram)呈直线趋势(并非所有散点恰在 1 条直线上),则可拟合样本 Y对X的直线回归方程(linear regression equation),作为总体直线回归方程的估计。据样本 n 对变量值拟合直线回归方程的方法用最小二乘法(leastsquare method),即使各散点离回归直线的纵
5、向距离平方和为最小。样本直线回归方程及其计算公式为)Y a bX=+( )101bX X Y YX XXYY nXXn=?=?()()()() /() /222( )102( )a Y bXY n bX n=?/() /( )103)Y为 值处 的总体均数( )的估计值。 为常数项,是回归直线XYaY.X线在 Y 轴上的截距。b 称为直线回归系数,简称回归系数(regressioncoefficient),是直线的斜率。回归系数b描述Y依赖X的直线变化的数量关系的方向与大小。为了进行直观分析,可据直线回归方程绘制回归直线。在X的实测全距范围内任取相距较远且易读数的两个X值,代入直线回归方程求得
6、两个Y值,把这两对变量值在直角坐标图上描两点,通过两点连直线。直线回归方程及相应的回归直线的主要用途有:描述应变量依赖自变量变化而变化的数量关系。例如描述儿童身高依赖年龄变化而变化的数量关系。由易测的变量值来估算难测的变量值。如用病人体重来估算其体表面积。由现在的变量值来预测将来的变量值。如由父亲身高来预测儿子成人后的身高。由于引入自变量,缩减了应变量的变异,因此能更精密地确定不同自变量值处应变量值的正常值范围。例如若不考虑年龄,小儿体重的变异范围大,即正常值范围宽,引入年龄作为体重的自变量,各年龄处小儿体重的变异减小,正常值范围变窄。例 101 某地10名女中学生的体重与肺活量如表101的第
7、(1)、(2)、(3)栏。以体重为 X(kg)、肺活量为 Y(L),绘制散点图,观察有无直线趋势。若有直线趋势,拟合Y对X的直线回归方程。如图101,把表101的10对(X,Y)值在直角坐标图上描出相应的10点。观察到散点图有直线趋势。于是拟合Y对X的直线回归方程。计算表如表101,其相关系数的计算见下节。b =?=94655 405 2315 1016501 405 108975985009112. /.a = 23.15/10-0.0911 405/10= -1.3746故得女中学生肺活量Y(L)对体重X(kg)的直线回归方程为)Y = -1.3746+0.0911X据拟合的直线回归方程绘
8、制回归直线:取则取则X = 35 Y = -1.3746+0.0911 35=1.81X = 45 Y = -1.3746+0.0911 45= 2.721122)如图101,把(35,1.81)和(45,2.72)在直角坐标图上描出2点,通过这2点连直线即得回归直线。回归直线应在X的实测全距范围内或估计的实际可应用范围内绘制,不要任意延长。表 10 1 某地 10 名女中学生的体重 X ( kg )与肺活量 Y ( L )的直线回归方程及相关系数的计算编号XYX2Y2XY(1)(2)(3)(4)(5)(6)1351.6012252.560056.002371.6013692.560059.2
9、03372.4013695.760088.804402.1016004.410084.005402.6016006.7600104.006422.5017646.2500105.007422.6517647.0225111.308432.7518497.5625118.259442.7519367.5625121.0010452.2020254.840099.00合计40523.151650155.2875946.55图101 10名女中学生体重与肺活量的散点图及拟合的肺活量对体重的回归直线二、总体回归系数的假设检验总体Y.X(X值处Y 的总体均数)对X 的直线回归方程的回归系数用表示。若=0
10、,则各X 值处Y.X相等,Y 的变化不依赖 X,即总体不存在Y.X对X的直线回归方程及相应回归直线;只有0时总体才存在Y.X对X的回归直线。因此推断总体是否存在Y.X对X的回归直线,即推断总体回归系数是否等于零。样本回归系数b为总体回归系数的点估计,样本直线回归方程为总体直线回归方程的估计。显然只有0,所拟合的样本直线回归方程及绘制样本回归直线才有意义。总体回归系数的假设检验的检验假设(或无效假设)H0为=0;备择假设H1一般用双侧0。如果H0成立,则 b和0的差别完全由抽样误差造成。样本检验统计量为t,称为样本回归系数b和总体回归系数0比较的t检验。计算t值的公式为tbsbsv nbb=?=
11、 ?| | |02( )104式中sb为回归系数的标准误,计算公式为:sSX XbYX=?.()2( )105式中s Y.X为Y的剩余标准差,是扣除X的影响后Y的变异指标,计算公式为sY YnYX.()=?)22( )106式中 () 为 的剩余平方和,即直角坐标图上各散点离回归Y-YY)2直线的纵向距离平方和,计算公式为()()()()()Y YY YX X Y YX X?=?)2222( )107式中,其他可用求 值的( )式的()Y-Y=Y-(Y)/nb102222分子和分母数据。例 102 据例101中某地10名女中学生的体重与肺活量资料,问是否存在该地女中学生的肺活量对体重的回归直线
12、?即例101中所拟合的样本直线回归方程是否有意义?设该地女中学生总体肺活量对体重的回归系数为,假设为:H0:=0H1:0=0.05在例 中已算得,101b=0.0911X-XY-=8.975X- X()()()Y2=98.5。现据表101中数据算得()./.YY?=?=22552875 2315 10 16953然后算得()./ .YY?=?=)2216953 8975 985 08775ssYXb.=?=0877510 2033120331298500334据(109)式有t =? ?0091100334272810 2 8.查t界值表得P0.05。按 a=0.05水准拒绝H0,接受H1,认
13、为存在该地女中学生的肺活量对体重的回归直线,因此例101中所拟合的样本直线回归方程有意义。第二节 直线相关一、相关系数直线相关适用于服从双变量正态分布的双随机变量。直线相关研究两个变量X和Y的互依关系,即X和Y协同变化的数量关系。直线相关系数简称相关系数(correlation coefficient),用以描述两个变量直线相关的方向与紧密程度。总体相关系数用表示,样本相关系数用r表示。由样本n对变量值(X1,Y1),(X2,Y2),(Xn,Yn)求r的公式为rX X Y YX XY YXYXY nXXnYYn=?=? ()( _ )()()()() /() /() /222222( )108
14、相关系数没有单位,其取值范围为:-1r(或)1。相关系数 r 的意义可用图 102 说明。若散点图呈椭圆形分布,X 和 Y有同时增大或减小的趋势,则 0r1,称为正相关;若 X和Y有一个增大、另一个减小的趋势,则-1r0,称为负相关。 r=1 为完全正相关; r=-1为完全负相关。完全相关散点都在一条直线上,即X和Y有确定函数关系。两个随机变量不可能完全相关。r=0,称为零相关。零相关表示X和Y没有协同变化的数量关系,如图中所示常见的3种零相关情况。因此零相关实际可认为是无相关。注意的是:r 是就双变量(X,Y)的样本而言,就总体而言应该用。图102相关系数的意义示意图例 103 求例101
15、中某地 10 名女中学生体重和肺活量的相关系数。据表101有()r =?94655 405 2315 1016501 405 10 652875 2315 1022. /( ./ )0.6945该地10名女中学生体重和肺活量的相关系数为0.6945。二、总体相关系数的假设检验双变量(X,Y)正态分布总体X和Y的相关系数为。若=0,则X和Y无相关;只有0 时X 和Y 才有直线相关关系,0 为正相关,0为负相关。因此推断总体的X和Y有无直线相关关系,即推断总体相关系数是否等于零。样本相关系数r反映样本中n对变量值直线相关的方向与紧密程度,为总体相关系数的点估计。显然只有0,所求得的样本相关系数才有
16、意义。总体相关系数的假设检验的检验假设(或无效假设)H0为=0;备择假设H1双侧为0,单侧为0或0。如果H0成立,则 r和0的差别完全由抽样误差造成。样本检验统计量为 t,称为样本相关系数 r 和总体相关系数0比较的t检验。计算t值的公式为trsrrnnr=?=?= ?| |01222( )109式中sr为相关系数的标准误。例 104 据例101 中某地 10 名女中学生的体重与肺活量资料,问体重和肺活量有无直线相关关系?设该地女中学生总体体重和肺活量的相关系数为,假设为:H0:=0H1:0=0.05今n=10,在例103中已算得r=0.6945。据(109)式有t =?=? =069451
17、0694510 2273010 2 82.查t 界值表得 P0.05。按=0.05水准拒绝 H0,接受 H1,认为该地女中学生的体重和肺活量有正的直线相关关系。现在总结说明直线回归和直线相关的一些注意事项:1.直线回归反映两变量间的依存关系,直线相关反映两变量间的互依关系,依存关系和互依关系都是数量关系,其实际的因果关系要靠专业知识阐述。因此不要把实际毫无关联的医学指标或现象作相关与回归分析。2.对于X选定、Y服从正态分布的双变量,只作直线回归分析;若(X,Y)服从双变量正态分布,则既可作直线相关分析;又可作直线回归分析。3.b的正负和r的正负相同(r=0时b=0,r0时b0,r0时b0)。推
18、断是否等于0和推断是否等于0等价,对同一样本用两种推断方法求得的t值相等。如对例 101 中的样本,例 102 中求得 t=2.728,例 104 中求得 t=2.730(其微小差别是由于计算过程中的舍入误差)。若(X,Y)服从双变量正态分布,一般先作直线相关,如需要再作直线回归。作直线回归需在作直线相关推断出0才可进行,此时定会推断出0,不必重复推断。4.回归系数和相关系数的绝对值大小无直接关系,其意义不同:|r|越大,表示X和Y相关越紧密,各散点越靠近回归直线;|b|越大,表示Y随X变化越快,回归直线越陡。5.双变量的小样本经t检验只能推断两变量间有无直线相关,而不能推断相关的紧密程度。要
19、推断两变量间相关的紧密程度,样本含量必须很大,比如n100。此时抽样误差很小,可认为样本相关系数近似等于总体相关系数,一般|r|0.7表示高度相关,0.4|r|0.7表示中度相关,|r|0.4表示低度相关。6.不服从双变量正态分布的两个随机变量,若要作相关分析,可计算等级相关系数rs(见下节)。第三节 等级相关若X和Y都为随机变量,但不服从双变量正态分布,特别是有率或构成比等相对数作变量,或本来就是等级变量时,要研究X和Y的互依关系,可用本节介绍的Spearman的等级相关(rankcorrelation)。把样本n对变量值的X值和Y值分别从小到大编秩:1,2,n,若遇相同X值或相同 Y值则取
20、平均秩次(如有 2个 X值相同,应排秩次为 3、4,则2个 X值都取平均秩次 3.5)。这样就把n 对变量值转换成n 对秩次,各对秩次之差记为d1,d2,dn。求等级相关系数rs的公式为rdn ns= ?16122()( )1010rs用以描述 n 对变量值转换成的 n 对秩次的直线相关的方向与紧密程度:-1rs1,rs0表示正相关,rs0表示负相关,|rs|越大表示相关越紧密。样本等级相关系数rs为总体等级相关系数s的点估计,用以推断s是否等于零来达到推断总体的X和Y有无相关的目的。总体等级相关系数的假设检验的检验假设(或无效假设)H0为s=0;备择假设 H1双侧为s0,单侧为s0 或s0。
21、如果 H0成立,则 rs和 0的差别完全由抽样误差造成。当 n50时,制作有专门的rs界值表,如表102,用以求 H0成立时由抽样误差造成 rs和 0 差别的 P 值,rsrs(a,n)时 P,rsrs(a,n)时P;当n50时,可和 r一样用(109)式求t 值进行t检验。表 10 2rs界值表概率(P)概率(P)nn双侧: 0.100.050.020.01双侧: 0.100.050.020.01单侧: 0.050.0250.010.005单侧: 0.050.0250.010.00541.000280.317 0.3750.440 0.48350.900 1.0001.000290.312
22、0.3680.433 0.475300.306 0.3620.425 0.46760.829 0.8860.8431.00070.714 0.7860.8930.929310.301 0.3560.418 0.45980.643 0.7380.8330.881320.296 0.3500.412 0.45290.600 0.7000.7830.833330.291 0.3450.405 0.446100.564 0.6480.7450.794340.287 0.3400.399 0.439350.283 0.335.3940.433110.536 0.6180.7090.755120.503
23、0.5870.6780.727360.279 0.3300.388 0.427130.484 0.5600.6480.703370.275 0.3250.383 0.421140.464 0.5380.6260.679380.271 0.3210.378 0.415150.446 0.5210.6040.654390.267 0.3170.373 0.410400.264 0.3130.368 0.405160.429 0.5030.5820.635170.414 0.4850.5660.615410.261 0.3090.364 0.400180.401 0.4720.5500.600420
24、.257 0.3050.359 0.395190.391 0.4600.5350.584430.254 0.3010.355 0.391200.380 0.4470.5200.570440.251 0.2980.351 0.386450.248 0.2940.347 0.382210.370 0.4350.5080.556220.361 0.4250.4960.544460.246 0.2910.343 0.378230.353 0.4150.4860.532470.243 0.2880.340 0.374240.344 0.4060.4760.521480.240 0.2850.336 0.
25、370250.337 0.3980.4660.511490.238 0.2820.333 0.366500.235 0.2790.329 0.363260.331 0.3900.4570.501270.324 0.3820.4480.491例 105 在肝癌病因研究中,某地调查了10个乡肝癌死亡率(1/10万)与某种食物中黄曲霉毒素相对含量(最高含量计为 10),调查结果如表 103的第(1)、(2)、(4)栏,问黄曲霉毒素和肝癌死亡率间是否存在正相关?设黄曲霉毒素和肝癌死亡率的总体等级相关系数为s,假设为:H0:s=0H1:s0单侧=0.05今n=10,表103中算得d2=42。据(1010
26、)式有rs= ?=16 4210 1010 7452().查rs界值表得P=0.01。按=0.05水准拒绝H0,接受H1,认为黄曲霉毒素和肝癌死亡率间存在正相关。注意:计算 rs的公式(1010)来源于计算 r 的公式(108),只要把变量值对转换成秩次对。当有相同秩次时,(1010)式需校正,校正公式比较复杂。如计算rs时有相同秩次,不要用公式(1010)计算,可根据转换的秩次对用公式(108)计算。表 10 3 10 个乡肝癌死亡率与黄曲霉毒素相对含量乡编号 黄曲霉毒素相对含量 肝癌死亡率( 1/10万)X秩次Y秩次dd2(1)(2)(3)(4)(5)(6)=(3)-(5)(7)10.7121.53-2421.0218.920031.7314.412443.7446.57-3 954.0527.341165.1664.69-3975.5746.361185.7834.253995.9977.610-111010.01055.182442