协方差分析简介.doc_咨信网zixin.com.cn

资源描述

协方差分析简介在许多研究中，两组或多组均数的比较还需要控制一些非研究因素的影响，这些非研究因素称为混杂因素（Confounding factor）。为了帮助读者进一步理解分类自变量的线性回归的回归系数的特殊意义。先用下例说明自变量为二分类变量的直线回归中的回归系数检验与成组t检验之间的关系。例12.7 为了评价控制饮食对糖尿病控制的作用，在坚持控制饮食的糖尿病人群和未控制饮食的糖尿病人群中各随机抽取30个对象，测量其空腹血糖如下控制饮食组(group=1) 6.6 7.3 7.2 7.3 7.4 6.5 7.3 6.4 7.2 7.7 6.8 6.3 7.1 7.8 7.2 7.7 6.7 7.2 6.8 8 6.9 6.6 7 7.4 7.7 7.1 7.1 7.8 6.4 7.4 未控制饮食组(group=0) 7.7 7.7 7.2 6.9 7.6 7.4 7.9 6.9 7.5 6.9 8.4 7.2 7.2 7.1 7.8 7.4 7.4 8.4 7.6 7.9 6.9 7.9 7.2 7.5 7 7.2 6.7 7.1 7.3 7.6 数据格式 group y 1 1 6.6 2 1 7.3 3 1 7.2 4 1 7.3 5 1 7.4 6 1 6.5 7 1 7.3 8 1 6.4 9 1 7.2 10 1 7.7 11 1 6.8 12 1 6.3 13 1 7.1 14 1 7.8 15 1 7.2 16 1 7.7 17 1 6.7 18 1 7.2 19 1 6.8 20 1 8 21 1 6.9 22 1 6.6 23 1 7 24 1 7.4 25 1 7.7 26 1 7.1 27 1 7.1 28 1 7.8 29 1 6.4 30 1 7.4 31 0 7.7 32 0 7.7 33 0 7.2 34 0 6.9 35 0 7.6 36 0 7.4 37 0 7.9 38 0 6.9 39 0 7.5 40 0 6.9 41 0 8.4 42 0 7.2 43 0 7.2 44 0 7.1 45 0 7.8 46 0 7.4 47 0 7.4 48 0 8.4 49 0 7.6 50 0 7.9 51 0 6.9 52 0 7.9 53 0 7.2 54 0 7.5 55 0 7 56 0 7.2 57 0 6.7 58 0 7.1 59 0 7.3 60 0 7.6 正态性检验和方差齐性检验的结果表明二组的资料都近似服从正态分布，并且方差齐性。成组t检验的Stata操作和结果如下 ttest y,by(group) Two-sample t test with equal variances ------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 0 | 30 7.416667 .0777682 .4259539 7.257613 7.57572 1 | 30 7.13 .0840293 .4602473 6.958141 7.301859 ---------+-------------------------------------------------------------------- combined | 60 7.273333 .0597484 .4628089 7.153777 7.39289 ---------+-------------------------------------------------------------------- diff | .2866666 .1144937 .0574825 .5158507 ------------------------------------------------------------------------------ Degrees of freedom: 58 Ho: mean(0) - mean(1) = diff = 0 Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0 t = 2.5038 t = 2.5038 t = 2.5038 P < t = 0.9924 P > |t| = 0.0151 P > t = 0.0076 上述结果表明两组样本均数的差值为0.286666，两组样本均数差值的标准误为0.1144937。t值为2.5038，相应的P值为0.0151。若设未控制饮食组（g=0）的空腹血糖总体均数为m0，控制饮食组（g=1）的空腹血糖总体均数为m0+b，即饮食控制组的总体均数－未饮食控制组的总体均数＝b，因此两组总体均数相等对应就是b＝0。因此两组的空腹血糖总体均数可用下列表达式描述。（1）以空腹血糖为应变量y，以分组变量group为自变量，用线性回归对参数m0和b进行估计，相应的Stata命令和主要结果如下 reg y group ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- group | -.2866666 .1144937 -2.50 0.015 -.5158507 -.0574825 _cons | 7.416667 .0809593 91.61 0.000 7.254609 7.578724 ------------------------------------------------------------------------------ 常数项的估计值为7.416667，正好为未控制组的样本均数；回归系数b的估计值为-.2866666，正好对应两组样本均数的差值，回归系数b＝0的t检验值为-2.5，正好对应成组t检验的值，相应的P值也相同。由此可知，t检验也可以用直线回归进行分析并且两分类变量为协变量的回归系数的意义就是两组均数的差值，并且不难证明：凡符合成组t检验条件的资料必定满足线性回归对资料的要求：残差正态和方差齐性。因此以下将通过一些例子介绍利用线性回归在校正一些混杂因素情况下对某两组均数进行比较，即协方差分析。例12.8 治疗缺铁性贫血50人，随机分为二组：A组和B组，分别用两种不同的治疗方案对患者进行一个疗程的治疗，由此评价两种治疗方案的疗效。数据如下： A组 g=1 治疗前y0 318 316 345 288 329 331 330 305 294 324 312 337 294 治疗后y1 492 485 515 426 492 499 500 461 443 475 471 477 442 治疗前y0 323 295 359 304 307 300 334 313 313 357 324 336 治疗后y1 483 461 525 460 466 457 499 470 493 542 498 517 B组 g=0 治疗前y0 298 327 322 325 329 295 326 289 322 342 306 285 316 治疗后y1 430 461 449 430 472 422 448 414 448 487 434 409 435 治疗前y0 345 321 340 303 323 307 352 308 296 315 331 342 治疗后y1 468 454 475 440 429 432 500 437 423 442 453 478 其中变量y0为患者在治疗前的红细胞数(万/ml)，y1为治疗后的红细胞数(万/ml)，group为分组变量，group＝1表示A组和group=0表示B组，相应的Stata格式为： y0 y1 group 1 318 492 1 2 316 485 1 3 345 515 1 4 288 426 1 5 329 492 1 6 331 499 1 7 330 500 1 8 305 461 1 9 294 443 1 10 324 475 1 11 312 471 1 12 337 477 1 13 294 442 1 14 323 483 1 15 295 461 1 16 359 525 1 17 304 460 1 18 307 466 1 19 300 457 1 20 334 499 1 21 313 470 1 22 313 493 1 23 357 542 1 24 324 498 1 25 336 517 1 26 298 430 0 27 327 461 0 28 322 449 0 29 325 430 0 30 329 472 0 31 295 422 0 32 326 448 0 33 289 414 0 34 322 448 0 35 342 487 0 36 306 434 0 37 285 409 0 38 316 435 0 39 345 468 0 40 321 454 0 41 340 475 0 42 303 440 0 43 323 429 0 44 307 432 0 45 352 500 0 46 308 437 0 47 296 423 0 48 315 442 0 49 331 453 0 50 342 478 0 在临床研究中，通常以红细胞增加数作为效应指标评价，因此首先产生红细胞增加数的变量yd，相应的Stata命令如下： gen yd=y1-y0 以治疗后的红细胞数－治疗前的红细胞数为增加数若不考虑治疗前红细胞数(称为基线红细胞数)对增加数的影响，则参照上例的(1)式，对应可以写出相应的两组总体均数表达式： md=md0+bgroup （2）其中md0为A组的红细胞增加数的总体均数，md0+b为B的红细胞增加数的总体均数，b为两组红细胞增加数总体均数之差。但是一般而言，基线红细胞数低的患者经治疗后的增加数可能要大于基线红细胞数较高的患者的增加数，所以要校正基线红细胞数对红细胞增加数的影响，并假定基线红细胞数与红细胞增加数成线性关系。因此在（2）式中增加基线红细胞数变量y0。 md=md0+b1group+b2y0 （3）由（3）式可知，A组(group=0)的红细胞增加数的总体均数为md=md0+b2y0，而B组 (group=1)的红细胞增加数的总体均数为md=md0+b1+b2y0，因此对于同一基线红细胞数y0情况，两组红细胞增加数的总体均数差异为b1，故（3）式消除了不同基线红细胞数y0对两组总体均数差异的影响。b1＝0说明两组的疗效相同；b1>0说明B组疗效优于A组；b1<0说明A组疗效优于B组。我们可以用线性回归方法对（3）式中参数md0，b1和b2进行估计和统计检验(设a＝0.05)，相应的Stata命令和主要结果如下： ------------------------------------------------------------------------------ yd | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- g | 34.01444 2.873596 11.84 0.000 28.23351 39.79537 y0 | .2451717 .0782794 3.13 0.003 .0876939 .4026496 _cons | 50.08828 25.02241 2.00 0.051 -.2503122 100.4269 ------------------------------------------------------------------------------ md0的估计值为50.0882828，b1的估计值为34.01444，相应的P值<0.001，因此可以认为： l 在相同的基线红细胞数情况下，A组的红细胞增加数比B组平均高34.01444(万/ml)个红细胞数，并且差别有统计学意义。即：可以认为A组治疗方案的疗效优于B组治疗方案的疗效。 l b2的系数估计值为0.2451717，并且差别有统计学意义，因此可以认为基线红细胞数越高，治疗后的红细胞增加的幅度就越大。用上述统计方法要求残差(实际观察值－预测值)满足正态分布、两组的残差方差齐性并且基线红细胞数y0与分组变量group无交互作用，故需要对上述条件进行检查，相应的Stata命令和检查结果如下： predict e,residual 计算残差 . swilk e 正态性检验 Shapiro-Wilk W test for normal data Variable | Obs W V z Prob>z -------------+------------------------------------------------- e | 50 0.95512 2.111 1.593 0.05555 设正态性检验的a＝0.05，正态性检验的P值为0.05555，故可以认为残差近似服从正态分布。 sdtest e,by(group) 方差齐性检验 Variance ratio test ------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 0 | 25 1.04e-07 1.959625 9.798123 -4.044466 4.044467 1 | 25 6.08e-08 2.059203 10.29601 -4.249986 4.249986 ---------+-------------------------------------------------------------------- combined | 50 8.23e-08 1.406728 9.947072 -2.826926 2.826927 ------------------------------------------------------------------------------ Ho: sd(0) = sd(1) F(24,24) observed = F_obs = 0.906 F(24,24) lower tail = F_L = F_obs = 0.906 F(24,24) upper tail = F_U = 1/F_obs = 1.104 Ha: sd(0) < sd(1) Ha: sd(0) ~= sd(1) Ha: sd(0) > sd(1) P < F_obs = 0.4051 P < F_L + P > F_U = 0.8101 P > F_obs = 0.5949 设方差齐性检验的a＝0.10，方差齐性的P值为0.8101，故可以认为残差的方差齐性。 gen gy0=g*y0 产生基线与分组变量的交互作用项 . reg yd g y0 gy0 作线性回归 ------------------------------------------------------------------------------ yd | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- g | -22.92482 49.9281 -0.46 0.648 -123.4249 77.57523 y0 | .1515984 .1131301 1.34 0.187 -.0761208 .3793176 gy0 | .1784719 .1562382 1.14 0.259 -.1360193 .4929631 _cons | 79.90075 36.10009 2.21 0.032 7.235036 152.5665 ------------------------------------------------------------------------------ 设检验交互作用的a=0.05，交互作用项的系数为0.1784719，P值＝0.259>>a，故不能认为基线红细胞数与分组变量g有交互作用，根据上述检查结果表明本例资料满足上述协方差分析的条件，因此上述资料用协方差分析的方法是合适的，结果是可信的。

展开阅读全文