资源描述
协方差分析简介
在许多研究中,两组或多组均数的比较还需要控制一些非研究因素的影响,这些非研究因素称为混杂因素(Confounding factor)。
为了帮助读者进一步理解分类自变量的线性回归的回归系数的特殊意义。先用下例说明自变量为二分类变量的直线回归中的回归系数检验与成组t检验之间的关系。
例12.7 为了评价控制饮食对糖尿病控制的作用,在坚持控制饮食的糖尿病人群和未控制饮食的糖尿病人群中各随机抽取30个对象,测量其空腹血糖如下
控制饮食组(group=1)
6.6 7.3 7.2 7.3 7.4 6.5 7.3 6.4 7.2 7.7 6.8 6.3 7.1 7.8 7.2 7.7 6.7 7.2 6.8 8 6.9 6.6 7 7.4 7.7 7.1 7.1 7.8 6.4 7.4
未控制饮食组(group=0)
7.7 7.7 7.2 6.9 7.6 7.4 7.9 6.9 7.5 6.9 8.4 7.2 7.2 7.1 7.8 7.4 7.4 8.4 7.6 7.9 6.9 7.9 7.2 7.5 7 7.2 6.7 7.1 7.3 7.6
数据格式
group
y
1
1
6.6
2
1
7.3
3
1
7.2
4
1
7.3
5
1
7.4
6
1
6.5
7
1
7.3
8
1
6.4
9
1
7.2
10
1
7.7
11
1
6.8
12
1
6.3
13
1
7.1
14
1
7.8
15
1
7.2
16
1
7.7
17
1
6.7
18
1
7.2
19
1
6.8
20
1
8
21
1
6.9
22
1
6.6
23
1
7
24
1
7.4
25
1
7.7
26
1
7.1
27
1
7.1
28
1
7.8
29
1
6.4
30
1
7.4
31
0
7.7
32
0
7.7
33
0
7.2
34
0
6.9
35
0
7.6
36
0
7.4
37
0
7.9
38
0
6.9
39
0
7.5
40
0
6.9
41
0
8.4
42
0
7.2
43
0
7.2
44
0
7.1
45
0
7.8
46
0
7.4
47
0
7.4
48
0
8.4
49
0
7.6
50
0
7.9
51
0
6.9
52
0
7.9
53
0
7.2
54
0
7.5
55
0
7
56
0
7.2
57
0
6.7
58
0
7.1
59
0
7.3
60
0
7.6
正态性检验和方差齐性检验的结果表明二组的资料都近似服从正态分布,并且方差齐性。成组t检验的Stata操作和结果如下
ttest y,by(group)
Two-sample t test with equal variances
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
0 | 30 7.416667 .0777682 .4259539 7.257613 7.57572
1 | 30 7.13 .0840293 .4602473 6.958141 7.301859
---------+--------------------------------------------------------------------
combined | 60 7.273333 .0597484 .4628089 7.153777 7.39289
---------+--------------------------------------------------------------------
diff | .2866666 .1144937 .0574825 .5158507
------------------------------------------------------------------------------
Degrees of freedom: 58
Ho: mean(0) - mean(1) = diff = 0
Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0
t = 2.5038 t = 2.5038 t = 2.5038
P < t = 0.9924 P > |t| = 0.0151 P > t = 0.0076
上述结果表明两组样本均数的差值为0.286666,两组样本均数差值的标准误为0.1144937。t值为2.5038,相应的P值为0.0151。
若设未控制饮食组(g=0)的空腹血糖总体均数为m0,控制饮食组(g=1)的空腹血糖总体均数为m0+b,即饮食控制组的总体均数-未饮食控制组的总体均数=b,因此两组总体均数相等对应就是b=0。因此两组的空腹血糖总体均数可用下列表达式描述。
(1)
以空腹血糖为应变量y,以分组变量group为自变量,用线性回归对参数m0和b进行估计,相应的Stata命令和主要结果如下
reg y group
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
group | -.2866666 .1144937 -2.50 0.015 -.5158507 -.0574825
_cons | 7.416667 .0809593 91.61 0.000 7.254609 7.578724
------------------------------------------------------------------------------
常数项的估计值为7.416667,正好为未控制组的样本均数;回归系数b的估计值为-.2866666,正好对应两组样本均数的差值,回归系数b=0的t检验值为-2.5,正好对应成组t检验的值,相应的P值也相同。由此可知,t检验也可以用直线回归进行分析并且两分类变量为协变量的回归系数的意义就是两组均数的差值,并且不难证明:凡符合成组t检验条件的资料必定满足线性回归对资料的要求:残差正态和方差齐性。因此以下将通过一些例子介绍利用线性回归在校正一些混杂因素情况下对某两组均数进行比较,即协方差分析。
例12.8 治疗缺铁性贫血50人,随机分为二组:A组和B组,分别用两种不同的治疗方案对患者进行一个疗程的治疗,由此评价两种治疗方案的疗效。数据如下:
A组
g=1
治疗前y0
318
316
345
288
329
331
330
305
294
324
312
337
294
治疗后y1
492
485
515
426
492
499
500
461
443
475
471
477
442
治疗前y0
323
295
359
304
307
300
334
313
313
357
324
336
治疗后y1
483
461
525
460
466
457
499
470
493
542
498
517
B组
g=0
治疗前y0
298
327
322
325
329
295
326
289
322
342
306
285
316
治疗后y1
430
461
449
430
472
422
448
414
448
487
434
409
435
治疗前y0
345
321
340
303
323
307
352
308
296
315
331
342
治疗后y1
468
454
475
440
429
432
500
437
423
442
453
478
其中变量y0为患者在治疗前的红细胞数(万/ml),y1为治疗后的红细胞数(万/ml),group为分组变量,group=1表示A组和group=0表示B组,相应的Stata格式为
:
y0
y1
group
1
318
492
1
2
316
485
1
3
345
515
1
4
288
426
1
5
329
492
1
6
331
499
1
7
330
500
1
8
305
461
1
9
294
443
1
10
324
475
1
11
312
471
1
12
337
477
1
13
294
442
1
14
323
483
1
15
295
461
1
16
359
525
1
17
304
460
1
18
307
466
1
19
300
457
1
20
334
499
1
21
313
470
1
22
313
493
1
23
357
542
1
24
324
498
1
25
336
517
1
26
298
430
0
27
327
461
0
28
322
449
0
29
325
430
0
30
329
472
0
31
295
422
0
32
326
448
0
33
289
414
0
34
322
448
0
35
342
487
0
36
306
434
0
37
285
409
0
38
316
435
0
39
345
468
0
40
321
454
0
41
340
475
0
42
303
440
0
43
323
429
0
44
307
432
0
45
352
500
0
46
308
437
0
47
296
423
0
48
315
442
0
49
331
453
0
50
342
478
0
在临床研究中,通常以红细胞增加数作为效应指标评价,因此首先产生红细胞增加数的变量yd,相应的Stata命令如下:
gen yd=y1-y0
以治疗后的红细胞数-治疗前的红细胞数为增加数
若不考虑治疗前红细胞数(称为基线红细胞数)对增加数的影响,则参照上例的(1)式,对应可以写出相应的两组总体均数表达式:
md=md0+bgroup (2)
其中md0为A组的红细胞增加数的总体均数,md0+b为B的红细胞增加数的总体均数,b为两组红细胞增加数总体均数之差。但是一般而言,基线红细胞数低的患者经治疗后的增加数可能要大于基线红细胞数较高的患者的增加数,所以要校正基线红细胞数对红细胞增加数的影响,并假定基线红细胞数与红细胞增加数成线性关系。因此在(2)式中增加基线红细胞数变量y0。
md=md0+b1group+b2y0 (3)
由(3)式可知,A组(group=0)的红细胞增加数的总体均数为md=md0+b2y0,而B组 (group=1)的红细胞增加数的总体均数为md=md0+b1+b2y0,因此对于同一基线红细胞数y0情况,两组红细胞增加数的总体均数差异为b1,故(3)式消除了不同基线红细胞数y0对两组总体均数差异的影响。b1=0说明两组的疗效相同;b1>0说明B组疗效优于A组;b1<0说明A组疗效优于B组。我们可以用线性回归方法对(3)式中参数md0,b1和b2进行估计和统计检验(设a=0.05),相应的Stata命令和主要结果如下:
------------------------------------------------------------------------------
yd | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
g | 34.01444 2.873596 11.84 0.000 28.23351 39.79537
y0 | .2451717 .0782794 3.13 0.003 .0876939 .4026496
_cons | 50.08828 25.02241 2.00 0.051 -.2503122 100.4269
------------------------------------------------------------------------------
md0的估计值为50.0882828,b1的估计值为34.01444,相应的P值<0.001,因此可以认为:
l 在相同的基线红细胞数情况下,A组的红细胞增加数比B组平均高34.01444(万/ml)个红细胞数,并且差别有统计学意义。即:可以认为A组治疗方案的疗效优于B组治疗方案的疗效。
l b2的系数估计值为0.2451717,并且差别有统计学意义,因此可以认为基线红细胞数越高,治疗后的红细胞增加的幅度就越大。
用上述统计方法要求残差(实际观察值-预测值)满足正态分布、两组的残差方差齐性并且基线红细胞数y0与分组变量group无交互作用,故需要对上述条件进行检查,相应的Stata命令和检查结果如下:
predict e,residual 计算残差
. swilk e 正态性检验
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
-------------+-------------------------------------------------
e | 50 0.95512 2.111 1.593 0.05555
设正态性检验的a=0.05,正态性检验的P值为0.05555,故可以认为残差近似服从正态分布。
sdtest e,by(group) 方差齐性检验
Variance ratio test
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
0 | 25 1.04e-07 1.959625 9.798123 -4.044466 4.044467
1 | 25 6.08e-08 2.059203 10.29601 -4.249986 4.249986
---------+--------------------------------------------------------------------
combined | 50 8.23e-08 1.406728 9.947072 -2.826926 2.826927
------------------------------------------------------------------------------
Ho: sd(0) = sd(1)
F(24,24) observed = F_obs = 0.906
F(24,24) lower tail = F_L = F_obs = 0.906
F(24,24) upper tail = F_U = 1/F_obs = 1.104
Ha: sd(0) < sd(1) Ha: sd(0) ~= sd(1) Ha: sd(0) > sd(1)
P < F_obs = 0.4051 P < F_L + P > F_U = 0.8101 P > F_obs = 0.5949
设方差齐性检验的a=0.10,方差齐性的P值为0.8101,故可以认为残差的方差齐性。
gen gy0=g*y0 产生基线与分组变量的交互作用项
. reg yd g y0 gy0 作线性回归
------------------------------------------------------------------------------
yd | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
g | -22.92482 49.9281 -0.46 0.648 -123.4249 77.57523
y0 | .1515984 .1131301 1.34 0.187 -.0761208 .3793176
gy0 | .1784719 .1562382 1.14 0.259 -.1360193 .4929631
_cons | 79.90075 36.10009 2.21 0.032 7.235036 152.5665
------------------------------------------------------------------------------
设检验交互作用的a=0.05,交互作用项的系数为0.1784719,P值=0.259>>a,故不能认为基线红细胞数与分组变量g有交互作用,根据上述检查结果表明本例资料满足上述协方差分析的条件,因此上述资料用协方差分析的方法是合适的,结果是可信的。
展开阅读全文