1、 方方差差分分析析中中,所所接接触触到到的的各各种种处处理理多多数数都都是是人人为为控控制制的的。有有时时一一些些变变量量很很难难或或者者不不可可能能人人为为控控制制,对对于于这这种种情情况况则则不不能能用用第第三三章章所所述述的的方方差差分分析析方方法法,推推断断处处理理之之间间的的差差异异而而应应用用协方差分析的方法做推断。协方差分析的方法做推断。例如,在研究不同饲养条件下,动物的增例如,在研究不同饲养条件下,动物的增重情况时,由于动物的原体重不同,如果只考重情况时,由于动物的原体重不同,如果只考虑饲料对增重的作用而不考虑原体重时增重的虑饲料对增重的作用而不考虑原体重时增重的影响,显然是不
2、全面的。动物的增重不仅与饲影响,显然是不全面的。动物的增重不仅与饲料有关,而且还与原体重有关。一般来讲,原料有关,而且还与原体重有关。一般来讲,原体重高的增童较多,原体重低的增重较少,增体重高的增童较多,原体重低的增重较少,增重与原体重之间有回归关系,为了得到正确的重与原体重之间有回归关系,为了得到正确的结论,就要在排除原体重对增重的影响之后,结论,就要在排除原体重对增重的影响之后,推断处理的效应。这就是本章所要讨论的协方推断处理的效应。这就是本章所要讨论的协方差分析。差分析。在协方差分析中,通常将动物增重称为反应变在协方差分析中,通常将动物增重称为反应变量量(response variabl
3、e)Y,而与而与Y 有线性回归关系有线性回归关系的另一变量的另一变量(原始体重原始体重)称为称为伴随变量伴随变量(concomitant variable)或或协变量协变量(covariate)X。协方差分析就协方差分析就是通过反应变量与协变量之间的线性关系,调整观是通过反应变量与协变量之间的线性关系,调整观察的反应变量。假若不做这种调整,由于协变量的察的反应变量。假若不做这种调整,由于协变量的存在会使误差平方和加大,其结果有可能检验不出存在会使误差平方和加大,其结果有可能检验不出反应变量在不同处理之间所存在的真正差异。因此,反应变量在不同处理之间所存在的真正差异。因此,协方差分析协方差分析是
4、一种调整无法控制又影响效应的变量是一种调整无法控制又影响效应的变量的方差分析方法,是方差分析与回归分析的结合。的方差分析方法,是方差分析与回归分析的结合。在上述动物重实验中,很难将全部实验动物都选为在上述动物重实验中,很难将全部实验动物都选为具有相同体重的个体,动物的原体重是无法控制的具有相同体重的个体,动物的原体重是无法控制的变量,而原体重对增重又有明显的影响,使用协方变量,而原体重对增重又有明显的影响,使用协方差分析,便可排除原体重差分析,便可排除原体重X对增重对增重Y的影响,使结果的影响,使结果更为可靠更为可靠。第第一一节节 具具一一个个协协变变量量的的一一种种方方式式分分组组的的协协方
5、方 差差 分分 析析(one-way classification with a single covariate)本本节节讨讨论论协协方方差差分分析析中中最最简简单单的的一一种种情情况况,即即以以只只有有一一个个协协变变量量的的单单因因素素实实验验设设计计的的协协方方差差分分析析为为例例,说说明明协协方方差差分分析析的的基基本本原原理理和和计计算方法。算方法。单因素协方差分析的统计模型单因素协方差分析的统计模型是:是:其其中中yij是是第第i 次次处处理理所所得得到到的的反反应应变变量量的的第第j 次次观观察察值值。c cij是是相相当当于于yij的的协协变变量量值值。c c是是c cij的
6、的平平均均数数,m m是是总总平平均均数数,a ai是是第第i次次处处理理效效应应,b b是是yij在在c cij上上的的线线性性回回归归系系数数,e eij是是随随机机误误差差成成份份。做做协协方方差差分分析析,需需要要满满足足以以下下几几个个条条件件:e eij是是服服从从正正态态分分布布的的独独立立随随机机变变量量;b b0,即即yij与与c cij之之间间存存在在线线性性关关系系;各各处处理理的的回回归归系系数数都都相相同同;处处理理效效应应之之和和等等于于零零(a ai0)以以及及协协变变量量不不受处理效应的影响等。受处理效应的影响等。从(从(41)式中可以看出:协方差分析的模)式中
7、可以看出:协方差分析的模型是方差分析和回归分析线性模型的结合。型是方差分析和回归分析线性模型的结合。a ai是是单因素方差分析中的处理效应,单因素方差分析中的处理效应,b b是回归分析中是回归分析中的回归系数。在(的回归系数。在(41)式中的协变量是以()式中的协变量是以(c cijc c)的形式而不是以的形式而不是以c cij 的形式表示的,因此的形式表示的,因此参量参量m m是总的平均值。统计模型的另一种形式是:是总的平均值。统计模型的另一种形式是:其中其中m m并不等于总平均值。在这个模型中,总平并不等于总平均值。在这个模型中,总平均值为均值为m mb b c c。经常使用的模型是(经常
8、使用的模型是(41)式。)式。协方差分析需要计算以下一些量:协方差分析需要计算以下一些量:以上各式的符号:以上各式的符号:S、T 和和E 分别表示总的、处理的分别表示总的、处理的误差的平方和及交叉乘积和。它们之间的关系可用通误差的平方和及交叉乘积和。它们之间的关系可用通式式STE表示。仔细阅读并分析以上各式,弄清楚表示。仔细阅读并分析以上各式,弄清楚各式的意义,对下面的学习是有益的。各式的意义,对下面的学习是有益的。协方差分析的核心协方差分析的核心,就是通过协变量调整反,就是通过协变量调整反应变量。下面讨论如何做这种调整。在统计模型应变量。下面讨论如何做这种调整。在统计模型(41)中,)中,m
9、 m的估计值为的估计值为c c,b b的估计值为的估计值为b*,处理效应处理效应a ai 的估计值为的估计值为c cic cb*(c cic c)。)。其中,其中,在这个模型中,误差平方和在这个模型中,误差平方和SSe为:为:具具a(n1)1自由度。自由度。实验误差均方由下式估计,实验误差均方由下式估计,若实验不存在处理效应,模型(若实验不存在处理效应,模型(41)将变为:)将变为:具具an2自由度,其中自由度,其中S2XYSXX是由于是由于Y和和X的的回归所产生的平方和。回归所产生的平方和。如如果果实实验验本本身身存存在在处处理理效效应应,但但却却按按不不存存在在处处理理效效应应对对待待,这
10、这时时所所计计算算出出来来的的误误差差平平方方和和SSe要要大大于于按按存存在在处处理理效效应应计计算算所所得得到到的的误误差差平平方方和和SSe。两两者者的的差差(SSeSSe)是是由由于于处处理理效效应应a ai 所所产产生生的的平平方方回回归归系系数数,具具a1自自由由度度。可用可用F 检验不存在处理效应的假设。检验不存在处理效应的假设。若若FFa1,a(n1),a a,则接受则接受H0:a ai0;若若FFa1,a(n1),a a,则拒绝则拒绝H0:a ai0。将以上结果列在表将以上结果列在表41中。中。表表41协方差分析调整的方差分析协方差分析调整的方差分析变差来源变差来源平方平方和
11、和自自由由度度均均方方F回归回归处理处理误差误差S2XYSXXSSeSSe(SYYS2XYSXX)(EYYE2XYEXX)SSeEYYE2XYEXX1aa(n1)1(SSeSSe)(a1)MSeSSea(n1)1(SSeSSe)(a-1)MSe总和总和SYYan1表表41与方差分析表基本上是一致的。所与方差分析表基本上是一致的。所不同的是没一项平方和都是经过调整的。因此,不同的是没一项平方和都是经过调整的。因此,协方差分析又称为调整的方差分析协方差分析又称为调整的方差分析。在变差来。在变差来源一列中,总的变差是由具源一列中,总的变差是由具an1自由度的自由度的SYY度量的;回归的变差由具度量的
12、;回归的变差由具1自由度的平方和自由度的平方和S2XYSXX度量。假若不存在协变量,则度量。假若不存在协变量,则SXYSXXEXYEXX0。误差平方和将简化为误差平方和将简化为EYY,处理处理平方和为平方和为SYYEYYTYY,成为一种方式分组的成为一种方式分组的方差分析。然而由于存在协变量,我们必须通方差分析。然而由于存在协变量,我们必须通过过Y在在X上的回归,调整上的回归,调整SYY和和EYY(见表见表41)。)。因为在调整平方和时,用了另一个参量因为在调整平方和时,用了另一个参量b,所以所以调整的误差平方和具调整的误差平方和具a(n1)1自由度,而不是自由度,而不是a(n1)自由度。自由
13、度。通常将协方差分析结果纳成协方差分析表。通常将协方差分析结果纳成协方差分析表。表表42具一个协变量的一种方式分组实验的协方差分析表具一个协变量的一种方式分组实验的协方差分析表变差变差来源来源自由度自由度平方和与平方和与交叉乘积和交叉乘积和因因回回归归所所做做的的调调整整XXYYY自由度自由度均均方方处理处理误差误差总和总和a1a(n1)an1TXXEXXSXXTXYEXYSXYTYYEYYSYYSSeEYYE2XYEXXSSeSYYS2XYSXXa(n1)1an2MSeSSea(n1)1调整调整的处的处理响理响SSeSSea1(SSeSSe)(a1)在协方差分析表中,除列入检验假设所需在协方
14、差分析表中,除列入检验假设所需要的处理效应平方和之外,还列入了全部平方要的处理效应平方和之外,还列入了全部平方和及交叉乘积和。协方差分析的结果,不论零和及交叉乘积和。协方差分析的结果,不论零假设是否可以接受,都需对处理平方数假设是否可以接受,都需对处理平方数c ci给予给予解释。由于解释。由于c ci包括处理效应和在协变量上的回包括处理效应和在协变量上的回归效应,因此对平方数也要做相应的调整。调归效应,因此对平方数也要做相应的调整。调整的方法如下:整的方法如下:根据模型(根据模型(42),协方差分析需满足以下要求:),协方差分析需满足以下要求:即:各处理的方差应具备齐性,它们都是从具有即:各处
15、理的方差应具备齐性,它们都是从具有同一方差的正态总体中的来的;个处理的回归系同一方差的正态总体中的来的;个处理的回归系数数b bi均等于均等于b b以及反应变量与协变量之间的回归以及反应变量与协变量之间的回归系数系数b b0。因此,在对一组数据做协方差分析时,因此,在对一组数据做协方差分析时,首先要对以上各个条件做检验。只有以上条件得首先要对以上各个条件做检验。只有以上条件得到满足时,才能做协方差分析。到满足时,才能做协方差分析。第二节第二节 协方差分析的计算方法协方差分析的计算方法 例例41 比比较较三三种种猪猪饲饲料料A1,A2,A3对对猪猪增增重重的的影影响响,测测得得每每头头猪猪的的增
16、增重重(Y)和和出出生生重重(X),数数据据列列在在表表43中中。问问三三种种饲饲料料对对猪猪增增重重是是否否有显著不同的效果?有显著不同的效果?表表43不同饲料对猪增重的影响不同饲料对猪增重的影响A1XY16851383116512761280169114841790X113.750Y181.750A2XY17971690181001895211032210619991894X218.625Y298.000A3XY228924912083239525100271023010532110X325.375Y396.875在在这这个个问问题题中中,若若不不考考虑虑出出生生重重,则则是是一一个个单单
17、因因素素方方差差分分析析的的问问题题;若若不不同同饲饲料料的的增增重重效效果果没没有有显显著著差差异异,则则成成为为增增重重对对出出生生重重的的一一元元回回归归问问题题。实实际际上上,在在研研究究动动物物增增重重问问题题时时,不不同同饲饲料料和和出出生生重重对对增增重重的的影影响响都都要要考考虑虑。因因此此,在在推推断断不不同同饲饲料料的的增增重重效效应应时时,为为了了排排除除出出生生重重的的影影响响,应应使使用用方方差差分分析析与与回回归归分分析析相相结合的方法,即以协方差分析的方法做推断。结合的方法,即以协方差分析的方法做推断。首首先先检检验验e eij:NID(0,s s2),b bib
18、 b及及b b0是是否否可可以得到满足。检验的方法如下:以得到满足。检验的方法如下:分别计算三种饲料饲养猪的出生重与增分别计算三种饲料饲养猪的出生重与增重间的回归系数重间的回归系数bi,并列出回归方程并列出回归方程 将三组数据合并(只需将三组数据的平方和将三组数据合并(只需将三组数据的平方和与交叉乘积合并即可),计算公共的回归系数与交叉乘积合并即可),计算公共的回归系数b*。用公共的回归系数代替用公共的回归系数代替bi,可以得到三条平行的可以得到三条平行的回归线:回归线:用每一处理的各自回归系数用每一处理的各自回归系数bi,计算剩余平方和:计算剩余平方和:将三组剩余平方和相加,得到组内剩余平方
19、和。将三组剩余平方和相加,得到组内剩余平方和。相应的自由度为相应的自由度为a(n2)18。用公共回归系数用公共回归系数b*计算三条平行回归线的剩余平方计算三条平行回归线的剩余平方和,它们的和就是误差平方和和,它们的和就是误差平方和见公式见公式(49)(413),相应的自由度为,相应的自由度为a(n1)120。检验方差齐性:检验方差齐性:中已计算出各处理的剩余平中已计算出各处理的剩余平方和,各具方和,各具8116自由度。各处理的均方自由度。各处理的均方分别为:分别为:检验方差齐性的一个简便方法是用两个差异最大检验方差齐性的一个简便方法是用两个差异最大的均方做的均方做F 检验。检验。F6,6,0.
20、054.82,FF0.05,可可以以认认为为各各组组方方差差具具备备齐性。齐性。检检验验回回归归线线是是否否平平行行(b bib b):在在中中已已经经计计算算出出组组内内剩剩余余平平方方和和SSeG和和用用公公共共回回归归系系数数b*计计算算得得到到的的误误差差平平方方和和SSe。SSeG完完全全是是由由随随机机因因素素造造成成的的:三三条条回回归归线线用用同同一一b*计计算算出出的的误误差差平平方方和和SSe,包包括括由由于于随随机机误误差差及及回回归归系系数数两两种种变变差所产生的平方和,因而回归系数平方和,差所产生的平方和,因而回归系数平方和,回归系数自由度为误差自由度与组内误差自由度
21、回归系数自由度为误差自由度与组内误差自由度之差,之差,然然后后用用MSeG对对MS回回归归系系数数最最检检验验。若若两两者者差差异异不不显显著著,说说明明由由回回归归系系数数所所产产生生的的方方差差与与由由于于随随机机因因素素所所引引起起的的方方差差差差别别不不大大,即即可可证证明明原来的三条回归线是平行的。用原来的三条回归线是平行的。用F 检验,检验,代入数值,代入数值,F2,18,0.053.55,FF0.05,因此三条回归线是平行的。因此三条回归线是平行的。也也可可以以将将三三条条回回归归线线做做图图。从从图图上上观观察察它它们们是是否否近近于于平平行行。若若接接近近平平行行的的话话,也
22、也可可以以不不做以上的检验。做以上的检验。检验回归是否显著:利用方差分析做检验。方检验回归是否显著:利用方差分析做检验。方差分析表如下:差分析表如下:表表44检验回归显著性的方差分析表检验回归显著性的方差分析表 变差变差 来源来源平平 方方 和和 自自 由由 度度均均 方方F 回归回归 剩余剩余SSR=E2XY/EXX=1010.76SSe=EYYE2XY/EXX=227.615 1a(n1)1=20 MSR=SSR=1010.76MSe=SSe/a(n-1)-1=11.38 F=MSR/MSe=88.8 总和总和EYY=1238.375a(n-1)=21F1,20,0.01=8.1,FF0.
23、01,回归是极显著的。这一步检验回归是极显著的。这一步检验的许多计算,是在协方差分析过程中得出来的。所以这的许多计算,是在协方差分析过程中得出来的。所以这一步检验也可放在协方差分析的最后进行。一步检验也可放在协方差分析的最后进行。在在大大多多数数生生物物学学问问题题中中,以以上上几几点点要要求求基基本本上上都都可可以以满满足足。在在实实际际应应用用时时,只只要要根根据据bi所所做做出出的的回回归归线线是是否否平平行行。若若近近于于平平行行,则则可可不不必做繁琐的检验,直接进行以下的分析。必做繁琐的检验,直接进行以下的分析。将表将表43中的数据编码,每一个中的数据编码,每一个Y 都减去都减去90
24、,每一个,每一个X 都减去都减去20,列成表,列成表45。表表45协方差分析计算表协方差分析计算表X1X2X3Y1Y2Y3X1Y1X2Y2X3Y3 -5 -7 -9 -8 -8 -4 -6 -3 -3-4-2-2 1 2-1-2 2 4 0 3 5 7 10 12 -5-7-25-14-10 1-6 0 7 0 10 5 13 16 9 4 -1 1-7 5 10 12 15 20 25 49 225 112 80 -4 36 0 -210 -20 -10 13 32 -9 -8 -240 15 50 84 150 240 和和和和和和和和和的平方和的平方Xij平方的和平方的和-502500
25、344-11121 43 431849 347-184470 734 和和和的平方和的平方Yij平方的和平方的和 -6643561032 644096 696 553025 945 5311477 2673 和和523-235411041 计算下列各值:计算下列各值:由公式(由公式(415)求出:)求出:具具an2(3)(8)222自自由由度度。并并由由(413)式式计算出计算出具具a(n1)13(81)120自由度。自由度。将上述结果列成协方差分析表将上述结果列成协方差分析表(表表46)。表。表的最后一行,是为了检验假设的最后一行,是为了检验假设H0:a ai0所计算所计算的平方和,的平方和
26、,具具a1312自由度。自由度。表表46协协方方差差分分析析表表变差来源变差来源自由度自由度平平 方方 和和 与与 交交 叉叉 乘乘 积积 调调 整整 平方和平方和调调 整整自由度自由度均均 方方FXXYY饲饲 料料 误误 差差 2 21545.250175.250 59.875 20.8751317.5831238.375227.615 2011.381 总总 和和23720.5001080.7502555.958934.83322调整饲料调整饲料707.2182353.609 31.07*检验不同饲料的增重效果,即检验检验不同饲料的增重效果,即检验H0:a ai0,根据根据(416)式:式
27、:F2,22,0.015.72,FF0.01,结论是不同饲料的增结论是不同饲料的增重效果极显著。重效果极显著。公共回归系数,公共回归系数,回归系数的显著性检验,回归系数的显著性检验,H0:b b0,F1,20,0.018.1,FF0.01,结论是回归极显著。结论是回归极显著。最后还应计算出调整平均数,以便判断哪最后还应计算出调整平均数,以便判断哪一种饲料最好。根据一种饲料最好。根据(417)式:式:得到:得到:调整的平均数与未调整的平均数之间,存调整的平均数与未调整的平均数之间,存在极大的不同:调整前的顺序是在极大的不同:调整前的顺序是y2 y3 y1,第一种饲料的增重效果最差。经过调整后的为第一种饲料的增重效果最差。经过调整后的为y2 y1 y3 ,第三种饲料的增重效果最差。这,第三种饲料的增重效果最差。这样的结论是真实的。由此可以看出处理这类问样的结论是真实的。由此可以看出处理这类问题时,协方差分析是多么必要!题时,协方差分析是多么必要!