1、方差分析的原理 (The Analysis of Variance) 壹、简介 变异量分析(The Analysis of Variance)是一非常重要而且常会用到之假设测定的方法。此分析法基本上是用在两个以上样本间之比较。我们可以将ANOVA看成是先前学过两个样本间比较之t-test或z-test的延伸。在多样本比较的情况下,我们可以进行一连串两个样本间平均数之t-test的测定,如果有四个样本(从另一个角度来说,是一个有四个类别之自变项,如宗教信仰,则每个类别自为一个subsmaple),则我们可进行六个不同之两个样本间的t-test。如果真是这样做,除了非常麻烦外,最大的缺点
2、是会增加犯Type I 错误之机率。如果每个t-test是定在α=0.05之水准下进行测定,一连串这样的t-tests会使犯下至少一次Type I error的机会增加。换言之,即使每一个t-test是在α=0.05之水准下进行测定,其Type I error综合起来事实上是大于0.05。换个角度来说,t-test做多了,总有一个t-test之结果会reject HO,但此HO可能为真。用ANOVA来分析就可以避免这样的问题。 贰、ANOVA之原理 ANOVA之虚无假设H0是μ1=μ2=μ3=……=μk,也就是所有样本均是来自同一母群,或是各母群之平均数无差异。更具体的说法是每类别
3、或项目间在某一特性上并无差异(如:不同宗教信仰者在支持死刑之态度上并无差异)。从这H0之型式可看出是两样本间t-test之延伸。至于说H1则为「至少有一类别在某一特性上与其它类别有差异」。 如果上述之H0为真,则每类别样本平均数之差别应不大,且各样本之标准差大小差不多(见书中P. 235之Table 10.1)(如果由同一母群体中抽出多个样本是否有同样的结果?)。事实上ANOVA并不是问不同类别间是否有差异,而是问这些差异是否大到可以拒绝H0。 和H0完全相反的情况是各类别之平均数相差极大,而各类别之标准差很小。换言之,各类别内之异质性很小,而类别间异质性很大(见P. 236之Tabl
4、e 10.2)。 在这种情况下,如果我们将所有样本合并,这个合并后之样本的变异量(Variance)(也就是标准差的平方,又Variance如何计算?有何意义?),主要来自原来样本和样本间之差异。换言之,此合并后样本之变异或离散之状况主要源自原来各样本间之差异。而H0所假设的情况,是变异量主要是来自原各样本(类别)内之差异,而非各样本间之差异。 ※了解上面的叙述后,就很容易了解ANOVA之原理,ANOVA之测定是建立在比较各类别(或样本)间之变异量及各类别内之变异量。与类别内之变异量相比较下,当类别间之变异量愈大时,拒绝H0之可能性愈大,反之,则愈小。 ANOVA之公式,即在比较两种对
5、母群体之变异量(σ2)之估计值。其一估计值即是建立在各样本内之变化,而另一则为样本间之变化。这即是ANOVA(ANalysis Of VAriance)之名称的由来。 参、ANOVA之计算 要做ANOVA之测定的第一步是要将所有各样本合并,然后计算所有分数离散之状况,在此测量离散之方法是用下列公式 SST=Σ(Xi-)2 ----(1) 总离均差平方和 SST即Total Sum of Squares,此式如果您还记得,是和标准差之公式中根号内分子的部分一样。 在此SST中,Xi即合并样本中之各分数,
6、而即合并样本之平均数。 这SST事实上反映了两种离散之状况,一是各类别内之离散,另一为各类别间之离散,因此 SST=SSW+SSB SSW(Sum of Squares Within)(组内离均差平方和)之公式是 SSW=Σ(Xi-)2 ----(2) 是每类别或组别之平均数 因此,我们求SSW之方法是将各组每一分数减去此组之平均数,求其平方,然后加起来,每组都这么做后,要全部加起来即得SSW。 而SSB (Sum of Squares Between) 之公式为 SSB
7、=ΣNk(-)2 ----(3) Nk是各组之样本数 是各组之平均数 是合并样本之平均数 知道了SSW及SSB,我们可以得到两种母群体之σ2的估计值,其中利用SSW之估计值是 组内估计值=SSW/dfw, dfw=N-K, 组间估计值=SSB/dfb, dfb=K-1 N=全部合并样本数,K=组数 而ANOVA即在求,两估计值间的相对大小,更具体说是求一个F ratio。 F=Between estimate/Within estimate=(SSB/dfb)/(SSW/dfw)--(4)
8、 这个F值之抽样分配是随dfb及dfw而变化,其分配之图形如下: 图一 变异数分析时之F分配 如果F=0,即表示组间变异数为0,即各组平均数相同。 上述之计算公式为依原理所设计的,事实上我们有些快捷方式可循,其中SST可用下式来算, SST=ΣX2-N2,----(5) 此后用SSB之公式算出SSB后,以SST-SSB即得SSW。 SSW=SST-SSB,----(6) 这样计算可省不少事。 以下即以一例来说明ANOVA之假设测定的步骤。 步骤一:基本假定 -Model:独立样本(Independent ra
9、ndom samples) -Level of measurement is interval ratio -母群是常态分配(Populations are normally distribution) -母群之变异量是相同的(Population variances are equal) 在各类别之样本数是相同或很接近时,ANOVA之基本假定并不须如上述那样严格,但如果你不确定其中任何一假定或是组和组之样本数差别太大时,最好用别的方法如Chi-Square来做假设测定。 步骤二:设定虚无假设 在下列之例子中,我们想要知道三种不同型态城市之谋杀率
10、是否不同。 <例一> 谋杀率 工业城 商业城 政治城 Total 4.3 5.1 12.5 2.8 6.2 3.1 12.3 1.8 1.6 16.3 9.5 6.2 5.9 4.1 3.8 7.7 3.6 7.1 9.1 11.2 11.4 1
11、0.2 3.3 1.9 Sums 68.60 44.80 47.6 161.0 X 8.58(X1) 5.60(X2) 5.95(X3) 6.71(X) 以上例来说,其H0为 H0:μ1=
12、μ2=μ3 即三种型态城市之母群的谋杀率是相等的。 而 H1为至少有一母群之平均数是与其它的平均数不同。 步骤三:选出抽样分配及建立临界区 Sampling distribution=F distribution α=0.05 dfw=(24-3)=21 dfb=(3-1)=2 F(critical)=3.47 F(critical)之值是查书中Appendix D(Pp. 486-487)之值。Pp. 486是在α=0.05 时之
13、值,而Pp. 487是α=0.01 时之值。 n1 是dfb,n2 是dfw。基本上ANOVA是一尾测定,我们只关心Between estimate是否大过Within estimate,而且是否大到可以reject H0之程度(F=1是什么意思?) 步骤四:计算test statistic 依例所得之 SST =373.538 SSB = 42.303 SSW=331.235 所以 Between estimate of variance=42.303/(3-1)=21.152 Within estimate of variance=331
14、235/(24-3)=15.773 F(obtained)=21.152/15.773=1.34 我们可将所有计算所得之数列一表 <表一> Sum of df Estimate of F Squares Variance Total 373.538 N-1=23 Between 42.303 K-1=2 2
15、1.152 Within 331.235 N-K=21 15.773 1.34 步骤五:决策 因为F(obtained)<F(critical),所以我们不能reject H0,亦即三种型态城市之谋杀率无差异。 肆、ANOVA之限制 此处所介绍之ANOVA,又叫做单因子ANOVA或简单ANOVA(one-way ANOVA或Simple ANOVA),这是因为我们只考虑一个自变项和一应变项之关系。ANOVA之应用可延伸到多个自变项与一个应变项之关系,在此暂不多说。 ANOVA最大的限制是要用interval-ratio之尺度及各类别之样本数要接近。 其次,ANOVA只能告诉我们样本间之差异是否到了显著水准,并不能告诉我们何类别或样本与其它类别或样本不同。 6






