方差分析之原理.doc_咨信网zixin.com.cn

资源描述

方差分析的原理 (The Analysis of Variance) 壹、简介变异量分析(The Analysis of Variance)是一非常重要而且常会用到之假设测定的方法。此分析法基本上是用在两个以上样本间之比较。我们可以将ANOVA看成是先前学过两个样本间比较之t-test或z-test的延伸。在多样本比较的情况下，我们可以进行一连串两个样本间平均数之t-test的测定，如果有四个样本（从另一个角度来说，是一个有四个类别之自变项，如宗教信仰，则每个类别自为一个subsmaple），则我们可进行六个不同之两个样本间的t-test。如果真是这样做，除了非常麻烦外，最大的缺点是会增加犯Type I 错误之机率。如果每个t-test是定在α＝0.05之水准下进行测定，一连串这样的t-tests会使犯下至少一次Type I error的机会增加。换言之，即使每一个t-test是在α＝0.05之水准下进行测定，其Type I error综合起来事实上是大于0.05。换个角度来说，t-test做多了，总有一个t-test之结果会reject HO，但此HO可能为真。用ANOVA来分析就可以避免这样的问题。贰、ANOVA之原理　　ANOVA之虚无假设H0是μ１＝μ２＝μ３＝……＝μk，也就是所有样本均是来自同一母群，或是各母群之平均数无差异。更具体的说法是每类别或项目间在某一特性上并无差异（如：不同宗教信仰者在支持死刑之态度上并无差异）。从这H0之型式可看出是两样本间t-test之延伸。至于说H１则为「至少有一类别在某一特性上与其它类别有差异」。　　如果上述之H0为真，则每类别样本平均数之差别应不大，且各样本之标准差大小差不多（见书中P. 235之Table 10.1）（如果由同一母群体中抽出多个样本是否有同样的结果？）。事实上ANOVA并不是问不同类别间是否有差异，而是问这些差异是否大到可以拒绝H0。和H0完全相反的情况是各类别之平均数相差极大，而各类别之标准差很小。换言之，各类别内之异质性很小，而类别间异质性很大（见P. 236之Table 10.2）。　在这种情况下，如果我们将所有样本合并，这个合并后之样本的变异量(Variance)（也就是标准差的平方，又Variance如何计算？有何意义？），主要来自原来样本和样本间之差异。换言之，此合并后样本之变异或离散之状况主要源自原来各样本间之差异。而H0所假设的情况，是变异量主要是来自原各样本（类别）内之差异，而非各样本间之差异。 ※了解上面的叙述后，就很容易了解ANOVA之原理，ANOVA之测定是建立在比较各类别（或样本）间之变异量及各类别内之变异量。与类别内之变异量相比较下，当类别间之变异量愈大时，拒绝H0之可能性愈大，反之，则愈小。　　ANOVA之公式，即在比较两种对母群体之变异量（σ２）之估计值。其一估计值即是建立在各样本内之变化，而另一则为样本间之变化。这即是ANOVA（ANalysis Of VAriance）之名称的由来。参、ANOVA之计算　　要做ANOVA之测定的第一步是要将所有各样本合并，然后计算所有分数离散之状况，在此测量离散之方法是用下列公式　　　　　　　SST＝Σ(Xi－)2 －－－－(1) 　　　　　　　总离均差平方和 SST即Total Sum of Squares，此式如果您还记得，是和标准差之公式中根号内分子的部分一样。　在此SST中，Xi即合并样本中之各分数，而即合并样本之平均数。　　这SST事实上反映了两种离散之状况，一是各类别内之离散，另一为各类别间之离散，因此　　　　　　　SST＝SSW＋SSB SSW(Sum of Squares Within)（组内离均差平方和）之公式是　　　　　　　SSW＝Σ(Xi－)2 －－－－(2) 是每类别或组别之平均数因此，我们求SSW之方法是将各组每一分数减去此组之平均数，求其平方，然后加起来，每组都这么做后，要全部加起来即得SSW。而SSB (Sum of Squares Between) 之公式为　　　　　　　SSB＝ΣNk(－)2 －－－－(3) 　　　　　　　Nk是各组之样本数　　　　　　　是各组之平均数　　　　　　　是合并样本之平均数知道了SSW及SSB，我们可以得到两种母群体之σ２的估计值，其中利用SSW之估计值是　　组内估计值＝SSW／dfw，　dfw＝N－K，　　组间估计值＝SSB／dfb， dfb＝K－1　　　　N＝全部合并样本数，K＝组数而ANOVA即在求，两估计值间的相对大小，更具体说是求一个F ratio。　　 F＝Between estimate／Within estimate＝(SSB/dfb)／(SSW/dfw)－－(4) 这个F值之抽样分配是随dfb及dfw而变化，其分配之图形如下：图一　变异数分析时之F分配如果F＝0，即表示组间变异数为0，即各组平均数相同。上述之计算公式为依原理所设计的，事实上我们有些快捷方式可循，其中SST可用下式来算，　　　　　　SST＝ΣX2－N2，－－－－(5) 此后用SSB之公式算出SSB后，以SST－SSB即得SSW。　　　　　　SSW＝SST－SSB，－－－－(6) 这样计算可省不少事。　　以下即以一例来说明ANOVA之假设测定的步骤。步骤一：基本假定　　　　－Model：独立样本(Independent random samples) 　　　　－Level of measurement is interval ratio 　　　　－母群是常态分配(Populations are normally distribution) 　　　　－母群之变异量是相同的(Population variances are equal) 　　在各类别之样本数是相同或很接近时，ANOVA之基本假定并不须如上述那样严格，但如果你不确定其中任何一假定或是组和组之样本数差别太大时，最好用别的方法如Chi-Square来做假设测定。步骤二：设定虚无假设　　在下列之例子中，我们想要知道三种不同型态城市之谋杀率是否不同。＜例一＞　　　　　　　　　　　谋杀率　　　　　工业城　　　商业城　　　政治城　　　Total 　　　　　　4.3　　　　　5.1　　　　 12.5 　　　　　　2.8　　　　　6.2　　　　 3.1 　　　　　 12.3　　　　　1.8　　　　 1.6 　　　　　 16.3　　　　　9.5　　　　 6.2 　　　　　　5.9　　　　　4.1　　　　 3.8 　　　　　　7.7　　　　　3.6　　　　 7.1 　　　　　　9.1　　　　 11.2　　　　 11.4 　　　　　 10.2　　　　　3.3　　　　 1.9 Sums 68.60 44.80 47.6 161.0 X 8.58(X1)　　 5.60(X2) 5.95(X3) 6.71(X) 　以上例来说，其H0为　　　　　 H0：μ1＝μ2＝μ3 　即三种型态城市之母群的谋杀率是相等的。　而 H1为至少有一母群之平均数是与其它的平均数不同。步骤三：选出抽样分配及建立临界区　　　　Sampling distribution＝F distribution α＝0.05 dfw＝(24-3)＝21 dfb＝(3-1)＝2 F(critical)＝3.47　　　　　　　F(critical)之值是查书中Appendix D(Pp. 486-487)之值。Pp. 486是在α＝0.05 时之值，而Pp. 487是α＝0.01 时之值。　n1 是dfb，n2 是dfw。基本上ANOVA是一尾测定，我们只关心Between estimate是否大过Within estimate，而且是否大到可以reject H0之程度（F＝1是什么意思？）步骤四：计算test statistic 　依例所得之　SST ＝373.538 　　　　　　　SSB ＝ 42.303 　　　　　　　SSW＝331.235 　所以　Between estimate of variance＝42.303／(3-1)＝21.152 　　　　Within estimate of variance＝331.235／(24-3)＝15.773 　F(obtained)＝21.152／15.773＝1.34 我们可将所有计算所得之数列一表＜表一＞　　　　　　Sum of df Estimate of F Squares Variance　　　　 Total 373.538 N-1=23 Between 42.303 K-1=2 21.152 Within 331.235 N-K=21 15.773 1.34 步骤五：决策　　因为F(obtained)＜F(critical)，所以我们不能reject H0，亦即三种型态城市之谋杀率无差异。肆、ANOVA之限制此处所介绍之ANOVA，又叫做单因子ANOVA或简单ANOVA(one-way ANOVA或Simple ANOVA)，这是因为我们只考虑一个自变项和一应变项之关系。ANOVA之应用可延伸到多个自变项与一个应变项之关系，在此暂不多说。 ANOVA最大的限制是要用interval-ratio之尺度及各类别之样本数要接近。　其次，ANOVA只能告诉我们样本间之差异是否到了显著水准，并不能告诉我们何类别或样本与其它类别或样本不同。 6

展开阅读全文