资源描述
第12章 方差分析(Analysis of Variance)
方差分析是鉴别各因素效应的一种有效统计方法,它是通过实验观察某一种或多种因素的变化对实验结果是否带来显著影响,从而选取最优方案的一种统计方法。
在科学实验和生产实践中,影响一件事物的因素往往很多,每一个因素的改变都有可能影响产品产量和质量特征。有的影响大些,有的影响小些。为了使生产过程稳定,保证优质高产,就有必要找出对产品质量有显著影响的那些因素及因素所处等级。方差分析就是处理这类问题,从中找出最佳方案。
方差分析开始于本世纪20年代。1923年英国统计学家R.A. Fisher 首先提出这个概念,(ANOVA)。因当时他在Rothamsted农业实验场工作,所以首先把方差分析应用于农业实验上,通过分析提高农作物产量的主要因素。Fisher1926年在澳大利亚去世。现在方差分析方法已广泛应用于科学实验,医学,化工,管理学等各个领域,范围广阔。
在方差分析中,把可控制的条件称为“因素”(factor),把因素变化的各个等级称为“水平”或“处理”(treatment)。
若是试验中只有一个可控因素在变化,其它可控因素不变,称之为单因素试验,否则是多因素试验。下面分别介绍单因素和双因素试验结果的方差分析。
1.1 单因素方差分析(One Way Analysis of Variance)
1. 一般表达形式
2. 方差分析的假定前提
3. 数学模形
4. 统计假设
5. 方差分析:(1)总平方和的分解;(2)自由度分解;(3)F检验
6. 举例
7. 多重比较
1.1.1 一般表达形式
首先通过一个例子引出单因素方差分析方法。某农业科研所新培养了四种水稻品种,分别用A1,A2,A3,A4表示。每个品种随机选种在四块试验田中,共16块试验田。除水稻品种之外,尽量保持其它条件相同(如面积,水分,日照,肥量等),收获后计算各试验田中产量如下表:
试验批号
产量(公斤)
1
2
3
4
品种
A1
18
20
19
17
18.5
A2
22
21
24
20
21.75
A3
25
27
26
28
26.5
A4
29
28
24
25
26.5
通过这些数据要考察四个不同品种的单位产量,是否有显著性差异。类似的例子很多,如劳动生产率差异,汽车燃油消耗,金属材料淬火温度等问题。上述问题可控实验条件是“种子”。所以种子是因素。把不同的品种A1,A2,A3,A4称为“水平”。1,2,3,4表示试验批号,即每次随机的选取某个地块种某个品种的种子。称此种问题为单因素试验。
单因素试验通常分多个试验批号,目的是平衡一些不可控因素带来的影响。如土地的基本条件不一样。如各品种只试验一次,必然在试验结果中含有不可控因素带来的影响。
在众多的数据中,怎样判别不同品种的水稻产量是否存在显著性差异?初步观察A1品种的产量可能低一些,A3,A4的产量可能高一些。这是从平均数上观察。若按前面介绍的两个总体的比较,需要作C24= 6次检验。比较麻烦,所以需要方差分析方法。
首先从数学上给出这类问题的一般形式(单因素)
批号
验结果
i
…
j
…
m
行平均
均值
水平
A1
X11
…
X1 j
…
X1 m
1.
m1
…
…
…
Ai
Xi1
…
Xi j
…
Xi m
i.
mi
…
…
…
…
Ak
Xk1
…
Xkj
…
Xk m
k
mk
=
(k m = N)
m
这表明该可控因素共有k个水平,每个水平都进行m次试验,某个水平上的m次试验可当作一个样本看待。X i j表示第i个水平上第j次试验的结果。
很容易看出当水平只有2个时,这相当于两个总体的均值的显著性检验问题。现在的目的是要分析各个水平上的均值是否有显著性差异。
1.1.2 方差分析的假定前题
(1)每个水平(Ai)上的随机变量Xi的分布都是正态的,即服从N(mi, s2)。但mi,(i = 1, …, m),s2未知。每个水平上的一系列观测值,看作是取自该水平正态总体的一个容量为m的样本。
(2)认为k个水平上的k个总体方差相等,都是s2(方差齐性)。
(3)观测值Xi j相互独立。
这三个假定在实际中一般都能得到满足。
1.1.3 数学模型
因为Xi j ~ N(mi, s2),(i = 1, …, k)所以可以把观测值Xi j分解为两部分,即
Xi j = mi + ei j , (i = 1, …, k),(j = 1, 2, …, m)
其中ei j表示Xi j对mi的随机偏差。为便于比较水平不同对Xi j造成的影响,可以把mi也分解成两部分
mi = m + ai (i = 1, …, k)
其中m = ,称为总平均(Grand mean),ai称为Ai水平上的效应,它满足Sai = 0 把mi代入上式则有:
Xi j = m + ai + ei j, Sai = 0, (i=1, 2, …, k),(j=1, 2, …, m)
ei j表示随机变量,ai表示水平变量。这就是单因素方差分析的数学模型。
1.1.4 统计假设:
若可控因素的不同水平对试验结果无显著性影响,那么观测值Xi j应该来自同一正态总体,Xi j ~ N(m, s2)。所以对应的零假设是
H0:m1 = …, mi….= mk = m 或 a1 =, …, = ak = 0
H1:mi不全相等或ai不全为零。
当H0成立时,样本的行平均数必然差异不大,差异表现为随机误差,当H1为真时,间必存在较大差异,这时差异表现为系统误差。
1.1.5 方差分析方法
为判别不同水平对试验结果有无显著性影响,关键是把观测值变量中的随机误差和系统误差分开,并能进行比较,问题就解决了。
(1) 分解总离差平方和(Total Sum of Squares),
ST =
方法是在ST公式中加入行平均数。
ST ==
=++
因为
= = 0
所以
ST ==
令
SE =
SA ==
则
ST = SE + SA,
其中ST称总离差平方和,总变差。SE称样本组内离差平方和。它测量同一水平上因重复实验而产生的误差。这是由于不可控因素引起的,故SE反映的是随机误差。SA称样本组间离差平方和。它表示各个水平上的样本平均数与样本总平均数之间离差的加权平方和。可见不同水平上的样本差异越大,SA的值就越大。它反映的是系统误差。
(2).求各离差平方和ST ,SA,SE的自由度(Degrees of freedom),fT,fA,fE。
ST =的自由度。因随机变量Xij的个数是N个,相互独立,但受一个约束条件。约束,所以自由度为 N – 1,即fT = N – 1。
SA ==的自由度。因的个数是k个,但受条件约束,所以自由度为fA = k -1。
SE =的自由度。因Xij的个数为N,但受条件=,(i = 1, …, k)约束,所以自由度为fE = N – k。
三个自由度之间也有这样的关系。
fT = fA + fE, N – 1=(N – k)+(k – 1)
(3)F检验
在H0成立条件下,Xij服从正态分布N(m, s 2),又知Xij相互独立,所以有
= ~ c2(N – 1)
=~ c2(k– 1)
=~ c2(N –k)
且SA, SE 相互独立(证明从略)。
由抽样分布一章知,若x ~ c2(n1),y ~ c2(n2), 且x与y相互独立,则
F = ~
当已知SA,SE 相互独立且分别服从(k – 1)和(N – k)个自由度的c2分布时,则有
F == ~ F[(k –1) , ( N – k)]
有了统计量F就可以做假设检验。怎样制定判别规则?分析如下:
在H0成立条件下,有
E() = E() = E()
= m E() = m Var= m= s 2
E() = E() = E[=]
= = s 2
可见和都是s2的无偏估计量。所以在H0成立条件下,F=应接近1。当F值很大时,说明组间均方误差,大于组内均方误差,则不能认为k个总体服从同一个正态分布,即拒绝H0,否则接受H0。这是一个单端检验问题。临界值由检验水平a 确定。
P{F > Fa,(k – 1)(N - k)} = a
检验步骤是:
(1)建立假设H:m1 = m2 = … = mk= m
(2)选统计量F,H0成立条件下F~ F(k – 1),(N – k)
(3)由a 计算临界值Fa(k – 1,N- k)
(4)判别规则:若F*£ Fa(k – 1,N – k)接受H0
若F* > Fa(k – 1,N – k)拒绝H0
(5)由样本计算F*值,按判别规则给出检验结果。
通常使用方差分析表来完成F检验。
方差来源
离差平方和
自由度
均方
F值
临界值Fa
组间
SA
k - 1
SA /(k – 1)
F =
Fa(k – 1,N - k)
(单侧)
组内
SE
N – k
SE /(N – k)
总和
ST
N - 1
ST /(N – 1)
用Eviews进行方差分析
案例1 国家统计局城市社会经济调查总队1996年在辽宁、河北、山西3省的城市中分别调查了5个样本地区,得城镇居民人均年消费额(人民币元)数据如下表。
省
1
2
3
4
5
LN(辽宁)
3493.02
3657.12
3329.56
3578.54
3712.43
HB(河北)
3424.35
3856.64
3568.32
3235.69
3647.25
SX(山西)
3035.59
3465.07
2989.63
3356.53
3201.06
用方差分析方法检验3省城镇居民的人均年消费额是否有显著性差异。
EViews数据窗口如下(file:ANOVA02):
点击transpose键,得到与数据表格一致的表达形式。
从View选Tests of Equality。Test Equality of中的缺省选择是Mean,即均值单因素方差分析。
点击OK,
常用格式是,
方差来源
离差平方和
自由度
均方
F
F0.05 (2, 12)
SA组间
387105.6
2
193552.8
4.90
3.89
SE组内
474357.3
12
39529.78
ST总和
86146.29
15
图示如下:
12.7 方差分析的简便算法。
当试验的观测值Xij的数字太大,不便计算时,可以对Xij作如下线性变换。
Xij’ =,(i = 1,2,…k),(j = 1,2,…m) 。
其中a,b是任意两个实数(b ¹ 0)。a,b选择适当就可以减少计算量。这样计算出的结果与原来结果相同。因为
SA’ ===
即使b ¹ 1时,也会在
F =
中约掉。这是一种古老的简易算法,当有了计算器和计算机之后,这种简化已没有多大必要。
8
展开阅读全文