1、第八章方差分析 第八章 方差分析 Ⅰ.学习目的 本章介绍方差分析的理论、方法与运用。通过学习,要求:1.了解方差分析的基本概念和思想;2.理解方差分解原理;3.掌握单因素、双因素(有、无交互作用)方差分析的原理和流程;4学会针对资料提出原假设,并能利用Excel进行方差分析。 Ⅱ.课程内容要点 第一节 方差分析方法引导 一、方差分析问题的提出 方差分析,简称ANOVA(analysis of variance),就是利用试验观测值总偏差的可分解性,将不同条件所引起的偏差与试验误差分解开来,按照一定的规则进行比较,以确定条件偏差的影响程度以及相对大小。当已经确认某几种因素对试验结
2、果有显著影响时,可使用方差分析检验确定哪种因素对试验结果的影响最为显著及估计影响程度。 二、方差分析的有关术语和概念 1.试验结果:在一项试验中用来衡量试验效果的特征量,也称试验指标或指标,类似函数的因变量或者目标函数。 2.试验因素:试验中,凡是对试验指标可能产生影响的原因都称为因素,或称为因子,类似函数的自变量。试验中需要考察的因素称为试验因素,简称为因素。一般用大写字母A、B、C、……表示。方差分析的目的就是分析实验因素对实验或抽样的结果有无显著影响。如果在实验中变化的因素只有一个,这时的方差分析称为单因素方差分析;如果在实验中变化的因素不止一个,这时的方差分析就称为多因素方差分析
3、 3.因素水平:因素在试验中所处的各种状态或者所取的不同值,称为该因素的水平,简称水平。一般用下标区分。同样因素水平有时可以取得具体的数量值,有时只能取到定性值(如好,中,差等)。 4.交互作用:当方差分析过程中的影响因素不唯一时,这种多个因素的不同水平的组合对指标的影响称为因素间的交互作用。 三、方差分析的基本原理 (一)方差分解原理 一般地,试验结果的差异性可由离差平方和表示,离差平方和又可分解为组间方差与组内方差。其中,组间方差为因素对试验结果的影响的加总;组内方差则是各组内的随机影响的加总。如果组间方差明显高于组内方差,说明样本数据波动的主要来源是组间方差,因素是引起波动的
4、主要原因,则认为因素对试验的结果存在显著的影响;否则认为波动主要来自组内方差,即因素对试验结果的影响不显著。 (二)检验统计量 检验因素影响是否显著的统计量是F统计量: 统计量的值越大,说明组间方差是离差平方和的主要来源,因素影响显著;F统计量的值越小,说明组内方差是离差平方和的主要来源,因素影响不显著。 第二节 单因素方差分析 一、单因素条件下的平方和分解公式 设表示在水平下,第次试验的试验结果。 按方差分解的原理可得
5、 为组间方差,由不同水平下的各组均值和总平均值的残差平方和;是组内方差,即各组试验结果和各组均值的残差平方和。 二、因素作用显著性的检验 若记各水平下的总体均值为,则检验因素对试验结果影响的显著性就是检验假设: 可直接构造统计量来检验前面提出的假设,即统计量为: , 值越大,越说明组间方差大于组内方差,因此组间方差构成了离差平方和的主要来源,即因素的不同水平对试验结果影响较大,应拒绝原假设;反之,说明组内方差是主要来源,应接受原假设。对于给定的显著性水平,查分布表得临界值,当时,拒绝原假设,认为因素对总体有显著影响;当时,接受原假设,
6、即因素对试验结果的影响不显著。 为了方便分析,通常把方差分析列成一张方差分析表。 差异源 平方和 自由度 均方差 F统计量 组间 组内 - 总计 - - 三、应注意的问题 (一)方差分析需满足的假设条件。 (1)每次试验都是独立进行的;(2)各样本都是来自正态总体的;(3)各总体的方差是相等的。只有满足这些条件,方差分析的结果才是有效的。 (二)在实际问题中,各水平下的总体的试验次数可以相等也可以不等,分析过程和结论基本不变。但是当试验次数相差较大或因素较多时应该考虑采用广义线性模型分析, 以消除非均衡试验设计的影响。
7、 (三)方差分析只能判断各总体的均值是否相等,而不能判断出哪个总体的均值是大还是小,这时需要在均值不等的前提下,采用多重比较法进一步比较各个均值的大小。 第三节 双因素方差分析 一、无交互作用的双因素方差分析 与是待确认是否对试验结果有显著影响的两个因素,假定之间无交互作用,在两个因素的各种水平组合下进行重复试验可得表8-1。 表8-1:无交互作用的双因素方差分析数据表 因素 均值 …… 因 素 …… …… …… …… 均值 …… 是在因素的各
8、个水平下个试验结果的均值;是在因素的各种水平下个试验结果的均值。根据方差分解原理可得: 依次展开有 表示的是因素的各个水平下各组试验结果与该组均值的残差平方和,是因素的各个水平下各组试验结果与该组均值的残差平方和,是所有水平组合下的试验结果和均值的残差平方和。类似单因素方差分析可知,的自由度为,的自由度为,的自由度为,的自由度为。 对应的均方差为: 检验因素与对试验结果的影响是否显著的统计量分别为 综合以上结论可以得到方差分析表。 表8-2 无交互作用的双因素方差分析表 差异
9、源 平方和 自由度 均方差 F统计量 因素 因素 误差 - 总计 - - 二、有交互作用的双因素方差分析 当因素之间存在交互作用时,为了区分随机误差和交互作用,需要在不同的水平组合下进行重复试验。设在因素与因素每一个水平组合下等重复的试验次,得到表8-3。 表8-3:有交互作用的双因素方差分析数据表 因素 …… 因 素 …… …… …… …… 表示的是在水平组合下第次试验的试验结果。在该组合下的试验结果的均值为
10、 进一步记: 和无交互作用的方差分析类似,离差平方和可以分解为: 其中 交叉项表示两个因素的取值水平组合下的试验结果产生的因素水平组合方差。、、、和的自由度分别是、、、和。可计算出均方差 则统计量依次为 总结以上结论可以得到方差分析表8-4。 表8-4:双因素等重复试验方差分析表 差异源 平方和 自由度 均方差 F统计量 因素 因素 交互作用
11、 误差 - 总计 - - Ⅲ.考核知识点与考核要求 一、方差分析的问题和基本概念 1、识记: (1)方差分析的定义 (2)实验因素的概念,因素水平的含义。 2、领会:交互作用的含义。 二、方差的分解和统计量的构造 1、识记: (1)方差的分解; (2)检验统计量。 2、领会:方差“自由度”的确定。 三、单因素方差分析 1、识记: (1)单因素方差分析的意义; (2)单因素条件下的离差平方和的分解; (3)各个方差自由度的确定; (4)统计量的构造。 2、领会: (1)单因素条件下的数据结构; (2)方差
12、分析中应注意的几个问题。 3、应用: (1)单因素方差分析的应用; (2)利用Excel进行单因素方差分析。 四、双因素方差分析 1、识记: (1)无交互作用下的离差平方和的分解,各个方差自由度的确定,检验双因素影响是否显著的统计量的构造; (2)有交互作用下的离差平方和的分解,各个方差自由度的确定,检验各因素影响和交互作用是否显著的统计量的构造。 2、领会: (1)无交互作用下方差分析的数据结构; (2)有交互作用下方差分析的数据结构。 3、应用: (1)无交互作用条件下双因素方差分析的应用; (2)有交互作用条件下的方差分析的应用; (3)利用Excel进行上述
13、两种方差分析。 Ⅳ.习题详解 一、选择题 1.B 2.D 3.C 4.B 5.B 6.B 7.A 8.C 9.ABCDE 10.ABCD 11.ABC 12.BCE 13.ADE 二、计算题 1.解:这是一个等重复的单因素试验。由题意设来自四个不同供应商的柳钉破坏承受力的均值分别为。可以建立假设检验,不全相等。由Excel软件的方差分析可以得到下表。 表8-5 Excel得到的方差分析表 差异源 平方和 自由度 均方差 F值 P值 F临界值 组间 5708.675 3 1902.892 1.862552 0
14、15341 4.377114 组内 36779.7 36 1021.658 - - - 总计 42488.38 39 - - - - 由于值=0.15341,大于显著水平,所以认为供应商不会对柳钉的损坏承受力产生显著影响,应该接受原假设。 各水平下的均值99%的置信度下的置信区间为:,即 表8-5 均值置信区间表 供应商 平均值 置信区间下限 置信区间上限 A1 489.700 453.915 525.485 A2 472.800 440.516 505.084 A3 464.000 433.067
15、 494.933 A4 493.000 460.806 525.194 2.解:由题意设来自三条不同线路的灯泡寿命均值分别为。可以建立假设检验,不全相等。由Excel软件的方差分析可以得到下表。 表8-6 Excel得到的方差分析表 差异源 平方和 自由度 均方差 F值 P值 F临界值 组间 228.4 2 114.2 2.9282 0.0921 6.927 组内 468 12 39 - - - 总计 696.4 14 - - - - 由于值=0.0921133,大于显著水平,所以认为线路不同不会对灯泡的
16、寿命产生显著影响,应该接受原假设。 各水平下的均值99%的置信度下的置信区间为:,即 表8-7 均值置信区间表 线路 平均值 置信区间下限 置信区间上限 A1 55.000 41.420 68.580 A2 48.800 35.345 62.255 A3 45.600 34.173 57.027 3.解:根据题意设来自三个不同子公司的文员的报酬均值分别为。可以建立假设检验,不全相等。由Excel软件的方差分析可以得到下表。 表8-8 Excel得到的方差分析表 差异源 平方和 自由度 均方差 F
17、值 P值 F临界值 组间 17845.81 2 8922.904 3.975 0.0429 3.739 组内 31429.13 14 2244.938 - - - 总计 49274.94 16 - - - - 由于值=0.0429481,小于显著水平,所以认为所属子公司不同会对文员的工作效率产生显著影响,应该拒绝原假设。 各水平下的均值95%的置信度下的置信区间为:,即 表8-9 均值置信区间表 子公司 平均值 置信区间下限 置信区间上限 A1 223.800 173.983 273.617 A2 148
18、167 90.670 205.663 A3 158.500 111.611 205.389 4.解:根据题意设来自未载客汽车和载客汽车的速度均值分别为。可以建立假设检验,不全相等。由Excel软件的方差分析可以得到下表。 表8-10 Excel得到的方差分析表 差异源 平方和 自由度 均方差 F值 P值 F临界值 组间 250.9833 1 250.9833 3.376 0.081 5.871 组内 1487.017 20 74.35083 - - - 总计 1738 21 - - - - 由于值=0
19、081071,大于显著水平,所以认为载客与否对汽车的速度不会产生显著影响,应该接受原假设。 各水平下的均值97.5%的置信度下的置信区间为:,即 表8-11 均值置信区间表 载客与否 平均值 置信区间下限 置信区间上限 未载客 63.700 56.917 56.917 载客 56.917 50.950 62.884 5.解:设外包装因素为,产品地区因素为,由题意建立假设检验 可由Excel软件的方差分析直接得到以下方差分析表。 表8-12 Excel得到的双因素无交互作用的方差分析表 差异源 平方和 自由度 均方差
20、 F值 P值 F临界值 外包装 74.13333 2 37.067 1.321 0.319 4.459 地区 191.0667 4 47.767 1.702 0.242 3.838 误差 224.5333 8 28.067 - - - 总计 489.7333 14 - - - - 因为外包装因素的值=0.31943,地区因素的p值=0.241868,都大于,所以包装和地区这两个因素都对产品的销售量没有显著影响。 6.解:设司机的驾驶技术因素为,路面环境因素为,由题意建立假设检验 可由Excel软件的方差分析直接得到以下方差分
21、析表。 因为司机的驾驶技术因素的p值=0.035671,路面环境因素的值=0.026459,都小于,所以路面环境和司机的驾驶技术这两个因素都会对耗油量产生显著影响。 表8-13 Excel得到的双因素无交互作用的方差分析表 差异源 平方和 自由度 均方差 F值 P值 F临界值 司机的驾驶技术 268 4 67 3.668 0.0357 3.25916 路面环境 240.55 3 80.183 4.390 0.0265 3.4903 误差 219.2 12 18.267 - - - 总计 727.75 19 - -
22、 - - 7.解:这是一个有交互作用的双因素重复试验。由题意设结帐流程因素为,收银员因素为,设交互作用为,建立假设检验 可由Excel软件的方差分析直接得到以下方差分析表。 表8-14 由Excel得到的双因素有交互作用的方差分析表 差异源 平方和 自由度 均方差 F值 P值 F临界值 流程 2.75 3 0.917 0.532 0.665 3.008786 收银员 27.1667 2 13.583 7.887 0.00233 3.402832 交互 73.5 6 12.25 7.113 0.000192 2.508187 内部 41.3333 24 1.722 - - - 总计 144.75 35 - - - - 由表可知,结帐流程不同不会影响操作时间(值=0.664528),收银员不同则显著地影响操作时间(值=0.00233),而两者的组合也会显著影响操作时间(值=0.000192)。 120 / 21120






