1、应用统计学教案 张敏主编第5章 假设检验与方差分析教学内容5.1 假设检验5.2 方差分析概述5.3 常用术语5.4 单因素方差分析5.5 双因素方差分析5.6 Excel在方差分析中的应用教学要求1理解假设检验的原理和计算方法,学会辩证地看待现实问题。2理解方差分析的基本原理。3理解试验因素、试验水平的内涵。4理解组间误差、组内误差、总误差之间的关系和区别,培养严谨的学习态度和资料分析能力。5掌握单因素方差分析的基本原理和计算过程。6理解双因素方差分析的基本原理和计算过程。教学重点方差分析的基本原理;组间误差、组内误差和总误差之间的关系和区别;单因素、双因素方差分析的基本原理和计算过程教学难
2、点单因素、双因素方差分析的计算教学方法课堂讲授、多媒体教学、课堂讨论、上机操作。课时数4课时(课堂讲授2课时+课堂练习1课时+上机操作1课时)导入案例某品牌薯片声称其生产的每袋薯片的平均重量是105克。现从市场上抽取100袋作为样本,测得其平均重量为104.8克,样本标准差为0.72克。那么,该厂商的薯片重量的期望值是否真如厂商所声称的是105克呢?5.1 假设检验5.1.1 假设检验的原理及步骤假设检验的一般步骤如下。第一步,依据所研究问题的不同情况,建立原假设和备择假设。第二步,在原假设成立的条件下,依据总体服从的分布,构建一个合适的样本统计量,该统计量不包含任何的未知参数,然后将各样本值
3、代入该统计量,从而算得一个关于样本的统计量值。第三步,给定显著性水平以及相应的自由度,查表求出临界值。第四步,将第二步求得的样本统计量值与第三步查表求得的临界值进行比较,做出拒绝或接受原假设的判断。注意,在判断时,并非只要统计量值大于或小于某一临界值,就一定拒绝原假设,而是应根据不同的假设所设立的内容进行判断。5.1.2 总体均值的检验关于某一事物总体均值的检验,通常是检验事物变化前后其均值特征是否发生显著变化,一般包括以下3种情况。(1)仅仅检验事物变化前后总体均值是否具有差异性。如检验某种药品在改良前后的效果是否不同、某种机器在检修前后的生产效率是否具有差异等。对于上述问题,一般建立如下假
4、设。,(5.2)(2)在检验事物变化前后总体均值是否具有差异性的基础上,进一步检验事物变化后的均值比之前是否有了提高。如检验某种药品在改良后的效果是否比改良前有了提高、某种机器在检修后的生产效率是否比检修前有了提高等。对于上述问题,一般建立如下假设。,(5.3)(3)在检验事物变化前后总体均值是否具有差异性的基础上,进一步检验事物变化后的均值比之前是否有了降低。如检验某企业在实施成本控制后的成本总额是否比实施前有了降低、某种产品在实施新工艺后的缺陷数是否比实施前有了降低等。对于上述问题,一般建立如下假设。,(5.4)对于上述3种假设,一般分以下两种情况进行讨论。1.总体为正态分布且方差已知构造
5、检验统计量(5.5)在原假设成立的条件下,。给定显著性水平,则有如下结论。(1),的检验规则。当时,拒绝;当时,接受。(2),的检验规则。当时,拒绝;当时,接受。(3),的检验规则。当时,拒绝;当时,接受。例5.1 某医院想了解病人的候诊时间与以往相比是否发生了显著的变化,以往情况是,平均每个病人的候诊时间是50分钟,方差为400。现在所抽取100名病人的平均候诊时间为55分钟。试帮助医院做出决策(取=0.01)。解:第一步,建立假设。第二步,构造并计算检验统计量。第三步,当时,查表得。第四步,因为,故接受原假设,该医院病人候诊时间较往年没有发生显著变化。2.总体为正态分布且方差未知由于未知,
6、故应构造检验统计量(5.6)在原假设成立的条件下,。例5.3 某食品加工厂用自动装袋机装袋装食品,每袋食品的标准质量为250克。现在随机抽取10袋来检查机器的工作情况,这10袋食品的质量(单位:克)分别为253、242、244、245、246、242、251、246、252、249。假设该种袋装食品的质量服从正态分布,试判断袋装机工作是否正常(取=0.05)。解:第一步,建立假设。第二步,构造并计算检验统计量。第三步,当时,查表得。第四步,因为,故拒绝原假设,即该袋装机工作不正常。5.1.3 总体成数的检验关于某一事物总体成数的检验,通常是检验事物变化前后其成数特征是否发生了显著变化,一般包括
7、以下3种情况。(1)仅仅检验事物变化前后总体成数是否具有差异性。如检验某车间在流水线程序改良前后所生产产品的合格率是否不同、某药品在使用新配方前后的治愈率是否具有差异等。对于上述问题,一般建立如下假设。,(5.7)(2)在检验事物变化前后总体成数是否具有差异性的基础上,进一步检验事物变化后的成数是否比之前有了提高。如检验某车间在流水线程序改良后所生产产品的合格率是否有了显著提高、某药品在使用新配方后的治愈率是否比使用之前有了明显提高等。对于上述问题,一般建立如下假设。,(5.8)(3)在检验事物变化前后总体成数是否具有差异性的基础上,进一步检验事物变化后的成数是否比之前有了降低。如检验某企业在
8、实施新的生产措施之后其产品缺陷率是否比实施前有了降低、某高校在实施新的教学管理办法后其学生逃课率是否比实施前有了降低等。对于上述问题,一般建立如下假设。,(5.9)当和都大于5时,样本成数的抽样分布近似为正态分布,于是可构造检验统计量(5.10)在原假设成立条件下,近似服从标准正态分布。例5.5 某药品在既往临床治疗中其治愈率为80%,该药品使用新配方后重新投入市场,现从服用该新药的病人中抽取400人进行检验,测得治愈率为84%,试判断该药品在采用新配方前后其疗效有没有显著差异(取=0.05)。解:第一步,建立假设。第二步,构造并计算检验统计量。第三步,当时,查表得。第四步,因为,拒绝原假设,
9、即该药品在采用新配方前后其疗效有显著差异。5.1.4 利用值进行决策前面介绍的都是利用显著性水平通过查表对总体均值和总成数进行检验,这也就意味着事先确定了拒绝域。这种检验方法对不足之处是,它只提供检验结论可靠性的大致范围,对于一个特定的假设检验问题,无法给出观测数据与原假设之间不一致程度的精确度量。要测量出样本观测数据与原假设中假设的值的偏离程度,需要计算值。计算机的应用使得值的计算十分容易,大多数统计软件都能够输出有关假设检验的主要计算结果,其中就包括值。可以说,值的应用几乎取代了传统的统计量检验方法,通过P值不仅能得到与统计量检验相同的结论,而且能得到统计量检验不能给出的信息。本章5.6节
10、将介绍值的具体应用。用值进行决策的准则是:如果值,不拒绝。5.2 方差分析概述方差分析方法被广泛用于分析心理学、生物学、工程和医药的试验数据。5.2.1 方差分析的基本概念方差分析(analysis of variance),又称“变异数分析”或“F检验”,是英国统计学家(R.A.Fisher,18901962)发明的,用于两个及两个以上样本均值差异的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究过程中施加的对结果形成影响的可控因素。5.2.2 方差分析的基本思想若被考察的因素对试验结果没有显著的影响,即所讨论的各正态总体的
11、均值相等,则试验数据的波动完全由随机误差引起;如果各正态总体均值不全相等,则表明试验数据的波动除了随机误差的影响外,还包含被可控因素的影响。为此,需要构造一个适当的统计量,来描述数据的波动程度。将这个统计量分解为两部分,一部分是纯随机误差造成的影响,另一部分是除随机误差的影响外来自可控因素的影响。然后将这两部分进行比较,如果后者明显比前者大,就说明可控因素的影响是显著的。5.2.3 两类误差通过方差分析基本思想的概述,可见在方差分析中,包含两类不同的误差:随机误差和系统误差。5.3 常用术语5.3.1 试验指标为衡量试验结果的好坏或处理效应的强弱,在试验中具体测定的性状或观测的项目称为试验指标
12、(experimental index)。由于试验项目的不同,选择的试验指标也不相同。如在生产管理中,选择的实验指标有生产能力、产品寿命、技术水平、销售量等。5.3.2 试验因素试验中所研究的影响试验指标的因素称为试验因素(experimental factor)。如研究如何提高车间的生产水平时,工人技术水平、机器生产性能、产品配方方案等均可作为试验因素来考虑。当试验中考察的因素只有一个时,称为单因素试验;当同时研究两个或两个以上的因素对试验指标的影响时,则称为两因素或多因素试验。试验因素常用大写字母A,B,C,表示。 5.3.3 因素水平试验因素所处的某种特定状态或数量等级称为因素水平(le
13、vel of factor),简称水平。如比较3个品牌机器生产量的高低,这3个品牌就是机器这个试验因素的3个水平;研究某种产品中4种不同配方方案对产品性能的影响,这4种特定的配方方案就是产品性能这一试验因素的4个水平。 因素水平可用代表该因素的字母加下标1,2,n来表示,如A1,A2,B1,B2,。5.3.4 试验处理事先设计好的实施在试验单位上的具体项目称为试验处理(treatment),简称处理。在单因素试验中,实施在试验单位上的具体项目就是试验因素的某一水平。例如进行配方方案的比较试验时,实施在试验单位(某种配方方案)上的具体项目就是对该配方方案所生产的产品性能进行检测。所以进行单因素试
14、验时,试验因素的一个水平就是一个 处理。在多因素试验中,实施在试验单位上的具体项目是各因素的某一水平组合。例如进行3种配方方案和3个技术工人对产品性能影响的两因素试验,整个试验共有33=9个水平组合,实施在试验单位(产品性能)上的具体项目就是某配方方案与某技术工人逐一搭配的结果。所以,在进行多因素试验时,试验因素的一个水平组合就是一个处理。5.4 单因素方差分析5.4.1 单因素方差分析基本概念当方差分析只涉及一个分类试验因素对试验指标有影响时,可称为单因素方差分析。如检验不同地区的某商品的市场销售潜力是否相等,或检验不同区域某品牌连锁店的服务认可度是否相等,两个例子中均只涉及“区域”这一个因
15、素,故其属于单因素方差分析。5.4.2 问题描述在单因素方差分析中,所考虑的因素单一,但包含若干种水平,而不同水平之间有可能存在系统性差异,需要通过检验才能验证这种系统性差异是否确实存在。在检验过程中,需要分析某种因素下的不同水平间的差异到底是随机性差异,还是系统性差异,若是后者,则说明不同水平间确实存在本质性差异。5.4.3 分析步骤为检验同一因素下的不同水平对试验指标是否有显著影响,首先需要设定一个假设,即假设“不同水平对试验指标没有显著影响”。第一步,提出假设。:(假设各水平间没有显著差异,也即试验因素对试验指标无显著 影响)。:不全相等(i=1,2,)(假设各水平间有显著差异,也即试验
16、因素对试验指标有显著影响)。第二步,构造统计量。(1)计算各水平(各总体)的样本均值。记水平下的样本均值为, 即(5.11)(2)计算所有水平(所有总体)下的全部样本的均值。记因素下的所有样本的均值为,即,其中,=+(5.12)(3)计算各误差平方和。总平方和: (5.13)组间平方和:(5.14)组内平方和:(5.15)(4)计算统计量。由于各误差平方和的大小与观测值的个数有关,为了消除观测值个数对误差平方和大小的影响,需要将其平均,也即用各平方和除以其所对应的自由度,这一结果称为均方。ST的自由度为n-1,其中n为全部观测值的个数;SA的自由度为k-1,其中k为因素水平的个数;SE的自由度
17、为n-k。在方差分析中,由于只需比较组间误差和组内误差的大小,故只需计算两种误差的均方,其中,用表征组间均方,用表征组内均方。= (5.16)= (5.17)F(-1,-) (5.18)第三步,统计决策。根据给定的显著性水平,在F分布表中查找与分子自由度-1、分母自由度-相应的临界值。若F,则拒绝原假设,表明各水平之间存在显著差异,也即试验因素对试验指标有显著影响。若F,则拒绝原假设,表明A因素各水平之间存在显著差异,也即A因素对试验指标有显著影响。若,则拒绝原假设,表明B因素各水平之间存在显著差异,也即B因素对试验指标有显著影响。若,则接受原假设,表明B因素各水平之间不存在显著差异,也即没有
18、证据证明B因素对试验指标有显著影响。5.5.4 方差试验表双因素的方差分析表如表5.4所示。表5.4 双因素的方差分析表误差来源平方和自由度均方F值 A因素-1/B因素-1/误差(-1)(-1)总和-15.6 Excel在方差分析中的应用本节主要介绍单因素方差分析。5.6.1 用Excel进行单因素方差分析方差分析的结果以方差分析表呈现,如表5.5所示。表5.5 方差分析表误差来源平方和自由度均方F值 P值F临界值组间k-1/组内n-k总和n-15.6.2 实例应用1.实例的数据描述例5.9 为比较不同肥料对树苗生长有无显著影响,某农场施用4种不同肥料进行育苗试验并得到相关的试验结果,假设苗高
19、服从正态分布,且方差相等,。表5.6 不同肥料施用下树苗高度 (单位:厘米)肥料品种123456肥料626460615960肥料524653485046肥料535548444650肥料485258605251续表2.实例的操作步骤(1)新建Excel工作簿,命名为“不同肥料与树苗高度的单因素方差分析”,并将数据和相关文字输入工作表中。(2)单击【数据】菜单下的【数据分析】按钮,选择【方差分析:单因素方差分析】,单击【确定】按钮,弹出图5.1所示的对话框。(3)在【方差分析:单因素方差分析】对话框中,在“输入区域”选中单元格区域B2:G5,因为输入区域的数据是按行排列的,所以“分组方式”选择“行
20、”;因为“输入区域”不包括标志列,所以“标志位于第一列”不勾选,是默认的0.05;单击“输出区域”,选中单元格“A8”,则生成计算结果,如图5.2所示。 图5.1 【方差分析:单因素方差分析】对话框 图5.2 单因素方差的计算结果3.实例的结果分析在进行决策的时候,可将统计量的统计值与给定的显著性水平下的临界值进行比较,也可以直接利用方差分析表中的值与显著性水平的值进行比较。由图5.2可以看出,计算得到的值为14.64459,大于临界值3.098391,同时值为2.81E-05,小于显著性水平0.05,说明拒绝原假设,即:不同肥料对树苗高度有显著影响。问题与应用:某公司销售部门对产品销售方案做出了调整,那么方案调整之后的销售活动是否比之前有了明显改善?可通过假设检验的方法进行分析。可培养学生解决实际问题的能力。问题与应用:如果要检验不同地区的不同品牌商品的市场销售潜力是否相等,或要检验不同区域不同品牌连锁店的服务消费者认可度是否相等,可通过“区域”“品牌”这两个因素对试验的影响差异性。