1、引例引例6 6 某某农农场场正正在在寻寻找找一一种种能能使使小小麦麦产产量量最最大大化化的的化化肥肥。初初步步选选中中了了鸿鸿福福、祥祥丰丰、云云天天、可可富富4 4个个品品牌牌。农农场场技技术术人人员员确确定定了了2020个个面面积积和和土土壤壤条条件件完完全全相相同同地地块块,同同时时以以相相同同的的方方式式播播种种,在在此此过过程程中中,唯唯一一的的不不同同就就是是所所施施肥肥料料的的品品牌牌不不同同。其其中中,5 5块块地地施施用用鸿鸿福福、5 5块块地地施施用用祥祥丰丰、5 5块块施施用用云云天天、5 5块块地地施施用用可可富富。哪哪一一块块地地施施用用何何种种品品牌牌的的化化肥肥是
2、是随随机机指指定定的的。到到了了收收割割季季节节,记记下下每每块块地地的的小小麦麦产产量量,获如下表所示的样本数据:获如下表所示的样本数据:2020个地块的小麦产量(公斤)个地块的小麦产量(公斤)化肥化肥地块地块鸿福鸿福祥丰祥丰云天云天可富可富1 12 23 34 45 527.927.925.125.128.528.524.224.226.526.526.526.528.728.725.125.129.129.127.227.231.231.228.328.330.830.827.927.929.6 29.6 30.830.829.629.632.432.431.731.732.832.8
3、=31.46=31.46 =29.56=29.56 =27.32=27.32 =26.4426.44样本均值样本均值=28.695=28.695总样本均值总样本均值 =1.658=1.658 =2.143 =2.143 =2.672 =2.672 =3.298=3.298样本方差样本方差3232313130302929282827272626鸿福鸿福祥丰祥丰云天云天可富可富化肥品牌化肥品牌样样本本均均值值四种化肥的小麦产量样本均值差异四种化肥的小麦产量样本均值差异四个样本均值之间的差异有两个来源:一、样本的随机性所造成的随机四个样本均值之间的差异有两个来源:一、样本的随机性所造成的随机误差;二
4、、总体均值之间原本就存在的差异,在样本数据中有所体现。误差;二、总体均值之间原本就存在的差异,在样本数据中有所体现。方差分析的基本原理方差分析的基本原理方差分析的基本步骤方差分析的基本步骤方差分析中的多重比较方差分析中的多重比较方差齐性检验方差齐性检验双因素方差分析双因素方差分析方差分析的假定条件方差分析的假定条件1.对每个总体,响应变量服从正态分布对每个总体,响应变量服从正态分布:2.对每个总体,响应变量的方差相同对每个总体,响应变量的方差相同:3.观察值是独立的观察值是独立的总体总体1总体总体3总体总体4总体总体2原假设为假时,样本均值来自不同的抽样分布。原假设为假时,样本均值来自不同的抽
5、样分布。原假设为真时,样本均值来自同一个抽样分布。原假设为真时,样本均值来自同一个抽样分布。不尽相等不尽相等不尽相等不尽相等可由样本均值间的差异导出可由样本均值间的差异导出2一个估计量,此估计量称为一个估计量,此估计量称为2 的组间估计量:的组间估计量:式中式中:表示水平的个数。表示水平的个数。每个样本方差都给出每个样本方差都给出2的无偏的无偏估计。将其进行平均可得出估计。将其进行平均可得出2的又一个估计量,此估计量称的又一个估计量,此估计量称为为2 的组内估计量。的组内估计量。H0为真时,组间估计是为真时,组间估计是2的无偏估计。的无偏估计。H0为假时,为假时,2 的组间估计必然偏大。的组间
6、估计必然偏大。H0为真,则为真,则2的两个估计量必然很的两个估计量必然很接近,其比值将接近于接近,其比值将接近于1;H0 为假,为假,组间估计将大于组内估计,其比值也组间估计将大于组内估计,其比值也将偏大。本例中:组间估计将偏大。本例中:组间估计/组内估组内估计计=25.6152/2.4428=10.486。组内估计不受原假设影响,组内估计不受原假设影响,H0为真或为假,为真或为假,组内估计总是组内估计总是2的无偏估计。的无偏估计。服从分子自由度为服从分子自由度为 ,分母自由度为,分母自由度为 的的 分布。分布。(25.25)自由度自由度(5.5)自由度自由度(2.1)自由度自由度不同自由度下
7、的不同自由度下的F分布曲线分布曲线0(3,16)自由度下的)自由度下的F分布曲线。分布曲线。3.2410.486 结论:拒绝原假设,接受备择假设,即:四种品牌化肥的效力不尽相同。结论:拒绝原假设,接受备择假设,即:四种品牌化肥的效力不尽相同。某计算机产品公司拥有三个工厂,为确定工厂中有多少员工了解全面质量管理,某计算机产品公司拥有三个工厂,为确定工厂中有多少员工了解全面质量管理,分别从每个工厂选取一个由分别从每个工厂选取一个由6名员工组成的随机样本,并对他们进行质量意识名员工组成的随机样本,并对他们进行质量意识测试。得到数据资料如下表所示。管理者想用这些数据来检验假设:三个工厂测试。得到数据资
8、料如下表所示。管理者想用这些数据来检验假设:三个工厂的平均测试分数相同。的平均测试分数相同。观察值观察值工厂工厂1工厂工厂2工厂工厂3123456857582767185717573746982596462697567三个工厂三个工厂18名员工的测试分数名员工的测试分数第一步:建立假设第一步:建立假设第二步:计算样本均值第二步:计算样本均值第三步:计算总样本均值第三步:计算总样本均值第四步:计算样本方差第四步:计算样本方差第五步:计算总体方差的组间估计第五步:计算总体方差的组间估计第六步:计算总体方差的组内估计第六步:计算总体方差的组内估计第七步:计算第七步:计算F统计量统计量第八步:编制方差
9、分析表第八步:编制方差分析表第九步:做出统计决策第九步:做出统计决策水平水平1总体总体1水平水平2水平水平3总体总体2总体总体3观察值观察值工厂工厂1工厂工厂2工厂工厂3123456857582767185717573746982596462697567不尽相等不尽相等不尽相等不尽相等第第 个总体的均值个总体的均值水平的个数水平的个数式中:式中:观察值观察值工厂工厂1工厂工厂2工厂工厂3123456857582767185717573746982596462697567样本均值样本均值797466第第 个水平下的样本均值个水平下的样本均值第第 个水平下的第个水平下的第 个观察值个观察值第第 个
10、水平下的样本容量个水平下的样本容量式中:式中:若若则有:则有:式中:式中:总样本均值总样本均值观察值观察值工厂工厂1工厂工厂2工厂工厂3123456857582767185717573746982596462697567样本均值样本均值797466样本方差样本方差342032总均值总均值73第第 个水平下的样本方差个水平下的样本方差式中:式中:与与 相联系的自由度相联系的自由度特别地,若特别地,若则有:则有:算法二:算法二:统计量服从统计量服从 分布,其分子自由度为分布,其分子自由度为 ,分母自由度为,分母自由度为 。方差方差来源来源平方和平方和SS自由度自由度df均方均方MSF值值组间组间组
11、内组内SSTRSSESSTr-1nT-rnT-1MSTRMSEMSTTR/MSE方差方差来源来源平方和平方和SS自由度自由度df均方均方MSF值值组间组间组内组内总差异总差异51643094621517258.0028.679.00方差分析表方差分析表总差异总差异 =+方差分析可被视为将总平方和分解为不同成分的一种统计方法。方差分析可被视为将总平方和分解为不同成分的一种统计方法。总平方和总平方和=处理平方和处理平方和+误差平方和误差平方和(2,15)自由度下的)自由度下的F分布曲线分布曲线拒绝域拒绝域接受域接受域结论:结论:拒绝原假设接受原接受备择假设,即三个工厂的平均测试分数不尽相同。拒绝原
12、假设接受原接受备择假设,即三个工厂的平均测试分数不尽相同。不尽相等不尽相等时,则有:时,则有:临界值临界值原假设与备择假设原假设与备择假设检验统计量检验统计量t统计量服从自由统计量服从自由度为度为nT-r的的t分布。分布。若若即即拒绝原假设拒绝原假设则则方差分析的多重比较方差分析的多重比较-最小显著性差异法(最小显著性差异法(least significant difference 简写为简写为LSD)Fisher LSDFisher LSD法对两总体均值相等性检验方法中的总体方差估计替换法对两总体均值相等性检验方法中的总体方差估计替换为为MSEMSE,得出自由度为,得出自由度为n nT T-
13、r-r的的t t统计量,用于总体均值的多重比较。统计量,用于总体均值的多重比较。化肥化肥地块地块鸿福鸿福祥丰祥丰云天云天可富可富1234527.925.128.524.226.526.528.725.129.127.231.228.330.827.929.630.829.632.431.732.8均值均值26.4427.3229.5631.46结论:结论:鸿福鸿福与与祥丰祥丰无显著差异;无显著差异;云天云天与与可富可富无显著差异。无显著差异。已知已知查表得查表得计算得计算得四种化肥的小麦产量四种化肥的小麦产量LSD法中犯拒真错误的概率法中犯拒真错误的概率LSD法的法的拒绝准则拒绝准则每一次个别
14、检验中,犯拒真错误的概率为每一次个别检验中,犯拒真错误的概率为,可称之为,可称之为个别拒真错误概率个别拒真错误概率。多重比较中至少有一次犯拒真错误的概率却是大于多重比较中至少有一次犯拒真错误的概率却是大于的,可称之为的,可称之为整体拒真错误概率整体拒真错误概率。例如:若例如:若,则,则6次比较中至少一次犯拒真错误的概率为次比较中至少一次犯拒真错误的概率为。针对针对LSD法的法的Bonferroni修正修正Bonferroni的拒绝准则的拒绝准则为事先给定的整体拒真错误概率为事先给定的整体拒真错误概率为多重比较的次数为多重比较的次数.式中:式中:为总体方差的组内估计为总体方差的组内估计MSEMS
15、E。设有独立取自设有独立取自个总体的个总体的个随机样本,其样本容量为个随机样本,其样本容量为、样本均值为、样本均值为、样本方、样本方差为差为,。Bartlett方差齐性检验的检验假设为:方差齐性检验的检验假设为:不尽相等不尽相等服从自由度为服从自由度为 的的 分布分布检验统计量检验统计量检验中的拒绝准则为:检验中的拒绝准则为:Bartlett检验结果只在样本数据具有正态时有效。检验结果只在样本数据具有正态时有效。Bartlett方差齐性检验方差齐性检验式中:式中:;或或 或或 。其中,。其中,为为第第 个处理下的样本中位数,个处理下的样本中位数,为第为第 个处理下的样本中截除样本容量个处理下的
16、样本中截除样本容量10%10%后的后的均值。均值。设有独立取自设有独立取自个总体的个总体的个随机样本,其样本容量为个随机样本,其样本容量为、第个观测值为、第个观测值为,样本,样本均值为均值为、样本方差为、样本方差为,。Bartlett方差齐性检验的检验假设为:方差齐性检验的检验假设为:不尽相等不尽相等检验统计量检验统计量检验中的拒绝准则为:检验中的拒绝准则为:Levee检验验对样本数据的正态性没有严格要求。检验验对样本数据的正态性没有严格要求。Levene方差齐性检验方差齐性检验某商品有五种不同的包装方式,在五个不同地区销售,现从每个地区随机某商品有五种不同的包装方式,在五个不同地区销售,现从
17、每个地区随机抽取一个规模相同的超级市场,得到该商品不同包装的销售量资料如下表抽取一个规模相同的超级市场,得到该商品不同包装的销售量资料如下表所示。现欲检验包装方式与销售地区对该商品销售量是否有显著影响。所示。现欲检验包装方式与销售地区对该商品销售量是否有显著影响。trbl方式方式1方式方式2方式方式3方式方式4方式方式5地区地区1地区地区2地区地区3地区地区4地区地区52022241626121014422202018816101218620146101810某商品不同地区不同包装的销售量某商品不同地区不同包装的销售量双因素方差分析是对不同处理及不同区组总体均值是否相等进行检验。双因素方差分析
18、是对不同处理及不同区组总体均值是否相等进行检验。第一步:建立假设第一步:建立假设第二步:计算样本均值和总样本值第二步:计算样本均值和总样本值第三步:计算离差平方和第三步:计算离差平方和第四步:计算均方值第四步:计算均方值第五步:计算第五步:计算F统计量统计量第六步:编制双因素方差分析表第六步:编制双因素方差分析表第七步:做出统计决策第七步:做出统计决策关于不同处理下的总体关于不同处理下的总体关于不同区组下的总体关于不同区组下的总体(包装方式之间销售量无差别)(包装方式之间销售量无差别)(包装方式之间销售量有差别)(包装方式之间销售量有差别)(地区之间销售量有差别)(地区之间销售量有差别)(地区
19、之间销售量无差别)(地区之间销售量无差别)不尽相等不尽相等不尽相等不尽相等trbl方式方式1方式方式2方式方式3方式方式4方式方式5区组均值区组均值地区地区1地区地区2地区地区3地区地区4地区地区5202224162612101442220201881610121862014610181015.214.016.810.418.8处理均值处理均值21.612.416.413.211.615.04不同地区不同包装销售量的样本均值与总样本均值不同地区不同包装销售量的样本均值与总样本均值处理平方和处理平方和区组平方和区组平方和误差平方和误差平方和总平方和总平方和处理均方处理均方区组均方区组均方误差均方
20、误差均方 服从分子自由度为服从分子自由度为 分母自分母自由度为由度为 的的 分布。分布。服从分子自由度为服从分子自由度为 分母自分母自由度为由度为 的的 分布。分布。方差来源方差来源平方和平方和SS自由度自由度df均方均方MSF值值处理处理区组区组误差误差总计总计SSTRSSBLSSESSTr-1k-r(r-1)(k-1)nT-1MSTRMSBLMSEFtrFbl双因素方差分析表双因素方差分析表方差来源方差来源平方和平方和SS自由度自由度df均方均方MSF值值处理处理区组区组误差误差总计总计335.36199.36346.24880.9644162483.8449.8421.643.87430
21、72.303142l(4,16)自由度)自由度下的下的F分布曲线分布曲线拒绝域拒绝域接受域接受域结论:该商品销售量地区间无显著差异。包装方式间有显著差异。结论:该商品销售量地区间无显著差异。包装方式间有显著差异。结束结束今有三个工厂生产同一种灯泡,为比较这三个工今有三个工厂生产同一种灯泡,为比较这三个工厂生产的灯泡寿命有无显著差异,分别从每个工厂生产的灯泡寿命有无显著差异,分别从每个工厂生产的一批灯泡中随机抽取厂生产的一批灯泡中随机抽取3 3个,经测试获得个,经测试获得每个灯泡的使用寿命如下表所示:每个灯泡的使用寿命如下表所示:灯泡的使用寿命(小时)灯泡的使用寿命(小时)工厂工厂1 1工厂工厂
22、2 2工厂工厂3 3215215217217211211203203205205207207210210205205208208要求:要求:(1 1)检验这三个工厂生产的灯泡的使用寿命有无)检验这三个工厂生产的灯泡的使用寿命有无显著差异。显著差异。(2 2)若有显著差异,分析哪几个工厂生产的灯泡)若有显著差异,分析哪几个工厂生产的灯泡的寿命之间存在差异。的寿命之间存在差异。为了解运动、节食、药物三种不同减肥方式的减肥效果,在不同为了解运动、节食、药物三种不同减肥方式的减肥效果,在不同方式的减肥实践者中各随机抽取方式的减肥实践者中各随机抽取5 5人,调查其使用不同的减肥方式人,调查其使用不同的减
23、肥方式时,在一个月内的减肥效果,结果如下:时,在一个月内的减肥效果,结果如下:不同减肥方式的减肥效果(千克)不同减肥方式的减肥效果(千克)运动运动1.11.11.11.11.01.00.90.91.01.0节食节食1.21.21.01.01.21.21.11.11.41.4药物药物1.31.31.31.31.11.11.21.21.41.4要求:要求:(1 1)检验不同减肥方式减肥效果有无显著差异。)检验不同减肥方式减肥效果有无显著差异。(2 2)若有显著差异,分析哪几种减肥方式间效果存在差异。)若有显著差异,分析哪几种减肥方式间效果存在差异。三个地区从三个地区从20052005年至年至200
24、92009年的夏季平均气温如下表所示:年的夏季平均气温如下表所示:某省三地区夏季平均气温(摄氏度)某省三地区夏季平均气温(摄氏度)年份年份地区地区1 1地区地区2 2地区地区3 320052005年年30302929282820062006年年31312929292920072007年年30303030292920082008年年32323030303020092009年年32323131303020102010年年313130302929要求:要求:(1 1)检验三个地区各年夏季平均气温有无显著差异。)检验三个地区各年夏季平均气温有无显著差异。(2 2)若有显著差异,分析哪几个地区间的平均气
25、温存在差异。)若有显著差异,分析哪几个地区间的平均气温存在差异。某英语培训班为了保证教学质量、提高学生的学习效率,将学生平均某英语培训班为了保证教学质量、提高学生的学习效率,将学生平均分为四个平行小班,每班分为四个平行小班,每班6 6人,三个月后对学生进行测验,获如下数人,三个月后对学生进行测验,获如下数据:据:四个平行小班英语测验成绩四个平行小班英语测验成绩 一班一班686872728080727266667070二班二班6161707066666464 63 636565三班三班8080828270707575 72 727474四班四班707072728080737369697171要求:要求:(1 1)检验四个平行小班的成绩有无显著差异。)检验四个平行小班的成绩有无显著差异。(2 2)若有显著差异,分析哪几个小班之间的成绩存在差异。)若有显著差异,分析哪几个小班之间的成绩存在差异。