1、第八章第八章 单因素方差分析单因素方差分析方差分析:从方差分析:从方差分析:从方差分析:从总总体上判断多体上判断多体上判断多体上判断多组组数据平均数数据平均数数据平均数数据平均数(K3K3)之之之之间间的差异是否的差异是否的差异是否的差异是否显显著著著著方差分析将全部数据看成是一个整体整体,分析构成变量的变异原因,进而计算不同变异来源的总体方差的估值。然后进行F测验,判断各样本的总体平均数是否有显著差异。若差异显著,再对平均数进行两两之间的比较。(by RA Fisherby RA Fisher)Chapter 8:One-factor Analysis of Variance品品 系系III
2、IIIIVV164.664.567.871.869.2265.365.366.372.168.2364.864.667.170.069.8466.063.766.869.168.3565.863.968.571.067.5和和326.5322.0336.5354.0343.0平均数平均数65.364.467.370.868.6例例 调查调查5个不同小麦品系株高是否差异显著个不同小麦品系株高是否差异显著因变量因变量(响应变量响应变量):):连续型的数值变量连续型的数值变量株高株高因素因素(Factor)(Factor):影响因变量变化的客观条件影响因变量变化的客观条件一个因素:一个因素:“品系品
3、系”单因素方差分析单因素方差分析水平水平(Level)(Level):因素的不同等级因素的不同等级 不同不同“处理处理”五个水平:品系五个水平:品系I-VI-V重复重复(Repeat)(Repeat):在特定因素水平下的独立试验在特定因素水平下的独立试验五次重复五次重复单因素方差分析的数据形式单因素方差分析的数据形式单因素方差分析的数据形式单因素方差分析的数据形式X因素的因素的a个不同水平(处理)个不同水平(处理)每每个个处处理理下下n个个重重复复方差分析原理方差分析原理线性统计模型:线性统计模型:线性统计模型:线性统计模型:模型中的模型中的模型中的模型中的x xij ij是在第是在第是在第是
4、在第i i次次次次处理下的第处理下的第处理下的第处理下的第j j次观测值。次观测值。次观测值。次观测值。是总是总是总是总平均数。平均数。平均数。平均数。i i是对应于第是对应于第是对应于第是对应于第i i次处理的一个参数,称为次处理的一个参数,称为次处理的一个参数,称为次处理的一个参数,称为第第第第i i次处理效应次处理效应次处理效应次处理效应(treatment effecttreatment effect)。ij ij是随机误差,是随机误差,是随机误差,是随机误差,是服从是服从是服从是服从N N N N(0(0(0(0,2 2 2 2)的独立随机变量。的独立随机变量。的独立随机变量。的独立
5、随机变量。方差分析原理方差分析原理固定因素:固定因素:固定因素:固定因素:因素的因素的因素的因素的a a个水平是人个水平是人个水平是人个水平是人为为特意特意特意特意选择选择的。的。的。的。方差分析所得方差分析所得方差分析所得方差分析所得结论结论只适用于所只适用于所只适用于所只适用于所选选定的定的定的定的a a个水平。个水平。个水平。个水平。固定效固定效固定效固定效应应模型:模型:模型:模型:处处理固定因素所使用的模型。理固定因素所使用的模型。理固定因素所使用的模型。理固定因素所使用的模型。随机因素:随机因素:随机因素:随机因素:因素的因素的因素的因素的a a个水平是从水平个水平是从水平个水平是
6、从水平个水平是从水平总总体中随机抽取的。体中随机抽取的。体中随机抽取的。体中随机抽取的。从随机因素的从随机因素的从随机因素的从随机因素的a a个水平所得到的个水平所得到的个水平所得到的个水平所得到的结论结论,可推广到,可推广到,可推广到,可推广到该该因素的所有水平上。因素的所有水平上。因素的所有水平上。因素的所有水平上。随机效随机效随机效随机效应应模型:模型:模型:模型:处处理随机因素所使用的模型。理随机因素所使用的模型。理随机因素所使用的模型。理随机因素所使用的模型。固定效应模型固定效应模型 其中其中其中其中 i i是是是是处处理平均数与理平均数与理平均数与理平均数与总总平均数的离差,因平均
7、数的离差,因平均数的离差,因平均数的离差,因这这些离些离些离些离差的正差的正差的正差的正负值负值相抵,因此相抵,因此相抵,因此相抵,因此如果不存在如果不存在如果不存在如果不存在处处理效理效理效理效应应,各,各,各,各 i i都都都都应应当等于当等于当等于当等于0 0,否,否,否,否则则至少至少至少至少有一个有一个有一个有一个 i i00。因此,零假。因此,零假。因此,零假。因此,零假设为设为:H H0 0:1 1 2 2 a a0 0 备择备择假假假假设为设为:H HA A:i i 0 0(至少有一个(至少有一个(至少有一个(至少有一个i i)固定效应模型固定效应模型平方和与自由度的分解平方和
8、与自由度的分解固定效应模型固定效应模型=+平方和平方和的分割的分割总平方和处理平方和误差平方和=+自由度自由度的分割的分割总自由度处理自由度误差自由度处理均方误差均方固定效应模型固定效应模型单因素固定效应模型的方差分析表单因素固定效应模型的方差分析表处理效应对均方的贡献处理效应对均方的贡献固定效应模型固定效应模型 方差分析方差分析统计量:量:若零假设成立,不存在处理效应,则组内变异和组间变异都只反映随机误差()的大小,此时处理均方()和误差均方()大小相当,F 值则接近1,各组均数间的差异没有统计学意义;反之,如果存在处理效应,则处理变异不仅包含随机误差,还有处理效应引起的变异 (),此时F值
9、显著大于1,各组均数间的差异有统计学意义。故依据 F 值的大小可判断各组之间平均数有无显著差别。固定效应模型固定效应模型平方和的平方和的平方和的平方和的简简易易易易计计算算算算 C称为校正项。误差平方和称为校正项。误差平方和 SSe SSTSSA 减少计算误差减少计算误差利于编程利于编程品品 系系IIIIIIIVV164.664.567.871.869.2265.365.366.372.168.2364.864.667.170.069.8466.063.766.869.168.3565.863.968.571.067.5和和326.5322.0336.5354.0343.0平均数平均数65.3
10、64.467.370.868.6例例 调查调查5个不同小麦品系株高,结果见下表:个不同小麦品系株高,结果见下表:F4,20,0.052.87,F4,20,0.014.43。F F0.01,P0.01。因此,上述。因此,上述5个小麦品系的株高差个小麦品系的株高差异极显著。异极显著。方差分析表方差分析表随机效应模型随机效应模型其中处理效应其中处理效应其中处理效应其中处理效应 i i为随机变量,服从为随机变量,服从为随机变量,服从为随机变量,服从=0=0的的的的独立正态分独立正态分独立正态分独立正态分布,其方差为布,其方差为布,其方差为布,其方差为 在随机效应模型中,对单个在随机效应模型中,对单个在
11、随机效应模型中,对单个在随机效应模型中,对单个 i i的检验是无意义。若的检验是无意义。若的检验是无意义。若的检验是无意义。若假设不存在处理效应,则假设不存在处理效应,则假设不存在处理效应,则假设不存在处理效应,则 i i的方差为零,即零假设的方差为零,即零假设的方差为零,即零假设的方差为零,即零假设为:为:为:为:备择假设为:备择假设为:备择假设为:备择假设为:随机效应模型随机效应模型单因素随机效应模型的方差分析表单因素随机效应模型的方差分析表随机效应与固定效应的方差分析的比较随机效应与固定效应的方差分析的比较程序相同;程序相同;获得数据的方式不同;假设不同;均方期望不同;获得数据的方式不同
12、;假设不同;均方期望不同;适用范围不同。适用范围不同。方差分析应具备的条件方差分析应具备的条件1 1、可加性、可加性(AddictivityAddictivity):各:各处理效理效应与与误差差效效应是可加的。是可加的。=+平方和平方和的分割的分割总平方和处理平方和误差平方和处理项与随机误差项的交叉乘积和处理项与随机误差项的交叉乘积和=0方差分析应具备的条件方差分析应具备的条件2 2 2 2、正态性、正态性、正态性、正态性(NormalityNormality)::NID(0,:NID(0,2 2)应该是随机的、彼此独立的应该是随机的、彼此独立的应该是随机的、彼此独立的应该是随机的、彼此独立的
13、,服从正服从正服从正服从正态分布。态分布。态分布。态分布。正态性不满足:但处理的误差趋向于处理平均数正态性不满足:但处理的误差趋向于处理平均数正态性不满足:但处理的误差趋向于处理平均数正态性不满足:但处理的误差趋向于处理平均数的函数关系。例如,二项分布数据,平均数期望为的函数关系。例如,二项分布数据,平均数期望为的函数关系。例如,二项分布数据,平均数期望为的函数关系。例如,二项分布数据,平均数期望为,方差期望为,方差期望为,方差期望为,方差期望为(1-)/n(1-)/n,方差与平均数有函数关,方差与平均数有函数关,方差与平均数有函数关,方差与平均数有函数关系。如果这种函数关系是已知的,则可对观
14、察值进系。如果这种函数关系是已知的,则可对观察值进系。如果这种函数关系是已知的,则可对观察值进系。如果这种函数关系是已知的,则可对观察值进行反正弦转换或对数转换、平方根值转换,从而使行反正弦转换或对数转换、平方根值转换,从而使行反正弦转换或对数转换、平方根值转换,从而使行反正弦转换或对数转换、平方根值转换,从而使误差转化成近似的正态分布。误差转化成近似的正态分布。误差转化成近似的正态分布。误差转化成近似的正态分布。方差分析应具备的条件方差分析应具备的条件3 3 3 3、方差齐性、方差齐性、方差齐性、方差齐性(HomogeneityHomogeneity):方差分析中的方差分析中的方差分析中的方
15、差分析中的误误差差差差项项方差是将各方差是将各方差是将各方差是将各处处理的理的理的理的误误差合并而差合并而差合并而差合并而获获得一个共同的得一个共同的得一个共同的得一个共同的误误差方差,因此必差方差,因此必差方差,因此必差方差,因此必须须假定假定假定假定资资料中有料中有料中有料中有这样这样一个共同的方差一个共同的方差一个共同的方差一个共同的方差 2 2存在存在存在存在(BartlettBartlett检验检验法法)如果各如果各如果各如果各处处理的理的理的理的误误差方差不差方差不差方差不差方差不齐齐,则则在假在假在假在假设测验设测验中中中中处处理理理理效效效效应应得不到正确的反映。得不到正确的反
16、映。得不到正确的反映。得不到正确的反映。单因素方差分析的单因素方差分析的SPSSSPSS实现实现例例8.18.1:小麦株高与品系的关系研究:小麦株高与品系的关系研究-单单因素固定模型的方差分析因素固定模型的方差分析SPSS one-way ANOVA outputSPSS one-way ANOVA output单因素方差分析的单因素方差分析的SPSSSPSS实现实现F4,2042.279,P0.0000.01。因此,上述。因此,上述5个小麦品系的株高差异极显著。个小麦品系的株高差异极显著。Between Groups:处理间处理间Within Groups:处理内处理内多重比较多重比较当方差
17、分析拒当方差分析拒绝绝H H0 0,为为探究具体是在哪些探究具体是在哪些组组对对之之间间存在存在显显著差异,著差异,须对须对各各处处理平均数之理平均数之间进间进行逐行逐对对比比较较,即,即多重比多重比较较(multiple multiple comparisoncomparison)post-ANOVA analysis (Post post-ANOVA analysis (Post Hoc test)Hoc test)。如何如何进进行多重比行多重比较较?逐对进行双样本的平均数差的逐对进行双样本的平均数差的t-检验?检验?增大了犯增大了犯I型错误的概率,不可取型错误的概率,不可取多重比较方法:
18、最小显著差数(最小显著差数(LSDLSD)检验)检验 Student-Newman-KeulsStudent-Newman-Keuls(SNKSNK)q q检验检验 Duncan Duncan 检验检验 Dunnett tDunnett t检验检验 Tukey Tukey 检验检验 多重比较多重比较多重比较多重比较最小最小显著差数法(著差数法(Fishers Least significant Fishers Least significant difference testdifference test,LSDLSD)是是t t检验的变形,在变异和自由度的计算上检验的变形,在变异和自由度的计
19、算上利用了整个样本信息,而不仅仅是所比较利用了整个样本信息,而不仅仅是所比较两组的信息。两组的信息。检验的敏感度最高,倾向于得出差异显著检验的敏感度最高,倾向于得出差异显著的结论,在比较时仍然存在放大的结论,在比较时仍然存在放大1 1型错误的型错误的问题。问题。多重比较多重比较最小最小显著差数法(著差数法(LSD)当当 时,时,当差异显著时,当差异显著时,当差异不显著时,当差异不显著时,多重比较多重比较-Duncan multiple range test*梯形列表法显示结果梯形列表法显示结果多重比较的多重比较的SPSSSPSS实现实现例例8.18.1:小麦株高与品系的关系研究:小麦株高与品系
20、的关系研究-多重比较多重比较Post Hoc Test多重比较的多重比较的SPSSSPSS实现实现SPSS Duncans test output(1)SPSS Duncans test output(1)结果的解读:除品系结果的解读:除品系1、2之间外,其它各品系间均之间外,其它各品系间均存在显著差异。存在显著差异。多重比较的多重比较的SPSSSPSS实现实现SPSS Duncans test output(2)SPSS Duncans test output(2)结果的解读:除品系结果的解读:除品系1、2及及3、5之间外,其它各品之间外,其它各品系间均存在极显著差异。系间均存在极显著差异。
21、科学论文中多重比较实例科学论文中多重比较实例字母标记法显示结果字母标记法显示结果各平均数间,凡有一个相同标记字母的即为差异不显著,没有相同各平均数间,凡有一个相同标记字母的即为差异不显著,没有相同标记字母的即为差异显著。字母大写表示极显著水平标记字母的即为差异显著。字母大写表示极显著水平(=0.01),小,小写表示显著水平写表示显著水平(=0.05)试用字母标记法表示如下多重比较的结果:试用字母标记法表示如下多重比较的结果:结论:处理结论:处理1、4,3、4,2、3之间差异极显著之间差异极显著ABC处理理均均值差异差异显著性(著性(=0.01)118.00BC223.00AB314.00C429.00A