1、0606方差分析方差分析 本本 章章 内内 容容方差分析的基本思想方差分析的基本思想完全随机设计的单因素方差分析完全随机设计的单因素方差分析随机区组设计的两因素方差分析随机区组设计的两因素方差分析重复测量资料的方差分析重复测量资料的方差分析析因设计资料的方差分析析因设计资料的方差分析多个样本均数间的多重比较多个样本均数间的多重比较变量变换变量变换一、方差分析的基本思想一、方差分析的基本思想例例1.某社区随机抽取了某社区随机抽取了30名糖尿病人、名糖尿病人、IGT异常和正常人进行载脂蛋白(异常和正常人进行载脂蛋白(mg/dL)测)测定,结果见表定,结果见表1。问三种人的载脂蛋白有。问三种人的载脂
2、蛋白有无差别?无差别?一、方差分析的基本思想一、方差分析的基本思想表表1 三组人群的载脂蛋白三组人群的载脂蛋白(mg/dL)糖尿病人糖尿病人IGT异常者异常者正常人正常人合计合计 85.7105.2109.5 96.0115.2 95.3110.0100.0125.6111.0106.5 96.0124.5105.1 76.4 95.3110.0 95.2 99.0120.0144.0117.0110.0109.0103.0123.0127.0121.0159.0115.0n 1191030105.45102.39122.8110.32(一)总变异:(一)总变异:每个观察值之间各不相同,这种变
3、异称为总变异每个观察值之间各不相同,这种变异称为总变异(total variation)。)。反映全部个体观察值之间总反映全部个体观察值之间总的变异情况,用总离均差平方和来表示的变异情况,用总离均差平方和来表示。(二二)组间变异组间变异各组的样本均数各不相同,与总均数也各组的样本均数各不相同,与总均数也不相同,这种变异称为组间变异不相同,这种变异称为组间变异(variation between groups)。它反映了)。它反映了不同处理的影响,同时也包括了随机误不同处理的影响,同时也包括了随机误差。其大小可用各组样本均数与总均数差。其大小可用各组样本均数与总均数的离均差平方和表示。的离均差平
4、方和表示。(三三)组内变异组内变异各组内各组内Xij大小也各不相同,与本组的样大小也各不相同,与本组的样本均数也不相同,这种变异称为组内变本均数也不相同,这种变异称为组内变异(异(variation within groups)。组内变异)。组内变异仅反映随机误差(含个体差异和测量误仅反映随机误差(含个体差异和测量误差),故又称误差变异。组内变异可用差),故又称误差变异。组内变异可用组内各测量值组内各测量值Xij与所在组的均数的差值与所在组的均数的差值的平方和表示。的平方和表示。一、方差分析的基本思想一、方差分析的基本思想(1)建立假设检验)建立假设检验 H0:三种人载脂蛋白的总体均数相等。:
5、三种人载脂蛋白的总体均数相等。H1:三种人载脂蛋白的总体均数不全:三种人载脂蛋白的总体均数不全相等。相等。=0.05(2)计算检验统计量)计算检验统计量F值。值。一、方差分析的基本思想一、方差分析的基本思想表表2 单因素方差分析表单因素方差分析表变异来源变异来源SSvMSFP组间组间2384.03 2 21192.01组内组内5497.8427 203.625.85400.01总总7811.8729(3)确定)确定P值和作出统计推断:值和作出统计推断:P0.01,拒绝原假设,接受备择假设,拒绝原假设,接受备择假设,可认为可认为三种人群的载脂蛋白不同。三种人群的载脂蛋白不同。一、方差分析的基本思
6、想一、方差分析的基本思想1、概念:方差分析是一种以、概念:方差分析是一种以F值为统计值为统计量的计量资料的假设检验方法。量的计量资料的假设检验方法。它把离均差平方和与自由度分它把离均差平方和与自由度分解成至少两部分,而有一个部解成至少两部分,而有一个部分是表示抽样误差大小的。分是表示抽样误差大小的。一、方差分析的基本思想一、方差分析的基本思想2.目的:推断两组或多组资料的总体目的:推断两组或多组资料的总体均数是否相同或检验两个或多均数是否相同或检验两个或多个样本均数的差异是否有显著个样本均数的差异是否有显著性。性。一、方差分析的基本思想一、方差分析的基本思想3、方差分析的基本思想:根据变异的不
7、同来源、方差分析的基本思想:根据变异的不同来源将全部观察值总的离均差平方和与自由度分将全部观察值总的离均差平方和与自由度分解为两个或多个部分,除随机误差外,其余解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,通过比较几个因素的交互作用)加以解释,通过比较不同变异来源的均方,借助不同变异来源的均方,借助F分布作出统计推分布作出统计推断,从而了解该因素对观测指标有无影响。断,从而了解该因素对观测指标有无影响。一、方差分析的基本思想一、方差分析的基本思想4、方差分析的应用条件:、方差分析的应用条件:(1)
8、随机性)随机性 (2)正态性)正态性 (3)方差齐性)方差齐性二、完全随机设计的单因素方差分析二、完全随机设计的单因素方差分析(oneway ANOVA)1、概念:完全随机设计的单因素方差分、概念:完全随机设计的单因素方差分析只分析处理因素,它把总变异分解析只分析处理因素,它把总变异分解成组内变异和组间变异。组内变异表成组内变异和组间变异。组内变异表示随机误差,组间变异表示随机误差示随机误差,组间变异表示随机误差和处理因素的综合作用。如果均数之和处理因素的综合作用。如果均数之间差异有显著性则间差异有显著性则F值比值比1大得多,如大得多,如果均数之间差异无显著性则果均数之间差异无显著性则F值近于
9、值近于1。方法与步骤方法与步骤(1)建立假设检验)建立假设检验 H0:三种人载脂蛋白的总体均数相等。:三种人载脂蛋白的总体均数相等。H1:三种人载脂蛋白的总体均数不全:三种人载脂蛋白的总体均数不全相等。相等。=0.05(2)计算检验统计量)计算检验统计量F值。值。二、完全随机设计的单因素方差分析二、完全随机设计的单因素方差分析表表2 单因素方差分析表单因素方差分析表变异来源变异来源SSvMSFP组间组间2384.03 2 21192.01组内组内5497.8427 203.625.85400.01总总7811.8729(3)确定)确定P值和作出统计推断:值和作出统计推断:P0.01,拒绝原假设
10、,接受备择假设,拒绝原假设,接受备择假设,可认为可认为三种人群的载脂蛋白不同。三种人群的载脂蛋白不同。三、随机区组设计的方差分析三、随机区组设计的方差分析随机区组设计随机区组设计:又称为配伍设计,它是配对设计的扩大。随机又称为配伍设计,它是配对设计的扩大。随机区组设计是将几个条件相同的受试对象划成一区组设计是将几个条件相同的受试对象划成一个区组,区组中观察对象的数量取决于对比组个区组,区组中观察对象的数量取决于对比组的组数。如处理因素有四个对比组,则一个区的组数。如处理因素有四个对比组,则一个区组就有四个或八个受试对象。将区组中的受试组就有四个或八个受试对象。将区组中的受试对象采用随机的方法,
11、分配到不同的对比组中,对象采用随机的方法,分配到不同的对比组中,以增强各对比组的均衡性。以增强各对比组的均衡性。三、随机区组设计的方差分析三、随机区组设计的方差分析例例2.对小白鼠喂以对小白鼠喂以A、B、C三种不同的营养三种不同的营养素,目的是了解不同营养素增重的效果。素,目的是了解不同营养素增重的效果。采用随机区组设计方法,以窝别作为划采用随机区组设计方法,以窝别作为划分区组的特征,以消除遗传因素对体重分区组的特征,以消除遗传因素对体重增长的影响。现将同品系、同体重的增长的影响。现将同品系、同体重的 24只小白鼠分为只小白鼠分为8个区组,每个区组个区组,每个区组3只只小白鼠。三周后体重增加结
12、果(克)列小白鼠。三周后体重增加结果(克)列于表于表3。问小白鼠经三种不同营养素喂。问小白鼠经三种不同营养素喂养后所增体重有无差别?养后所增体重有无差别?表表3 不同营养素组小白鼠增加体重不同营养素组小白鼠增加体重(g)配伍组配伍组ABC150.158.264.557.6247.848.562.452.9353.153.858.655.2463.564.272.566.7571.268.479.373.0641.445.738.441.8761.953.051.255.4842.239.846.242.7合计合计431.2431.6473.1 24(N)53.9053.9559.1455.66
13、()处理组间:处理组间:H0:三种营养素喂养的小白鼠体重增量相等三种营养素喂养的小白鼠体重增量相等 H1:三种营养素喂养的小白鼠体重增量不全相等三种营养素喂养的小白鼠体重增量不全相等 配伍组间:配伍组间:H0:八组小白鼠体重增量相等八组小白鼠体重增量相等 H1:八组小白鼠体重增量不全相等八组小白鼠体重增量不全相等三、随机区组设计的方差分析三、随机区组设计的方差分析三、随机区组设计的方差分析三、随机区组设计的方差分析表表4 配伍组设计的方差分析表配伍组设计的方差分析表变异来源变异来源 SS v MS F P处理间处理间区组间区组间误差误差总总 144.92 2 72.46 2.98 0.0523
14、76.38 7 339.48 13.96 0.01 340.54 14 24.32 2861.84 23 由于处理间由于处理间P0.05,不拒绝,不拒绝H0,尚不能认,尚不能认为三种营养素喂养的小白鼠体重增量有差别。而为三种营养素喂养的小白鼠体重增量有差别。而区组间区组间P0.05,按,按=0.05水准,水准,AB因素的因素的交互效应不拒绝交互效应不拒绝H0,无统计学意义,还不能认为两个,无统计学意义,还不能认为两个因素间存在一阶交互效应,因素间存在一阶交互效应,即还不能认为是否给予升即还不能认为是否给予升白细胞对有无染毒的大鼠吞噬指数有影响白细胞对有无染毒的大鼠吞噬指数有影响;五、析因设计资
15、料的方差分析五、析因设计资料的方差分析 由于交互效应无统计学意义,因此直接看由于交互效应无统计学意义,因此直接看A、B两因素的主效应。其中两因素的主效应。其中A因素主效应的因素主效应的P0.05,但但B因素主效应的因素主效应的P0.01。故。故A因素不拒绝因素不拒绝H0,无统计学意义。无统计学意义。还不能认为是否给予升白细胞还不能认为是否给予升白细胞对大鼠吞噬指数有影响对大鼠吞噬指数有影响;B因素拒绝因素拒绝H0,接受,接受H1,有统计学意义,结合表中的均数可以认为,有统计学意义,结合表中的均数可以认为染染毒能够降低大鼠的吞噬指数毒能够降低大鼠的吞噬指数。SS总=SSA+SSB+SSAB+SS
16、误差建立假设建立假设:A因素因素:H0:有有A因素和没有因素和没有A因素的总体均数相等因素的总体均数相等 H1:有有A因素和没有因素和没有A因素的总体均数不等因素的总体均数不等 B因素因素:H0:有有B因素和没有因素和没有B因素的总体均数相等因素的总体均数相等 H1:有有B因素和没有因素和没有B因素的总体均数不等因素的总体均数不等五、析因设计资料的方差分析五、析因设计资料的方差分析五、析因设计资料的方差分析五、析因设计资料的方差分析 交互效应交互效应:H0:两因素无交互效应两因素无交互效应 H1:两因素有交互效应两因素有交互效应 计算统计量计算统计量F值值 FA=MSA/MS误差,误差,自由度
17、为:自由度为:a-1,FB=MSB/MS误差误差,由度为:,由度为:b-1,FAB=MSAB/MS误差,误差,自由度为:自由度为:(a-1)(b-1)六、多个样本均数间的多重比较六、多个样本均数间的多重比较当方差分析有显著性时,应进行多个当方差分析有显著性时,应进行多个样本均数的两两比较,以确定每两两样本均数的两两比较,以确定每两两均数之间的差异是否有显著性。均数之间的差异是否有显著性。能否对每两组均数分别进行能否对每两组均数分别进行t检验?检验?六、多个样本均数间的多重比较六、多个样本均数间的多重比较如果将例如果将例1的资料进行每两两的的资料进行每两两的t检验,则根据检验,则根据0.05的检
18、验水准,每次检验判断正确的概率为的检验水准,每次检验判断正确的概率为0.95,共需,共需进行进行3次次t检验。检验。概率的乘法法则:在由一组相互独立事件组成的试验概率的乘法法则:在由一组相互独立事件组成的试验中,一系列特殊事件均发生的概率,等于每一事件发中,一系列特殊事件均发生的概率,等于每一事件发生的概率之乘积。生的概率之乘积。全部判断正确的概率为每次判断正确的概率之积。即全部判断正确的概率为每次判断正确的概率之积。即0.9530.735,则犯,则犯I类错误的概率为类错误的概率为10.8570.143,远远大于远远大于0.05,为,为0.05的的2.9倍倍因此,多组资料的比较不能用因此,多组
19、资料的比较不能用t检验进行两两比较。检验进行两两比较。1、最小显著差法(、最小显著差法(LSD法)法)它是检验它是检验k组中某一对或某几对在专业上组中某一对或某几对在专业上有特殊意义的均数有特殊意义的均数 的总体水的总体水平是否为平是否为0。所用公式为:。所用公式为:v=v误差 和为任意两个对比组的样本和为任意两个对比组的样本均数,均数,MS误差误差为方差分析中算得的误差为方差分析中算得的误差均方。在单因素方差分析中,它是多均方。在单因素方差分析中,它是多个样本的合并方差,在多个方差相等个样本的合并方差,在多个方差相等的条件下,它是总体方差的条件下,它是总体方差的最佳估的最佳估计值。计值。1、
20、最小显著差法(、最小显著差法(LSD法)法)、Dunnett-t检验检验它适用于它适用于k个试验组与一个对照组均数差个试验组与一个对照组均数差别的多重比较。别的多重比较。公式为:公式为:为第为第i个(个(i=1,2,k-1)试验组的均数,为对试验组的均数,为对照组的均数,照组的均数,MS误差误差为方差分析中所计算的误差均为方差分析中所计算的误差均方,方,ni和和n0分别为第分别为第i个试验组和对照组的例数。个试验组和对照组的例数。vv误差误差、SNK-q检验检验它用于多个样本均数间每两个样本均数的比较。它用于多个样本均数间每两个样本均数的比较。检验统计量检验统计量q 的计算公式:的计算公式:在
21、比较时,应将样本均数从大到小顺序排列,一在比较时,应将样本均数从大到小顺序排列,一般先比较相差最大的两个均数。般先比较相差最大的两个均数。q的分布与两比较的分布与两比较组间的组间跨度组间的组间跨度a及自由度及自由度v有关。所谓组间跨度是有关。所谓组间跨度是指指 与与 之间涵盖的均数个数(包括之间涵盖的均数个数(包括 及自及自身在内)。身在内)。例例1中,我们认为三种人载脂蛋白的总体均数中,我们认为三种人载脂蛋白的总体均数不全相等。则进一步作两两比较。不全相等。则进一步作两两比较。H0:任两对比组的总体均数相等。任两对比组的总体均数相等。H1:任两对比组的总体均数不等。任两对比组的总体均数不等。
22、=0.05 将三个样本均数从小到大依次排列,将三个样本均数从小到大依次排列,并编上组次。并编上组次。组次组次 1 2 3 均数均数 102.39 105.45 122.80 组别组别 IGT异常异常 糖尿病患者糖尿病患者 正常人正常人两两比较计算表两两比较计算表对比对比组组两均数两均数之差之差标准标准误误q值值组组数数q界值界值PA与与B(1)(2)(3)(4)a(5)=0.05(6)=0.01(7)(8)1与与31与与22与与3-20.41-3.06-17.354.63614.53504.4087-4.4024-0.6748-3.93543223.492.892.894.453.893.89
23、0.050.050.01七、变量变换七、变量变换在进行方差分析时,实际资料有时不能在进行方差分析时,实际资料有时不能完全满足假定的条件,此时可通过变量完全满足假定的条件,此时可通过变量变换的方法加以改善。所谓变量变换是变换的方法加以改善。所谓变量变换是将原始数据作某种函数转换,目的是:将原始数据作某种函数转换,目的是:(1)使各组方差齐性;)使各组方差齐性;(2)使资料转换为正态分布;)使资料转换为正态分布;(3)直线化)直线化项目项目对数变换对数变换平方根平方根变换变换倒数倒数变换变换平方根反平方根反正弦变换正弦变换新数据新数据 公式公式有小值或零有小值或零 应用应用对数值对数值x=Xx=(
24、X+1)服从对数正态服从对数正态分布资料;各分布资料;各个样本的个样本的CV接接近常数;曲线近常数;曲线拟合拟合。平方根值平方根值x=x=服从泊松分服从泊松分布或轻度偏布或轻度偏态分布资料;态分布资料;各样本方差各样本方差与均数呈正与均数呈正相关。相关。倒数值倒数值x=1/X数据两端数据两端波动较大波动较大的资料。的资料。可缩小极可缩小极端值的影端值的影响。响。平方根反平方根反正弦值正弦值X=服从二项服从二项分布的率分布的率或百分比或百分比资料。资料。常用变量变换方法及比较常用变量变换方法及比较本章重点本章重点 方差分析的基本思想。方差分析的基本思想。完全随机设计资料的方差分析。完全随机设计资料的方差分析。随机区组设计资料的方差分析。随机区组设计资料的方差分析。均数间的两两比较。均数间的两两比较。了解变量变换。了解变量变换。