1、1 方方 差差 分分 析析(ANOVA)MeasureAnalyzeImproveControl2 学学 习习 目目 标标l 从双样本从双样本t检验过渡到更一般的情况检验过渡到更一般的情况,即比较即比较2 2组以上数据组以上数据的均值的均值(单因素方差单因素方差分析分析-one-way ANOVA)l 如果各组均值存在显著差异如果各组均值存在显著差异,能指出是哪些组的均值与能指出是哪些组的均值与众不同众不同(多重多重 比较比较-multiple comparisons multiple comparisons)l 检检 验验2 2个或个或2 2个以上因素在不同水平时的效应个以上因素在不同水平时
2、的效应(双因素或双因素或多因素方差分析多因素方差分析-two-way or higher ANOVAtwo-way or higher ANOVA)l 用方差分析法来分析总波动中各个因素的波动组成用方差分析法来分析总波动中各个因素的波动组成,从而从而得出得出方差分量方差分量(variance components)的估计值的估计值.3 单因素方差分析与双样本单因素方差分析与双样本t t 检验检验 双双 样样 本本T T 检检 验验 如如 何何 比比 较较 更更 多多 的的 方方 法法?问问:两两 种种 方方 法法 的的 均均 值值 是是 否否 有有 差差 异异?问问:各各 种种 方方 法法 的
3、的 均均 值值 是是 否否 有有 差差 异异?如如 存存 在在 差差 异异,究究 竟竟 是是 哪哪 些些 方方 法法 与与 众众 不不 同同?4 是否存在差异是否存在差异?输输 出出10203040501 2 3xAxx 因素因素A A 是指线路板焊接过程中的预热温度是指线路板焊接过程中的预热温度.图中横坐标表示预热温度的三个水平设置图中横坐标表示预热温度的三个水平设置.纵坐标输出表示每块线路板上的平均焊接缺陷数纵坐标输出表示每块线路板上的平均焊接缺陷数.问问:因素因素A A的不同水平是否对输出有影响的不同水平是否对输出有影响,为什么为什么?要做出正确判断还需什么信息要做出正确判断还需什么信息
4、?5 方差分析方差分析l 现在你的结论如何现在你的结论如何?因素因素A A是否会产生输出差异是否会产生输出差异?为什么为什么?10203040501 2 3xxx 输输 出出A6 单因素方差分析单因素方差分析l 单因素方差分析是一种比较单因素方差分析是一种比较2 2组以上数据均值的统计方法组以上数据均值的统计方法 l 检验假设检验假设:l 简而言之简而言之,ANOVA 只检验均值是否存在差异只检验均值是否存在差异,但并不能但并不能指出哪些均值与众不同指出哪些均值与众不同,要回答这一问题要回答这一问题,需用多重比较需用多重比较法法.l 为什么不用为什么不用 t t 检验两两比较检验两两比较?7
5、举举 例例l 一高尔夫设计人员需从四种凹陷形式中选取一种一高尔夫设计人员需从四种凹陷形式中选取一种,他想了解不同的他想了解不同的凹陷形式是否对球的射程有影响凹陷形式是否对球的射程有影响.l 现有现有4 4 种凹陷形式的高尔夫球共种凹陷形式的高尔夫球共24 24 个个.l 输入变量是凹陷形式输入变量是凹陷形式,输出变量是射程输出变量是射程.l 实验采用美国高尔夫协会采用的标准测试器实验采用美国高尔夫协会采用的标准测试器,实验用球随机抽取实验用球随机抽取,为什么为什么?Dimple 1Dimple 2Dimple 3Dimple 4277281304250268299295277281317317
6、268263286299272290304281295304286281263golf.mtw8 ANOVA 涉及的问题涉及的问题 各种凹陷形式的平均射程是否相同各种凹陷形式的平均射程是否相同?即即4 4 组样本是否来自同一总体组样本是否来自同一总体?4 4组均值是否确实有差异组均值是否确实有差异?9 方差分析方差分析lANOVA考察三种波动来源考察三种波动来源:总总 体体=所有观察值的总体波动所有观察值的总体波动 组组 间间=各组均值之间的波动各组均值之间的波动(因素因素)组组 内内 =各组内部的随机波动各组内部的随机波动(噪声噪声,统计误差统计误差)Total=between+within
7、 子子 组组 之之 间间 波波 动动 子子 组组 内内 部部 波波 动动 与与 控控 制制 图图 比比 较较10 ANOVAANOVA基础基础-平方和平方和432170656055 FactorResponseyij-单单 值值y-总总 均均 值值yj-组组 均均 值值i=第第j j组的第组的第i i 个观察值个观察值j=第第j j组组g=总组总组 数数SS(Tot)=总平方和总平方和(单值单值-总均值总均值)SS(Factor)=组间平方和组间平方和(因素平方和因素平方和)(组均值组均值-总均值总均值)SS(Error)=组内平方和组内平方和(误差平方和误差平方和)(单值单值-组均值组均值)
8、11 方差分析表方差分析表Hypothesis Test 为决定是否接受零假设为决定是否接受零假设,我们将利用方差分析表计算检验统计量我们将利用方差分析表计算检验统计量F 为何称组内波动为误差或噪声为何称组内波动为误差或噪声.F F值有何意义值有何意义?F F值大意味什么值大意味什么?方差分析表方差分析表标标 准准 形形 式式误差的共同方差误差的共同方差SOURCE SS df MS(=SS/df)F=MS(Factor)/MS(Error)BETWEENSS(Factor)g-1SS(Factor)/(g-1)MS(Factor)/MS(Error)WITHINSS(Error)SS(Err
9、or)/TOTALSS(Total)njjg=()-11g njj-=11()g njj-=11()12 用用MinitabMinitab进行方差分析进行方差分析l 打开文件打开文件golf.mtwgolf.mtwl Minitab Minitab通过统计法和图表法进行方差分析通过统计法和图表法进行方差分析.图表法图表法 主效应图主效应图 区间图区间图 统计法统计法 方差分析表方差分析表l 稍后我们会学习如何确定哪些组对之间存在差异稍后我们会学习如何确定哪些组对之间存在差异?多重比较多重比较13 图表法图表法-主效应图主效应图 要产生主效应图要产生主效应图,首先需将各组数据堆栈首先需将各组数据
10、堆栈,命令如下命令如下:ManipStack/UnstackStackManipStack/UnstackStack 数据堆栈后数据堆栈后,用下列命令产生主效应图用下列命令产生主效应图:StatANOVAMain Effects Plots StatANOVAMain Effects Plots 说明主效应图的意义说明主效应图的意义Choose GraphBoxplot14 图表法图表法-区间图区间图产生区间图命令如下产生区间图命令如下:StatANOVAInterval PlotStatANOVAInterval Plot 选取选取Standard ErrorStandard Error 选
11、取选取Confidence IntervalConfidence Interval 区间图有何意义区间图有何意义,你能否判断不同的凹陷形式是否有差异你能否判断不同的凹陷形式是否有差异,为什么为什么?15 方差分析表方差分析表 用如下命令产生方差分析表用如下命令产生方差分析表:StatANOVAOne-Way(Unstacked)OKStatANOVAOne-Way(Unstacked)OKOne-Way Analysis of VarianceAnalysis of Variance on Distance Traveled16 方差分析表说明方差分析表说明One-Way Analysis o
12、f VarianceAnalysis of Variance on ResponseSource DF SS MS F pPattern34,626 1542.0 13.76 0.000Error 202,242 112.1Total236,8684242322212sssss+=PooledF值接近1时,说明各组 均值很相近,本例中F 值很大如P值小于5%,说明至少有一组均值与众不同,本例中,我们拒绝各组均值相同的原假设,即至少有一种凹陷形式的组均值与其它组不同.本例中F值对应的发生概率小于万分之一.当各组样本数相同时当各组样本数相同时.(本例样本数不同本例样本数不同,所以是加权平均值所以是
13、加权平均值)17 F F分布说明分布说明141210864200.70.60.50.40.30.20.10.0F-ValueP ro bF-D is tribution for 3 and 20 degrees of Freedom10%Point5%Point1%PointObserved Point 下面我们来解释下面我们来解释F F分布及分布及F F检验量检验量,下图显示的是如果所有方法产生的均值下图显示的是如果所有方法产生的均值相同时相同时F F值的分布值的分布.注意本例中计算出的注意本例中计算出的F F值在分布图形的尾部值在分布图形的尾部.10%10%点表示如果不同凹陷形式的均值相同
14、点表示如果不同凹陷形式的均值相同,F F值大于值大于2 2的概率是的概率是10%.10%.18 多重比较多重比较l 我们已经找出凹陷形式之间存在着显著的差异我们已经找出凹陷形式之间存在着显著的差异.下一步是什么下一步是什么?哪种哪种形式是最佳的形式是最佳的?哪组均值显著不同哪组均值显著不同?l 我们采用多重比较来解决上述问题我们采用多重比较来解决上述问题.19 多重比较多重比较l 按命令按命令 StatANOVAOnewayStatANOVAOneway,选择选择 ComparisonsComparisons 项项,屏幕显示如下选择屏幕显示如下选择项项:l TukeyTukeys sl Fis
15、her Fishers sl Dunnett Dunnetts sl Hsu Hsus MCBs MCB 究竟采用哪一种多重比较方法究竟采用哪一种多重比较方法?通常我们推荐使用通常我们推荐使用 FisherFisher多重比较法多重比较法.FisherFisher多重比较法将控制各比较检验的显著性水平多重比较法将控制各比较检验的显著性水平(通常通常p=.05)p=.05)然后得然后得出总体误差率出总体误差率.TukeyTukey多重比较法提高各个比较检验的显著性水平多重比较法提高各个比较检验的显著性水平(p.05),pANOVABalanced ANOVASurvivalPoison Trea
16、tment Poison*TreatmentOK 因素效应显著因素效应显著,而而互作用则不显著互作用则不显著.28 结结 论论l 基于前述分析基于前述分析,我们得出如下结论我们得出如下结论:毒药和医序处理是重要因素毒药和医序处理是重要因素,而而互交作用不是互交作用不是(p=0.11).l 如何检查模型的完备性如何检查模型的完备性?模型假设成立的前提模型假设成立的前提?方差齐次性方差齐次性 残差相互独立残差相互独立 残差呈正态分布残差呈正态分布 均值为零均值为零 标准差由组内波动估计标准差由组内波动估计 模型是可被加的模型是可被加的.29 检查模型符合性检查模型符合性 残差看上去不呈正态分布残差
17、看上去不呈正态分布.喇喇 叭叭 口口30 方差稳定化方差稳定化l 用用Box-CoxBox-Cox变化可以确定正确的变化参数从而保证残差正态性与变化可以确定正确的变化参数从而保证残差正态性与方差齐次性方差齐次性.l 子组数为子组数为4 4.StatControl Charts Box-Cox Transformation Survival4OK 看来应取倒数看来应取倒数.生存时间的倒数生存时间的倒数 是何意义是何意义?31 对死亡率进行方差分析对死亡率进行方差分析Analysis of Variance(Balanced Designs)Factor Type Levels ValuesPoi
18、son fixed 3 1 2 3Treatmen fixed 4 1 2 3 4Analysis of Variance for Dying Source DF SS MS F PPoison 2 34.8771 17.4386 72.63 0.000Treatmen 3 20.4143 6.8048 28.34 0.000Poison*Treatmen 6 1.5708 0.2618 1.09 0.387Error 36 8.6431 0.2401Total 47 65.5053 互作用波动与组互作用波动与组内波动一致内波动一致.32 对死亡率再进行残差分析对死亡率再进行残差分析 变化后数
19、据表明残差方差变化后数据表明残差方差稳定稳定,残差正态性良好残差正态性良好 结论结论:(1)死亡率死亡率(Survival)Survival)-1-1 作作为输出响应应更合适为输出响应应更合适;(2)(2)毒药和医序处理都是重毒药和医序处理都是重要的显著因素要的显著因素.注注 意意:我们的记录指标对实验分析来说我们的记录指标对实验分析来说不不 一定是最佳的一定是最佳的.33 ANOVAANOVA与方差分量与方差分量(COV)COV)l 前述例子是前述例子是:双双因素方差分析因素方差分析 “毒药毒药”和和“医序处理医序处理”两个因素两个因素 固定效应固定效应 我们选择的两个因素的水平是我们选择的
20、两个因素的水平是固定固定的的,而而不能从不能从“毒药毒药”总体或总体或“医序处理医序处理”总体中随机选取总体中随机选取.“毒药毒药”和和“处理处理”这两个因素是这两个因素是交叉交叉的的.实验单元是实验单元是“动物动物”,这是这是随机随机变量变量,套套在在PoisonPoison和和TreatmentTreatment组合中组合中,动物变量波动动物变量波动 组合成实验误差或噪声组合成实验误差或噪声误差误差.34 2 2 因素套设计方差分析因素套设计方差分析l 数据见右图数据见右图:双因素双因素 “小时小时”和和“零件零件”“小时小时”和和“零件零件”是是随机因素随机因素 这里这里“小时小时”代表
21、从大量的代表从大量的小时集合中的随机样本小时集合中的随机样本,“零件零件”代表一小时内生产的零件中随代表一小时内生产的零件中随机选择的样本机选择的样本.“零件零件”套套在在“小时小时”内内 因第一小时内选取的因第一小时内选取的2 2个零件并个零件并不是第二小时内选取的不是第二小时内选取的2 2个零件个零件.实验单元是测量值实验单元是测量值,这是一这是一随机随机变量变量,套在套在“零件零件”内内,而而“零件零件”又又套套在在“小时小时”内内.Nested-Parts.mtw35 图表分析图表分析:零件测量值均值零件测量值均值Stat Control Charts Xbar-R Subgroup
22、size:Part (3 measurements)代代 表表 什什 么么?答答 案案:36 图表分析图表分析:每小时均值每小时均值 极差图反映每小时内零件测量值均值的变化极差图反映每小时内零件测量值均值的变化 代表代表 什什 么么?回回 答答:37 图表分析图表分析:每小时均值的波动每小时均值的波动移动极差图是根据相邻每小时均值的变化量绘制的移动极差图是根据相邻每小时均值的变化量绘制的 代表什么代表什么?答案答案:38 控制图计算总结控制图计算总结现在我们用现在我们用Minitab Minitab 进行分析进行分析:Stat ANOVA Fully Nested ANOVAStat ANOV
23、A Fully Nested ANOVA 注意注意:方差分量估计时方差分量估计时,需减去一部分对应的下级分量方差需减去一部分对应的下级分量方差.有时当某一方差分量很小时有时当某一方差分量很小时,计算结果会出现负数计算结果会出现负数.由于方差不可能为负由于方差不可能为负,我们就将其设为我们就将其设为0.0.39 Minitab:Minitab:套设计方差分析套设计方差分析40 MinitabMinitab结果结果Fully Nested Analysis of VarianceAnalysis of Variance for Y Source DF SS MS F PHour 4 2.2684
24、0.5671 0.172 0.944 不显著不显著Part 5 16.4967 3.2993 64.277 0.000 非常显著非常显著Measurem 20 1.0266 0.0513Total 29 19.7917Variance ComponentsSource Var Comp.%of Total StDev 控制图法结果控制图法结果Hour -0.455*0.00 0.000 0Part 1.083 95.47 1.041 1.25Measurem 0.051 4.53 0.227 0.21Total 1.134 1.065 *Value is negative,and is est
25、imated by zero.Expected Mean Squares 1 Hour 1.00(3)+3.00(2)+6.00(1)2 Part 1.00(3)+3.00(2)3 Measurem 1.00(3)41 使用控制图使用控制图还是方差分析还是方差分析?l控制图优点控制图优点 直观显示各个级别的方差分量直观显示各个级别的方差分量 检测出异常值检测出异常值计算简便计算简便,甚至可笔算甚至可笔算 l方差分析优点方差分析优点理论上比控制图更具功效理论上比控制图更具功效,只要各级变差或波动彼此独立且呈正态分布只要各级变差或波动彼此独立且呈正态分布 许多软件包能提供计算程序且计算方法已标准化
26、许多软件包能提供计算程序且计算方法已标准化,如如MinitabMinitab 方差分析可扩展至更一般的场合方差分析可扩展至更一般的场合 能应付同时具有交叉因素和嵌套因素的实验能应付同时具有交叉因素和嵌套因素的实验,如如Gage R&R Gage R&R 能应付同时具有固定因素和随机因素的实验能应付同时具有固定因素和随机因素的实验(混合混合模型模型)上述实验的设计和分析很复杂上述实验的设计和分析很复杂,可由专业人员指导可由专业人员指导 42 总结总结l单因素方差分析单因素方差分析每组均值之间是否存在显著差异每组均值之间是否存在显著差异?总平方和总平方和 =组间平方和组间平方和 +组内平方和组内平
27、方和(Total SS)=Total SS)=(Between SS)+Between SS)+(Within SS)Within SS)方差分析表方差分析表,F-F-检验检验,自由度自由度.哪组均值与众不同哪组均值与众不同?(?(多重比较多重比较)l将上述概念扩展至将上述概念扩展至双因素交叉设计的方差分析双因素交叉设计的方差分析(固定效应固定效应)两个因素两个因素,每个因素有多个水平每个因素有多个水平 l举例说明了举例说明了残差分析残差分析方差稳定性变化方差稳定性变化(Box-Cox Box-Cox 分析分析)l通过通过双因素套设计的方差分析双因素套设计的方差分析(随机效应随机效应)来估计方差分量来估计方差分量