收藏 分销(赏)

大学统计学-第6章-假设检验与方差分析.ppt

上传人:a199****6536 文档编号:13225767 上传时间:2026-02-06 格式:PPT 页数:126 大小:1.21MB 下载积分:8 金币
下载 相关 举报
大学统计学-第6章-假设检验与方差分析.ppt_第1页
第1页 / 共126页
大学统计学-第6章-假设检验与方差分析.ppt_第2页
第2页 / 共126页


点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,6-,*,Statistics,大学统计学 第6章 假设检验与方差分析,第六章 假设检验与方差分析,第一节 假设检验的基本原理,第二节 总体均值的假设检验,第三节 总体比例的假设检验,第四节 单因子方差分析,第五节 双因子方差分析,第六节 Excel在假设检验与方差分析,中的应用,2,第一节 假设检验的基本原理,一、什么是假设检验,二、原假设与备择假设,三、检验统计量,四、显著性水平、,P-,值与临界值,五、双侧检验和单侧检验,六、假设检验的两类错误,七、关于假设检验结论的理解,3,一、什么是假设检验,【例6-1】假定咖啡的分袋包装生产线的装袋重量服从正态分布,N,(,2,)。生产线按每袋净重150克的技术标准控制操作。现从生产线抽取简单随机样本,n,=100袋,测得其平均重量为 =149.8克,样本标准差,s,=0.872克。问该生产线的装袋净重的期望值是否为150克(即问生产线是否处于控制状态)?,4,所谓假设检验,就是事先对总体的参数或总体分布形式做出一个假设,然后利用抽取的样本信息来判断这个假设(原假设)是否合理,即判断总体的真实情况与原假设是否存在显著的系统性差异,所以假设检验又被称为显著性检验。,5,一个完整的假设检验过程,包括以下几个步骤:,(1)提出假设;,(2)构造适当的检验统计量,并根据样本计,算统计量的具体数值;,(3)规定显著性水平,建立检验规则;,(4)做出判断。,6,二、原假设与备择假设,原假设,一般用H,0,表示,通常是设定总体参数等于某值,或服从某个分布函数等,备择假设,是与原假设互相排斥的假设,原假设与备择假设不可能同时成立。,所谓假设检验问题实质上就是要判断H,0,是否正确,若拒绝原假设H,0,,则意味着接受备择假设H,1,。,如在例6-1中,我们可以提出两个假设:假设平均袋装咖啡重量与所要控制的标准没有显著差异,记为 ;,假设平均袋装咖啡重量与所要控制的标准有显著差异,记为 。,7,三、检验统计量,所谓检验统计量,就是根据所抽取的样本计算的用于检验原假设是否成立的随机变量。,检验统计量中应当含有所要检验的总体参数,以便在“总体参数等于某数值”的假定下研究样本统计量的观测结果。,检验统计量还应该在“,H,0,成立”的前提下有已知的分布,从而便于计算出现某种特定的观测结果的概率。,8,9,10,四、显著性水平、,P-,值与临界值,1、判断的依据:,小概率原理,:小概率事件在单独一次的试验中基本上不会发生,可以不予考虑。,2、判断的逻辑:,如果在原假设正确的前提下,检验统计量的样本观测值的出现属于小概率事件,那么可以认为原假设不可信,从而否定它,转而接受备择假设。,11,什么是小概率?这要根据实际问题而定。,假设检验中,通常取=0.01,=0.05,最大到=0.10。,又称为显著性水平。,3、判断规则:,一是P-值规则;,二是临界值规则。,12,1)P-值规则,所谓,P-,值,实际上是检验统计量超过(大于或小于)具体样本观测值的概率。,单侧检验,若p-值,不拒绝 H,0,若p-值,/2,不拒绝 H,0,若p-值,/2,拒绝 H,0,13,【例6-3】假定,根据例6-2的结果,计算该问题的,P-,值,并做出判断。,解:查标准正态概率表,,当,z,=2.29时,(0.9774+0.9786)/2=0.9780,,尾部面积为(10.9780)/2=0.011,,由对称性可知,当,z,=2.29时,左侧面积为0.011。,0.011/2=0.025,0.011这个数字意味着,假若我们反复抽取,n,=100的样本,在100个样本中仅有可能出现一个使检验统计量等于或小于2.29的样本。该事件发生的概率小于给定的显著性水平,所以,可以判断=150的假定是错误的,也就是说,根据观测的样本,有理由表明总体均值与150克的差异是显著存在的。,14,(二)临界值规则,假设检验中,根据所提出的显著性水平标准(它是概率密度曲线的尾部面积)查表得到相应的检验统计量的数值,称作临界值,,直接用检验统计量的观测值与临界值作比较,观测值落在临界值所划定的尾部(称之为拒绝域)内,便拒绝原假设;,观测值落在临界值所划定的尾部之外(称之为不能拒绝域)的范围内,则认为拒绝原假设的证据不足。,15,注意:,1)P-值规则和临界值规则是等价的。在做检验的时候,只用其中一个规则即可。,2)P-值规则较之临界值规则具有更明显的优点。第一,它更加简捷;第二,在P-值规则的检验结论中,对于犯第一类错误的概率的表述更加精确。,推荐使用P-值规则。,16,【例6-4】假定,根据例6-2的结果,用临界值规则做出判断。,解:查表得到,临界值,z,0.025,=1.96。由于,z,=2.29 1.96,即,检验统计量的观测值落在临界值所划定的左侧(即落在拒绝域),因而拒绝150克的原假设。,上面的检验结果意味着,由样本数据得到的观测值的差异提醒我们:装袋生产线的生产过程已经偏离了控制状态,正在向装袋重量低于技术标准的状态倾斜。,17,五、双侧检验和单侧检验,图6-1 双侧、单侧检验的拒绝域分配,/,2,1,/,2,Z,/,2,Z,/,2,Z,0,0,Z,(a)双侧检验,(b)左侧检验,(c)右侧检验,18,表6-1 拒绝域的单、双侧与备择假设之间的对应关系,拒绝域,位置,P-值检验的显著性水平判断标准,原假设,备择假设,双侧,/2,H,0,:,0,H,1,:,0,左单侧,H,0,:,0,H,1,:,0,19,六、假设检验的两类错误,20,21,22,23,例;某工厂准备购买一批较便宜的原材料,要是这批原材料的次品率大到5%以上,就拒绝购买。,当假设检验后拒绝购买,就会犯第一类错误,失去购买便宜原材料,而出高价购买,增加产品成本;,当假设检验后接受购买,就会犯第二类错误,,不合格原材料使产品的次品率上升。,怎么办?工厂决策者有必要搞清楚哪一类错误造成的损失小,以减少成本。,24,七、关于假设检验结论的理解,在假设检验中,当原假设被拒绝时,我们能够以较大的把握肯定备择假设的成立。而当原假设未被拒绝时,我们并不能认为原假设确实成立。,25,第二节 总体均值的假设检验,一、单个总体均值的检验,二、双总体均值是否相等的检验,26,一、单个总体均值的检验,27,28,29,30,31,32,33,例:某车间生产一种机器零件,已知其直径平均长度为32.05,方差为1.21。现进行工艺改革,如果质量不下降,可以进行全面改革,如果质量下降则暂不改革。现随机抽取6个零件,测得其直径为:32.56,29.66,31.64,30.00,31.87,31.03。试以95%的显著水平检验该改革是否可以实行?,34,解:,假设为:,临界值:,接受域:,否定域:Z1.96或Z-1.96,检验统计量:,判断:Z值落在否定域内,故拒绝H0。表明工艺改革前后,零件的平均直径有显著的差别,对生产影响是显著。,该改革是不可以实行,35,例:已知总体服从N(90,50,2,)。从该总体中随机抽取容量为25的样本,得出样本平均值为70。试以95%的显著水平检验原假设 。,36,解:,结论:否定原假设,37,例:某厂生产一种产品,原月产量服从N(75,14)。设备更新后,为了考察产量是否提高,抽查了六个月产量,得到平均月产量为78。问在显著水平95%下,设备更新后月产量是否有显著的提高?,38,解:,为什么是,单侧检验?,结论:否定原假设,说明设备更新后,月产量有所提高。,39,例:已知某种汽油用二某种型号的汽车,每公升油可行驶18公里。现研制出一种添加剂以后,每公升汽油行驶的里程是否有变化?现随机抽取25辆汽车作试验,结果平均行驶里程为18.5公里,方差为2.2。试作出检验。,40,解:,结论:接受原假设,有95%把握预言加入添加剂后每公升汽油行驶的里程无显著变化。,双侧,41,例:已知某种柴油发动机,使用柴油每升运转时间服从正态分布。现测试装配好的6台,它们运转时间分别为28,27,31,29,30,27(分钟)。按设计要求应在30分钟以上。据测试结果,在95%的显著水平时,能否说明这种发动机是否符合设计要求?,42,解:,接受域:,单侧,43,检验统计量的值:,结论:接受原假设,即认为装配的这种发动机符合设计要求。,44,二、双总体均值是否相等的检验,45,然后,从总体A和B中各选一个可能样本配成对,计算每一对样本平均数之差,两个样本平均数之差的抽样分布就是指来自两个总体成对样本平均数之关的分布。,2)性质:,总体A:样本:,总体B:样本:,则:,为什么是,取加号?,46,假设检验形式:,47,(1)两个总体是正态分布,且方差已知,则检验统计量为:,48,(2)两个总体是正态分布,且方差未知但相等,若为小样本(即 ),则检验统计量为:,49,3)两个总体是正态分布,且方差未知但相等,若为大样本(即 ),则检验统计量为:,50,例:某农业研究所试验磷肥和氮肥能否提高小麦产量,为此做了两种试验:,(1)选八块试验田不施磷肥和氮肥;,(2)选取十块试验田在播种前施磷肥,播种后分三次加施氮肥,而其它条件相同。,成熟后,分别测量了它们的亩产,数据如下:,试验1 252,204,234,246,222,210,212,244;,试验2 172,158,186,214,224,228,196,190,202,170,试以95%的显著水平检验施肥与不施肥的平均产量有没有差异?,51,解:设两个总体服从正态分布,且方差未知但相等。,试验1的数据计算如下:,试验2:,52,提出假设:,临界值:,接受域:(-2.12,2.12),统计检验量的值为:,53,结论:,t,值落在拒绝域,故拒绝,H0,接受,H1,。,即说明适当施肥对小麦增产有显著,的作用。,54,例:假定有人作一次调查,评判甲、乙两个城市的工人单位时间工资是否相同。资料如下:,城市 样本平均 样本 样本,小时的收入(元)标准差 容量,甲 6.95 0.40 200,乙 7.10 0.60 175,试在95%的显著水平下检验两个城市工人单位时间平均工资是否有差别?,55,解:假设,检验统计量的值为:,56,临界值:,结论:Z值落在否定域中,故拒绝H,0,,接受H,1,,说明两个城市工人单位时间工资之间明显的差异。,57,例:某工厂为了比较两种装配方法的效率,分别组织了两组员工,每组9人,一组采用新的装配方法,另外一组采用旧的装配方法。假设两组员工设备的装配时间均服从正态分布,两总体的方差相等但未知。现有18个员工的设备装配时间见表6-2,根据这些数据,是否有理由认为新的装配方法更节约时间?(显著性水平0.05),表6-2 两组员工设备的装配时间 单位:小时,新方法(,x,2,),35,31,29,25,34,40,27,32,31,旧方法(,x,1,),32,37,35,38,41,44,35,31,34,58,59,60,61,第三节 总体比例的假设检验,一、单个总体比例的假设检验,二、两个总体的比例是否相等的检验,62,一、单个总体比例的假设检验,63,64,【例6-7】一项调查结果声称,某市小学生每月零花钱达到200元的比例为40%,某科研机构为了检验这个调查是否可靠,随机抽选了100名小学生,发现有47人每月零花钱达到200元,调查结果能否证实早先调查40%的看法?(),65,66,例:某工厂领导认为超过35%的工人满意该厂的工作环境。为了证实该结论,有关部门作了一次调查,随机抽取了150名工人,其中有69人对工作环境满意。试以95%的显著水平检验 的假设。,67,解:假设:,临界值:,接受域:,检验统计量的值:,68,结论:Z值落在拒绝域内,故拒绝原假设,接受备择假设,说明该厂工人对工作环境的满意程度确实超过了35%。,例:某公司推出一种男女均宜的饮料,认为这种饮料的消费者性别比例各为50%。对消费者抽样调查结果表明:100名接受调查的消费者中,男性饮用者55人,女性有45人。当 时,问该饮料消费者的性别比例相等的看法是否成立?,69,解:,接受域:(-1.96,1.96),P=0.5,则:,结论:Z值落在拒绝域内,故拒绝原假设,接受备择假设,说明该饮料消费者的性别比例相等的看法是成立的。(当然用女性资料也可得出相同结论),70,二、两个总体的比例是否相等的检验,71,72,第四节 单因子方差分析,一、问题的提出,二、方差分析的检验统计量,三、关于方差分析的两点说明,One-Factor ANOVA,73,一、问题的提出,【例6-8】已知在一组给定的条件下饲养小鸡所增加的体重服从正态分布。某养鸡场欲检验四种饲料配方对小鸡增重的影响是否不相同(假定已经经过检验表明不同饲料配方下的小鸡增重方差相等)。为此,他们对四组初始条件完全相同的小鸡,在完全相同的其他饲养条件下,分别使用四种不同的饲料配方进行喂养。所得到的增重数据如表6-3。,表6-3 四种不同饲料配方下小鸡的增重情况,饲料配方,i,小鸡序号 j,38周后小鸡个体增重y,ij,(克),1,2,3,4,5,6,配方1,370,420,450,490,1730,配方2,490,380,400,390,500,410,2570,配方3,330,340,400,380,470,1920,配方4,410,480,400,420,380,410,2500,1600,1620,1650,1680,1350,820,8720,74,对于类似本例的问题,一般地,把随机变量分组的数目记作,m,,我们可建立下列假设:,75,方差分析,Analysis of Variance(ANOVA),因素也称为,处理,因素(factor)(名义分类变量),,每一处理因素至少有两个,水平(level),(也称“,处理组,”)。,一个,因素,(,水平,间独立),单因素方差分析,两个,因素,(,水平,间独立或相关),双因素方差分析,一个个体多个测量值可,重复测量资料的方差分析,ANOVA与回归分析相结合,协方差分析,目的:,用这类资料的样本信息来推断各处理组间,多个总体均数,的差别有无统计学意义。,76,ANOVA 由英国统计学家R.A.Fisher首创,为纪念Fisher,以,F,命名,故方差分析又称,F,检验(,F,test)。用于推断,多个总体均数,有无差异,77,组间变异,总变异,组内变异,二、方差分析的检验统计量,所有测量值之间,总的变异程度,各组均数与总均数,的离均差平方和,用各组内各测量,值,Yij,与其所在组的均数差值的平方和来表示,78,79,80,(mean square,,MS),81,82,83,【,例6-9,】利用表6-3中的数据进行单因子方差分析(显著水平为=0.05)。,84,85,86,87,表6-4 方差分析表,变异,来源,离差,平方和,自由度,均方差,值,P-值,临界值,组间,7112.143,2370.714,1.01232,0.411573,3.196774,组内,39811.67,17,2341.863,总计,46923.81,20,88,(一)方差分析中变量的类型,方差分析中的因变量是数量型变量。自变量可以是品质型变量,也可以是数量型变量。当自变量是数量型变量的时候,也要对其作统计分组设计,也就是将它按品质型变量来处理。,(二)总体的正态性和同方差,方差分析适用于多个正态总体Y,i,(i=1,2,m)均值的比较,且要求它们具有相同的方差。不过在实际应用中,即使对于正态性和同方差性都存在很大背离的数据,方差分析仍不失为一种提供有用的近似信息的技术。,三、关于方差分析的两点说明,89,第五节 双因子方差分析,一、问题的提出,二、有交互作用的双因子方差分析,90,一、问题的提出,方差分析中的“因子”,也称因素。它是一个独立的变量(自变量)。在上一节的例子中,我们要分析饲料是否为影响增重产生差异的原因,所以饲料是因子。该例中所考察的因子只有“饲料”一个,而其他因子如鸡的品种,饲养条件等保持不变,我们称这种方差分析为单因子方差分析。如果要同时考察饲料和鸡的品种两个因子对小鸡的增重是否有影响,则称之为双因子方差分析。,91,92,93,在这里要注意,不能把A的r个处理和B的c个处理看成“随机样本”。现在的rc个处理是rc个总体,即A,i,和B,j,的每一种搭配形成的组格都是一个总体(随机变量Y,ij,)。对一个组格总体的n,ij,个观测y,ij1,y,ij2,y,ij,才是随机样本。,我们把A,i,与B,j,的搭配所形成的组格总体即随机变量Y,ij,的期望值记作 ,于是可以写出与表6-5(样本)相应的总体期望值表如表6-6。,94,95,96,97,98,99,二、有交互作用的双因子方差分析,样本数据的方差分析恒等式。,SST=SSA+SSB+SSAB+SSE,(6.24),式中,SST,是总离差平方和,,SSA,是,A,因子处理间的离差平方和,,SSB,是,B,因子处理间的离差平方和,,SSAB,是,AB,交互作用处理间的离差平方和,,SSE,是组格内离差平方和。,100,101,102,103,104,105,106,107,108,109,第六节 Excel在假设检验与方差分析中的应用,一、假设检验,二、方差分析,110,一、假设检验,【例6-11】使用例6-1的数据进行假设检验(显著性水平0.05,双侧检验)。,解:操作步骤如下。,1.构造工作表,见图6-2。图中方框内为计算所得数据,方框外为原始输入数据。注意,如果给出了具体的样本中每袋咖啡的重量,则样本均值、标准差、样本容量分别可以用AVERAGE函数、STDEV函数和COUNT函数进行计算。,2.计算检验统计量Z(由于样本容量较大,所以使用Z统计量)。在B6单元格输入公式“=(B1-B2)/(B3/SQRT(B4)”。,3.计算临界值。在B7中输入公式“=ABS(NORMSINV(B5/2)”,由于是双侧检验,因此NORMSINV函数的参数必须是 。,111,4.计算p-值。在B8中输入公式“=NORMSDIST(B6)”。,5.根据以上的计算结果,使用临界值规则或p-值规则进行判断,检验统计量的观测值落在拒绝域,因而拒绝,=,150克的原假设。,图6-2,112,【例6-12】利用Excel求解例6-6的问题。,113,114,图6-3,115,图6-4,116,117,二、方差分析,【例6-13】用Excel实现例6-8的计算过程。,118,2.调出方差分析:单因素方差分析对话框,按图6-6所示填写。,图6-6,119,120,121,【,例6-15,】用Excel实现例6-10的计算过程,1.输入数据,如图6-7所示。其中,B2:B4单元格存放的是在“A1”与“B1”因素水平共同作用下,进行3次试验所得的结果;D5:D7单元格存放的是在“A3”与“B2”因素水平共同作用下,进行3次试验所得的结果,其余类推。,图6-7,122,2.调出方差分析:可重复双因素分析对话框,其填写如图6-8所示。该分析工具对话框与单因素方差分析对话框基本相同,只是多了一个每一样本的行数编辑框,其中输入包含在每个样本中的行数。本例中,在每种不同因素水平组合下,分别进行了3次试验,因此每一样本的行数为“3”。每个样本必须包含同样的行数。另外,在该分析工具对话框中去掉了标志位于第一行复选框,但要注意输入区域必须包括因素水平标志(“A1”、“B2”等)所在的单元格区域,也即,输入区域为“$A$1:$E$10”,而不是只包括数据的单元格区域“$B$2:$E$10”。,123,3.单击确定按钮,得到方差分析表。,图6-8,124,本章小结,125,126,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服