资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,08 六月 2025,假设检验与方差分析概述,第3章假设检验与方差分析,第1节 假设检验,第2节 方差分析,第3节 方差分析应用:恩格尔系数的城乡比较,第1节 假设检验,主要内容,假设检验的概念,假设检验的标准,假设检验的步骤,假设检验的概念及形式,假设检验,对总体的某个参数或分布形式作出某种假设,然后利用样本信息来判断假设是否成立,假设检验的形式,假设分为原假设(H,0,)和备择假设(H,1,)两种,原假设:初始假定为真的假设,备择假设:与原假设的内容相反,当原假设被拒绝时,被认为是真的假设,原假设(H,0,)和备择假设(H,1,)例,某汽车使用改进型发动机后声称油耗不超过百公里6升,对此进行检验,检验假设的设定:设u为百公里平均油耗,则,单边检验(只检验小于或大于检验值中的一种情况),工厂对收到的一批长度为2cm的零件抽检,检验长度是否合格?,检验假设的设定:设u为平均长度,则,双边检验(检验小于、大于检验值的两种情况),假设检验的标准:显著水平,显著水平的定义,假设检验中的第一类错误(type I error):拒绝正确的原假设(H,0,),显著水平指第一类错误的最大概率,通常设定为5%或1%,显著水平的运用,显著水平越大,原假设的适用范围越小,拒绝原假设、接受备择假设的概率越大。从而备择假设成立的难度越小,而即使成立,备择假设的结论也没有太大说服力,显著水平越小,原假设的适用范围越大,拒绝原假设、接受备择假设的概率越小。从而备择假设成立的难度越大,而一旦成立,备择假设的结论更有力,显著水平例,(单边检验),假设国家标准规定冰箱使用年限必须10年或以上,对某品牌抽样检验时,如果显著水平设为45%,则样本均值9年或以下即可认定为不合格。显著水平设为5%,则样本均值4年或以下才可认定为不合格。,显然显著水平设为5%更合理、更有说服力,原假设,H,0,=10 即假设某品牌合格,4,显著水平示意图,显著水平5%,概,率,显著水平45%,9,10,冰箱使用年限,图中4为5%的临界值,9为45%的临界值,显著水平的运用:t 统计量,t 统计量的定义,假定总体服从正态分布,用样本标准差s作为总体标准差,的估计值,则样本平均值服从t分布,可以用t 分布的,值(简称t值)判断,样本平均值相对于总体平均值的误差程度,t分布的主要特点,在小样本时随个体数变化,但大样本(比如个体数大于50)时接近标准正态分布,适用范围较小:基于正态分布,故只适用于均值类变量的假设检验,不适用于方差类,显著水平的运用:t 统计量(续),运用过程如下:,假定原假设成立,则样本的统计量(比如样本均值)服从t分布,从t分布表可查出某一显著水平(比如5%)的临界值t,0.05,将样本的统计量的值按前述t统计量公式换算成t值,比较换算的t值与临界值t,0.05,。如果|t值|t,0.05,,则拒绝原假设,反之,接受原假设,假设检验的原理,(以单边检验为例),如果样本统计量(比如平均值)的t值小于临界t值,表明在原假设(H,0,)下,获得该样本的概率(即可能性)很小,于是原假设(H,0,)成立的概率也很小,而备择假设(H,1,)成立的概率很大,所以拒绝H,0,,接受H,1,原假设,H,0,值,临界值,样本统计量,拒绝域,单边检验示意图,1-,显著水平,概,率,假设检验的实用标准:P值,根据样本值计算的显著水平又称为P值,比如:5%显著水平下的临界值为4,而实际的样本均值为3,小于临界值,则P值也小于5%(比如4%等),统计软件作检验时,通常会根据样本值计算相应的P值,所以一般直接使用P值作为假设检验的标准,非常方便,判断原理如下,如果P值1%,则检验值在1%水平显著,拒绝H,0,如果1%5%,则检验值不显著,接受H,0,P值与t 统计量,主要区别,P值不依赖于样本变量的分布形式,适用于任何假设检验,而t统计量依赖于样本变量的分布,适用范围有限,P值可直接与显著水平比较,判断简单,而t统计量需查表、换算,判断复杂,在应用统计的假设检验中,更多使用P值作为检验标准,主要联系,一般情况下,P值和t值有如下对应关系:,P值5%时,|t值|2,所以实用中(比如回归分析中),要获得有统计意义的结论(即在5%显著水平拒绝原假设(H,0,),可作下列任一种判断:,看P值时,应5%,看t值时,应 2,假设检验的步骤,(1)确定原假设(H,0,)和备择假设(H,1,),(2)选择要检验的统计量(比如样本均值),(3)确定检验的显著水平(一般为5%),(4)确定与显著水平相对应的t分布的临界值,(5)根据要检验的统计量的|t值|,大于,还是,小于,临界值,决定,是,否,拒绝原假设(H,0,),如果使用统计软件,则省略(4)(5),直接看输出的P值,是,否,小于5%决定,是,否,拒绝原假设(H,0,),假设检验例,某银行营业厅将顾客对柜员的评价分为10级,7级以上为高服务质量。随机抽取12名顾客对某柜员的评级,分别为7、8、10、8、6、9、6、7、7、8、9、8。检验该柜员是否为高服务质量?,假设检验例(续),(1)确定原假设和备择假设,(2)计算要检验的统计量:样本均值,(3)确定显著水平为5%,(4)查表得t分布的临界值,(5)要检验的统计量的|t值|临界值,所以拒绝原假设(H,0,):,结论是:7.75确实大于7,该柜员是高服务质量,第2节 方差分析,主要点内容,方差分析的概念,如何使用EViews作方差分析,如何判断方差分析的结果,什么是方差分析?,方差分析(ANOVA)的定义,在相同方差假定下,检验多组正态样本的均值是否相等的一种统计分析方法,方差分析的基本概念,因子:实验中会改变状态的因素,因子的水平:因子的状态,方差分析的应用例,两种抗生素对某种疾病的疗效是否相同?,某软件的升级版是否比原版运行速度更快?,三个工厂生产的零件是否强度相同?,(单因子:工厂;三个工厂,该因子有三个水平),单因素方差分析的统计模型,模型的假定:,因子A有r个水平,在第i水平下对要检验的指标作m次相互独立的观察,获得关于总体i的一个样本,假定总体i服从均值为 ,方差为 的正态分布,模型要检验的问题:,模型检验的结论:,检验结果为F分布的值及其P值。一般将显著水平设为0.05,则当P,0.05时,拒绝H,0,,即r个水平不全相同;当P0.05时,接受H,0,,即r个水平全部相同。,单因素方差分析原理,假定:,因子A有r个水平,在第i水平下对要检验的指标作m次相互独立的观察,获得关于总体i的一个样本。则共有n=rXm个观察值,总离差平方和或总方差为,总方差的两个来源:组间平方和与组内平方和,组间平方和,即每个水平的均值与总均值的离差的平方和,组内平方和,即每个水平内,各观察值之间的离差的平方和,视为随机取样的误差,总方差和两个来源的关系,如何判断各个水平下的均值是否相等?,对组间平方和S,A,与组内平方和S,e,分别作自由度调整,将调整后的组间平方和S,A,与组内平方和S,e,相除,该比值服从F分布,根据以上F分布值的P值大小即可判断均值是否相等:P值0.05为不全相等;P值0.05为全相等,使用EViews软件作单因素方差分析例,某银行规定VIP客户的月均账户余额要达到100万元,并以此作为比较各分行业绩的一项指标。现从三个分行(A1、A2、A3)中,分别随机抽取4个VIP客户账户,用单因素方差分析判断三个分行此项业绩指标是否相同。,分行,(因子),账户余额(万元),(检验指标),A1(,因子的第1水平,),103,101,98,110,A2,(因子的第2水平),113,107,108,116,A3,(因子的第3水平),82,92,84,86,前例续1:EViews数据表,定义三个分行变量,分别输入4个账户余额,得数据表,前例续2:三个分行账户余额的均值,求随机变量的均值等基本统计量:,菜单View,Descriptive StatsCommon Sample,前例续3:作方差分析,选菜单View,Test of Equality,前例续4:检验结论,显然方差分析的F分布值的P值=0.00010.05,拒绝H,0,,即三个分行VIP账户余额不全相同。,使用EViews软件作单因素方差分析的详细结果,Source of variation:离差来源,Between:组间平方和,Within:组内平方和,Total:总平方和,df:自由度,第3节 方差分析应用:恩格尔系数的城乡比较,主要内容,恩格尔系数的概念,对我国近年城乡恩格尔系数的方差分析,有关居民消费结构的恩格尔系数,恩格尔系数(Engels Coefficient),反映如下规律,收入越少,食品支出占总消费支出的比率越高,恩格尔系数越大,随着国民经济的增长,恩格尔系数呈下降趋势,国际标准,根据联合国粮农组织提出的标准,恩格尔系数在59%以上为贫困,50-59%为温饱,40-50%为小康,30-40%为富裕,低于 30%为最富裕。,我国近年恩格尔系数(表),联合国粮农组织的标准,我国城镇居民的系数在30-40%之间,为富裕水平;农村居民的系数在40-50%,为小康水平,近年农村居民的恩格尔系数下降较为明显,我国近年恩格尔系数(图),总体趋势是下降,但有波动。主要原因是农产品价格波动,农村居民恩格尔系数“悖论”:,农产品价格上升,收入增加,食品消费支出增加,恩格尔系数不变,
展开阅读全文