1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四
2、级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第七章 假设检验,假设检验的基本思想和概念,参数假设检验,正态母体参数的置信区间,非参数假设检验,了解,检验的基本思想,掌握假设检验的基本,步骤
3、了解假设检验可能产生的两种错误。,了解单个与两个正态总体的均值与方差的假设检验,了解总体分布假设的 检验法,-检验法,,-检验法,学习目的,重点,假设检验的基本步骤,检验法,单个正态总体的均值与方差的假设检验,难点,非参数的假设检验,正态母体总数的置信区间。,柯尔莫歌洛夫拟合检验,假设检验,参数假设检验,总体分布已知,,检验关于未知参数,的某个假设,非参数假设检验,总体分布未知时的,假设检验问题,这类问题称作,假设检验问题,.,在本讲中,我们将讨论不同于参数估计的另一类重要的统计推断问题.这就是,根据样本的信息检验关于总体的某个假设是否正确,.,把每一罐都打开倒入量杯,看看容量是否合于标准.
4、这样做显然不行!,生产流水线上罐装可乐不断地封装,然后装箱外运.怎么知道这批罐装可乐的容量是否合格呢?,例1,罐装可乐的容量按标准应在350毫升和360毫升之间.,7.1 假设检验的基本思想和概念,如每隔1小时,抽查5罐,得5个容量的值,x,1,,,x,5,,根据这些值来判断生产是否正常.,每隔一定时间,抽查若干罐.如发现不正常,就应停产,找出原因,排除故障,然后再生产;如没有问题,就继续按规定时间再抽样,以此监督生产,保证质量.,通常的办法是进行,抽样检查,.,称,H,0,为原假设(或零假设,解消假设);,称,H,1,为备选假设(或对立假设),.,在实际工作中,往往把不轻易否定的命题作为原
5、假设,.,它的对立假设是:,H,1,:,这样,我们可以认为,是取自正态总体,的样本,当生产比较稳定时,是一个常数.,现在要检验的假设是:,较大、较小是一个相对的概念,合理的界限在何处?应由什么原则来确定?,那么,如何判断原假设,H,0,是否成立呢?,由于,是正态分布的期望值,它的估计量是样本均值 ,因此可以根据 与 的差距,来判断,H,0,是否成立.,较小时,可以认为,H,0,是成立的;,当,生产已不正常,.,当,较大时,应认为,H,0,不成立,即,问题归结为对,差异作定量的分析,,以确定其性质.,差异可能是由抽样的随机性引起的,称为“,抽样误差”或随机误差,.这种误差反映偶然、非本质的因素所
6、引起的随机波动.,然而,这种随机性的波动是有一定限度的,如果差异超过了这个限度,则我们就不能用抽样的随机性来解释了.,必须认为这个差异反映了事物的本质差别,即反映了生产已不正常.这种差异称作“,系统误差,”.,问题是,根据所观察到的差异,如何判断它究竟是由于偶然性在起作用,还是生产确实不正常?即差异是“抽样误差”还是“系统误差”所引起的?这里需要给出一个量的界限.,问题是:,如何给出这个量的界限,?,这里用到人们在实践中普遍采用的一个原则:,小概率事件在一次试验中基本上不会发生,.,小概率事件在一次试验中基本上不会发生,.,下面我们用一例说明这个原则,.,这里有两个盒子,各装有,100个球.,
7、99个白球,一个红球,99个,99个,99个红球,一个白球,现从两盒中随机取出一个盒子,问这个盒子里是白球99个还是红球99个?,小概率事件在一次试验中基本上不会发生,.,现在我们从中随机摸出一个球,发现是,此时你如何判断这个假设是否成立呢?,小概率事件在一次试验中基本上不会发生,.,我们不妨先假设:,这个盒子里有,99个白球,.,99个,假设其中真有99个白球,摸出红球的概率只有,1/100,,这是小概率事件.,这个例子中所使用的推理方法,可以称为,小概率事件在一次试验中竟然发生了,不能不使人怀疑所作的假设.,带概率性质的反证法,不妨称为概率反证法,.,小概率事件在一次试验中基本上不会发生,
8、99个,概率反证法它不同于一般的反证法,概率反证法的逻辑是:,如果小概率事件在一次试验中居然发生,我们就以很大的把握否定原假设,.,一般的反证法要求在,原假设成立的条件下导出的结论是绝对成立,的,如果事实与之矛盾,则,完全绝对地否定原假设,.,现在回到我们前面罐装可乐的例中:,在提出原假设,H,0,后,如何作出接受和拒绝,H,0,的结论呢?,在假设检验中,我们称这个小概率为,显著性水平,,用,表示,.,的选择要根据实际情况而定.常取,罐装可乐的容量按标准应在350毫升和360毫升之间.一批可乐出厂前应进行抽样检查,现抽查了,n,罐,测得容量为,x,1,x,n,,问这一批可乐的容量是否合格?
9、提出假设,H,0,:,=355,H,1,:,355,由于,已知,,选检验统计量,它能衡量差异,大小且分布已知,.,如果由样本值算得该统计量的实测值落入区域,W,,则拒绝,H,0,;否则,不能拒绝,H,0,.,对给定的显著性水平,,可以在,N,(0,1)表中查到分位点的值 ,使,故我们可以取拒绝域为:,也就是说,是一个小概率事件,.,W,:,这里所依据的逻辑是:如果,H,0,是对的,那么衡量差异大小的某个统计量落入区域,W,(拒绝域)是个小概率事件.如果该统计量的实测值落入,W,,也就是说,,H,0,成立下的小概率事件发生了,那么就认为,H,0,不可信而否定它.,否则我们就不能否定,H,0,(
10、只好接受它).,不否定,H,0并不是肯定,H,0一定对,而只是说差异还不够显著,还没有达到足以否定,H,0的程度.,所以假设检验又叫,“显著性检验”,如果显著性水平,取得很小,则拒绝域也会比较小.其产生的后果是:,H,0,难于被拒绝.,如果在 很小的情况下,H,0,仍被拒绝了,则说明实际情况很可能与之有显著差异,.,基于这个理由,人们常把 时拒绝,H,0,称为是,显著,的,而把在 时拒绝,H,0,称为是,高度显著,的.,参数假设检验,原假设:第一个假设(陈述的否定),备择假设:第二个假设(陈述本身),非参数假设检验,统计假设,例2,某工厂生产的一种螺钉,标准要求长度是32.5毫米.实际生产的产
11、品,其长度,X,假定服从正态分布 未知,现从该厂生产的一批产品中抽取6件,得尺寸数据如下:,32.56,29.66,31.64,30.00,31.87,31.03,问这批产品是否合格,?,下面,我们结合另一个例子,进一步说明假设检验的一般步骤.,提出原假设和备择假设,第一步:,第二步:,能衡量差异,大小且分布,已知,取一检验统计量,在,H,0,成立下求出它的分布,已知 未知,分析:这批产品(螺钉长度)的全体组成问题的总体,.现在要,检验,是否为32.5.,第三步:对给定的显著性水平 ,查表确定临界值,即,是一个,小概率事件,.,使,得否定域(拒绝域),W,:|,t,|4.0322,故不能拒绝,
12、H,0,.,第四步:,将样本值代入,算出统计量,t,的实测值,|,t,|=2.9972.33,故拒绝原假设,H,0,.,落入否定域,此时可能犯第一类错误,犯错误的概率不超过0.01.,取统计量,否定域为,W,:,是,一小概率事件,双正态总体,U,-检验,(1)检验假设,(2)构造,U,统计量,设 和 分别为取自正态母体,和 的样本,在方差,已知的条件下,查正态分布表,拒绝域,(3),给定显著性水平 ,,确定拒绝域,(4)求子样观测值的,u,-值,判断 与否,7.2.2,t,-检验,设 取自正态母体 的一个样本,为未知数,双边检验,(1)检验假设,(2)构造,t,统计量,其中,(3)给定显著性水
13、平 ,确定拒绝域,由,查,t,-分布表,自由度取,n-,1,确定分位点,拒绝域,单边检验,(1)检验假设,拒绝域,(2)检验假设,拒绝域,(3)检验假设,拒绝域,(4)检验假设,拒绝域,双正态总体,t,-检验,(1)检验假设,(2)构造,t,统计量,设 和 分别为取自正态母体,和 的样本,在方差,的条件下,其中,特别 时,,可以推广至检验,此时将,t,统计量分子换成,查,t,-分布表拒绝域,(3),给定显著性水平 ,,确定拒绝域,(4)求子样观测值的,t,-值,判断 与否,7.2.3 单个正态总体方差假设检验 -检验,(1)检验假设,(2)构造 统计量,设 取自正态母体 的一个样本,,为已知常
14、数,双边检验,(3)给定显著性水平 ,确定拒绝域,使,拒绝域,为了计算方便,取,查 -分布表知,上侧分位点 使,分位点 使,单边检验,(1)检验假设,拒绝域,(2)检验假设,拒绝域,7.2.3 单个正态总体方差假设检验 -检验,(1)检验假设,(2)构造 统计量,设 取自正态母体 的一个样本,,未知,双边检验,(3)给定显著性水平 ,确定拒绝域,使,拒绝域,为了计算方便,取,查 -分布表知,上侧分位点 使,分位点 使,单边检验,(1)检验假设,拒绝域,(2)检验假设,拒绝域,7.2.4 两个正态总体方差假设检验 -检验,(1)检验假设,(2)构造,F,统计量,设 和 分别为取自正态母体,和 的
15、样本,在方差,已知,的条件下,(3)给定显著性水平 ,确定拒绝域,注意:,7.2.4 两个正态总体方差假设检验 -检验,(1)检验假设,(2)构造,F,统计量,设 和 分别为取自正态母体,和 的样本,在方差,未知,的条件下,(3)给定显著性水平 ,确定拒绝域,例4,为比较两台自动机床的精度,分别取容量为10和8的两个样本,测量某个指标的尺寸(假定服从正态分布),得到下列结果:,在 时,问这两台机床是否有同样的精度?,车床甲:1.08,1.10,1.12,1.14,1.15,1.25,1.36,1.38,1.40,1.42,车床乙:1.11,1.12,1.18,1.22,1.33,1.35,1.
16、36,1.38,解,:设,两台自动机床的方差分别为,在 下检验假设:,取统计量,否定域为,W,:,或,由样本值可计算得,F,的实测值为:,F,=1.51,查表得,由于,0.3041.513.68,故接受,H,0,.,这时可能犯第二类错误,.,提出,假设,根据统计调查的目的,提出,原假设,H,0,和备选假设,H,1,作出,决策,抽取,样本,检验,假设,对差异进行定量的分析,,确定其性质(是随机误差,还是系统误差.为给出两,者界限,找一检验统计量,T,,,在,H,0,成立下其分布已知,.),拒绝还是不能,拒绝,H,0,显著性,水平,-犯第一,类错误的概率,,W,为拒绝域,总 结,F,检验 用,F,
17、分布,一般说来,按照检验所用的统计量的分布,分为,U,检验用正态分布,t,检验 用,t,分布,检验,用,分布,在大样本的条件下,若能求得检验统计量的极限分布,依据它去决定临界值,C,.,按照对立假设的提法,分为,单侧检验,它的拒绝域取在左侧或右侧,.,双侧检验,它的拒绝域取在两侧,;,第六章,我们讨论了参数点估计.它是用样本算得的一个值去估计未知参数.但是,点估计值仅仅是未知参数的一个近似值,它没有反映出这个近似值的误差范围,使用起来把握不大.区间估计正好弥补了点估计的这个缺陷.,7.3 正态总体参数的置信区间,譬如,在估计湖中鱼数的问题中,若我们根据一个实际样本,得到鱼数,N,的极大似然估计
18、为,1000条.,若我们能给出一个区间,在此区间内我们合理地相信,N,的真值位于其中,.这样对鱼数的估计就有把握多了.,实际上,,N,的真值可能大于,1000条,也可能小于1000条.,也就是说,我们希望确定一个区间,使我们能以比较高的,可靠程度,相信它包含真参数值.,湖中鱼数的真值,这里所说的“,可靠程度,”是用概率来度量的,称为置信概率,置信度或置信水平.,习惯上把置信水平记作 ,这里 是一个很小的正数.,置信水平的大小是根据实际需要选定的,.,例如,通常可取置信水平 等.,根据一个实际样本,由给定的置信水平,我,们求出一个尽可能小的区间 ,使,称区间 为 的置信水平为 的置信区间.,寻找
19、置信区间的方法,一般是从确定,误差限,入手.,使得,称,为 与,之间的误差限,.,我们选取未知参数的某个估计量 ,根据置信水平 ,可以找到一个正数,,,只要知道 的概率分布,确定误差限并不难,.,由不等式,可以解出 :,这个不等式就是我们所求的置信区间,.,在求置信区间时,要查表求分位数,.,设 ,对随机变量,X,,称满足,的点 为,X,的概率分布的上 分位数,.,例如,:,设 ,对随机变量,X,,称满足,的点 为,X,的概率分布的上 分位数,.,标准正态分布的,上 分位数,例如,:,分布的上 分位数,自由度为,n,的,F,分布的上 分位数,自由度为,n,1,n,2,的,置信区间定义,设总体具
20、有概率函数 为未知参数,为取自的该总体的样本,若对于,,存在两个统计量,使,则称区间 为参数 的置信度为 的置信区间,称为置信下限,称为置信上限.,注:,置信区间 是一个随机区间,它的两端点是不依赖于 的统计量.,其意义指在重复抽样下,许多不同的置信区间中大约 的区间包含未知参数,即包含 的区间类的置信度,不能认为不等式 成立的概率为,置信区间的求法,选 的点估计为,解:,寻找未知参数的,一个良好估计.,寻找一个待估参数和,估计量的函数,要求,其分布为已知.,有了分布,就可以求出,U,取值于任意区间的概率,.,求参数 的置信度为 的置信区间,.,例5,设,是取自 的样本,,对给定的置信水平,查
21、正态分布表得,对于给定的置信水平,(,大概率,),根据,U,的分布,,确定一个区间,使得,U,取值于该区间的概率为,置信水平,.,使,为什么,这样取,?,对给定的置信水平,查正态分布表得,使,也可简记为,于是所求 的置信区间为,从上例解题的过程,我们归纳出求置信区间的,一般步骤,如下:,1.明确问题,是求什么参数的置信区间?,置信水平,是多少,?,称,为枢轴量.,3.寻找一个待估参数 和估计量,T,的函数,且其分布为已知.,2.寻找参数 的一个良好的点估计,4.对于给定的置信水平,,根据,的分布,确定常数,a,b,,使得,5.对“,”作等价变形,得到如下形式:,则 就是 的 的置信区间.,这里
22、我们主要讨论总体分布为,正态,的情形.若样本容量很大,即使总体分布未知,应用中心极限定理,可得总体的近似分布,于是也可以近似求得参数的区间估计.,可见,确定区间估计很关键的是要寻找一个待估参数 和估计量,T,的函数,且,的分布为已知,不依赖于任何未知参数,而这与总体分布有关,所以,,总体分布的形式是否已知,是怎样的类型,至关重要,.,正态总体均值的区间估计,(1)已知 ,则 的置信水平 的置信区间是,正态总体均值的区间估计,(2)未知,则 的置信水平 的置信区间是,正态总体方差 的区间估计,(1)已知 ,则 的置信水平 的置信区间是,正态总体方差 的区间估计,(2)未知,则 的置信水平 的置
23、信区间是,例6,已知某地区新生婴儿的体重,随机抽查,100,个婴儿,得,100,个体重数据,的区间估计,求,和,(置信水平为,).,解,:这是单总体均值和方差的估计,已知,先求均值 的区间估计,.,因方差未知,取,对给定的置信度,确定分位数,使,即,即为均值 的置信水平为 的区间估计,.,从中解得,取枢轴量,再求方差 的置信水平为 的区间估计,.,从中解得,于是 即为所求.,需要指出的是,给定样本,给定置信水平,,置信区间也,不是唯一,的,.,对同一个参数,我们可以构造许多置信区间,.,取枢轴量,例7,设,是取自 的样本,,求参数 的置信水平为 的置信区间,.,由标准正态分布表,对任意,a,、
24、b,,,我们可以求得,P,(,a,U,b,),.,例如,由,P,(-1.96,U,1.96)=0.95,我们得到,均值 的置信水平为 的置信区间,由,P,(-1.75,U,2.33)=0.95,这个区间比前面一个要长一些,.,我们得到,均值 的置信水平为 的置信区间,在概率密度为单峰且对称的情形,当,a,=-,b,时求得的置信区间的长度为最短.,类似地,对,任意两个数,a,和,b,,只要它们的纵标包含,f,(,u,)下95%,的面积,就确定一个,95%,的置信区间.,a,=-,b,即使在概率密度不对称的情形,如,分布,,,F,分布,,习惯上仍取对称的百分位点来计算未知参数的置信区间,.,我们
25、可以得到未知参数的的任何,置信水平小于,1的,置信区间,并且,置信水平越高,相应的,置信区间,平均长度,越长,.,双正态总体均值差的区间估计,已知 ,则 的置信水平 的置信区间是,双正态总体方差比的区间估计,已知 ,则 的置信水平 的置信区间是,假设检验和置信区间的关系,双侧检验问题 的接受域可以定出正态均值,的置信区间,单侧检验问题 的接受域可以定出正态均值 的 置信上限,单侧检验问题 的接受域可以定出正态均值 的 置信上限,问该厂生产的钟的误差是否服从正态分布?,例 某钟表厂对生产的钟进行精确性检查,抽取100个钟作试验,拨准后隔24小时以后进行检查,将每个钟的误差(快或慢)按秒记录下来.
26、7.4 非参数假设检验,为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现的频率与1/6的差距.,再如,某工厂制造一批骰子,声称它是均匀的.,也就是说,在投掷中,出现1点,2点,6点的概率都应是1/6.,问题是:,得到的数据能否说明“骰子均匀”的假设是可信的,?,非参数假设检验研究的检验是,如何用子样去拟合总体分布,,所以又称,分布拟合优度检验.,包括,拟合总体的分布函数,和,拟合总体分布的概率函数.,检验方法有,:概率图纸法、拟合优度检验、柯尔莫戈洛夫-斯米尔洛夫检验.,7.4.1 概率图纸法,使用概率纸可以很快判断总体分布的类型又能粗略地估计总体的参数,是检验总体分布的一种简单工具
27、正态概率纸是一张刻有直角坐标的图纸,它的横坐标轴的刻度是均匀的,表示观察值,纵坐标轴的刻度是不均匀的,表示概率,具体的刻度是通过函数 换算出来的,即在普通的直角坐标,xot,的纵坐标轴(,t,轴)上原坐标为,t,的点刻度为,正态概率纸是一张刻有直角坐标的图纸,它的横坐标轴的刻度是均匀的,表示观察值,纵坐标轴的刻度是不均匀的,表示概率,具体的刻度是通过函数 换算出来的,即在普通的直角坐标,xot,的纵坐标轴(,t,轴)上原坐标为,t,的点刻度为,例如纵轴上,原坐标为1处的刻度为,,原坐标为2处的刻度为,,原坐标为-1处的刻度为,但习惯上,在正态概率纸上的纵坐标轴上标明的数字是换算出的刻度的1
28、00倍,又由于 是在取值,概率不可能为0,也不可能为1,故一般概率纸的纵轴的刻度都是从0.0199.99.,下面我们以正态概率图纸为例介绍,其步骤如下:,1.首先把样本观察值按从小到大的次序排列,2.对每一个,,计算修正的频率,3.将点 逐一点在正态概率纸上,4.判断,若诸点在一条直线附近,则认为该样本来自正态总体;若诸点明显不在一条直线附近,则认为该样本不是来自正态分布总体.,7.4.2 拟合优度检验,检验法,是在总体的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法.,然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受原假设.,使用,检验法,对总体分布
29、进行检验时,我们先提出原假设:,H,0,:总体,的分布函数为,F,(,x,),在用,检验假设,H,0,时,若在,H,0,下分布类型已知,但其参数未知,这时需要先用极大似然估计法估计参数,然后作检验.,分布拟合的的,基本原理和步骤,如下:,1.将总体的取值范围分成,k,个互不重迭的小区间,记作,A,1,A,2,A,k,.,2.把落入第,i,个小区间,A,i,的样本值的个数记作,f,i,,称为实测频数.所有实测频数之和,f,1,+,f,2,+,f,k,等于样本容量,n,.,3.根据所假设的理论分布,可以算出总体的值落入每个,A,i,的概率,p,i,,于是,np,i,就是落入,A,i,的样本值的理论
30、频数.,标志着经验分布与理论分布之间的差异的大小,.,皮尔逊引进如下统计量表示经验分布与理论分布之间的差异,:,统计量 的分布是什么,?,在理论分布,已知的条件下,np,i,是常量,实测频数,理论频数,皮尔逊证明了如下定理,:,若原假设中的理论分布,F,(,x,),已经完全给定,那么当 时,统计量,的分布渐近,(,k,-1),个自由度的 分布,.,如果理论分布,F,(,x,)中有,r,个未知参数需用相应的估计量来代替,那么当 时,统计量 的分布渐近,(,k,-,r,-1),个自由度的 分布,.,这些变量之间存在着一个制约关系:,故统计量 渐近,(,k,-1),个自由度的 分布,.,在理论分布,
31、F,(,x,),完全给定的情况下,每个,p,i,都是确定的常数.由,棣莫佛拉普拉斯中心极限定理,当,n,充分大时,实测频数,f,i,渐近正态,,是,k,个近似,正态,的变量的平方和,.,因此,在,F,(,x,),尚未完全给定的情况下,每个未知参数用相应的估计量代替,就相当于增加一个制约条件,,因此,自由度也随之减少一个,.,若有,r,个未知参数需用相应的估计量来代替,,自由度就减少,r,个,.,此时统计量 渐近,(,k,-,r,-1),个自由度的 分布,.,查 分布表可得临界值,,使得,根据这个定理,对给定的显著性水平 ,,得拒绝域,:,(不需估计参数),(估计,r,个参数,),皮尔逊定理是在
32、n,无限增大时推导出来的,因而在使用时要注意,n,要足够大,,以及,np,i,不太小,这两个条件.根据计算实践,要求,n,不小于50,以及,npi,都不小于 5.否则应适当合并区间,使,npi,满足这个要求.,如果根据所给的样本值 算得统计量 的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设.,从以上卡方分布拟合检验的思想及步骤我们可知泊松分布,指数分布,正态分布等都可以进行拟合检验,下面我们举一个例子,例,在数 的前800位小数中,数字0,1,9出现的次数如下:,数字,0,1,2,3,4,5,6,7,8,9,频数,74,92 83 79 80 73 77 75,76,91
33、利用卡方检验法,检验这些数字是否服从均匀分布(),解,此均匀是离散型的均匀分布,讨论的共十个数,各个数落在同一位置上的概率为0.1,共计800个位置,理论频数为 ,没有未知参数.,0,1,2,3,4,5,6,7,8,9,74,92,83,79,80,73,77,75,76,91,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,80,80,80,80,80,80,80,80,80,80,-6,12,3,-1,0,-7,-3,-5,-4,11,36,114,9,1,0,49,9,25,16,121,0.45,1.8,0.1125,0.0125,0,0.6125,0
34、1125,0.3125,0.2,1.525,查表,接受,H,0,,服从均匀分布,7.4.3 柯尔莫戈洛夫-斯米尔洛夫,D,n,检验,前面我们讨论的卡方-拟合检验虽能对任何类型的未知分布进行检验,但它依赖于区间的划分,实际上仅仅检验了是否有,故有可能接受到不真的,H,0,,,有必要再来探讨一种更精确的检验法,本段来讨论如何用子样经验分布函数来作分布函数的拟合检验.,设母体 ,由取得一组子样观察 ,将它从小到大递增的次序排列得,构造子样经验分布函数,记,不难看出,D,n,为一统计量,格里汶科证明了,D,n,依概率趋于0,也就是说,子样经验分布函数 依概率1关于 一致收敛到母体分布,柯尔莫哥洛夫进
35、一步讨论了统计量,D,n,的精确分布和极限分布,定理7.3,设母体的分布函数 是连续的,从中抽取容量为,n,的子样,其经验分布函数为 ,则,的分布函数为(P349),由于,D,n,的精确分布和极限分布都不依赖于母体的分布 ,由此提供了分布函数拟合检验的重要方法,即所谓柯尔莫哥洛夫检验法:设母体 未知,从中抽取字样观察值(),检验 (其中 为已知的连续分布函数),将 由小到大排序为 设所作经验分布函数为 ,取检验统计量为(7.17)所示:当,H,0,为真时,上面的,D,n,具有如Th7.3所述的精确分布和极限分布,而,H,0,不真时,,D,n,便有偏大的趋势,因此,对于给定的水平 查附表8得临界
36、值 使,由子样观察值计算,若 则拒绝,H,0,,否则接受,H,0.,用上面的柯尔哥洛夫检验法作拟合格检验时,若,n,100,则可由,查,D,n,的极限分布函数表得 ,从而求得 的近似值 当 含有未知参数时,可用大容量子样来估计未知参数,或本来抽取的子样容量就较大,就用抽取的子样来估计未知参数;但这样,D,n,-检验是近似的,宜取水平 较大,比如 或0.20等.综上,用,D,n,-检验的一般处理步骤如教材P350近所述.,例,设母体 ,未知,从中抽取容量为50的子样,其观察值如书上表中所示,在水平 下检验,未知.,解,:由于,n,=50已较大,就以此子样对 作出估计,于是认为,为计算,将有关计算列成书P352表7.5的形式,从表中看出,查附表8所示的柯尔莫哥洛夫检验临界值表得 ,因 故接受原假设,认为母体分布,7.4.4 柯尔莫戈洛夫-斯米尔洛夫两子样检验,






