1、山东农业大学 概率论与数理统计 主讲人:程述汉 苏本堂,一、对总体分布函数,F,(,x,),的假设检验,二、对随机变量的独立性、相关性的假设检验,例如,,1.,考察某一产品的质量指标打算用正态分布模型,2.,考察一种元件的寿命打算用指数分布模型,3.,一个骰子是否是均匀的?,假设,H,0,:,X,N,(,2,),假设,H,0,:,X,服从参数为,的,指数分布,假设,H,0,:,这个骰子是均匀的,这里主要介绍拟合优度检验(,卡方检验法)。,H,0,:,F,(,x,),=F,0,(,x,),,,H,1,:,F,(,x,),F,0,(,x,),8.3,非参数假设检验,卡方检验,(,K.Pearso
2、n,,拟合优度检验),设,X,为未知总体,,(,x,1,,,x,2,,,,,x,n,),为大样本,(,n,50),,欲检验,H,0,:,F,(,x,),=F,0,(,x,),,,H,1,:,F,(,x,),F,0,(,x,),把实数轴,(-,,,+),分成,k,个互不相交的区间:,(-,a,1,(,a,1,a,2,(,a,k,-2,a,k-,1,(,a,k,-1,+,),记,a,0,=-,a,k,=+,I,i,=,(,a,k,-2,a,k-,1,(,i,=1,2,k,-1),I,k,=,(,a,k,-1,+,),,,n,i,为样本观测值(,X,的取值)落在第,i,个小区间,I,i,的个数,p,
3、i,为,X,取值落入第,i,个小区间,I,i,的概率,,0,p,i,1,i,=1,2,k,则,p,i,=,P,a,i-,1,X,a,i,=,F,0,(,a,i,)F,0,(,a,i,-1,),,,i,=1,2,k.,构造统计量:,8.3,非参数假设检验,K.Pearson,和,R.A.Fisher,联合证明了:,定理,不论,F,0,(,x,),是何分布函数,只要,n,充分大,(,n,50,),,当假设,H,0,成立时,上述,2,统计量都近似地服从自由度为,k-r-,1,的,2,分布。其中,r,是,F,0,(,x,),中未知参数的个数。,称,n,i,为,实测频数,,,v,i,=,np,i,为,理
4、论频数,。称这类检验为,拟合优度检验,。,对于给定的,,查,2,分布表得临界值,2,(,k,-,r,-1),,,使,由样本值计算出,2,统计量的值,当,2,2,(,k,-,r,-1),时拒绝,H,0,2,2,(,k,-,r,-1),时接受,H,0,可见,皮尔逊定理(准则)适用于实测频数与理论频数相比较的问题。,几点注释,若分布函数,F,0,(,x,),的类型未知,可由实际问题分析或由样本观察数据的直方图来推测。,若已知,F,0,(,x,),分布类型,还有,r,个参数未知时,须先,用极大似然估计法求出未知参数的估计值,,然后再作假设。,此检验要求一定是大样本,一般,n,50,。至于,k,的大小,
5、对于正态总体,样本容量,n,与区间个数,k,要满足渐近最优关系,k,=1.87(,n,-1),0.4,若理论频数,v,i,=,np,i,5,时,则将相临的小区间合并,直至全部,np,i,5,(合并区间的同时,也将实测频数合并),合并后的小区间数设为,k,*,,,则此时,2,统计量的由度变为,df,=,k,*,-,r,-1,手工计算时常采用公式,N,50,100,200,500,1000,2000,10000,k,9,12,16,22,30,56,74,=,(-1.22)-(-1.68)=0.0647.,类似地算得,:,p,3,=0.1124,p,4,=0.1547,p,5,=0.1813,p,
6、6,=0.1695,p,7,=0.1286,p,8,=0.0793,p,9,=0.0630.,例,1,设从总体,X,中抽取,120,个样本观察值,经计算整理得下表,试检验,X,服从正态分布。(,=0.05,),组号,小区间,n,i,1,(,-,,,198,6,2,(,198,,,201,7,3,(,201,,,204,14,4,(,204,,,207,20,5,(,207,,,210,23,6,(,210,,,213,22,7,(,213,,,216,14,8,(,216,,,219,8,9,(,219,,,+,),6,120,解,这里只给出了分布类型,有两个待估参数,与,2,。,用极大似然法
7、对,与,2,作出估计,得到,故提出假设,H,0,:,X,N,(209,42.77),H,1,:,X,不服从,N,(209,42.77),由,n,=120,,,算得统计量的值,由于,所以接受,H,0,,,认为,X N,(209,42.77).,=0.05,k,=9,r,=2.,查表得临界值,解,首先,用样本观察值对未知参数,作极大似然估计。以,x,i,表示区间,(,t,i,-1,t,i,),的中点(也称为组中值),则,故提出假设,H,0,:,X,服从,=0.2,的指数分布,.,当,H,0,为真时,有,例,2,对,200,个电池做寿命试验,,(,t,i,-1,t,i,),表示以小时计的时间区间,(
8、i,=1,2,6),,在,=0.05,下,试检验电池寿命,X,服从指数分布。,组序,(,t,i,-1,t,i,),n,i,1,(,0,5,),133,2,(,5,10,),45,3,(,10,15,),15,4,(,15,20,),4,5,(,20,25,),2,6,(,25,30,),1,200,由,=0.05,得,类似地算出:,p,3,=0.0855,p,4,=0.03147,p,5,=0.0016,p,6,=0.0043.,各,v,i,=,np,i,分别为:,126.42,46.52,17.10,6.30,2.32,0.84.,由于,v,5,和,v,6,都小于,5,,且合并后仍小于,5
9、故与,v,4,合并,.,组序,n,i,v,i,=,np,i,n,i,-,np,i,(,n,i,-,np,i,),2,/,np,i,1,133,126.42,6.58,0.3425,2,45,46.52,1.52,0.0497,3,15,17.10,2.10,0.2579,4,7,9.46,2.46,0.6397,200,200,1.29,由于,2,2,(,k,-,r,-1),,故接受,H,0,,即认为,X,服从参数,=0.2,的指数分布。,解,先用极大似然估计法求,估计值,(,i,=1,2,3,4,5),例,3,从同类产品中,任取,n,=200,批,质检结果如下表,其中,x,i,表示各批产
10、品中次品数,,n,i,表示有,x,i,件次品的批数,试在,显著性水平,=0.05,下,检验次品件数,X,服从泊松分布。,于是认为,F,0,(,x,),是参数为,=,0.6,的泊松分布的分布函数,分布律为,检验假设为,H,0,:,X,服从,=0.6,的泊松分布,序号,1,2,3,4,5,x,i,0,1,2,3,4,n,i,116,56,22,4,2,200,当,H,0,成立时,算得,2,=2.5509243,,,由于,2,2,(,k,r,1),,所以接受,H,0,,,即认为,X,服从,=0.6,的泊松分布。,类似地算出,p,3,=0.098761,,,p,4,=0.0197572,,,p,5,=
11、0.00296.,再算出理论频数,np,i,分别为,109.7623,,,65.8574,,,19.7572,,,3.9514,,,0.5927.,统计量,实质是,选讲内容:,1.,适合性检验,适合性检验,是用样本提供的信息去推断总体分布是否适合某种已知的规律。,例,4,某地区,1993,年新生婴儿,1284,个,其中男婴,692,个,试问婴儿的性别比是否正常?,(,=0.01),解,检验假设为,H,0,:男,:,女,=1:1,H,1,:男,:,女,1:1,当,H,0,为真时,有,选讲内容:,1.,适合性检验,对于,0.01,,查表得临界值,由于,所以拒绝,H,0,,即认为该地区,1993,年
12、新生婴儿性别的比例失调。,例,5,按孟德尔遗传学说,将两种豌豆杂交后,可产出数量之比为,9:3:3:1,的,A,、,B,、,C,、,D,四种不同的种子。今在一试验中共收了,189,粒种子,,A,、,B,、,C,、,D,各类型的分别为,102,粒、,30,粒、,42,粒和,5,粒。问在,=0.01,下,该结果是否符合孟德尔遗传学说的结果,?,选讲内容:,1.,适合性检验,解,检验假设为,H,0,:,A:B:C:D=9:3:3:1,,即试验结果适合孟德尔学说,实测频数为,102,,,30,,,42,和,15,,且当,H,0,成立时理论频数为,同样可计算出,B,、,C,、,D,型种子的理论频数依次为
13、v,B,=35.4375,,,v,C,=35.4375,,,v,D,=11.8125.,由,=0.01,得临界值,由于,于是有,故接受,H,0,,即认为试验结果与孟德尔学说的结果相符合。,选讲内容:,1.,适合性检验,独立性检验是对两个总体,或两组资料,或一总体的两种指标(分类、特性、特征)等之间的独立性所进行的检验。因此,若设,X,和,Y,是两个总体(或一个总体的两个指标),则其假设应为:,H,0,:,两总体,X,与,Y,相互独立,将,X,和,Y,的可能的取值范围分成互不相交的,r,个组和,s,个组:,A,1,A,2,A,r,和,B,1,B,2,B,s,.,在总体,(,X,Y,),中随机抽取样本,(,x,1,y,1,),(,x,2,y,2,),(,x,n,y,n,).,记,A,i,与,B,j,的每一个搭配,(,A,i,B,j,),所包括的样本个数为,c,ij,(,i,=1,2,r,;,j,=1,2,s,),c,ij,即为实测频数且,选讲内容:,2.,列联表的独立性检验,由,c,ij,构成,r,s,列联表。,(,X,Y,),落入,(,A,i,B,j,),概率的估计值为,当,H,0,成立时,则有,于是理论频数的估计值为,根据皮尔逊准则,对于给定的,,查表得临界值,选讲内容:,2.,列联表的独立性检验,






