资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第,5,章 概率基础,教学内容,正态分布,t-,分布,F,分布,统计推断的过程,样本,总体,样本统计量,例如:样本均值、比例、方差,总体均值、比例、方差,4-,3,设,X,是,R.V.,x,是一实数,.,记,F(x,)=P(Xx),。该函数就是随机变量,X,的分布函数。分布函数的导数称为密度函数,记作,p(x,),。,性质,(1)p(x)0,(2),(3),a,b,x,P,(,a,x,b,),连续型随机变量的概率分布,4-,4,定义,:,连续型随机变量,X,的期望值为,方差为,性质,:,4-,5,正态分布,如果连续型随机变量,X,的密度函数为,则称随机变量,X,服从均值为,,方差为,2,的正态分布,记为,XN(,,,2,),。,如果一个正态分布的,=0,,,=1,,则称该正态分布为标准正态分布,相应的随机变量称为标准正态随机变量,用,Z,表示,即,ZN(0,,,1),,相应的分布密度函数为,连续型随机变量的概率分布,=0.6,=1,=2,连续型随机变量的概率分布,标准正态分布:如果正态分布的密度函数中,,=0,=1,,则这样的正态分布称为标准正态分布。,标准正态随机变量在区间,-Z,Z,取值的概率,F(Z),可通过查标准正态分布概率表获得。,连续型随机变量的概率分布,例:设随机变量,Z,服从标准正态分布,求以下概率的大小:,(1)p(-1Z1),(2)p(0Z2),(3)p(1Z1),4-,9,正态分布的,标准化,变换:,若随机变量,X,服从正态分布,N(,,,2,),,则随机变量,Z=,服从标准正态分布,即,ZN(0,,,1),。,4-,10,例:某大学英语考试成绩服从正态分布,已知平均成绩为,70,分,标准差为,10,分。求该大学英语成绩在,6075,分的概率。,例:假定学生某门学科的考试成绩服从均值为,60,分,标准差为,12,分的正态分布,问某一学生的成绩在,60,分到,75,分之间的概率应为多少?,解:,补:其他常用连续型随机变量的概率分布,t-,分布,:设,X,服从标准正态分布,,Y,服从自由度为,n,的,2,分布,且它们相互独立,则随机变量,T=X/,Y/n,所服从的分布为自由度为,n,的,t-,分布。,当,n,30,时,,t-,分布与标准正态分布的差别非常小,可用标准正态分布代替。,F-,分布,:设,X,和,Y,是相互独立的,2,分布,自由度分别是,f,1,和,f,2,,则称随机变量,F=(X/Y).(,f,2,/,f,1,),所服从的分布为,F-,分布,称为它的自由度。,第,6,章 参数估计,教学内容,6.1,抽样与抽样分布,6.2,参数估计的基本方法,6.3,总体均值的区间估计,6.4,总体成数的区间估计,6.5,样本容量的确定,学习目标,掌握样本平均数和样本成数的抽样分布,理解总体参数点估计的基本方法及其优良标准;,掌握总体均值和成数指标的区间估计方法;,会做题目,6.1,抽样与抽样分布,6.1.1,什么是抽样推断,基本概念,总体与样本,(,见第一章,),样本量与样本个数,总体参数与样本统计量,重复抽样与不重复抽样,这些概念是统计学特有的,体现了统计学的基本思想与方法。,4-,16,(一)总体和样本(参见第,1,章),1.,总体:又称全及总体、母体,指所要研究对象的全体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用,N,表示。,2.,样本:又称子样,来自总体,是从总体中按随机原则抽选出来的部分,由抽选的单位构成。样本单位数用,n,表示。,3.,总体是唯一的、确定的,而样本是不确定的、可变的、随机的。,4-,17,(二)样本容量与样本个数,样本容量:一个样本中所包含的单位数,用,n,表示。,样本个数:又称样本可能数目,指从一个总体中所可能抽取的样本的个数。对于有限总体,样本个数可以计算出来。样本个数的多少与抽样方法有关。,(,这个概念只是对有限总体有意义,对无限总体没有意义!,),18,(三)总体参数和样本统计量,总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。,样本统计量:根据样本分布计算的指标。是随机变量。,平均数,标准差、方差,成数,参数,、,2,P,统计量,s、s,2,p,总体,样本,19,(四)重复抽样与不重复抽样,重置抽样与不重置抽样,例如从,A,、,B,、,C,、,D,、,E,五个字母中随机抽取两个作为样本。,N,=5,,,n,=2,重复抽样:样本总个数,=,不重复抽样:,不考虑顺序:样本总个数,注:不重复,抽样的样本量,受总体大小限制,,即,n,不能超过,N,,最多等于,N,;但,重复,抽样的样本量,不受,总体大小的影响。,20,6.1.3,抽样分布,抽样分布:主要求出样本平均数的期望与方差,包括以下内容,样本平均数的分布,样本成数的分布,抽样分布,设从总体中抽出的样本为,X,1,,,X,2,,,X,n,,由于是重复抽样,每个,X,i,,,(i=1,2,n),都是从总体中随机抽出的,都是与总体同分布的随机变量,并且是相互独立的。,我们设总体的平均数为,,方差为,2,,则样本平均数的期望值与方差分别是:,样本平均数的抽样分布,22,(一)样本平均数的分布(,P108-109,),某班组,5,个工人的日工资为,34,、,38,、,42,、,46,、,50,元。,=42,2,=32,现用重置抽样的方法从,5,人中随机抽,2,个构成样本。共有,5,2,=25,个样本。如右图。,23,验证了以下两个结论:,抽样平均数的标准差反映所有的样本平均数与总体平均数的平均误差,称为,抽样平均误差,,用 表示。,(一)样本平均数的分布,24,(一)样本平均数的分布,由概率论知,如果总体是正态分布的,则样本平均数的抽样分布是如下正态分布,这是一个非常重要的结论,有广泛的应用。,25,(二)样本成数的分布(,P111-112,),总体成数,P,是指具有某种特征的单位在总体中的比重。成数是一个特殊平均数,设总体单位总数目是,N,,总体中有该特征的单位数是,N,1,。设,x,是,0,、,1,变量(总体单位有该特征,则,x,取,1,,否则取,0,),则有:,现从总体中抽出,n,个单位,如果其中有相应特征的单位数是,n,1,,则样本成数是:,p,也是一个随机变量,利用样本平均数的分布性质结论,即有:,26,三、不重置抽样条件下样本均值和成数的抽样分布,样本均值的分布性质:,样本成数的分布性质,27,抽样分布总结,样本平均数的分布,样本成数的分布,重复,抽样,不重复抽样,(三)抽样分布定理,1.,正态分布再生定理,113,总体是正态分布,抽取容量,n,的样本,样本平均数也服从正态分布。,样本平均数是更加集中的分布在总体平均数的周围。,2.,中心极限定理,114,大样本的平均数近似服从正态分布。,6.2,参数估计,6.2.1,估计量与估计值,用样本统计量估计总体参数,用来估计总体参数的统计量叫做估计量,估计量的取值称为估计值。,参数估计的方法,估 计 方 法,点 估 计,区间估计,二、点估计,点估计的定义,点估计,就是根据总体参数与样本统计量之间的内在联系,,直接以样本统计量作为相应总体参数的估计量,。在统计中经常使用的点估计量有:,【,例6,-,1,】,对某企业的产品进行抽样检验,设抽出,100,件产品,其中不合格产品,5,件,试估计该企业产品的合格率是多少?,我们可以通过样本的合格率来估计企业产品的合格率。样本合格率,p,=95/100=95%,,我们估计该企业产品的合格率是,95%,。,二、点估计,所谓,区间估计,,就是,估计总体参数的区间范围,,,并要求给出区间估计成立的概率值,。设 和 是两个统计量,(),,分别作为总体参数,区间估计的下限与上限,则要求:,P()=1-,式中,(01),是区间估计的,显著性水平,,其取值大小由实际问题确定,经常取,1%,、,5%,和,10%,;,1-,称为,置信度,。,(二)区间估计,1,、总体未知参数落在区间内的,概率,2,、表示为,(1-,为显著性水平,是总体参数,未在,区间内的概率,3,、常用的置信水平值有,99%,95%,90%,相应的 为,0.01,,,0.05,,,0.10,置信水平,(,置信度,),区间与置信水平,均值的抽样分布,(1-,)%,区间包含了,%,的区间未包含,1-,a,a,/,2,a,/,2,(二)区间估计,参数估计应满足以下两个要求:一是估计的精确度要求,二是可靠性要求。,所谓,精确度,就是估计误差的最大范围,即误差的最大值,可通过,极限误差,来反映;,所谓,可靠性,是指估计结果正确的,概率,大小。,置信区间越小,精确性越高,但是可靠性下降,;,置信区间越大,可靠性越大,但是精确性降低。,因此,精确性和可靠性是一对矛盾。,无偏性,用,表示总体的待估计参数,是估计,的样本统计量,我们说 是,的无偏估计,指的是,满足:,6.2.3,评价估计量的标准,无偏性,无偏性要求用来估计总体参数的样本统计量,其分布是以总体参数真值为中心的。,在一次具体的抽样估计中,估计量或者大于总体参数,或者小于总体参数;,但是,在进行重复抽样估计的过程中,,所有估计量的平均数应该等于待估的总体参数。,这说明,,无偏估计要求估计量没有系统偏差,。,估计量的优良性准则,(无偏性),P,(,X,),X,C,A,无偏,有 偏,无偏性:估计量的数学期望等于被估计的总体参数,这就是为什么样本方差用,n-1,的原因!,一致性,一致性是指随着,样本容量不断增大,,,样本统计量接近总体参数的可能性就越来越大,,或者,对于任意给定的偏差控制水平,两者间偏差高于此控制水平的可能性越来越小,接近于,0,。,一致性,用公式表示就是:,公式中,,为一任意小的数。上式说明,当,n,充分大时,与,之间的偏差,可以有很大的把握被控制在任意给定的范围之内。当,n,趋于无穷大时,估计量 依概率收敛于,。,估计量的优良性准则,(一致性),一致性:,随着样本容量的增大,估计量越来,越接近被估计的总体参数,A,B,较小的样本容量,较大的样本容量,P,(,X,),X,有效性,和 都是总体参数,的无偏估计量,如果,,则说明估计量 比 更有效。,有效性,设总体的方差是 ,我们有:,显然,样本平均数的方差比样本中某个单位的标志值的方差要小,只是其方差的,1/n,,所以作为估计量,样本平均数更加有效。,6.3.1,区间估计基本原理,6.3,总体均值的区间估计,6.3.2,正态分布且总体方差已知;或非正态分布方差未知,且大样本,2,已知,2,未知,均 值,方 差,成数,区 间,估 计,平均数的区间估计,对总体平均数区间估计时,使用下面的式子,(,式中,是极限误差,),有两种模式:,1,、根据置信度,1-,,求出极限误差,,并指出总体平均数的估计区间。,2,、给定极限误差,求置信度,(,略,),。,当,已知时,根据相关的抽样分布定理,服从标准正态分布,N(0,1),。查正态分布概率表,可得 (,一般记为,),则 ,根据重复抽样与不重复抽样的 求法的不同,进一步可得总体平均数的估计区间:,重复抽样时,区间的上下限为:,不重复抽样时,区间的上下限为:,均值区间估计,第,1,种模式,(,求置信区间,),【,例6,-,2,】,某地区的电视台委托调查公司估计地区内居民平均每日的看电视时间。调查公司随机抽取了,100,名居民进行调查,样本数据显示平均每人每天看电视时间是,4,个小时。如果已知总体的标准差,=1.5,小时。试求:,(1),该地区内居民每天看电视的平均时间的置信区间,(,置信度是,95%),;,(,2,)总体分布未知且总体方差未知,大样本条件下,由中心极限定理知,近似服从正态分布,此处用,样本方差,s,代替总体方差。,P120,,例,6.4,总体方差未知,(,2,未知,),,小样本,:,当总体服从正态分布但方差未知时,可用样本的标准差,s,代替总体标准差。这时统计量是:,t,服从的分布不是标准正态分布,而是自由度为,n-1,的,t-,分布,(,当,n,很大时,近似正态分布,),。因此,总体均值的区间估计是:,总体方差未知,(,2,未知,),:,重复抽样,不重复抽样,4-,56,总体均值区间估计总结,总体平均数估计区间的上下限,总体方差已知,N(0,1),重复抽样,不重复抽样,总体方差未知,t(n-1),大样本时近似服从,N(0,1),重复抽样,不重复抽样,如果是正态总体,4-,57,如果不是正态总体,或分布未知,总体方差已知,且是大样本,总体方差未知,且是大样本,此时不考虑小样本情况,因此,大样本情况下,直接用标准正态分布求置信区间即可。,成数指标是一个特殊的平均数。所以,类似于总体平均数的区间估计,总体成数的区间估计是:,式中的成数抽样平均误差在重复抽样条件下是:,在不重复抽样的条件下是:,在实践中,由于总体成数常常未知,这时,抽样平均误差公式中的总体成数用样本成数代替。,6.4,总体成数的区间估计,【,例6,-,3,】,某工厂要估计一批总数,5000,件的产品的废品率,于是随机抽出,400,件产品进行检测,发现有,32,件废品。试给出该批产品的废品率的区间估计,(,置信度是,90%),。,总体平均数的区间估计,第一,样本抽取后,用简单算术平均或加权平均的方法计算样本平均数 。,第二,搜集总体数量标志方差的经验数据或计算样本数量标志方差s,2,。,第三,计算抽样平均数的平均误差:,第四,根据概率,F(Z),确定,Z,,计算平均数的极限误差 。,第五,总体平均数的置信区间 。,区间估计小结,(,重置抽样,),(,不重置抽样,),第一,样本抽取后,计算样本成数。,第二,用样本是非标志方差,p,(1-,p,),或经验数据代替总体是非标志方差,P,(1-,P,),。,第三,计算抽样成数的平均误差:,第四,根据概率,F(Z),确定,Z,,计算平均数的极限误差:,第五,总体平均数,P,的置信区间,。,总体成数的区间估计,(,重置抽样,),(,不重置抽样,),练习,某地有八家银行,从它们所有的全体职工中随机抽取,600,人进行调查,得知其中的,486,人在银行里有个人储蓄存款,存款金额平均每人,3400,元,标准差,500,元,试以,95.45%,的可靠性推断:(,1-=95.45%,,则,z=2,),1),全体职工中有储蓄存款者所占比率的区间范围,2),平均每人存款金额的区间范围,(,1,)已知:,n=600,,,p=81%,,又,1-=95.45%,,则,z=2,所以,故全体职工中有储蓄存款者所占比率的区间范围为,81%0.1026%,(,2,)平均每人存款金额的区间范围为,6.5,样本容量的确定,在前面我们已经知道,极限误差、概率度与抽样平均误差三者间的数量关系是:。当抽样平均误差保持不变时,极限误差与概率度两者间关系是:,增大,,z,也增大了,,减小,,z,也减小了。,样本容量的确定,因此,抽样估计的精度与可靠性之间存在矛盾:,要提高精度,(,减小,),,需以牺牲概率度,(,z,减小,),为代价;,要提高概率度,(,z,增大,),,又要以牺牲估计精度,(,增大,),为代价。在 不变的情况下,这对矛盾是不可调和的;但是,降低抽样平均误差后,就可以同时提高估计的精度与概率度。,样本容量的确定,例如:通过增加样本容量,n,来达到降低抽样平均误差目标。,这时应该考虑,样本容量,n,究竟取多大合适?这就是样本容量的确定问题。,6.5.1,估计总体均值时样本容量的确定,总体方差已知,重复抽样(重点),这时有:,上式两边平方整理后可得:,这就是在给定极限误差、概率度要求下,至少应抽取的样本容量。,估计总体均值时样本容量的确定,总体方差已知,不重复抽样,这时有:,上式两边平方整理后可得:,6.5.2,估计总体成数时样本容量的确定,重复抽样(重点),不重复抽样,4-,70,确定样本容量,在设计抽样时,先确定允许的,误差范围,和必要的,概率保证程度,,然后根据历史资料或试点资料确定,总体的标准差,,最后来确定样本容量。,估计总体均值时样本容量的确定,重复抽样,不重复抽样,估计成数时样本容量的确定,重复抽样,不重复抽样,6.5.3,应注意的问题,计算样本容量时,一般总体的方差与成数都是未知的,可用有关资料替代:,一是用历史资料已有的方差与成数代替;,二是在进行正式抽样调查前进行几次试验性调查,用试验中方差的最大值代替总体方差;,三是成数方差在完全缺乏资料的情况下,就用成数方差的最大值,0.25,代替。,三、应注意的问题,如果进行一次抽样调查,同时估计总体均值与成数,用上面的公式同时计算出两个样本容量,可取一个最大的结果,同时满足两方面的需要。,上面的公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。例如计算得到:,n=56.03,,那么,样本容量取,57,,而不是,56,。,【,例6,-,4,】,对企业产品合格率进行抽样调查,根据历史上进行的二次调查资料,合格率分别是,15%,和,13%,,这次调查要求误差不超过,5%,,概率保证程度为,95%,,问至少要抽出多少产品作为样本?,解:已知,=5%,,,=0.05,,,=1.96,。按历史上的两次调查资料,分别计算成数方差为:,0.15(1-0.15)=0.1,27,5,,,和,0.13(1-0.13)=0.1131,。,取方差最大者,,因此选,p,=15%,。由于企业产品数量一般都较大,抽出样本在总体中所占的比重很小,无论是重复抽样还是不重复抽样,结果相差不大,可按重复抽样方式计算,所以至少应抽取的样本容量是:,【,例6,-,5,】,对某型号电池进行电流强度检验,根据以往正常生产的经验数据,已知电流强度的标准差,=0.4,安培,合格率,P=90%,。采用随机重复抽样方式,需要在,99.73%,的概率保证下,抽样平均电流的误差范围不超过,0.08,安培,抽样合格率误差范围不超过,5%,,试求必要的抽样单位数。,解:已知,,1-=99.73%,,,=3,,按抽样平均数与成数计算的样本容量分别是:,(,个,),(,个,),取以上计算结果中较大者,即,n,=324,,,本章小结,点估计及评价标准:无偏性,有效性,一致性,区间估计(重点):,1.,总体均值区间估计:方差已知,方差未知,2.,总体成数区间估计,样本容量确定,作业:,P127,8,11,17,
展开阅读全文