1、参数估计基础参数估计基础 第五章第五章卫生统计学教研室卫生统计学教研室一、均数的抽样误差一、均数的抽样误差第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误 抽样研究中,样本统计量与总体参数间抽样研究中,样本统计量与总体参数间以及样本统计量之间的差别称为抽样误差。以及样本统计量之间的差别称为抽样误差。由抽样造成的样本均数与总体均数及样由抽样造成的样本均数与总体均数及样本均数之间的差别称为均数的抽样误差。本均数之间的差别称为均数的抽样误差。二、样本均数的分布 例例5-1 将将100名正常人的红细胞数(单位:名正常人的红细胞数(单位:1012/L)写在)写在100个大小均匀的小球上。这些红
2、细个大小均匀的小球上。这些红细胞数见表胞数见表5-1,其均数为,其均数为4.9,标准差为,标准差为0.43。把这。把这些小球放在一个口袋里,彻底混匀后取出一个,些小球放在一个口袋里,彻底混匀后取出一个,记下红细胞数,放回袋内,混匀后再取出一个,记下红细胞数,放回袋内,混匀后再取出一个,记下数字后再放回去,如此继续下去,这样每取记下数字后再放回去,如此继续下去,这样每取10个数字作为一个样本,共抽取了一百个样本,个数字作为一个样本,共抽取了一百个样本,并计算每一样本的均数与标准差。并计算每一样本的均数与标准差。表表5-1红细胞数抽样试验用的正态总体红细胞数抽样试验用的正态总体()表5-2 红细胞
3、数抽样实验中样本均数的分布红细胞均数4.554.624.694.764.834.904.975.045.115.185.25051015202530图图1 红细胞数抽样试验中样本均数的分布红细胞数抽样试验中样本均数的分布中心极限定理:1.若若XN(,),则,则2.若若X不服从正态分布,不服从正态分布,n较大,则较大,则统计量的标准差称为标准误(如均数标准统计量的标准差称为标准误(如均数标准误、率的标准误);均数的标准误是描述均数误、率的标准误);均数的标准误是描述均数抽样误差大小的统计指标。抽样误差大小的统计指标。三、标准误的计算标准误的用途:l(1)衡量样本均数的可靠性。)衡量样本均数的可靠
4、性。l(2)结合样本均数和正态分布曲线下)结合样本均数和正态分布曲线下 的面积分布规律,估计总体均数的置信的面积分布规律,估计总体均数的置信区间。区间。l(3)用于均数的假设检验。)用于均数的假设检验。思考题思考题:标准误和标准差的区别?:标准误和标准差的区别?则则 zN(0,1)一、一、t分布的概述分布的概述则则 zN(0,1);XN(,),),作作 转换,转换,第二节 t t 分布t 变量为用以推断总体均数的样本检验统计量。变量为用以推断总体均数的样本检验统计量。t 分布只有分布只有1个参数自由度个参数自由度 n1。当当 未知时,可作正态变量未知时,可作正态变量 的的 t 转换,转换,二、
5、二、t 分布的图形和特征分布的图形和特征 以以0为中间位置,左右对称的一簇为中间位置,左右对称的一簇曲线,当曲线,当 时,时,t分布趋近于标准正分布趋近于标准正态分布,态分布,较小时,曲线分布离散,较较小时,曲线分布离散,较扁平。扁平。1.t 分布的图形:分布的图形:从一份资料从一份资料(=4.83=0.52)中,作样中,作样本含量分别为本含量分别为3和和50的随机抽样,重复的随机抽样,重复1000次,得到次,得到1000个个t值,对值,对t值作频数分值作频数分布图,可以看出两个图形不一样,布图,可以看出两个图形不一样,t分布分布与自由度有关。与自由度有关。t分布图形分布图形:二、二、t 分布
6、的图形和特征分布的图形和特征&t 分布的图形和特征分布的图形和特征(=4.83=0.52)t 分布的图形和特征分布的图形和特征分布密度函数分布密度函数 3.当当 时,时,t 分布逼近分布逼近z 分布;分布;特征:特征:1.单峰分布,以单峰分布,以0为中心,左右对称;为中心,左右对称;2.越小,越小,t 值越分散,值越分散,t 分布的峰部越矮分布的峰部越矮而尾部翘得越高;而尾部翘得越高;4.t 分布曲线下的面积有一定规律。双侧:双侧:单侧:单侧:(三)(三)t分布曲线下的面积规律:分布曲线下的面积规律:第三节第三节 总体均数的估计总体均数的估计 例例5-2 随机抽取某地随机抽取某地100名名16
7、岁男岁男孩,测得其体重均数为孩,测得其体重均数为48.65kg,标,标准差为准差为15.23kg,试估计该地,试估计该地16岁男岁男孩体重的总体均数。孩体重的总体均数。(一)点估计:(一)点估计:(二)区间估计(二)区间估计(interval estimation)参数估计的概念:参数估计的概念:样本统计量作为总体参数的点值估计样本统计量作为总体参数的点值估计 结合样本统计量和抽样误差在一定结合样本统计量和抽样误差在一定的可信度的可信度100(1-)%下估计总体参下估计总体参数所在的范围,称为总体参数的可信数所在的范围,称为总体参数的可信区间(区间(confidence interval,CI
8、)。)。1.已知已知正态分布原理计算总体均数的正态分布原理计算总体均数的1-1-可信区间可信区间 0/2/21-z/2z/22.未知时,未知时,n不是很大不是很大根据根据t分布原理,分布原理,P(-t/2,t t/2,)=1-0/2/21-t/2t/2总体均数(总体均数(1-1-)可信区间计算公式如下:)可信区间计算公式如下:例例 某地随机调查了某地随机调查了25名名18岁女大学生,测岁女大学生,测得该样本的体重均数得该样本的体重均数标准差为标准差为试估计该地试估计该地18岁女大学生体重总体均数的岁女大学生体重总体均数的95%可信区间。可信区间。该地该地18岁女大学生体重总体均数的岁女大学生体
9、重总体均数的95%可信区间可信区间为为47.33 51.71kg。本例本例=n-1=24,双侧,双侧=0.05,查附表,得,查附表,得t0.05/2,24=2.064,按式,按式6.1计算得计算得3.未知,但样本例数未知,但样本例数n足够大时足够大时,可采用下可采用下列近似公式进行计算列近似公式进行计算例例5-2 随机抽取某地随机抽取某地100名名16岁男孩,测得其岁男孩,测得其体重均数为体重均数为48.65kg,标准差为,标准差为15.23kg,试,试估计该地估计该地16岁男孩体重的总体均数。岁男孩体重的总体均数。本例本例n=100比较大,取双侧比较大,取双侧z0.05/2=1.96代替代替
10、t 值值本例本例n=100,=99,t0.05/2,99=1.984注意注意:若总体不服从正态分布时,一般是很难确若总体不服从正态分布时,一般是很难确定其总体中的未知参数,但当样本量定其总体中的未知参数,但当样本量n很大时,很大时,我们可利用中心极限定理按上式对其总计均我们可利用中心极限定理按上式对其总计均数作出近似的区间估计。数作出近似的区间估计。95可信区间可信区间 可可以以认认为为是是每每抽抽取取100个个由由样样本本含含量量相相等等的的样样本本算算得得的的可可信信区区间间,平平均均有有95个个可可信信区区间间会会包包括括总总体体均均数数,只只有有5个个可可信信区区间间不不会会包包括括总
11、体均数。总体均数。可信区间的涵义可信区间的涵义可信区间的两个要素:可信区间的两个要素:1.准确度准确度2.精密度精密度反映在可信度反映在可信度1-的大小上,从准确度的角度讲,愈的大小上,从准确度的角度讲,愈接近接近1越好,如越好,如99%可信区间比可信区间比95%的好;的好;它反映在区间的宽度上,即区间越窄越好它反映在区间的宽度上,即区间越窄越好 均数可信区间与参考值范围的区别均数可信区间与参考值范围的区别1.含义:含义:均数可信区间用于估计总体参数,而参均数可信区间用于估计总体参数,而参考值范围用于估计变量值的分布范围。考值范围用于估计变量值的分布范围。2.计算公式:计算公式:均数可信区间的
12、计算公式是基于均数可信区间的计算公式是基于统计量的抽样分布,而参考值范围的计算基于统计量的抽样分布,而参考值范围的计算基于变量值的分布。变量值的分布。第四节第四节 二二 项项 分分 布布摸球实验摸球实验:一个袋子里有一个袋子里有5个球个球:2个黄球个黄球,3个白球个白球摸到黄球的概率摸到黄球的概率:0.4,进行进行100次摸球次摸球,摸摸到到x次黄次黄球球的概率为的概率为:一、一、Bernoulli试验试验以以A表示所感兴趣的事件,表示所感兴趣的事件,A事件发事件发生称为生称为“成功成功”,不出现称为,不出现称为“失失败败”。相应的这类试验称作为。相应的这类试验称作为“成成一败型一败型”试验或
13、试验或Bernoulli试验。试验。二、二、Bernoulli试验序列试验序列必须满足下列三条件必须满足下列三条件:(1)每次试验结果只能是两个互斥结果之一每次试验结果只能是两个互斥结果之一(A或非或非A)。(2)每次试验的条件不变,每次试验结果每次试验的条件不变,每次试验结果A事件发生的概率为常数事件发生的概率为常数。(3)各次试验独立,各次试验出现的结果互各次试验独立,各次试验出现的结果互不影响。不影响。概率的运算法则 乘法乘法:几个相互独立事件同时发生的概率等于各几个相互独立事件同时发生的概率等于各独立事件概率之积:独立事件概率之积:P(A1A2An)=P(A1)P(A2)P(An)可加
14、性:可加性:如果事件如果事件 A1、A2、An互不相容,互不相容,则则P(A1+A2+An)=P(A1)+P(A2)+P(An)三、二项分布三、二项分布成功次数的概率分布成功次数的概率分布 某某实验中小白鼠染毒后实验中小白鼠染毒后死亡概率死亡概率:为为0.7,则则生存概率生存概率为为:1-=0.3,故对故对一只一只小白鼠进行实验的结果为:小白鼠进行实验的结果为:死死(概率为(概率为 )或)或 生生(概率为(概率为1-););对对二只二只小白鼠(甲乙)进行实验的结果为:小白鼠(甲乙)进行实验的结果为:甲乙均死甲乙均死概率为概率为 2甲死乙生甲死乙生概率为概率为(1-)乙死甲生概率为(1-)甲乙均
15、生甲乙均生 概率为概率为(1-(1-)2 2 概率相加得概率相加得:2+(1-)+(1-)+(1-)2=+(1-)2 对对三只三只小白鼠(甲乙丙)进行实验的小白鼠(甲乙丙)进行实验的结果结果为:为:表表53 3只白鼠各种实验结果及其发生概率只白鼠各种实验结果及其发生概率概率相加得概率相加得:+(1-)3 对对n只只小白鼠进行实验,所有可能结果的概小白鼠进行实验,所有可能结果的概率相加得率相加得:n+Cn1 (1-)n-1+Cnx x(1-)n-x+(1-)n=+(1-)nn次试验中事件次试验中事件A出现的次数为出现的次数为x的概率是:的概率是:,k=0,1,2,n 记为记为 x B(n,)二项
16、分布概率的递推公式:二项分布概率的递推公式:四、二项分布的概率计算四、二项分布的概率计算二项分布的累计概率二项分布的累计概率:P(xk)=P(0)+P(1)+P(k)P(xk)=P(k)+P(k+1)+P(n)例例(补充补充)据报道,对某药有据报道,对某药有10%的人有的人有胃肠道反应。为考察某药厂产品质量随机抽胃肠道反应。为考察某药厂产品质量随机抽取取5人服用此药,试求:人服用此药,试求:(1)3人有反应的概率人有反应的概率(2)最多)最多2人有反应的概率人有反应的概率(3)有人有反应的概率)有人有反应的概率(1)3人有反应的概率:人有反应的概率:(2)最多最多2人有反应的概率:人有反应的概
17、率:P(x 1)=1-P(x=0)=1-0.5905=0.4095(3)有人有反应的概率为:有人有反应的概率为:1.二项分布的均数和标准差二项分布的均数和标准差若若XB(n,),则则X的总体均数的总体均数 =n,X的总体方差的总体方差 2 n (1 )X的标准差的标准差五、二项分布的性质五、二项分布的性质2.二项分布的正态近似性二项分布的正态近似性(1)二项分布图形的形状取决于二项分布图形的形状取决于 和和n 的大小;的大小;二项分布的图形有如下特征:二项分布的图形有如下特征:(2)当当=0.5时,无论时,无论n的大小,均的大小,均为对称分布;为对称分布;(3)当当 0.5,n较小时为偏态较小
18、时为偏态分布分布,n较大时逼近正态分布。较大时逼近正态分布。p0.000.040.080.120.160.200.240.280.32x0123450.36n=5,=0.3p0.000.050.100.150.200.250.30 x0123456789n=10,=0.3p0.000.050.100.150.200.25x01234567891011121314151617181920n=20,=0.3当当 不接近于不接近于0或或1,n不是很小,不是很小,n 5且且n(1)5时,二项分布近似正态分布,有时,二项分布近似正态分布,有概率论中的中心极限定理证明:概率论中的中心极限定理证明:因此因此
19、,二项分布的正态近似拓宽了二项分布的二项分布的正态近似拓宽了二项分布的应用范围,应用十分方便。应用范围,应用十分方便。(1)样本率的分布)样本率的分布 3.样本率的分布和正态近似样本率的分布和正态近似 从阳性率为从阳性率为 的总体中抽取含量为的总体中抽取含量为n的样的样本,则样本中的阳性数本,则样本中的阳性数XB(n,),若以若以样本阳性率样本阳性率p的形式表达:的形式表达:p=x/n样本率样本率p p的总体均数的总体均数:样本率样本率p p的标准差的标准差:当样本含量较大,总体阳性率当样本含量较大,总体阳性率 不接不接近与近与0,也不接近于,也不接近于1时,样本中的阳时,样本中的阳性数近似正
20、态分布性数近似正态分布N(n,),),样本样本阳性率也近似正态分布阳性率也近似正态分布N(N(,p p),),故有故有第五节第五节 泊松分布泊松分布一、泊松分布的概念一、泊松分布的概念用于描述事件出现概率很小而样本含量或试验次数用于描述事件出现概率很小而样本含量或试验次数很大的随机变量的概率分布。理论上可以证明泊松很大的随机变量的概率分布。理论上可以证明泊松分布是二项分布的一个特例,是二项分布当分布是二项分布的一个特例,是二项分布当n很大而很大而 很小时的一种极限分布。由二项分布的概率公式可很小时的一种极限分布。由二项分布的概率公式可推导出泊松分布的概率计算公式为:推导出泊松分布的概率计算公式
21、为:泊松分布的概率函数为:泊松分布的概率函数为:记作记作x x P P()二、泊松分布的概率计算二、泊松分布的概率计算递推公式:递推公式:,k=0,1,2,例(补充)例(补充)若随机变量若随机变量x服从服从=3.6的泊松分布的泊松分布,即即x P(3.6),则),则x的取值概率可计算如下:的取值概率可计算如下:以下用递推公式进行计算:以下用递推公式进行计算:三、泊松分布的性质三、泊松分布的性质 1、泊松分布的均数和方差、泊松分布的均数和方差=2 2、泊松分布的可加性、泊松分布的可加性随机变量随机变量x1,x2,xk相互独立,分别服从参数相互独立,分别服从参数为为 1,2,k的泊松分布,则的泊松
22、分布,则也服从泊松分布,参数也服从泊松分布,参数=1+2+k 四、泊松分布的正态近似四、泊松分布的正态近似 若已知参数若已知参数 ,可,可计算不同计算不同x取值的概取值的概率,以率,以x为横坐标,可能取值的概率为横坐标,可能取值的概率P为为纵坐标,可绘制泊松分布的图形。纵坐标,可绘制泊松分布的图形。当当 足够大时,泊松分布趋向于正态足够大时,泊松分布趋向于正态分布。一般分布。一般 50,即可认为泊松分布即可认为泊松分布近似于正态分布。近似于正态分布。设设x B(n,),),当当 很小,很小,n且且n=保持不变保持不变时,时,可以证明可以证明x的极限的极限分布是以分布是以为参数的泊松分布。因此为
23、参数的泊松分布。因此当当n很大且很大且 很小时,可计算泊松分布的很小时,可计算泊松分布的概率代替二项分布概率的计算。概率代替二项分布概率的计算。五、二项分布的泊松分布近似五、二项分布的泊松分布近似l例例5-4 如果某地新生儿先天性心脏病的发病如果某地新生儿先天性心脏病的发病率为率为9。(。(1)是否可以认为患先天性心)是否可以认为患先天性心脏病的人数近似地服从脏病的人数近似地服从Poisson分布?(分布?(2)该地该地100名新生儿中有名新生儿中有3人患先天性心脏病人患先天性心脏病的概率有多大?的概率有多大?将将n=100,=9 代入公式得:代入公式得:即该地即该地100名新生儿中有名新生儿
24、中有3人患先天性心人患先天性心脏病的概率为脏病的概率为49。一、率的抽样误差与标准误一、率的抽样误差与标准误第六节第六节 总体率的估计总体率的估计 由于抽样而引起的样本率与总体率的差异由于抽样而引起的样本率与总体率的差异及样本率间的差异称为率的抽样误差。及样本率间的差异称为率的抽样误差。计算公式计算公式:l例例5-5 某市疾控中心对该市郊区某市疾控中心对该市郊区200名小学生名小学生进行贫血的检测,结果发现有进行贫血的检测,结果发现有80名小学生贫名小学生贫血,检出率为血,检出率为40.0%,试估计抽样误差(标,试估计抽样误差(标准误)的大小。准误)的大小。本例本例 n200,p=0.40 当
25、样本例数较小(当样本例数较小(n 50),特别是),特别是p接近于接近于0或或1时,根据二项分布的原理确定总体率的可时,根据二项分布的原理确定总体率的可信区间。信区间。1970年,年,Miettinen根据二项分布和根据二项分布和F分布的关系,导出了总体率的可信区间算法。分布的关系,导出了总体率的可信区间算法。1.精确概率法或查表法精确概率法或查表法二、总体率的估计例例5-6 2003年年46月某医院重症监护病月某医院重症监护病房收治重症房收治重症SARS患者患者38人,其中死亡人,其中死亡12人,求人,求SARS病死概率的置信区间。病死概率的置信区间。查附表查附表3,在,在x与与n的纵横交叉
26、处,得到的纵横交叉处,得到SARS病死概率的病死概率的95%置信区间为置信区间为17.5%48.7%,99%置信区间为置信区间为14.2%53.7%。2.正态近似法正态近似法总体生存率的总体生存率的95%可信区间为:可信区间为:当样本例数当样本例数n较大,较大,p和和1p均不太小,如均不太小,如np和和n(1p)均大于均大于5。总体率的。总体率的1 的可信区间为的可信区间为(pz/2 Sp,pz/2Sp)在例在例5-5中,中,n200比较大,比较大,p=0.40,且且np=80,n(1-p)=120,均大于均大于5,所以可用上,所以可用上式估计总体概率的置信区间式估计总体概率的置信区间 补充:单侧可信区间 在实际工作中,有时仅可信区间的下限或在实际工作中,有时仅可信区间的下限或上限有意义。例如,某药的平均有效期最短上限有意义。例如,某药的平均有效期最短是多少?某药的不良反应率最大是多少?此是多少?某药的不良反应率最大是多少?此时,可用一端有界限的可信区间,时,可用一端有界限的可信区间,称为单侧称为单侧可信区间。可信区间。小小 结结 1.抽样误差及标准误的概念抽样误差及标准误的概念2.t界值表的特点界值表的特点3.总体均数的估计总体均数的估计4.总体率的估计总体率的估计