第六章、二项与泊松分布.ppt

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,医学统计学,福医卫生统计系林征,2013.11,第六章,.,二项与泊松分布,Chapter VI.Binomial&Poisson Distribution,1,一、二项分布,(binomial distribution),在日常生活中有很多我们接触到的随机现象，往往恰好有且只有两个可能结果，例如：,观察对象情况,:,得病,未得病人临床试验,:,治愈,未愈,血清临床化验,:,阳性,阴性白鼠毒性试验,:,死亡,生存,当然这一切都可以简化为成功（,Success,）与失败（,Failure,）两种结果。即在两种结果中指定我们有兴趣的，并将之称为成功，另外一种结果称为失败。这样的变量称为二分类变量,.,贝努利实验,每个观察对象的结果有且只有上述,两种,相互排斥的结果中的一种,每个观察对象阳性结果,(success),发生的概率均,稳定,为,p,阴性结果的发生概率均稳定为,(1-,p,),各个观察对象的结果是相互,独立,的,.,满足上述,3,个条件的,n,次试验构成的序列称为贝努利,(Bernoulli),试验序列,Bernoulli,试验,为了纪念瑞士数学家,Jacob Bernoulli (1654-1705),人们又把上述重复的每次试验称为,Bernoulli,试验,.,二项分布的定义,如果随机事件的发生满足贝努利试验条件,那么,重复观察,n,次,发生阳性结果的次数,X,的概率分布就是二项分布,记为,X,B(n,p,),。,x=0,1,2n,的概率为,P(x),即,x,B(n,p,),设某毒理试验采用白鼠共,3,只，毒物的致死率为,p,显然该情况符合贝努利试验：,1,、每只鼠有且只有生存与死亡两种状态；,2,、每只鼠的死亡或生存的结局是相互独立的；,3,、每只鼠死亡的可能性均为,p,，生存的可能性均为,1-p,。,因而，这三只鼠的药物毒理试验便构成一个贝努利试验系列（重复了,3,次）,.,如果在保持总体率不变的情况下，增多观察例数（从,3,例,5,例,20,例,100,例）,试描述分布图形的改变情况,二项分布的图形特征,如果在保持观察例数不变,(n=20),的情况下，改变总体率（从,0.10.3 0.5,0.70.9,）,试描述分布图形的改变情况,二项分布的图形特征,二项分布的图形取决于,n,和,p,，最高峰出现在,n,p,处；所有情况概率之和为,1,当,n,较小，且,p,远离,0.5,时，图形是,偏态,的,当,n,较大，或者,p,接近,0.5,时，图形趋于对称,在实际应用中，只要,n,足够大，,p,不接近,0,也不接近,1,时（特别是当,n,p,与,n,(1-p),均大于等于,5,时,），二项分布,B(n,p,),就接近正态分布,二项分布的图形特征,二项分布的阳性数的均数与标准差,如果随机事件满足贝努利试验条件,则称随机事件的阳性数,x,满足二项分布,B(n,p,),阳性数,x,的均数与标准差又是多少？,阳性数的均数与标准差,均数,E(x),（或,m,x,）：,标准差,Var(x),（或,s,x,）：,样本率的均数与标准差,样本率的均数,E(p),（或,m,p,）：,样本率的标准差,Var(p),（或,s,p,）：,样本率的抽样分布,(sampling distribution of rate),样本率的总体均数等于总体率,样本率的标准差,(,即率的标准误,),反映率的抽样误差,由于总体率通常是未知的，因而用样本率,p,来估计,p,，故率的标准误的估计值常表示为,二项分布的应用：概率估计,根据以往的经验，一般的胃溃疡患者有,13%,发生胃出血的症状，现某医生随机收集患者,7,例，其中,2,例发生胃出血的可能性有多大？,二项分布的应用：累积概率估计,根据以往的经验，一般的胃溃疡患者有,13%,发生胃出血的症状，现某医生随机收集患者,150,例，其中至多有,20,例发生胃出血的可能性有多大？出现,1020,例胃出血的可能性有多大？,P(x20),P(x=20)+P(x=19)+P(x=18)+P(x=0),P(10 x20)=P(x=10)+P(x=11)+P(x=20),二项分布的应用：累积概率估计,不论,P(x20),或,P(10 x20),，在,n,较大的时候计算诸如是很麻烦的,例如本题，可以通过电脑软件计算，快速准确的得出：,P(x20)=60.6745546630915%P(10 x20)=60.2432821318786%,能否使用简单的方法计算累积概率呢？,二项分布的应用：累积概率估计,二项分布的正态近似,回顾二项分布的图形特征，,当,n,p,与,n,(1-p),均大于等于,5,时），二项分布,B(n,p,),就接近正态分布,该正态分布的均数为二项分布的均数,m,x,，标准差为二项分布的标准差,s,x,即：观察阳性数,x N,(,n,p,n,p,(1-,p,),),二项分布的正态近似法计算累积概率,根据以往的经验，一般的胃溃疡患者有,13%,发生胃出血的症状，现某医生随机收集患者,150,例，其中至多有,20,例发生胃出血的可能性有多大？,其中出现,1020,例胃出血的可能性有多大？,二项分布的正态近似法计算累积概率,二项分布应用：总体率的可信区间,与总体均数的可信区间相同，率的可信区间的含义同样也是：按照一定的可信度（,95%,或,99%,）确定的包含未知总体率的可能范围,不过由于样本中阳性数的取值满足的是二项分布，所以计算样本所来源的总体率也必须从二项分布入手,例如样本率,p=0.25,，样本含量为,n=20,，阳性发生数,x=5,，求总体率的,95%,可信区间？,假设存在一个很小的总体率,p,1,，使得从,20,个观察对象中得到,5,个以及以上阳性数的可能性不为小概率事件（在这里小概率事件,=0.025,），用数学表达式表达为：,xB(20,p,),且有,p(x5)0.025,，求,p,最小不得小于多少？图示如下,在当前总体率的情况下，,出现,p(x5),的情况看起,来不是小概率事件，即：,p(x5),2.5%,或,p(x,4),0.025,，求,p,最大不得大于多少？图示如下,在当前总体率的情况下,出现,p(x,5),的情况看起,来不是小概率事件，,p(x,5),2.5%,软件计算的累积概率结果：,总体率,p,P(x5),0.480,0.031,0.490,0.026,0.500,0.021,0.510,0.017,可见未知总体率,95%CI,的上限介于,0.49,与,0.50,之间，实际计算的结果是,0.491,附近,:,当,n=20,p,=0.491,p(x,5)=0.02502,；如果总体率大于,0.491,，那么,p(x,5),的值就会小于,0.025,，在一次抽样的情况几乎不会发生，所以,p,不可大于,0.491,总体率的可信区间,所以当,样本含量为,n=20,，阳性发生数,x=5,，总体率的,95%,可信区间为,(0.0870.491),因为不但要求累积概率，还要不断的尝试，所以求该区间的手工计算量十分庞大,统计学家已经绘制了一张表格，方便我们直接查找！,附表,6,总体率的可信区间的正态近似法,当,np,与,n(1-p),均大于,5,且,n,足够大时，样本率,p,的抽样分布近似正态，可以写为,p N(,p,s,p,2,),此时，计算,p,的,95%,CI,的方法就和前面介绍的标准正态分布法求总体均数的可信区间,相似,总体率的,1-a,可信区间为,例,6,3,用某药物治疗非传染性疾病患者,100,名，有效,55,例，求该药物总体有效率的,95%,可信区间？,解：,二项分布应用：单样本率假设检验,例如：已知某地,40,岁以上成年男性高血压患病率为,10%,，经健康教育数年后，随机抽取该地成年男性,50,名，查出高血压患者,3,例，患病率为,6%,。问经健康教育后，该地成年男性高血压患病率是否有降低？,单样本率假设检验（单侧）,本题的问题是该地的患病情况是否较以前下降,假设总体患病率没有下降，那么现在该地的高血压患病率仍为,10%,；那么从中得到一个比当前样本率,6%,还要极端的情况概率是否是一个小概率事件？,如果是小概率事件，则原假设有问题，因为小概率事件不太可能在一次抽样中发生，因而拒绝它；反之，如果不是小概率事件，那么尚不拒绝它。,例,6-5,：已知常规药物对某非传染性疾病的有效率为,0.6,；研究者用新药物治疗,10,例，发现有效,9,例，能否据此认为新药的疗效与常规药物不同。,与单侧检验不同的是，此处的目的在于发现二者是否存在不同；此时的,P,值为发生几率低于当前的所有情况概率之和,即分别计算,x=0,至,10,时的概率，找出所有发生概率不高于当前的情形，将这些概率累积得到,P,值,单样本率假设检验（双侧）,单样本率假设检验,(,正态近似,),例：某医院称治疗声带白斑的有效率为,80%,；经统计前来求医的此类患者,60,例，其中,45,例治疗有效，试问该医院原先宣称的有效率是否估计偏高？,二项分布应用：两个大样本率比较,如果涉及两个样本率的比较，可采用的统计学检验方法较多,例如有：正态近似法，后面要介绍的卡方检验以及精确概率法等,在本章节所讨论的两个样本率的比较主要是指两个“,大样本,”率的检验；至于其它的情况下如何分析，详见卡方检验章节,例：用硝苯吡啶（甲法）治疗高血压急症患者,75,例，有效,57,例；用硝苯吡啶,+,卡托普利（乙法）治疗同类患者,69,例，,66,例有效；试问两法的有效率是否相同？,三、泊松分布,(Poisson distribution),泊松分布用于表达,单位时间、单位面积、单位容积中某罕见事件发生数的概率分布,例如实验室制备的一瓶菌液中含有大量的细菌，但是在显微镜下，每滴溶液中出现细菌的数量却十分少（或者说每个如细菌体积般大小的溶液中出现细菌的可能性极小），则单位体积的溶液中的细菌数,x,满足泊松分布,二十世纪初卢瑟福和盖克两位科学家在观察与分析放射性物质放出的粒子个数的情况时,他们做了,2608,次观察,(,每次时间为,7.5,秒,),发现放射性物质在规定的一段时间内,其放射的粒子数,x,服从泊松分布,Poisson distribution,Simeon D.Poisson(1781,1840),Research on the Probability,of Judgments in Criminal,and Civil Matters,1837,Ladislaus von Bortkiewicz,(1868,1931):The Law of,Small Numbers,1898,Bortkiewicz,关于泊松分布的例子,收集,1875,到,1894,年的,20,年间，德国普鲁士的,14,个军团士兵被马踢伤因而致死的人数记录，死亡的人数共有,196,人，也就是说平均每年每个军团只有,196/(2014)=0.7,人死亡,x=,每年每团,死亡人数,20,年来,14,个军团,实际出现频数,理论出现频数,280p(x),0,144,139,1,91,97,2,32,34,3,11,8,4,2,1,泊松分布的定义,泊松分布的满足条件,现以放射性脉冲为例：将一段规定时间内平均放射的脉冲数记为,l,，把这段时间分成,n,等份,(n,),，则每小段时间内的平均放射脉冲数为,l,/n,在每小段时间中观察脉冲发生与否，结果只能是“是”与“否”，所以观察结果是一个二分类变量，几乎不会在同一瞬间发生两个或以上脉冲,每小段时间中出现脉冲的可能性大小均为,l,/n,不同时间段内是否有脉冲出现并不受前后时间点的影响，即不同时间段上脉冲的出现是相互独立的,设想每个脉冲所持续的时间都是极短的，时间段数,n,十分大，则在任意时间段出现脉冲的可能性几乎可以忽略（即,l,/n,0,）,所以泊松分布可以归纳为：大量重复而发生可能性很小的贝努利试验序列（也可以理解为,n,很大而,p,很小的二项分布），阳性数,近似,满足泊松分布,泊松分布的满足条件,泊松分布与二项分布的关系,发生数,x,发生概率,P(x),（,p,=18/10,万，,n=1000,；,l,=1.8,）,二项分布计算,泊松分布计算,0,0.165,0,0.165,3,1,0.297,6,0.297,5,2,0.26,80,0.26,78,3,0.160,8,0.160,7,4,0.0723,0.0723,5,0.0260,0.0260,6,0.0078,0.0078,7,0.0020,0.0020,8,0.000,4,0.000,5,9,0.0001,0.0001,10,0.0000,0.0000,泊松分布的特征：图形特点,由于泊松分布的概率值仅仅由自变量,x,与一个固定的常数,l,（参数）决定；所以决定分布形态的参数只有一个：,l,现令,l,分别为,1,、,5,、,10,、,20,、,50,，试描述图形的变化特点,泊松分布的特征：图形特点,类似二项分布图形，泊松分布也是离散分布,在,x=,l,处，泊松分布的概率值最大,由于泊松分布描述的是小概率事件，发生可能性,p,很小，所以分布均为正偏态，即大多数可能情况出现在阳性数小的时候,在,l,较小的时候，分布是不对称的，例如,l,=1,时，而当其大于等于,5,时，就逐渐“对称”起来，“对称”的位置为,x=,l,当,l,20,，泊松分布近似正态分布,泊松分布是二项分布的极端情况（,n,、而,p,0,），所以它的均数与标准差也可以用二项分布的均数与标准差表示,二项分布的均数为,n,p,，故泊松分布的均数也是,n,p,，只不过用平均发生的阳性数,l,代替而已（,l,=n,p,）,在二项分布中，发生阳性数的方差为,n,p,(1-,p,),；而在泊松分布情况下，由于,p,0,，使得,1-,p,1,，,故,n,p,(1-,p,),n,p,=,l,泊松分布的特征：均数与标准差,泊松分布的特征：均数与标准差,泊松分布的均数与方差相等，均为,l,即：,泊松分布的特征：泊松分布的可加性,观察某一现象的发生数时，如果它满足泊松分布，那么把若干个小单位合并为一个大单位后，其合计数亦满足泊松分布；,x,1,P,(l,1,),、,x,2,P,(l,2,),、,x,3,P,(l,3,),、,则,x,1,+x,2,+x,3,P(,l,1,+,l,2,+,l,3,),某放射性物资每,0.1s,放射粒子数服从均数为,2.2,的泊松分布，现随机取,3,次观测结果进行研究，这,3,次的结果分别为每,0.1s,放射,2,、,3,、,4,个离子，请问每,0.3s,放射粒子数为多少？并指出其服从均值为多少的泊松分布？,泊松分布的应用：概率估计,例：如果某地新生儿先天性心脏病的发病率为,8,，那么该地,120,名新生儿中出现,4,例先心患儿的概率有多大？,首先对于每个新生儿，先天性心脏病的发生满足贝努利试验要求；同时它的发生概率很低，而本题的人数相对较多；故既可以用二项分布法计算，也可以用泊松分布法计算,n=120,，,p,=0.008,，,l,=1200.008=0.96,；,泊松分布的应用：累积概率估计,上述例题中，至多有,4,名新生儿患先心的概率有多大？介于,1,3,人的概率有多大？,解：,泊松分布的正态近似性,当,l,较小时，,泊松分布呈偏态分布，随着,l,增大，迅速接近正态分布，当,l,20,时，可以认为,近似正态分布,，这样在计算累积概率时就可以转化为求正态分布的,曲线下面积,，大大简化计算,该正态分布的均数为泊松分布的均数,l,，方差为泊松分布的方差,l,，记为,发生阳性数,x,N(l,，,l),泊松分布正态近似法计算累积概率,实验显示某放射性物质半小时内的脉冲数服从泊松分布，平均为,360,个；估计该物质半小时释放的脉冲数超过,400,个的概率？,由于本例中脉冲数的均数大于,20,，故可以采用正态近似法估计累计概率,解：,泊松分布总体参数的估计,查表法：当样本阳性数不超过,50,时，查附表,7,正态近似法：当样本阳性数超过,50,时,泊松分布资料的假设检验,一般人群食管癌的发生率为,8/,万，某研究者在当地随机抽取,500,人，结果,3,人患食管癌，请问能否据此认为当地食管癌高于一般？,这个问题实际上是一个样本率与总体率比较的假设检验；可以用前面介绍的求二项分布累积概率的方法分析,泊松分布资料的假设检验,泊松分布资料的假设检验,卫生标准规定儿童化妆品含细菌数不超过,500,个,ml,为合格品，现检测此种儿童化妆晶,1 ml,，发现菌数,450,个，问此种化妆品是否合格？,泊松分布资料的假设检验,泊松分布资料的假设检验,泊松分布资料的假设检验,甲、乙检验师分别观察,15,名正常人的末梢血嗜碱性白细胞数量；每张血涂片均观察,200,个视野，结果甲计数,26,个，乙计数,29,个，问两位检验师检查结果是否一致？,泊松分布资料的假设检验,泊松分布资料的假设检验,泊松分布资料的假设检验,某车间改革工艺前，测量三次粉尘浓度，每升空气中分别有,39,、,29,、,36,颗粉尘；改进工艺后测量两次，分别为,25,、,18,颗；问工艺改革前后粉尘数有无差别？,泊松分布资料的假设检验,泊松分布资料的假设检验,泊松分布资料的假设检验,泊松分布资料的假设检验,泊松分布资料的假设检验,如果两个样本资料都暂时无法满足正态，依据泊松分布的可加性原理，则可以通过增加重复次数，使之达到满足正态的条件，而后进行,u,检验,例如上述例题中改革前测量了一次为,8,颗粉尘,/,升，改革后也测量一次为,3,颗粉尘,/,升；问改革前后是否有别？,泊松分布资料的假设检验,两组资料均无法满足正态，可以分别对改革前后重复测量数次，例如改革前又测量了,2,次，分别为,6,颗,/,升、,7,颗,/,升；改革后又测量了,4,次，分别为,3,颗,/,升、,4,颗,/,升、,6,颗,/,升、,4,颗,/,升；这样改革前每三升空气的粉尘颗粒数就可以近似表达为正态分布,N(21,21),，而改革后每,5,升空气的粉尘颗粒数近似表达为正态分布,N(20,20),；然后依据上述例题将它们化为相同单位，用,u,检验分析,请注意，不可直接将改革前第一次测量的结果,8,颗,/,升直接乘以,3,，得到每三升的颗粒为,24,颗,/,升；因为并非每次测量的结果都是,8,颗,/,升（,8,颗,/,升仅仅是一次样本的数据，并不代表每升的总体均数也是,8,）,泊松分布资料的假设检验,本章小结,两种不同的概率分布的定义、满足条件,图形特点、分布的参数,不同概率分布的应用,两种分布间的联系与正态近似,

展开阅读全文