1、Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,第七章 二项分布与,Poisson,分布,目 录,第二节,Poisson,分布及其应用,第一节,二项分布及其应用,第一节 二项分布及其应用,一、二项分布的概念及应用条件,二项分布,(,binominal distribution,),是一种重要的离散型分布,在医学上常遇到属于两分类的资料,每一观察单位只具有相互独立的一种结果,如检查结果的阳性或阴性,动物试验的生
2、存或死亡,对病人治疗的有效或无效等。,二项分布,也称为贝努里分布(,Bernoulli distribution,),或贝努里模型,是由法国数学家,J.Bernoulli,于,1713,年首先阐述的概率分布。,如果已知发生某一结果(如阳性)的概率为,,其对立结果(阴性)的概率为,(,1-,),,且各观察单位的观察结果相互独立,互不影响,则从该总体中随机抽取,n,例,其中出现阳性数为,X,(,X,=0,1,2,3,,,n,),的概率服从二项分布。,贝努里模型应具备下列三个基本条件,试验结果只出现对立事件,A,或,两者只能出现其中之一。这种事件也称为互斥事件。,试验结果是相互独立,互不影响的。例如
3、一个妇女生育男孩或女孩,并不影响另一个妇女生育男孩或女孩等。,每次试验中,出现事件,A,的概率为,,而出现对立事件的概率为,-,。则有总概率,+,(,1-,),=1,。,二、二项分布的概率函数,根据贝努里模型进行试验的三个基本条件,可以求出在,n,次独立试验下,事件,A,出现的次数,X,的概率分布。,X,为离散型随机变量,其可以取值为,0,1,2,n,。,则,X,的概率函数为:,X,=0,1,2,n,式中:,01,,,为组合数,上述公式称随机变量,X,服从参数为,n,,,的二项分布,则记为,X,B(n,),。,三、二项分布的性质,1.,二项分布的每种组合的概率符合二项展开式,其总概率等于,1
4、二项展开式有以下特点:,(,1,),展开式的项数为,n,+1,。,(,2,),展开式每项,和(,1-,)指数之和为,n,。,(,3,),展开式每项,的指数从,0,到,n,;(,1-,)的指数从,n,到,0,。,2.,二项分布的累积概率 设,m,1,X,m,2,(,m,1,m,2,),则,X,在,m,1,至,m,2,区间的累积概率有:,至多有,x,例阳性的概率为:,至少有,x,例阳性的概率为:,X,=0,1,2,,,,,x,(7.4),X,=,x,,,x,+1,,,,,n,分别为下侧累计概率,和上侧累计概率。,3.,二项分布的概率分布图形,以,X,为横坐标,,P,(,X,),为纵坐标,在坐标纸
5、上可绘出二项分布的图形,由于,X,为离散型随机变量,二项分布图形由,横坐标上孤立点的垂直线条组成,。,二项分布的图形取决于与,n,的大小。当,n,充分大时,二项分布趋向对称,可以证明其趋向正态分布。,一般地,如果,n,之积大于,5,时,分布接近正态分布;当,n,5,时,图形呈偏态分布。当,=0.5,时,图形分布对称,近似正态。如果,0.,5,或距,0.5,较远时,分布呈偏态。,图,二项分布示意图,4.,二项分布的数字特征,(,这里的数字特征主要指总体均数、方差、标准差等参数),(,1,)随机变量,X,的数学期望,E,(,X,),,即指总体均数:,n,(,2,)随机变量,X,的方差,D,(,X,
6、2,为:,(,3,),随机变量,X,的标准差为,:,四、二项分布展开式各项的系数,二项分布展开式的各项之前均有一个系数,用组合公式来表示。计算公式为:,该,系数,也可用杨辉三角来表示,国外参考书习惯称之为,巴斯噶三角。,当试验次数,n,较小时,可直接利用杨辉三角将二项分布展开式各项的系数写出来,应用十分方便。,图,杨辉三角模式图,杨辉三角的意义:,杨辉三角中每行有几个数字,表示展开式有几项。当试验次数为,n,时,有,n,+1,项。,杨辉三角中每行中的数字表示展开式中每项的系数大小。,杨辉三角中的各数字项及其数字的排列很有规律。可依照规律继续写下去。第一行的第一、第二项均为数字,以后每下一行
7、的首项及末项均为,中间各项为上一行相邻两项数字之和。,五、二项分布的应用,二项分布在医学领域中,主要应用在下列几个方面:,总体率的可信区间估计,,率的,u,检验,,样本率与总体率比较的直接计算概率法。,(一)应用二项分布计算概率,例,如出生男孩的概率,=0.5,,出生女孩的概率为(,1-,),=0.5,。在一个妇产医院里有,3,名产妇分娩,3,名新生儿,其中男孩为,X=0,1,2,3,的概率按公式计算的结果列于表,7-1,的第(,3,)栏中。,分析,:根据题意,已知生育男孩为事件,A,,,其概率,P,(,A,),=0.5,(即,=0.5,);,生育女孩为事件,A,-,,其概率为,P,(A-)=
8、1-,P,(,A,),=1-0.5,0.5,(,即,1-,=0.5,)。,三个妇女生育一个男孩,两个女孩的概率为:,三,个妇女生育均为女孩(即无男孩)的概率为:,余类推,(,二,),样本率与总体率的比较的直接概率法,此法适用,n,和,n,(1-,),均小于,5,的情形。,应注意:,当样本率大于总体率时,应计算大于等于阳性人数的累积概率。,当样本率小于总体率时,应计算小于等于阳性人数的累积概率。,例,A,药治疗某病的有效率为,80,。对,A,药进行改进后,用改进型,A,药继续治疗病人,观察疗效。,如果用改进型,A,药治疗,20,例病人,,19,例有效。,如果用改进型,A,药治疗,30,例病人,,
9、29,例有效。,试分析上述二种情形下,改进型,A,药是否疗效更好。,分析,:,A,药有效率为,80,,可以作为总体率,即,0,0.8,。,治疗,20,例病人的样本有效率为(,19,20,),100,95,;治疗,30,例病人的样本有效率为(,29,30,),100,96.67,。,两个样本率均大于总体率,80,,故应计算大于等于有效例数的单侧累积概率。,情形一:治疗,20,例病人的疗效分析,(,1,)建立检验假设,H,0,:,改进型,A,药的疗效与原,A,药相同,,0,0.80,H,1,:,改进型,A,药的疗效高于原,A,药,,0,0.80,单侧,0.05,(,2,),计算概率值 根据二项分布
10、有:,=0.0548+0.0115=0.0663,情形二,:治疗,30,例病人的疗效分析(,1,)检验假设同情形一。(,2,)计算单侧累积概率有:,(,3,)推断结论 本例,P,0.0663,0.05,在,0.05,检验水准上,不拒绝,H,0,。,尚不能认为改进型,A,药的疗效优于原,A,药。,=,0.008975+0.001238=0.0102,(,3,),推断结论,本例,P,0.0102,在,0.05,水准上,拒绝,H,0,接受,H,1,。,可以认为改进型,A,药的疗效优于原,A,药。,注意,:治疗,20,例病人的有效率为,95,,治疗,30,例病人的有效率为,96.67,,两个样本有效率
11、很接近。但最终得出的结论却不相同。一般地,临床上观察疗效,样本含量不能太小。随着观察例数的增加,疗效的稳定性及可靠性也相应增加,受到偶然因素影响的机会也变得较小。,分析,:,本例总体率,1,。调查人群样本反应率为(,1,300,),100,0.33,。由于样本率小于总体率,故应计算小于等于阳性人数的累积概率。,例,一般人群对,B,药的副作用反应率为,1,。调查使用,B,药者,300,人,其中只有,1,人出现副作用。问该调查人群对,B,药的副作用反应率是否低于一般人群。,(,1,),建立检验假设,H,0,:,调查人群反应率与一般人群相同,,0,0.01,H,1,:,调查人群反应率低于一般人群,,
12、0,0.01,单侧,0.05,(,2,),计算单侧累积概率,:,(,3,),推断结论,本例,P,0.1976,在,0.05,水准上,不拒绝,H,0,。,尚不能认为调查人群的,B,药副作用反应率低于一般人群。,第二节,Poisson,分布及其应用,一、,Poisson,分布的概念及应用条件,(,一,)Poisson,分布的概念,Poisson,分布由法国数学家,S.D.Poisson,在,1837,年提出。该分布也称为,稀有事件模型,,或,空间散布点子模型。,在生物学及医学领域中,某些现象或事件出现的机会或概率很小,这种事件称为,稀有事件或罕见事件,。,稀有事件出现的概率分布服从,Poisson
13、分布。,Poisson,分布的直观描述,:,如果稀有事件,A,在每个单元(设想为,n,次试验)内平均出现,次,那么在一个单元(,n,次)的试验中,稀有事件,A,出现次数,X,的概率分布服从,Poisson,分布。,Poisson,分布属于离散型分布,。在,Poisson,分布中,一个单元可以定义为是单位时间,单位面积,单位体积或单位容积等。如每天,8,小时的工作时间,一个足球场的面积,一个立方米的空气体积,,1,升或,1,毫升的液体体积,培养细菌的一个平皿,一瓶矿泉水等都可以认为是一个单元。一个单元的大小往往是根据实际情况或经验而确定的。若干个小单元亦可以合并为一个大单元。,(,二,),常见
14、Poisson,分布的资料,在实际工作及科研中,判定一个变量是否服从,Poisson,分布仍然,主要依靠经验以及以往累积的资料,。以下是常见的,Poisson,分布的资料:,1.,产品抽样中极坏品出现的次数;,2.,枪打飞机击中的次数;,3.,患病率较低的非传染性疾病在人群中的分布;,4.,奶中或饮料中的病菌个数;,5.,自来水中的细菌个数;,6.,空气中的细菌个数及真菌饱子数;,7.,自然环境下放射的粒子个数;,8.,布朗颗粒数;,9.,三胞胎出生次数;,10.,正式印刷品中错误符号的个数;,11.,通讯中错误符号的个数;,12.,人的自然死亡数;,13.,环境污染中畸形生物的出现情况;,
15、14.,连体婴儿的出现次数;,15.,野外单位面积某些昆虫的随机分布;,16.,单位容积内细胞的个数;,17.,单位空气中的灰尘个数;,18.,平皿中培养的细菌菌落数等。,二、,Poison,分布的概率函数及性质,定义,其中,0,,,则称,X,服从参数,为的,Poisson,分布。,记为,X,P,(),。,式中:,为总体均数,,n,或,=,np,;,X,为稀有事件发生次数;,e,为自然底数,即,e,=2.71828,。,(,X,=0,1,2,),如果稀有事件,A,在每个单元(设想为,n,次试验)内平均出现,次,那么在一个单元(,n,次)的试验中,稀有事件,A,出现次数,X,的概率分布服从,Po
16、isson,分布。,亦可用下列公式计算,P,(,0,),=,e,(,二,),性质,1.,所有概率函数值(无穷多个)之和等于,1,,即,2.,分布函数,(,X,=0,1,2,x,),(,0,x,1,x,2,),3.,累积概率,4.,其它性质,总体均数,:,方差:,标准差:,n(,或,np,),2,(三),Poisson,分布的图形,一般地,,Poisson,分布的图形取决于,值的大小。,值愈小,分布愈偏;,值愈大,分布愈趋于对称。,当,20,时,,,分布接近正态分布,。此时可按正态分布处理资料。,当,50,时,分布呈正态分布。,。这里通过计算一个具体实例来观察,Poisson,分布的概率分布趋势
17、图,Poisson,分布的概率分布图,例,计算,Poisson,分布,X,P,(3.5),的概率。,余类推。经计算得到一系列数据,见表。,表,X,P,(,3.5,),的,Poisson,分布,(四),Poisson,分布的可加性,从同一个服从,Poisson,分布的总体中抽取若干个样本或观察单元,分别取得样本计数值,X,1,,,X,2,,,X,3,,,,,X,n,,,则,X,i,仍然服从,Poisson,分布,。根据此性质,若抽样时的样本计数,X,值较小时,可以多抽取几个观察单元,取得计数,X,i,将其合并以增大,X,计数值。,三、,Poisson,分布与二项分布的比较,Poisson,分
18、布也是以贝努里模型为基础的。实际上,,Poisson,分布是二项分布的一种特殊情形,,即稀有事例,A,出现的概率很小,而试验次数,n,很大,也可将试验次数,n,看作是一个单元。此时,,n,或,np,=,为一个常数,二项分布就非常近似,Poisson,分布。,p,愈小,,n,愈大,近似程度愈好。,设,1,。当,n,=100,=0.01,时,及,n,=1000,=0.001,时,按照二项分布及,Poisson,分布计算概率,P,(,X,)。,表 二项分布与,Poisson,分布计算的概率值比较,余类推。,1.,按二项分布计算,已知:,n,=100,=0.01,1,=0.99,,,代入公式有,:,2
19、按,Poisson,分布计算 代入公式有:,余类推。,(四),Poisson,分布的应用,Poisson,分布有,多种用途。,主要包括总体均数可信区间的估计,,样本均数与总体均数的比较,,两样本均数的比较等。,应用,Poisson,分布处理医学资料时,一定要注意所处理资料的特点和性质,资料是否服从,Poisson,分布,。,(一)总体均数的估计,总体均数的估计包括,点估计和区间估计。,点估计,是指由样本获得的稀有事件,A,出现的次数,X,值,作为总体均数的估计值。该法的优点是计算简便,但缺点是无法得知样本代表总体均数的可信程度。,区间估计,可以确切获知总体均数落入一个区域的可信度,一般可信
20、度取,95,或,99,。,估计总体均数可信区间一般分为小样本法和大样本法。,1.,小样本法,当样本均数或样本计数值,X,50,时,可直接查,“,Poisson,分布的可信区间,”,表,得到可信区间(略)。,2.,正态近似法,当样本均数或计数,X,50,时,可按正态分布法处理。,总体均数,95,的可信区间为,总体均数,99,的可信区间为,例,某防疫站检测某天然水库中的细菌总数。平均每毫升,288,个细菌菌落。求该水体每毫升,95,和,99,的可信区间。,应用公式有:,95,的可信区间,=,(,255.74,,,320.26,),99,的可信区间,=,(,244.22,,,331.78,),(1)
21、发病人数的,95,可信区间为:,例,调查,1985,年某市某区,30,万人,流行性出血热发病人数为,204,人。求该市发病人数及发病率(,1,10,万),95,的可信区间。,分析:已知样本均数,X,为,204,人,观察单元,n,30,万人。先计算出发病人数的可信区间,再按照发病率的要求以,10,万人作为观察单元,计算发病率可信区间的上下限值。,=,(,176,,,232,),(2),发病率的,95,可信区间为:,上限值:,下限值:,(二)样本均数与总体均数的比较,常用的方法有两种。,直接计算概率法:与二项分布的计算思路基本相同。即当,20,时,按,Poisson,分布直接计算概率值。,正态近
22、似法:当,20,时,,Poisson,分布接近正态分布。按正态分布使用,u,检验处理资料。,1.,直接计算概率法,例,某地区以往胃癌发病率为,1,万。现在调查,10,万人,发现,3,例胃癌病人。试分析该地区现在的胃癌发病率是否低于以往的发病率。,H,0,:,现在胃癌发病率与以往相同,,0,=0.0001,H,1,:,现在胃癌发病率低于以往,,0,单侧,0.05,(,2,)计算概率值,已知:,n,=100000,,,=,0.0001,,,n,=,1000000.0001=10,。,根据题意,应计算小于等于,3,人发病的概率,P,(,X,3,),,即:,P,(,X,3,),P,(0),P,(1)+
23、P,(2)+,P,(3),(,3,)推断结论,本例,P,0.0103,,,小于,P,0.05,。在,0.05,水准上拒绝,H,0,,,接受,H,1,。,可以认为现在该地区胃癌发病率低于以往发病率。,2,正态近似法 当,20,时,用,u,检验法,例,根据医院消毒卫生标准,细菌总数按每立方米菌落形成单位(,CFU,m,3,),表示。无菌间的卫生标准为细菌菌落数应不大于,200,(,CFU,m,3,)。,某医院引进三氧消毒机,每天自动对无菌间进行,2,小时消毒。对无菌间抽样调查显示,细菌总数为,121CFU,m,3,。,试问该医院无菌间的细菌总数是否低于国家卫生标准。,(1),建立检验假设,H,0
24、无菌间的细菌总数符合国家卫生标准,,=,0,=200,H,1,:,无菌间的细菌总数低于国家卫生标准,,u,0,.,05,故,P,0.05,。,推断结论 因,P,u,0.001,故,P,0.001,。,推断结论,因,P,0.001,,,拒绝,H,0,接受,H,1,差异有统计学意义。,可以认为,该风景区两个不同地点的空气负离子状况有差异。,例,调查某地区人群死亡状况。结果显示,男性及女性的意外死亡率分别为,62,人,10,万人和,72,人,10,万人。试分析男女意外死亡率有无差异。,分析:,该资料服从,Poisson,分布,每,10,万人可以作为一个观察单元。,(,1,)建立检验假设,H,0
25、男女意外死亡率相等,,H,1,:,男女意外死亡率不相等,,=0.05,(3,)确定,P,值,推断结论,本例,u,=0.86,小于,u,0.05,=1.96,则,P,0.05,。,在,0.05,水准上,不拒绝,H,0,,,无统计学意义。可以认为男女性意外死亡率无差异。,(,2,)计算,u,值:,例,某医院使用一定方法对住院病房进行消毒,并检测某一病房消毒前后的细菌菌落数(,CFU,m,3,)。,消毒前后均检测,9,次。消毒前的菌落数为,18,10,9,15,5,2,6,5,2,。消毒后的菌落数为,5,,,4,,,5,,,6,,,7,,,2,,,3,,,2,,,1,。试分析该病房消毒前后的卫
26、生状况有无差异。,分析:,该资料服从,Poisson,分布。根据,Poisson,分布的可加性,将,9,次取样的菌落数相加为一个观察单元。消毒前为,X,1,72,;,消毒后为,X,2,35,。,(,1,)建立检验假设,H,0,:,消毒前后菌落数相等,,1,=,2,H,1,:,消毒前后菌落数不等,,1,2,=0.01,(,2,),计算,u,值:,(3),确定,P,值,,推断结论 本例,u,=3.58,,,大于,u,0.01,=2.58,,则,P,0.01,。在,0.01,水准上拒绝,H,0,,,接受,H,1,。,可以认为该病房消毒前后的卫生状况不同。,2,两样本观察单元不同,当两样本观察单元不同
27、时,不可直接比较或直接相加后进行比较。一般可计算两样本均数和,再按下式计算,u,值。,例,某防疫站检验某商场的两种品牌的矿泉水。检测每,ml,的细菌总数(,CFU,ml,)。,品牌,A,抽查,4,瓶,结果为,132,,,156,,,182,,,143,;品牌,B,抽查,6,瓶,结果为,313,,,298,,,356,,,384,,,348,306,。试分析,A,、,B,两种品牌矿泉水的细菌总数有无差异。,分析:,本例观察单元不相同,可以先求出均数。,品牌,A,的均数,品牌,B,的均数,(,1,)建立检验假设,H,0,:,两种品牌矿泉水菌落数相等,1,=,2,H,1,:,两种品牌矿泉水菌落数不等
28、1,2,=0.05,(,2,),计算,u,值,:,(,3,)确定,P,值,,推断结论 本例,u,=18.66,大于,u,0.01,=2.58,,则,P,0.01,。,可以认为,A,、,B,两种品牌矿泉水受细菌污染程度不同。,(五)应用,Poisson,分布的注意事项,1.Poisson,分布的观察单元具有可加性。当样本均数,X,或样本计数值,20,时,可通过增加或合并观察单元以增大样本均数或样本计数值。当,X,20,时,,Poisson,分布近似正态分布,可按正态分布进行,Poisson,分布均数比较的,u,检验。,2.,Poisson,分布的观察单元可以由大缩小,而不可以由小扩大。例如,实际观察,1,个平皿中的细菌菌落数为,34,个,不能据此将其扩大而认为,10,个平皿的菌落数为,340,个。如果实际观察了,10,个平皿的菌落数为,340,个,可以将其缩小而认为,2,个平皿有,68,个菌落数。,3,判断一组数据或一个资料是否服从,Poisson,分布,主要是依靠以往积累的经验或专业知识。必要时也可进行拟合优度检验以确定资料分布类型。,Thank You for Listening,THE END,






