1、第五章第五章二项分布及其应用二项分布及其应用 随随机机变变量量有有连连续续型型和和离离散散型型之之分分,相相应应的其概率分布也有连续型和离散型。的其概率分布也有连续型和离散型。有有关关连连续续型型分分布布如如正正态态分分布布、t分分布布等等在前面的章节中已作了介绍。在前面的章节中已作了介绍。本本章章主主要要介介绍绍在在医医学学中中较较为为常常用用的的离离散散型分布,即型分布,即二项分布二项分布分布。分布。二项分布由瑞士数学家贝努利在二项分布由瑞士数学家贝努利在18世纪世纪提出,故又叫贝努利分布,是常见的离散型提出,故又叫贝努利分布,是常见的离散型分布,在医学上常用于率的抽样研究,如总分布,在医
2、学上常用于率的抽样研究,如总体率的估计,两样本率的比较。体率的估计,两样本率的比较。第一节第一节二项分布及其应用二项分布及其应用贝努利试验:指只有两个互斥结果的试验。贝努利试验:指只有两个互斥结果的试验。如阳性与阴性,生存与死亡,发病与未发如阳性与阴性,生存与死亡,发病与未发病。病。n次贝努利试验指重复进行次贝努利试验指重复进行n次独立的贝努次独立的贝努利试验。又叫利试验。又叫贝努利试验序列贝努利试验序列。贝努利贝努利试验序列特点试验序列特点每每次次试试验验的的结结果果只只能能是是2个个互互相相对对立立结结果中的一个。果中的一个。n个观察单位的结果相互独立。个观察单位的结果相互独立。在在相相同
3、同条条件件下下,每每次次试试验验结结果果的的概概率率不变。不变。二项分布(二项分布(binomialdistribution)是是指在指在n次次Bernoulli试验中,当每次试验的试验中,当每次试验的“阳性阳性”概率保持不变时,概率保持不变时,出现出现“阳性阳性”的次的次数数X=0,1,2,n的概率分布。的概率分布。即:贝努利实验序列中阳性数的概率分布。即:贝努利实验序列中阳性数的概率分布。一般用一般用XB(n,)表示二项分布,表示二项分布,n n是试验总次数,是试验总次数,是试验结果为阳性的概率。是试验结果为阳性的概率。组组合合(Combination):从从n个个元元素素中中抽抽取取x个
4、个元元素素组组成一组(不考虑其顺序)的组合方式个数记为成一组(不考虑其顺序)的组合方式个数记为复习中学数学概念复习中学数学概念概率计算的两个法则概率计算的两个法则乘法法则:乘法法则:n个个独立事件独立事件同时发生的概同时发生的概率等于各独立事件概率的积。率等于各独立事件概率的积。P(A1A2An)=P(A1)P(A2)P(An)加法法则:加法法则:n个个互不相容事件互不相容事件之和的概率之和的概率等于各事件概率的和。等于各事件概率的和。P(A1或或A2或或或或An)=P(A1)+P(A2)+P(An)二项分布的定义二项分布的定义二项分布是二项分布是n次次贝努利试验贝努利试验中发生某种结果中发生
5、某种结果为为x次的概率分布。次的概率分布。这种结果(事件这种结果(事件A)A)出现的次数出现的次数X X是一个随机是一个随机变量,一般用变量,一般用XB(n,)表示二项分布,表示二项分布,n n是是试验总次数,试验总次数,是是试验结果为阳性的概试验结果为阳性的概率。率。例:设小白鼠接受某种毒物一定剂量时。例:设小白鼠接受某种毒物一定剂量时。其死亡率为其死亡率为80%,对于每只小白鼠来说,对于每只小白鼠来说,死亡概率死亡概率()为为0.8,生存概率(,生存概率(1)为为0.2。如果以甲乙丙三只小白鼠进行实验,。如果以甲乙丙三只小白鼠进行实验,分析其死亡情况分析其死亡情况,结果见下表。(假设小白结
6、果见下表。(假设小白鼠为同种属、同性别、体重接近、对该药鼠为同种属、同性别、体重接近、对该药物的敏感性相同物的敏感性相同)由于实验是逐只进行的,因此实验结果是相互独由于实验是逐只进行的,因此实验结果是相互独由于实验是逐只进行的,因此实验结果是相互独由于实验是逐只进行的,因此实验结果是相互独立的,根据概率的立的,根据概率的立的,根据概率的立的,根据概率的乘法法则乘法法则乘法法则乘法法则,可以算出每种排列方式,可以算出每种排列方式,可以算出每种排列方式,可以算出每种排列方式的概率,从而用的概率,从而用的概率,从而用的概率,从而用加法法则加法法则加法法则加法法则得到每种组合的概率。得到每种组合的概率
7、得到每种组合的概率。得到每种组合的概率。现现关心的是关心的是n次次贝努利试验贝努利试验中发生某种结果中发生某种结果(A)(A)为为x次的概率次的概率,即二项分布的概率函数:即二项分布的概率函数:组合系数组合系数3只白鼠各种试验结果及其发生概率只白鼠各种试验结果及其发生概率生存数生存数死亡数死亡数排列排列每种排每种排每种组合的概率每种组合的概率方式方式列概率列概率30(1-)321X(1-)2X(1-)2X(1-)212XX2(1-)XX2(1-)XX2(1-)03XXX3 p=1 二项分布下二项分布下最多发生最多发生k例例阳性的概率为发生阳性的概率为发生0例例阳性、阳性、1例阳性、例阳性、.
8、直至、直至k例阳性的概率之和。例阳性的概率之和。即:即:p(xk)=P(X=0)+P(X=1)+P(X=k)X=0X=0,1 1,2 2,kk,n n二项分布的累计概率二项分布的累计概率 二项分布下二项分布下至少发生至少发生k例例阳性的概率为发生阳性的概率为发生k例阳性、例阳性、k+1例阳性、例阳性、.、直至、直至n例阳性的概率例阳性的概率之和。即之和。即 p(xk)=p(x=k)+p(x=k+1)+p(x=n)X=kX=k,k+1k+1,k+2k+2,n n 二项分布下发生二项分布下发生k1例及以上到例及以上到k2例例阳性的概阳性的概率为发生率为发生k1例阳性、例阳性、k1+1例阳性、例阳
9、性、.、直至、直至k2例例阳性的概率之和。即阳性的概率之和。即 p(k1 x k2)=p(x=k1)+x(x=k1+1)+x(x=k2)二项分布的均数和标准差二项分布的均数和标准差 二项分布的总体均数二项分布的总体均数 X=n二项分布的总体标准差为二项分布的总体标准差为n(1-)的算术的算术平方根:平方根:例例5.3中,平均死亡数中,平均死亡数为为3*0.8=2.4(只只)标标准差准差为为:按二项分布的概率函数可以绘出其分布图形。按二项分布的概率函数可以绘出其分布图形。图形特征图形特征:取决于:取决于n和和。二项分布的图形二项分布的图形 (1)=0.5时分布对称,时分布对称,0.5分布偏态分布
10、偏态(2)不不接接近近0或或1,n较较大大时时,一一般般地地要要求求n5且且n(1-)5,二二项项分分布布趋趋近近正正态态分布。分布。二项分布的特征为:二项分布的特征为:1.=0.5时,图形对称;时,图形对称;2.0.5,n较小时,图形偏态;较小时,图形偏态;3.0.5,n较大时,图形渐趋对称;较大时,图形渐趋对称;4.n较大较大(如如50),且,且n 5,n(1)5时,二项分布呈近似时,二项分布呈近似正态分布。正态分布。二项分布的应用二项分布的应用二项分布主要用于符合二项分布的分类资二项分布主要用于符合二项分布的分类资料的率的区间估计和假设检验。料的率的区间估计和假设检验。医学领域有许多二分
11、类记数资料符合二医学领域有许多二分类记数资料符合二项分布项分布(传染病和遗传病除外传染病和遗传病除外),但应用时仍,但应用时仍应注意考察是否满足应用条件:应注意考察是否满足应用条件:(1)每次实验只有两类对立的结果;每次实验只有两类对立的结果;(2)n次事件相互独立;次事件相互独立;(3)每次实验某类结果的发生概率是一个常每次实验某类结果的发生概率是一个常数。数。二项分布的应用条件二项分布的应用条件进行统计推断时要知道样本率的分布:进行统计推断时要知道样本率的分布:若若XB(n,),则样本阳性率则样本阳性率p的的概率分布为:概率分布为:其中其中样本率样本率p的总体均数的总体均数 p=x/n=n
12、/n=样本率样本率p的总体标准差的总体标准差(即率的标准误)(即率的标准误)率的标准误的估计值率的标准误的估计值(一)正态近似法:用于(一)正态近似法:用于n50或或np5,且且n(1p)5,则,则 的(的(1)可信区间:)可信区间:(二)查表法:用于(二)查表法:用于n50,p很接近很接近0和和1当阳性当阳性数数Xn/2时时,直接查附表直接查附表3,见见p263;当阳性数当阳性数Xn/2时时,由阴性数由阴性数(nX)查阴性率查阴性率可信区间,用可信区间,用(1阴性率可信区间阴性率可信区间),可得,可得阳性率可信区间。阳性率可信区间。一、一、总体率总体率 的可信区间估计的可信区间估计二、率的假
13、设检验二、率的假设检验(一)样本率与总体率比较(一)样本率与总体率比较比较的目的是推断该样本所代表的未知总比较的目的是推断该样本所代表的未知总体率体率与已知的总体与已知的总体率率0是否相等。是否相等。(二)两样本率比较的(二)两样本率比较的u检验检验比较的目的是推断该两样本率所代表的总比较的目的是推断该两样本率所代表的总体率体率1与总体率与总体率2是否相等。是否相等。(一)样本率与总体率比较(一)样本率与总体率比较1、直接计算概率法、直接计算概率法当当阳阳性性数数x较较小小时时,可可直直接接计计算算二二项项分分布布的的累累计计概概率率(单侧)(单侧)进行单侧的假设检验。进行单侧的假设检验。例例
14、1据据以以往往经经验验,新新生生儿儿染染色色体体异异常常率率一一般般为为1%,某某医医院院观观察察了了当当地地400名名新新生生儿儿,只只有有1例例异异常常,问问该该地地新新生生儿儿染染色色体体异异常常率率是是否否低低于于一般?一般?H0:=0.01H1:0.05不拒绝不拒绝H0例例2据据报报道道,对对输输卵卵管管结结扎扎了了的的育育龄龄妇妇女女实实施施壶壶腹腹部部-壶壶腹腹部部吻吻合合术术后后,受受孕孕率率为为0.55。今今对对10名名输输卵卵管管结结扎扎了了的的育育龄龄妇妇女女实实施施峡峡部部-峡峡部部吻吻合合术术,结结果果有有9人人受受孕孕。问问实实施施峡峡部部-峡峡部部吻吻合合术术妇妇
15、女女的的受受孕孕率率是是否否高高于于壶壶腹部腹部-壶腹部吻合术?壶腹部吻合术?显然,这是显然,这是单侧检验的问题,检验假设为单侧检验的问题,检验假设为 H0:=0.55 H1:0.55=0.05对对这这10名名实实施施峡峡部部-峡峡部部吻吻合合术术的的妇妇女女,按按0.55的的受受孕孕率率,若若出出现现至至少少9人人受受孕孕的的概概率率大大于于0.05,则,则不不拒绝拒绝H0;否则,否则,接受接受H1。本本例例n=10,=0.55,k=9。按按公公式式(6-12)有有:按按=0.05水水准准,拒拒绝绝H0,接接受受H1,即即认认为为实实施施峡峡部部-峡峡部部吻吻合合术术妇妇女女的的受受孕孕率率
16、要要高高于于壶腹部壶腹部-壶腹部吻合术。壶腹部吻合术。(一)样本率与总体率比较(一)样本率与总体率比较2、正态近似法、正态近似法(n较大)较大)当当=0.5或或n较大,较大,n及及n(1-)均大于均大于5时,时,可用正态近似法进行样本率与总体率,两可用正态近似法进行样本率与总体率,两个样本率比较的个样本率比较的u检验。检验。例例:根根据据以以往往经经验验,一一般般胃胃溃溃疡疡病病患患者者有有20%发发生生胃胃出出血血症症状状,现现某某医医院院观观察察65岁岁以以上上溃溃疡疡病病人人304例例,有有31.6%发发生生胃胃出出血血症症状状,问问老老年胃溃疡病患者是否较容易出血年胃溃疡病患者是否较容
17、易出血?H0:=0.2H1:0.2=0.05u=5.062.58,则,则p50且且nipi5,ni(1pi)5(二)两样本率比较的(二)两样本率比较的u检验检验例例:某某山山区区小小学学男男生生80人人,其其中中肺肺吸吸虫虫感感染染23人人,感感染染率率为为28.75%,女女生生85人人感感染染13人人,感感染染率率为为15.29%,问男女生的肺吸虫感染率有无差别问男女生的肺吸虫感染率有无差别?H0:1=2H1:12=0.05pc=(23+13)/(80+85)=0.2182查查u界界值值表表得得0.01p0.05,拒拒绝绝H0,接接受受H1,而认为而认为第二节第二节Poisson分布及其应用
18、分布及其应用由由法法国国统统计计学学家家Poisson在在1837年年提提出出,也也是是常常见见的的离离散散型型分分布布,常常用用于于研研究究单单位位时时间间(或或面面积积、容容积积)内内某某罕罕见见事事件件的的发发生次数的分布,又称为稀有事件定律。生次数的分布,又称为稀有事件定律。由泊松定理,由泊松定理,n重贝努里试验中重贝努里试验中稀有事件稀有事件出现的次数近似地服从泊松分布出现的次数近似地服从泊松分布.PoissonPoisson分布(分布(Poisson Poisson distributiondistribution)作为二项分布的一种作为二项分布的一种极限情况,已发展成为描述小概率
19、事极限情况,已发展成为描述小概率事件发生规律性的一种重要分布。件发生规律性的一种重要分布。PoissonPoisson分布是描述单位面积、体积、分布是描述单位面积、体积、时间、人群等内稀有事件(或罕见事时间、人群等内稀有事件(或罕见事件)发生数的分布。件)发生数的分布。稀有事件稀有事件Xf相相对频对频数数理理论频论频数数01090.5450.5441650.3250.3312220.1100.101330.0150.021410.0050.003Bortkiewice在在1898年研究了年研究了10个骑兵队中被马个骑兵队中被马踢死的人的频数分布,共观察了踢死的人的频数分布,共观察了20年,得到
20、年,得到200个数据。个数据。医学研究中,医学研究中,单位容积中大肠杆菌数单位容积中大肠杆菌数粉尘在单位容积的数目粉尘在单位容积的数目放射性物质在单位时间内放射质点数放射性物质在单位时间内放射质点数一定人群中患病率很低的非传染性疾病患一定人群中患病率很低的非传染性疾病患病数(或死亡数)的分布。病数(或死亡数)的分布。人群中出生缺陷、多胞胎、染色体异常等人群中出生缺陷、多胞胎、染色体异常等事件的分布。事件的分布。概率函数概率函数在足够多的在足够多的n次贝努利实验中,设随机变量次贝努利实验中,设随机变量X可能的取值为可能的取值为0,1,2,则取各值的概则取各值的概率分布为:率分布为:e为自然对数的
21、底,为自然对数的底,e=2.71828,为大为大于于0的常数,的常数,称称X服从参数服从参数为为 的的Poisson分布,记为分布,记为XP()。习题解答习题解答3.3:本题推断样本所代表的总体是否与某:本题推断样本所代表的总体是否与某已知总体相等。因样本量较小,故用直接已知总体相等。因样本量较小,故用直接概率法。概率法。H0:=0.3=0.3;H1:0.30.3;a=0.05a=0.05在在H0成立的前提下,成立的前提下,1010名病人中死亡人数名病人中死亡人数XB(10,0.3),则有,则有3.6:本题目的是推断样本所在的总体与某:本题目的是推断样本所在的总体与某已知总体是否相同。由于样本含量较大,已知总体是否相同。由于样本含量较大,且且np=63,大于,大于5。故可用正态近似法:。故可用正态近似法:






