资源描述
生物统计学教案
第三章 几种常见的概率分布律
教学时间:3学时
教学方法:课堂板书讲授
教学目的:重点掌握正态分布,掌握二项分布,了解泊松分布,中心极限定律。
讲授难点:正态分布、二项分布
3。1 二项分布(重点)
3。1。1 二项分布的概率函数
满足二项分布的条件:
1、在一随机试验中,每次试验都有两种不同的结果。
2、两种结果是互不相容的。
3、每一种结果在每次试验中都有恒定的概率。
4、试验间应是独立的。
独立地将此试验重复n次,求在n此试验中,一种结果出现x次的概率是多少?
例:从雌雄各半的100只动物中抽样,抽样共进行10次,问
其中包括3只雄性动物的概率是多少?包括3只及3只以下的概率是多少?即求P(X=3)和P(X≤3)
该例符合二项分布的条件。规定以下一组符号:
n = 试验次数
x = 在n次试验中事件A出现的次数
φ= 事件A发生的概率(每次试验都是恒定的)
1-φ= 事件发生的概率
p(x) = x的概率函数=P(X=x)
(累积分布函数) F(x) = P( X ≤x )
上例中:n=10 x=3 φ=0.5 求p(3) 和F(3).在一次抽样中抽到的结果为:mmmfffffff,它的概率为
P(mmmfffffff)=φ3(1-φ) 7
抽到3雄7雌的数目相当于从10个元素中抽出3个元素的组合数
对于任意n和x有以下通式:
上式称为二项分布的概率函数。该式正是二项展开式的第x+1项,因而产生“二项分布”这一名称.因为φ+(1-φ)=1,所以
将x=0,1,2,3,代入二项分布概率函数,可以得出出现0,1,2,3只雄性动物的概率。
P(0)= 0.0009766 P(1)= 0。0097656
P(2)= 0.0439453 P(3)= 0。1171876
抽到3只和3只以下雄性动物的概率为:
F(3)=P(0)+P(1)+P(2)+P(3)
=0.1718751
3。1.2 服从二项分布的随机变量的特征数
平均数: μ=nφ 或 μ=φ
方差: σ2=nφ(1-φ) 或
3。1.3 二项分布应用实例
例1 以杂合基因型Wvwv的小鼠为父本,隐性纯合子小鼠wvwv为母本杂交(wv波浪毛,Wv直毛),后代两种基因型的数目应各占一半。实验只选每窝8只的,多于8只和少于8只的都淘汰.结果列在下表中。
直毛后代数 观测频数
(x) (f) fx fx2 p(x) Np(x)
0 0 0 0 0。003906 0.124992
1 1 1 1 0.031250 1.000000
2 2 4 8 0.109375 3.500000
3 4 12 36 0。218750 7.000000
4 12 48 192 0。273437 8.749984
5 6 30 150 0。218750 7.000000
6 5 30 180 0.109375 3.500000
7 2 14 98 0。031250 1.000000
8 0 0 0 0。003906 0.124992
总数 N=32 139 665 0.999999 31。99968
样本平均数、总体平均数;样本方差、总体方差如下:
例2 遗传学中单因子杂交RR×rr,F1代为Rr,F1自交,F2基因型比符合二项分布。在F2中P(R)=φ=1/2,P(r)=1-φ=1/2,n=2。展开二项式:
对于两对因子,n=4
在为人类或动物遗传学研究中,为了保证实验顺利完成,在制定试验计划时,首先要以指定概率求出所需样本含量n。
例3 用棕色正常毛(bbRR)的家兔和黑色短毛(BBrr)兔杂交,F1代为黑色正常毛长的家兔(BbRr), F1代自交,F2代表型比为:9/16B_R_ : 3/16B_rr : 3/16bbR_ : 1/16bbrr。问最少需要多少F2代家兔,才能以99%的概率得到一个棕色短毛兔?
答: φn =(15/16)n = 0.01
n(lg15-lg16)= lg0。01
-0。02803n =-2。00000
n =71.4
3.2 泊松分布
3。2.1 泊松分布的概率函数
在二项分布中,当某事件出现的概率特别小(φ→0),而样本含量又很大(n→∞)时,二项分布就变成泊松分布了.泊松分布是描述在一定空间、长度、面积、体积或一定时间间隔内,点子散布状况的理想化模型。泊松分布的概率函数为:
3.2.2 服从泊松分布的随机变量的特征数
泊松分布的平均数: μ= μ
可见,泊松分布的平均数就是泊松分布概率函数中的μ。
泊松分布的方差: σ2= μ
概率函数中的μ不但是它的平均数,而且是它的方差.
3.2。3 泊松分布应用实例
例1 在麦田中,平均每10m2有一株杂草,问每100m2麦田中,有0株、1株、2株、…杂草的概率是多少?
解: 先求出每100m2麦田中,平均杂草数μ
μ= 100/10= 10株
将μ代入泊松分布的概率分布函数中,
p(x) = 10x/x!e10,
即可求出x= 0,1,2,… 时所相应的概率。结果如下:
x ≤5 6 7 8 9 10
p(x) 0。0671 0。0631 0.0901 0.1126 0.1251 0.1251
11 12 13 14 ≥15
0.1137 0。0948 0.0729 0.0521 0.0835
例2 绘制遗传连锁图时,制图函数是通过泊松分布推演出的。在一对同源染色体之间交换的出现是服从泊松分布的,将x=0代入泊松分布的概率函数中,
得出两基因座之间无交换出现的概率.两基因座之间至少出现一次交换的概率P(x≥1) = 1-e—μ。从遗传学理论可知,在两基因座之间大于等于1的任何有限次交换其重组频率恒等于50%。因此重组率
解出两基因座之间的平均交换次数
μ= -ln(1-2RF )
两基因座之间平均交换一次,其图距为50m.u.,从而可以得出图距
MD=-50ln(1-2RF)
3。4 正态分布(重点)
3.4。1 正态分布的密度函数和分布函数
对于平均数是μ,标准差是σ的正态分布,其密度函数为:
正态分布密度函数的图象称为正态曲线
正态分布曲线
以符号N(μ,σ2)表示平均数为μ,标准差为σ2的正态分布。
随机变量X的值落在任意区间(a,b)内的概率
累积分布函数
3.4。2 标准正态分布
当μ=0,σ=1时的正态分布称为标准正态分布,标准正态分布记为N(0,1).标准正态分布的密度函数为:
标准正态分布的分布曲线如下图
标准正态分布曲线
累积分布函数分布图如下:
标准正态分布的累积分布曲线
标准正态分布有以下特性:
1、在u=0时φ(u)达到最大值。
2、当u不论向哪个方向远离0时,φ(u)的值都减小.
3、曲线两侧对称。
4、曲线在u=-1和u=1处有两个拐点。
5、曲线与横轴所夹面积等于1。
6、累积分布曲线围绕点(0,0.5)对称。
3。4。3 正态分布表的查法
为了简化计算,随机变量(U)的值(u)落在区间(a,b)内的概率,根据标准正态累积分布函数,已经把不同u值的Ф(u)值列成表(附表2),称为正态分布表.根据以下关系式可以扩展正态分布表的使用范围。
例1 查u=-0.82及u=1.15时的Ф(u)值。
解:Ф(—0.82)=0。20611
Ф(1.15)=0.87493
例2 随机变量U服从正态分布N(0,1),问随机变量的值落在0,1.21间的概率是多少?落在-1.96,1.96间的概率是多少?
解:
1) P(0<U<u)
= Ф(1。21)-0.5
=0.88686-0.5000
=0。38686
2)
P(|U|<u)
=1—2Ф(—u)
=1-Ф(—1。96)
=1-0.05000
=0.95000
对于服从N(μ,σ2)的随机变量X,首先要进行标准化变换,使之变为标准正态分布,再按上述方法查表。变换的方法是:
对于随机变量X
在对x进行标准化变换后,即可从正态分布表中查出相应的概率值。
例3 已知高粱品种“三尺三”的株高X服从正态分布N(156.2,4。822),求:1)X〈161厘米的概率;2)X>164厘米的概率;3)X在156-162厘米间的概率.
解:
3。4。4 正态分布的单侧临界值
附表3给出了满足P (U 〉 uα) =α时的uα值。即曲线右侧尾区一定面积(α)下,所对应的u值uα,uα称为α的上侧临界值.
对于左侧尾区,满足P (U <-uα) =α时的-uα值,称为α的下侧临界值。
将α平分到两个尾区,每一尾区的曲线下面积只有α/2,满足P (|U| > uα/2) =α时的uα/2称为α的双侧临界值.
正态分布的单侧(上侧)和双侧临界值
3。6 中心极限定理
假设所研究的随机变量X可以被表示为许多相互独立的随机变量Xi的和,如果Xi的数量很大,而且每一个别的Xi对于X所起的作用很小,则可以认为X服从或近似地服从正态分布。
推理:若已知总体平均数为μ,标准差为σ,那么,不论该总体是否正态分布,对于从该总体所抽取的含量为n的样本,当n充分大,其平均数渐近服从正态分布N(μ,σ2/n)。
31
展开阅读全文