1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第
2、二级,第三级,第四级,第五级,*,*,第三章 概率与概率分布,1,本章重点掌握,常用概率分布的特点,附录:常用概率分布数学用表的使用,2,1.概率基础知识,1.,概率的概念,事件,(events),可以预言在一定条件下是否出现的事件:,必然事件,(certain event),U,和,不可能事件,(impossible event),V,在一定条件下,可能发生,也可能不发生的事件:,随机事件,(random event),频率,(Frequencey),设事件,A在n次重复实验中发生了m次,其比值m/n称为事件A发生的频率,记为:,3,频率与概率的关系,_,例,种子总数,(n),10,20,5
3、0,100,200,500,1000,发芽种子数,(m),9,19,47,91,186,459,920,种子发芽率,(m/n),0.900,0.950,0.940,0.910,0.930,0.918,0.920,从图中还可以看出,随着样本量的增大,观测值的波动性逐渐减小并趋于真值。,真值,4,概率,(Probability),某事件,A在n次重复试验中,发生了m次,当试验次数n不断增大时,事件A发生的频率W(A)就越来越接近某一确定件p,于是则定义p为事件A发生的概率,记为:,P,(,A,)=,p,基本性质:,任何事件的概率都在0和1之间,即:0,P,(,A,)1,必然事件的概率等于,1,,P
4、A,)=1,不可能事件的概率等于,0,,P,(,A,)=0,5,统计调查与概率,随机变量:问卷中的项目、样本统计量(、,S,、,P,),随机事件:调查问卷中项目的取值(性别,A,男,B,女),概率:样本量无穷大时,统计汇总得到的频率,6,2.,概率的计算,(1),事件,相互关系,和事件,(sum event),积事件,(product event),互斥事件,(mutually exclusive event),对立事件,(contrary event),独立事件,(independent event),完全事件系,(complete event system),A1+A2+,+An,A
5、1A2,An,AB=V,A+B=U,AB=V,相互独立,互不影响,两两相斥,必然生发其一。,7,(2)概率计算法则,加法定理,(additive theorem),互,斥事件,A和B的和事件的概率等于事件A和事件B的概率之和。,P,(,A,+,B,)=,P,(,A),+,P,(,B,),推理,1:,如果A1、A2、An为n个互斥事件,则其和事件的概率为:,P,(,A1,+,A2,+,An,)=,P,(,A1,)+,P,(,A2,)+,P,(,An,),推理,2:,对立事件A的概率为:,P,(,A,)=1-,P,(,A,),推理,3:,完全事件体系和事件的概率等于1,8,例:,调查某玉米田,一穗
6、株占,67.2%,双穗株占30.7%,空穗株占2.1%,试计算一穗株和双穗株的概率、有穗株的概率。,P,(,A,+,B,)=,P,(,A),+,P,(,B,)=0.672+0.307=0.979,P,(,A,)=1-,P,(,A,)=1-0.021=0.979,9,乘法定理,(multiplicative theorem),如果事件,A和B为独立事件,则事件A与事件B同时发生的概率等于事件A和事件B各自概率的乘积。,P,(,A,B,)=,P,(,A),P,(,B,),推理,1:,如果A1、A2、An 彼此独立,则,P,(,A1,A2,An,)=,P,(,A1,),P,(,A2,),P,(,An
7、),例:,播种玉米时,每穴播种两粒种子,已知玉米种子的发芽率为,90%,试求每穴两粒种子均发芽的概率和一料种子发芽的概率。,10,练习题:,1.每个人的一对第1号染色体分别来自祖母和外祖母的概率是多少?一位男性的X染色体来自外祖父的概率是多少?,2.假如父母的基因型分别为,I,A,I,O,和,I,B,I,O,。他们的两个孩子都是A型血的概率是多少?他们生两个O型血的女孩的概率又是多少?,3.一名神经科医生听取6名研究对象对近期所作梦的叙述,得知其中有3名为忧郁症患者,3名是健康者。现从6名研究对象中选出3名,问:,1)一共有多少种配合?,2)每一种配合的概率?,3)选出忧郁症患者的概率?,4
8、至少选出两名忧郁症患者的概率?,11,3.,概率分布,定义:随机变量所有取值的概率所形成的分布数列或分布图。,例:,500,户家庭人口分布,人口数,户数,频率(概率),1,2,3,4,5,6,合计,20,120,200,80,60,20,500,4%,24%,40%,16%,12%,4%,100%,12,概率分布类型,数据类型分,分布函数来分,数据特征分,离散型分布,连续型分布,经验分布,理论分布,基本随机变量分布,抽样样本分布,13,离散型随机变量的概率分布,二项式分布,泊松分布,超几何分布,14,指数分布,连续型随机变量的概率分布,正态分布,均匀分布,t,分布、,F,分布、分布,15,4
9、大数定律,大数定律,(law of large unmbers),:,是概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称,最常用的是贝努里大数定律。可描述为:设,m是n次独立试验中事件A出现的次数,p是事件A在每次试验中出现的概率,则对于任意小的正数,有如下关系:,说明:,当试验条件不变的情况下,重复次数,n接近无限大时,频率m/n与理论概率p的差值,必定小于一个任意小的正数,即两者可以基本相等,当样本量足够大时,样本就可以代替总体,16,辛钦大数定律,(Khinchine theorem),:,是用来说明为什么可以用算术平均数来推断总体平均数的。,从以上的解释,我们可以将大数
10、定律通俗地表达为:样本容量越大,样本统计数与总体参数之差越小。,“样本统计数无限地接近总体参数”,17,2.,几种常见的理论分布,1.,二项分布,随机变量的分布可用分布函数,(distribution function)来表述其概率。常见的几种理论分布有:,离散型变量,连续型变量,二项分布,泊松分布,正态分布,对于某个性状,常常可以把其资料分成两个类型。这样的结果只能是,“非此即彼”两种情,况,彼此构成对立事件,我们把这种事件所构成的总体,称为二项总体,(dinomial population),其频率分布称为二项分布(binomial distribution)。,例:,二项总体:,豌豆花色
11、性别;,种子发芽,/不发芽,穗的有芒,/无芒,18,二项分布的形状,二项分布的形状是由n和p两个参数决定的,。,当,p值较小,且,n值不大时,图形是偏倚的,随着n值的增大,分布趋于对称,。,当,p值趋于0.5时,分布趋于对称。,2),二项分布的参数,总体平均数,(,次数)为,:,x,=,x,i,p,(,x,i,)=,np,总体标准差,(,次数)为,:,x,=(,x,i,-,),2,p,(,x,i,)=,npq,二项成数,即百分数,(percentage):,p,=,x,/n=,p,/,n,=,p,平均数,p,=,p,/,n,=,pq/n,标准差,19,2.,泊松分布,在生物学研究中,有许多
12、事件出现的概率很小,而样本容量或试验次数往往却很大,即,p值很小,而n值很大。这时,二项分布就会变成另外一种特殊的分布,即泊松分布(Poisson distridution)。,例:,泊松分布资料,:,变异细胞计数;,突变碱基;,变异植株,家畜怪胎,样方小见植物,泊松分布是一种离散型随机变量的分布,其分布的概率函数为:,泊松分布的形状由参数,所确定。,当,较小时,偏倚的;,当,=20时,,逼近于正态分布,N(,),当,=50时,,这两种分布除一个是离散型,,一种是连续型外,没有多大区别。,20,泊松分布在生物学研究中的应用:,1)在生物研究中,有许多小概率事件,其发生概率往往小,于0.1,甚至
13、小于0.01,。对于这些小概率事件,都可以用泊松分布描述其概率分布,从而作出需要的频率预期;,2)由于泊松分布是描述小概率事件的,因而二项分布当,p0.1和np5时,可用泊松分布来近似,例:用显微镜检查某食品样本内结核菌的数目,对在某些视野内各小方格中的细胞数加以计数,然后按不同的细菌数把格子分类,记录每类中的格子数目。结果如下表,试求各种细菌数的理论格子数。,?,=,=2.9831,21,例:某小麦品种中出现变异植株的概率为,0.0045,调查100株,获得两株或两株以上变异植株的概率是多少?期望有0.99的概率获得1株或1株以上的变异植株,至少应调查多少株?,22,3.,正态分布,正态分布
14、也称高,斯,分布,是一种连续型随机变量的概率分布。它的分布状态是多数变量都围绕在平均值左右,由平均值到分布的两侧,变量数减少。正态分布是一种在统计理论和应用上最重要的分布。,正态分布的应用:,1.试验误差的分布一般服从于正态分布;,2.正态分布 还可作为离散型随机变量或其他连续型随机变量的近似分布;,3.有些样本虽并不符合正态分布,但从总体中随机抽样的样本容量相当大时,其样本平均数的分布也近似于正态分布。,(1)正态分布的概率函数,正态分布记为,N,(,2,),表示具有平均数为,,,方差为,2,的正态分布,其形状主要由这两个参数来决定。,23,(2)正态分布的特征,当x,=,时,有最大值,;,
15、当,x-,的绝对值相等时,,f(x)值也相等,;,的绝对值越大,,f(x)值越小,但永远不会等于零,24,4.,正态分布曲线完全由两个参数来决定。,25,和,对,正态曲线的影响,x,f,(,x,),C,A,B,26,若,XN(,),,则变量,Z,称为标准正态分布。,记为,XN(0,1),例:身高,XN(1.72,0.27),,,则身高,X,的标准分数变量,(3)标准正态分布,27,标准正态分布的特点及大小概率事件,(,1,)标准正态分布曲线的,均值,为,0,,,标准差,为,1,;,(,2,)界于,2,个标准差内的总概率为,95.45%,,约等于,95%,,称为大概率区间,用,1-,表示,则小概
16、率,=5%,;,(,3,)界于,3,个标准差内的总概率为,99.73%,,约等于,99%,,称为极大概率区间,极小概率区为,1%,。,(,4,)在标准正态分布中,大、小概率的分界值,Z,称为临界值,用,Z,或,Z/2,表示;,(,5,)如果某测量标准分数,Z,界于,-Z/2 Z 30时,其已接近正态分布,43,卡方曲线的分布特征,:,44,6.,F,分布,设从一正态总体,N,(,2,)中随机抽取样本容量为n,1,和n,2,的两个独立,样本,其样本方差的比值即为,F值:,F分布的概率密度函数是由两个独立卡方变量的概率密度所构成的联合概率密度函数,,其方程式为:,45,F,分布的概率密度函数为:,
17、F,曲线的分布特征,:,F,的值区间为0,+);,F,分布的平均数等于1,;,F,分布曲线的形状仅决定于,df,1,和,df,2,。当,df,1,=1或2时,F分布曲线呈严重倾斜的反向J型,当,df,1,大于等于3时转为左偏曲线。,46,F,分布图,47,作业:,已知u服从标准正态分布N(0,1),试查表计算下列各小题的概率值,:(1)P(0.3u1.8).,(2)P(-1u 1).,(3)P(-2u 2).,(4)P(-1.96u 1.96).,2.,设,x服从正态分布N(4,16),试通过标准化变换后查表计算下列各题的概率值:,(1)P(-3-1.48).,(4),P(x,-1),有一正态分布的平均数为16,方差为4,试计算:,(1)落于10到20之间的数据的百分数。,(2),小于,12或大于20的数据的百分数。,48,答案:,1.,49,答案:,1.,?,50,答案:,1.,51,答案:,2.,A,52,答案:,3.首先,将6个个体看成一个总体,因此,该总体中的患病率为0.5,每次检查时选3个人,则样本量大小为3,由此我们可以用二项分布关系式来进行概率估算。,ii.X=0 ,1,2,3,P(0),P(1),P(2),P(3),i.,配合类型,:,(ccase,h-health),3h,2h1c,1h2c,3c,53,






