资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第二概率与概率分布,频率就是由样本数据计算得到得。,由于样本分布得不均衡性,不同得随机试验,一个事件得出现频率也不一样,有一定得波动。,随着试验次数得增大,频率将围绕着某一确定得常数,P,做平均幅度愈来愈小得变动,这就就是所谓频率得稳定性,其中,P,即为概率,(表,2-1,),。,简单得说概率就就是频率得稳定值。在试验次数较多时,可以用频率作为概率得近似值。,概率就是事件在试验结果中出现可能性大小得定量计量。,概率就是事件固有得属性,有以下明显得性质:,随机事件,A,得概率:,0,P,(,A,),1,必然事件,W,得概率为,1,即,P,(,W,),=1,不可能事件(,V,)得概率为,0,即,P,(,V,),=0,概率接近于,0,(如,P0、05,)得事件称为小概率事件。,2、2,概率分布,一、,随机变量,随机变量表示随机现象结果得变量,也就就是在随机试验中被测定得量,所取得得值称为观察值。,随机变量,离散型,连续型,(与我们前面所讲得连续型数据与离散型数据得意义一样),二、离散型变量得概率分布,随机变量取得得数值为有限个,或为无穷个孤立得值。,将随机变量,X,所取得值,x,得概率,P,(,X=,xi,)写成,x,得函数,p,i,称为随机变量,X,得概率函数,p,i,=,P,(X=,xi,),。,将,X,得一切可能值,x,1,x,2,x,3,x,n,以及取得这些值得概率,p,1,p,2,p,n,排列起来,构成了离散型随机变量得概率分布。常用概率分布表或概率分布图表示(如,p27,表,2-2,图,2-1,)。,概率函数应满足得条件:,图21 离散型随机变量概率分布图,X,x,1,x,2,x,3,x,n,P,i,p,1,p,2,p,3,p,n,表22 离散型随机变量得概率分布表,离散型变量概率得累积分布函数:离散型变量概率得向上累积。其公式为 ,即随机变量小于等于某一可能值(,x,0,)得概率。,离散型概率分布得例子,例:从,100,件产品(其中合格品,95,件,废品,5,件)。任意抽取,10,件,求每次抽到废品数得概率分布。,x,p,(,x,),0,1,2,3,4,5,0、583752367,0、339390911,0、070218809,0、006383528,0、000251038,0、000003347,累积分布函数图,0,0.2,0.4,0.6,0.8,1,0,1,2,3,4,5,x,F,(,x,),0,1,2,3,4,5,0、583752367,0、923143278,0、993362077,0、999745605,0、999996653,1、000000000,概率分布表,累积概率分布表,离散型随机变量概率分布得特点,列出随机变量所有可能值得,x,i,p,i,组合,x,i,=,随机变量值(取值),p,i,为,x,i,得值对应得概率,互斥性,(,不相交,/,无重复),0,p,(,x,i,)1,p,(,x,i,)=1,对于离散型随机变量得任何值,都可以求出它得概率。,三、连续型概率分布,连续型随机变量,(,如体长、体重、卵重,),则不同,连续型随机变量任何值得概率都为,0,。,连续型随机变量,仅研究某一区间内取值得概率。,例如,某品种小麦得高度为,100cm,120cm,。我们可以说该品种得任何一株小麦得高度准确地等于某一标准高度(如,105cm,)得概率等于,0,。我们只能确定它高度得范围在某一固定得区间内,在实际中无限提高测定得精确度也无意义。,连续型随机变量得概率分布不能用分布列来表示,改用随机变量,x,在某个区间内取值得概率,P(,axb,),来表示。,随机变量,X,得值落在区间(,x,x,+,x,)内得概率为,P,(,x,X,x,+,x,),其中,x,为区间长度。,大家有疑问的,可以询问和交流,可以互相讨论下,但要小声点,当,x,趋于零时,此时区间概率称为密度函数:,概率密度得图形,y,=,f,(,x,),称为分布曲线。,概率就是曲线下面积!,f(x),X,a,b,概率密度曲线,f,(,x,),与,x,轴所围成得面积为,1,分布函数(或称为,累积分布函数,)就是随机变量,X,取得小于,x,0,得值得概率,概率密度函数图与概率分布函数图,概率密度函数图 概率分布函数图,y,p(,x,)y,F(,x,),x,1,x,2,x,2,x,1,P(,x,1,x,x,2,)=F(,x,2,),F(,x,1,),连续型随机变量概率分布得性质:,分布密度函数总就是大于或等于,0,即,f,(,x,)0,;,当随机变量,x,取某一特定值时,其概率等于,0,;,即,(,c,为任意实数,),因而,对于连续型随机变量,仅研究其在某一个区间内取值得概率,而不去讨论取某一个值得概率。,2、3,离散型概率分布,二项分布(,binomial distribution),泊松分布(,poisson distribution),超几何分布(,hypergeometric probability distritution,),负二项分布(,Negative,binomial distribution,),贝努利试验(,Bernoulli trial,):,我们把只有两种可能观测值(每次试验只可能就是两个对立事件之一)得随机试验统称为贝努利试验。,这种试验在实际中广泛存在,如观察某一实验动物得卵孵化与否、某一实验动物就是雌性还就是雄性、实验反应就是阴性还就是阳性等。,n,次独立地贝努利试验称为,n,重贝努利试验,其试验结果得分布(一种结果出现,x,次得概率就是多少得分布)即为二项分布。,应用二项分布得重要条件就是:每一种试验结果在每次试验中都有恒定得概率,各试验之间就是重复独立得。,一、二项分布,B(n,p),例:,例,3、1,注意:,1),放回式抽样适用于二项分布,非放回式抽样适用于超几何分布;,2),通式为:,n,=,试验次数;,x,=,在,n,次试验中事件,A,出现得次数,p,=,事件,A,发生得概率(每次试验都就是恒定得),1,p=,事件 发生得概率,P,(,x,)=,X,得概率函数为,P,(,X,=,x,);,F,(,x,)=,P,(,X,x,),x,n,x,x,n,p,p,c,x,P,-,-,=,),1,(,),(,例,3、1,从雌雄各半得,100,只动物中抽样(放回式抽样),抽样共进行,10,次,问其中包括,3,只雄性动物得概率就是多少?包括,3,只及,3,只以下得概率就是多少?即求,P,(,X,3,)与,P,(,X,3,),此例中:,n,=10,x,=3,p,=0、5,求,P(3),与,F,(3),。,则,将,x,0,1,2,3,代入通式,可得到出现,0,1,2,3,只雄性动物得概率。,P,(,0,),0、0009766,P,(,1,),0、0097656,P,(,2,),0、0439453,P,(,3,),0、1171876,所以,抽到,3,只与,3,只以下雄性动物得概率为:,F,(,3,),P,(,0,),P,(,1,),P,(,2,),P,(,3,),0、1718751,服从二项分布得随机变量得特征数,总体平均数:,n,p,p,(用比率表示时),总体方差:(,用比率表示时),偏斜度:,峭度:,从以上公式可以瞧出二项分布决定于两个参考数:试验次数,n,与概率,P,因此其图形变化趋势与这两个参数有关。,1,3、11,2,9、50,1,0,2,0,1,0,2,0、02,1,0,2,0、20,1,0、12,2,0、01,1,0、27,2,0、05,1,0、44,2,0、19,1,0、98,2,0、95,1,0、84,2,0、51,n=10,,,p,0.01,0,0.2,0.4,0.6,0.8,1,0,2,4,6,8,10,n=100,,,p,0.01,0,0.1,0.2,0.3,0.4,0.5,0,25,50,75,100,n=500,,,p,0.01,0,0.1,0.2,0.3,0.4,0.5,0,100,200,300,400,500,n=10,,,p,0.10,0,0.1,0.2,0.3,0.4,0.5,0,2,4,6,8,10,n=100,,,p,0.10,0,0.05,0.1,0.15,0.2,0,25,50,75,100,n=500,,,p,0.10,0,0.02,0.04,0.06,0.08,0.1,0,100,200,300,400,500,n=10,,,p,0.50,0,0.1,0.2,0.3,0,2,4,6,8,10,n=100,,,p,0.50,0,0.02,0.04,0.06,0.08,0.1,0,25,50,75,100,n=500,,,p,0.50,0,0.01,0.02,0.03,0.04,0.05,0,100,200,300,400,500,例,3、2,用棕色正常毛,(,bbRR,),得家兔与黑色短毛,(,BBrr,),兔杂交,F,1,代为黑色正常毛长得家兔,(,BbRr,),F,1,代自交,F,2,代表型比为:,9/16,B_R_,:3/16,B_rr,:3/16,bbR_,:1/16,bbrr,。问最少需要多少,F,2,代家兔,才能以,99,得概率得到一个棕色短毛兔(,bbrr,)?,解,:设,p,为非棕色短毛兔出现得概率,则,1,p,就为棕色短毛兔出现得概率。,在,p,(1,p),n,得展开式中只有第一项,p,n,无棕色短毛兔出现,因此,n,值可由,p,n,1,0、99,求出。,p,n,(,15/16,),n,0、01,n,(,lg15,lg16,),lg0、01,-0、02803,n,2、00000,n,71、4,2,、二项分布应用实例,二项分布得应用条件有三:,(,1,)各观察单位只具有互相对立得一种结果,如阳性或阴性,生存或死亡等,属于二项分类资料;,(,2,)已知发生某一结果,(,如死亡,),得概率为,p,其对立结果得概率则为,1,-p=q,实际中要求,p,就是从大量观察中获得得比较稳定得数值;,(,3,),n,个观察单位得观察结果互相独立,即每个观察单位得观察结果不会影响到其它观察单位得观察结果。,二、泊松分布,P(,),在生物学研究中,有许多事件出现得概率很小,而样本容量或试验次数却往往很大,即有很小得,p,值与很大得,n,值。这时二项分布就变成另外一种特殊得分布,即泊松分布。,如,显微镜视野内染色体有变异得细胞计数、单位容积得水中细菌数目得分布、作物种子内杂草得分布以及样方内少见植物得个体数等都属于泊松分布。,其概率函数可由二项分布得概率函数推导。,1,、泊松分布概率函数得推导,(将系数得分子分母同乘以,n,x,),(当,n,时,系数得极限为1,且,n,=,),平均数:,=,方差:,2,=,偏斜度:,峭度:,概率函数内得,不但就是它得平均数,而且就是它得方差。,很大时,1,与,2,则接近于,0,这时得泊松分布近似于正态分布。,2,、服从泊松分布得随机变量得特征数,3,、泊松分布应用实例,例,3、5,在麦田中,平均每,10m,2,有一株杂草,问每,100m,2,麦田中,有,0,株、,1,株、,2,株、,杂草得概率就是多少?,解:先求出每,100m,2,麦田中,平均杂草数,100/10,10,株,将,代入泊松分布得概率密度函数中,p,(,x,)=10,x,/(,x,!,e,10,),(,e,=2、71828,),即可求出,x,0,1,2,时所相应得概率。,例:为监测饮用水得污染情况,现检验某社区每毫升饮用水中细菌数,共得,400,个记录如下:,试分析饮用水中细菌数得分布就是否服从泊松分布,计算每毫升水中细菌数得概率及理论次数并将頻率分布与泊松分布作直观比较。,解:经计算得每毫升水中平均细菌数为,0、500,x,0、5,s,2,0、496,两者相接近,可认为服从泊松分布,代入泊松分布公式,1ml,水中细菌数,0,1,2,3,合计,次数,f,243,120,31,6,400,注意,二项分布得应用条件也就是泊松分布得应用条件。要求,n,次试验就是相互独立得。,然而一些具有传染性得罕见疾病得发病数,因为首例发生之后可成为传染源,会影响到后续病例得发生,所以不符合泊松分布得应用条件。,1ml,水中细菌数,0,1,2,3,合计,实际次数,f,243,120,31,6,400,频率,0、6075,0、3000,0、0775,0、0150,1、00,概率,0、6065,0、3033,0、0758,0、0144,1、00,理论频数,242、60,121、32,30、32,5、76,400,2、4,主要得连续型随机变量得概率分布,正态分布,在生物统计学中,正态分布占有极其重要得地位。许多生物学现象所产生得数据,都服从正态分布。,一、正态分布(,x,N,(,2,),)得密度函数与分布函数,正态曲线,正态分布得规律就是数据分布集中在平均数附近,并且在平均数得两侧成对称分布。正态分布密度函数得图像,称为正态曲线。,密度函数:,分布(累积)函数:,正态分布密度曲线特点:,密度曲线以,x,=,直线为对称;,x,=,与,x,=-,所确定得点为曲线得两个“拐点”;,曲线向左、向右无限延伸,以,x,轴为渐近线;,x,=,时,f,(,x,),具有最大值,其值为 ;,得大小,决定曲线得“胖”、“瘦”程度(展开程度),越小,曲线越“瘦”,数据越集中,越大,曲线越“胖”,数据越分散。,固定时,值决定曲线得位置,当,增大时曲线向右平移,当,减少时曲线向左平移,但曲线形状不变。,二、标准正态分布(,xN,(,0,1,),=0,=1,时得正态分布称为标准正态分布。,密度函数:,分布,(,累积,),函数:,标准正态分布有以下特性,:,=0,时,概率密度值最大;,概率密度曲线向左、向右无限延伸,以,x,轴为渐近线;左右对称,u,=1,与,u,=,1,就是概率分布曲线得两个拐点;,曲线与横坐标轴所夹得图形面积为,1,;,累积分布函数曲线从到,0,平稳上升,围绕点,(0,0、5),对称;,标准正态分布得偏斜度,1,与峭度,2,均为零。,以下一些特征值很重要:,68、27%,95、45%,99、73%,1,2,3,-3,-2,-1,P,(,-1u,1,),=0、6826,P,(,-2u,2,),=0、9545,P,(,-3u,3,),=0、9973,以下一些特征值很重要:,90%,95%,1、645,1、96 2、58,-2、58,-1、96,-1、645,99%,P,(,-1、96u,1、96,),=0、95,P(-2、58u,2、58)=0、99,三、标准正态分布表得查法,对于标准正态分布,其累积分布函数值,F,(,u,)可直接查表(书,p315,附表,1,)得到,其值等于标准正态曲线与横坐标轴从到,u,所夹得面积,该曲线下得面积即表示随机变量,U,落入区间(,u,)得概率;,标准正态分布查表常用得几个关系式:,P,(,0,U,u,1,),=,F,(,u,1,),=1,F,(,u,1,),P,(,U,u,1,),=2,F,(,u,1,),P,(,U,u,1,),=1,2,F,(,u,1,),P,(,u,1,U,u,2,),=F,(,u,2,),F,(,u,1,),u,x,=5,=10,9、2,正态分布,u,=0,=1,0、,42,标准正态分布,对于一般正态分布,要先进行标准化,再查表,;,标准化得公式为:,例,3、7,查标准正态分布,u,-0、82,及,u,1、15,时得,F,(,u,)得值例,3、8,随机变量,u,服从正态分布,N,(,0,1,),问随机变量,u,得值落在(,0,1、21,)区间得概率?例,3、9,已知随机变量,u,服从正态分布,N,(,0,1,),问随机变量,u,得值落在(,-1、96,1、96,)区间得概率就是多少?例,3、10,已知某高粱品种得株高,X,服从正态分布,N,(,156、2,4、82,2,),求:,(,1),X,164cm,得概率;(3)152,X,162,得概率。,利用公式,P,(,0,U,u,),=,F,(,u,),0、5,利用公式,P,(,U,u,),=1,2,F,(,u,)或,P,(,u,1,U,u,a,)=,时得,u,a,值;,下侧分位数:,P,(,u,u,a,/2,)=,时得,u,a,值(从附表,2,中以,/2,查出得,u,a,即可,),;,大数定律与中心极限定理得应用,样本容量越大,样本统计数与总体参数之差越小。,对于容量大于,30,得样本,样本均值得分布可以较好地用一个正态分布近似(其中均值为,即,样本均值得平均值,标准差为 ,即样本均值得标准差)样本容量越大,近似得效果越好。,如果原始总体就就是正态分布,则对于任意样本容量,n,样本均值都将就是正态分布得。,EXCEL,在本章内容得应用,EXCEL,电子表格提供得粘帖函数,BINOMDIST,计算二项式分布得概率值,NORMDIST,计算正态分布得累积函数,NORMINV,计算正态分布累积函数得逆函数,NORMSDIST,计算标准正态分布得累积函数,NORMSINV,计算标准正态分布累积函数得逆函数,POISSON,计算泊松分布得概率,AVERAGE,计算算术平均值,GEOMEAN,计算几何平均数,MAX,计算最大值,MEDIAN,计算一组给定数字得中位数,STDEV,计算样本标准差,STDEVP,计算样本总体得标准差,VAR,计算样本得方差,VARP,计算样本总体得方差,各种分布函数计算,1,、二项分布工具,平均数、方差与标准差,二项分布得概率函数为,二项分布函数得概率及累积概率得计算实例,已知某种猪病得死亡率为,30%,现有,10,头病猪,如不给予治疗,问死亡,4,头及死亡,4,头与,4,头以下得概率为多少?,解:死亡,4,头得概率计算公式为:,死亡,4,头与,4,头以下累积概率得计算公式为:,用粘帖函数,BINOMDIST,计算,死亡,4,头得概率计算,本计算在编缉栏中为,BINOMDIST,(,4,10,0、30,FALSE,),死亡,4,头与,4,头以下概率得计算,本计算在编缉栏中为,BINOMDIST,(,4,10,0、30,TRUE,),利用,BINOMDIST,函数与填充柄计算,2,、泊松分布工具,泊松分布得概率函数,为常数,它等于平均数等于方差,=,=,2,泊松分布概率得计算实例,已知某一地区,出现怪胎得事件服从泊松分布,P,(,2,),请计算该地区出现,3,次怪胎得概率,及出现,3,次与,3,次以下怪胎得概率为多少?,出现,3,次怪胎概率得公式为:,出现,3,次与,3,次以下怪胎得概率计算公式为:,用,POISSON,粘帖函数计算,出现,3,次怪胎概率得计算,本计算在编缉栏中显示,POISSON,(3,2,FALSE),出现,3,次与,3,次以下怪胎得概率计算,本计算编缉栏中显示,POISSON(3,2,TRUE),3,、正态分布工具,用符号,N,(,2,),表示,(,1,)、正态分布,得概率函数为:,NORMDIST,粘帖函数:计算累积函数,NORMINV,粘帖函数:计算逆函数,已知某品种成年猪体重得总体平均数,=100kg,总体标准差,=20kg,。试计算成年猪体重在,70kg,以下得概率。计算公式如下:,用正态分布,粘帖函数得,计算,用,NORMDIST,粘帖函数计算概率,本计算在编缉栏中得形式为,NORMDIST(70,100,20,TRUE),用,NORMDIST,粘帖函数计算函数值,本计算在编缉栏中得形式为,NORMDIST(70,100,20,FALSE),已知某品种成年猪体重得总体平均数,=100kg,总体标准差,=20kg,。如果我们希望淘汰,30%,体重最轻得猪,问体重在多少,kg,以下得猪应给予淘汰。计算公式如下:,用,NORMINV,粘贴函数计算,本计算在编缉栏中得形式为,NORMINV,(0、30,100,20),(,2,)、标准,正态分布,用符号,N,(,0,1,)表示,标准正态分布,得概率函数为:,标准化得公式为:,利用标准正态分布函数计算概率,NORMSDIST,粘贴,函数:计算累积函数,NORMSINV,粘贴,函数,:计算逆函数,已知某品种成年猪体重得总体平均数,=100kg,总体标准差,=20kg,。试计算成年猪体重在,70kg,以下得概率。首先对,70,kg,进行标准化,得,u,值等于,-1、5,计算公式如下:,用,NORMSDIST,粘帖函数计算概率,本例在编缉栏中得形式就是,NORMSDIST(-1、5),
展开阅读全文