资源描述
单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第三章 理论分布与抽样分布,事件与概率,正态分布,二项分布和普阿松分布,抽样分布,在一定条件下,可能发生,也可能不发生的现象称为随机事件。,第一节 事件与概率,一、事件及其相互关系,(一)事件的意义,1.必然事件,2.不可能事件,3.随机事件,(二)、事件的相互关系,1.和事件,事件A和事件B至少有一个发生,这一事件称为和事件,记为“A+B”。,2.积事件,事件A和事件B同时发生,这一事件称为积事件,记为“AB”或(A B);,3.互斥事件(不相容事件),事件A和事件B不能同时发生,这一事件称为互斥事件,记为“AB=V”,4.对立事件,事件A和事件B必发生其一,但又不能同时发生,这一事件称为对立事件,记为“A+B=U,AB=V”。,例如、“产品合格”A和“产品不合格”B,A+B=必然事件,AB=不可能事件。,5.完全事件系,若事件A1、A2、A3、An满足以下条件:,即A1A2 A3 An=V,A1+A2+An=U,则称这n个事件为完全事件系.,概率的基本性质:,3、不可能事件的概率等于0,即:,P(V)=0,1、任何事件的概率都在0与1之间,即:,0P(A)1,2、必然事件的概率等于1,即:,P(U)=1,(二)概率的运算方法,1.加法定理,两个互斥事件A和B的和事件的概率等于事件A和事件B各自的概率之和,既:P(A+B)=P(A)+P(B),例如 有一批种子,其中二级占5%,一级占10%,其余为三级,问三级种子占多少?,2.乘法定理,两个独立事件A和B的积事件的概率等于事件A和事件B各自概率的乘积,即:P(AB)=P(A)P(B),若一批玉米种子发芽率为0.9,发芽后能出土的概率为0.8,求这批种子的出苗率?,P(AB)=P(A)P(B)=0.90.8=0.72,3.对立事件的概率,若事件A的概率为P(A),那么对立事件的概率 为:P()=1-P(A),若一批种子发芽率为0.9,则不发芽率的概率为1-0.9=0.1,4.完全事件系的概率,若有几个事件A1,A2,.,An是试验的完全事件系,则这些事件的概率之和为1。,即:P(A1+A2+An),=P(A1)+P(A2)+(An),=1,一批棉花纤维长度30cm事件A3,概率为0.2;这三种情况构成一个完全事件系,其概率之和为:,P(A1+A2+A3)=P(A1)+P(A2)+P(A3)=0.2+0.6+0.2=1,三.小概率事件实际不可能性,随机事件概率的大小客观地反映事件在一次试验中发生的可能性的大小。概率大表示该事件发生的可能性大;概率小,说明该事件发生的可能性小;,农业研究中多采用5%、1%这两个标准作为小概率事件。,第二节 正态分布,一、正态分布的概念,正态分布或称高斯(Gauss)分布,是连续性随机变量的一种最重要的理论分布。,正态分布概率密度函数:,x :所研究的变数;,:x的函数值,称为概率密度函数;,:总体平均数;,:总体标准差,其中 ,是两个常数,正态分布记为N(,),表示具有平均数为 ,方差为 的正态分布。,2、,正态分布的算术平均数、中数及众数三者,合一,都位于,点。,3、,正态分布的多数观察值集中于算术平均数,的附近,离平均数愈远,相应的次数愈少,,在,-,3,以外,次数极少。,二、正态分布曲线的特征:,1、,正态分布曲线围绕算术平均数向左右两侧,作对称分布,所以它是一条对称曲线。,4、正态分布曲线的形状完全取决于 和,两个参数。确定正态分布在X轴上的,中心位置,确定正态分布的变异度。,5、正态分布概率密度函数曲线与X轴所围,成的全部面积必等于1;,6、正态分布曲线在 和 处各有一,拐点,。,曲线两尾向左右伸展,永不接触,横 轴,x 的取值范围-,+,。,三、正态分布的概率计算,根据正态分布的性质,变量在两个定值间取值的概率等于曲线与其x轴在该区间围成的面积。,因此概率的计算即正态分布概率密度函数的定积分计算。,是一个曲线系统。为了一般化的应用,需将正态分布标准化。,正态分布的标准化,将随机变量x 标准化,令,u称标准正态离差,表示离开平均数,有几个标准差单位。,标准化正态分布函数:,(u),称为标准化正态分布密度函数,即,=0,,=1时的正态分布记作N(0,1),从N(,2,)到 N(0,1),从几何意义上说,仅仅是将变量x作了横坐标轴的平移和尺度单位的变化。,对标准正态分布方程计算从-到u,i,的累积概率计算公式如下:,前人已计算出从-3到3之间各个u值的F,N,(u,i,)值,列入附表1。,【例如】有一随机变数X服从正态分布,平均数 =30,标准差 =5,试计算X小于26,大于40,介于26-40区间的概率。,x小于26:,=(26-30)/5=-0.8,查附表1,大于40:,=(40-30)/5=2,查表1,F(u=2)=0.9773 则,x介于26与40之间:,=0.7654,【例如】已知某正态分布,=30,,=5,试计算x偏离平均数,达9.8和14.9 以上的概率?,计算,标准化,查附表2,得知它们对应的概率分别为0.05和0.01,即,P(x-9.80)=P(x-1.96)=0.05,=,P(x-,)1.96,+,P(x-,)-1.96,P(x-14.90)=P(x-2.58)=0.01,=,P(x-,)2.58,+,P(x-,)-2.58,以上两式等号右侧的前一项为右尾概率,后一项为左尾概率,其和概率为两尾概率。附表2列出的就是两尾概率。,第三节 二项分布和普阿松分布,一、二项总体与二项分布,在独立重复试验中,总体的某个性状每一次试验只有非此即彼两个可能结果,这种非此即彼事件所构成的总体叫,二项总体,,也叫0,1总体。,当每次独立的从二项总体抽取n个个体,这n个个体:“此”事件出现的次数X可能有0、1、2、.n,共有n+1种,这n+1种可能性有它各自的概率,组成一个分布,此分布叫,二项概率分布,或简称,二项分布,。二项分布是一种离散型分布。,例如,观察玉米播种后的出苗数,出苗记为“此”事件,概率为p;不出苗记为彼事件,概率为q。,若每窝播种5粒种子,则对每窝出苗情况的观察结果会有如下几种可能:,X :0 1 2 3 4 5,P:P(0)P(1)P(2)P(3)P(4)P(5),由这6种情况的相应概率组成的分布,就是n=5时出苗数的二项分布。,二、二项分布的概率计算,1、二项分布的概率密度函数,现以玉米种子播种后的出苗和不出苗为例,说明二项分布的概率密度函数。出苗看作“此”事件,p=0.7,不出苗看作“彼”事件,q=0.3,每窝中种子的出苗与不出苗为对立事件。,若每窝种1粒种子,相当于n=1,,则出苗数有2种情况即:x=0;x=1,相应的概率f(x=0)=q=0.3;,相应的概率为 f(x=1)=p=0.7.,若每窝种2粒种子,相当于n=2,,则出苗数有3种情况:x=0,1,2,相应的概率为:,f(x=0)=qq=0.3,0.3=0.09,f(x=1)=pq+qp=2pq=2,0.3,0.7=0.42,f(x=2)=pp=0.7,0.7=0.49,若每窝种3粒种子,n=3,,则出苗数有0,1,2,3四种情况,,其相应的概率为:,f(x=0)=qqq=0.027,f(x=1)=pqq+qpq+qqp=3,0.7,0.3,0.3=0.189,f(x=2)=ppq+pqp+qpp=3,0.7,0.7,0.3=0.441,f(x=3)=ppp=0.7,0.7,0.7=0.343,由上面的分析可看出:,(p+q),n,=(p+q),1,=0.3+0.7=1,(p+q),n,=(p+q),2,=p,2,+2pq+q,2,=0.49+0.42+0.09=1,(p+q),n,=(p+q),3,=p,3,+3p,2,q+3pq,2,+q,3,=0.343+0.441+0.189+0.027=1,二项式展开后的各项系数,正是从n个事物种抽得x个的组合数即,由此得出二项分布中任何一项的概率通式:,即为二项分布的概率函数,二项分布的概率累积函数:,由于变量x=0,1,2,n,为完全事件系,所以这个分布的概率之和必等于1。,【例如】有一批玉米种子,其发芽率为70%,如每窝播种4粒,问出苗数为2和3时的概率分别为多少,?,三、二项分布的形状和参数,二项分布的形状决定于n和p的大小。如p=q,二项分布呈对称分布;如pq 为偏斜分布,.,1、二项分布的形状,2、二项总体的参数,对于一个给定的二项分布,n和p是常数。二项总体的平均数、方差和标准差的计算公式如下:,三、普阿松分布,二项总体中稀有事件的概率分布不呈二项分布,而是遵从另一种理论分布普阿松分布(poisson distribution),1、统计定义,若变量x服从二项分布,当P很小,n且np=m为一常数时,该二项分布的极限为普阿松分布。,2,、概率函数,其中m=np,e=2.71828,普阿松分布的平均数和方差都等于常数m,即,:,3.普阿松分布的概率计算,【例3.9】田间分区调查“岱字棉”的纯度,每区一亩,调查了310个区,共发现杂株341株,试求变量x的概率分布。,首先求平均数=341/310=1.1株,即每区(亩)出现杂株为1.1株,这在种植密度上千株的一亩棉田里,是一个很小的数,因此可以认为不纯株出现的概率分布服从普阿松分布。,P(x=0)=e,-1.1,=0.3329,P(x=1)=1.1e,-1.1,=0.3662,P(x=2)=1.1,2,/2e,-1.1,=0.2014,P(x=3)=1.1,3,/6e,-1.1,=0.0738,P(x=4)=1.1,4,/24e,-1.1,=0.0203,P(x=5)=1.1,5,/120e,-1.1,=0.0045,P(x=6)=1.1,6,/720e,-1.1,=0.0008,P(x7)=1-,6,0,f(x)=1-0.9999=0.0001,普阿松分布是一个偏斜分布,但随着m的增大,分布渐趋对称,接近正态分布。通常当m大于50时,可用正态分布来处理普阿松分布的问题。,第三节 抽样分布,统计学:1、总体 样本 抽样分布,2、样本 总体 统计推断,一、抽样分布试验,复置抽样,不复置抽样,总 体,.,样本1,样本2,样本n,例如,设有一个N=4的有限总体,其变量值为2、3、3、4。,总体的平均数、方差和标准差,当以样本容量n=2进行独立抽样,抽取的所有可能样本数 ,其平均数、方差和标准差如下表。,样本观察值x,2,2,2,2,3,3,3,3,3,3,3,3,4,4,4,4,2,3,4,3,2,3,3,4,2,3,3,4,x,4,5,5,6,5,6,6,7,5,6,6,7,6,7,7,8,2,3,3,4,2.0,2.5,2.5,3.0,2.5,3.0,3.0,3.5,2.5,3.0,3.0,3.5,3.0,3.5,3.5,4.0,0.0,0.5,0.5,2.0,0.5,0.0,0.0,0.5,0.5,0.0,0.0,0.5,2.0,0.5,0.5,0.0,0.00,0.25,0.25,1.00,0.25,0.00,0.00,0.25,0.25,0.00,0.00,0.25,1.00,0.25,0.25,0.00,s,0.000,0.707,0.707,1.414,0.707,0.000,0.000,0.707,0.707,0.000,0.000,0.707,1.414,0.707,0.707,0.000,96 48 8.0 4.0 8.484,以自由度(n-1)作分母计算的样本方差 之均数:,以样本容量n作分母计算的样本方差 之均数:,样本标准差S之均数,:,各样本均数总和之均数:,如果所有可能样本的某一统计数的平均数等于该总体的相应参数,,则称该统计数为总体参数的,无偏估计值,(unbiased estimate)。,是 的无偏估计值,;,是 的无偏估计值;,以,n,为分母得到的样本方差 不是 的,无偏估计值;,S,不是 的无偏估计值;,因此,为了得到 的无偏估计值,估算样本方差时,必须以自由度df=n-1而不用n做分母。,抽样结论,二、样本平均数的分布,按上述抽样方法,再以n=4,从上述有限总体2,3,3,4中抽出全部所有样本,同样可以计算出所有样本的平均数、方差和标准差。,各种不同样本容量的样本平均数 的抽样分布,n=1,2,3,4,f,1,2,1,n=2,f,2.0,2.5,3.0,3.5,4.0,1,4,6,4,1,n=4,f,2.00,2.25,2.50,2.75,3.00,3.25,3.50,3.75,4.00,1,8,28,56,70,56,28,8,1,各种不同样本容量 的分布图,f,2 3 4,2,1,0,f,f,2 3 4,6,5,4,3,2,1,0,2 3 4,70,60,50,40,30,20,10,0,n=1;,2,=1/2,n=2;,2,=1/4,n=4;,2,=1/8,从上述的表和图来看,从总体抽出的全部所有样本的平均数,当n增大时,其方柱形图逐渐趋向于正态分布曲线形状,说明样本平均数是做正态分布的。,样本平均数分布的平均数 、标准差 与其原总体平均数,、标准差,的关系为:,根据次数表,n=2抽样的样本平均数为:,样本平均数的方差为:,当n=4时,同理可得:,称为样本平均数的标准差,简称标准误(standard error),度量平均数抽样误差的大小。,从正态总体抽出的样本,无论样本容量的大小,其样本平均数 的抽样分布必做成正态分布,具有平均数 和方 ,而且方差随样本容量的增大而降低。平均数的分布一般记为:。,如果总体不是正态分布,但如具有一定量的,2,和平均数,那么,,当样本容量足够大时,从这一总体抽出的样本平均数 的抽样分布也必趋于近正态分布,具有平均数 和方差 ,这称为中心极限定理,。,-3 -2 -1 +1 +2 +3,n=9,n=4,n=1,f,(二)样本平均数差数的抽样分布,设有两个总体:,抽k个样本容量为n1,抽m个样本容量为n2,抽样试验表明:,表3.6 抽样平均数次数分布表,f1 f2,2.0 1 1.0 1,2.5 4 1.5 2,3.0 6 2.0 3,3.5 4 2.5 2,4.0 1 3.0 1,16 9,表3.7 样本平均数差数(d)的分布及其平均数与方差计算,f,f,-1.0 1 -1.0 4.00 4.0,-0.5 6 -3.0 2.25 13.5,0.0 17 0.0 1.00 17.0,0.5 30 15 0.25 7.5,1.0 36 36 0.00 0.0,1.5 30 45 0.25 7.5,2.0 17 34 1.00 17.0,2.5 6 15 2.25 13.5,3.0 1 3.0 4.00 4.0,144 144 15.00 84.0,样本平均数差数的平均数必等于两个总体平均数的差数:,若 x,1,和x,2,所在总体呈正态分布,其平均数分别为,1,和,2,,方差分别为,1,2,和,2,2,,不论样本容量大小,则两样本平均数的差数呈正态分布,具有平均数,d,和方差,d,2,。,样本平均数差数的方差必等于两个总体平均数方差的总和:,
展开阅读全文