收藏 分销(赏)

抽样分布与统计推断原理.ppt

上传人:精**** 文档编号:12676601 上传时间:2025-11-23 格式:PPT 页数:93 大小:5.65MB 下载积分:10 金币
下载 相关 举报
抽样分布与统计推断原理.ppt_第1页
第1页 / 共93页
抽样分布与统计推断原理.ppt_第2页
第2页 / 共93页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第一节 概率与概率分布,统计学,Certain,Impossible,0.5,0,1,一 概率,(一)概率的统计定义,研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。这就要求有一个能够,刻划事件发生可能性大小的数量指标,,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们,称之为概率,(,probability)。,事件,A,的概率记为,P,(,A,)。,概率的统计定义,在相同条件下进行,n,次重复试验,如果随机事件,A,发生的次数为,m,,,那么,m/n,称为随机事件,A,的,频率,(,frequency);,当试验重复数,n,逐渐增大时,随机事件,A,的频率越来越稳定地接近某一数值,p,,,那么 就 把,p,称为随机事件,A,的,概率,。,这 样 定 义 的 概 率 称 为 统 计 概 率(,statistics probability),,或者称后验概率(,posterior probability),(二,),概率的性质,1、对于任何事件,A,,,有0,P(A),1;,2、,必然事件的概率为1,即,P,(,)=1;,3、,不可能事件的概率为0,即,P,()=0。,一个总体是由一个随机变量的所有可能取值来构成的,而样本只是这些所有可能取值的一部分,随机变量中某一个值出现的概率,只是随机变量一个侧面的反映,若要全面了解随机变量则必须知道,随机变量的全部值,和,各个值出现的概率,,即随机变量的概率分布,概率和概率分布是生命科学研究中由样本推断总体的理论基础,随机变量的种类很多,每一种随机变量都有其特定的概率分布。,连续型随机变量,离散型随机变量,在一定范围内可连续取值的变量。,在一定范围内只取有限种可能的值的变量。,正态分布,二项分布、泊松分布,二 概率分布,1.正态分布,正态分布(,normal distribution,),的概念是由德国数学家和天文学家,Moivre,于1733年首次提出的,由德国数学家,Gauss,率先将其应用于天文学研究,故正态分布又称为,Gauss,分布(,Gaussian distribution,)。,许多生物学领域(,如身高、体重、脉搏、血红蛋白、血清总胆固醇等,)的随机变量都服从或者近似服从正态分布或通过某种转换后服从正态分布,许多其他类型分布基本上都与正态分布有关,它们的极限就是正态分布。,1.1 正态分布的定义,在日常工作中所遇到的变量大多是连续型随机变量,当这一类随机变量呈线性时,往往服从正态分布,频数分布表:,下面我们以某地13岁女孩118人的身高(,cm),资料,来说明身高变量服从正态分布。,频数分布图,(,又称直方图),从频数表及频数分布图上可得知:,该数值变量资料频数分布呈现中间频数多,左右两侧基本对称的分布。所以我们通俗地认为该资料服从正态分布。,频数分布图二,频数分布图三,正态分布图四,和正态分布相对应的曲线称为正态分布密度曲线,简称为正态曲线。,用来描述正态曲线的函数称为正态分布密度函数,总体平均数,2,总体方差,圆周率3.14,总体标准差,任何一个正态分布均由参数,和,所决定,如果一个随机变量,x,服从平均数为,、,方差为,2,的正态分布,可记为,x,N,(,,2,)。,e ,自然对数的底,2.71828,1.2 正态分布的特点,(1)正态分布曲线以直线,x,=,为对称轴,左右完全对称,(3),正态分布曲线有两个拐点,拐点座标分别为(,-,,f,(-),和(,+,,f,(+),,在这两个拐点处曲线改变方向,即曲线在(-,,-),和(,+,+),区间上是下凹的,在,-,+,区间内是上凸的,(2),在,x,=,处,,f,(,x,),有最大值,(4),正态分布密度曲线的位置由,决定(,为位置参数),形状由,决定(,为形状参数),(5),正态分布曲线向两边无限延伸,以,x,轴为渐进线,分布从-到+,的大小决定了曲线在,x,轴上的位置,的大小则决定了曲线的胖瘦程度,当,恒定时,,愈大,则曲线沿,x,轴愈向右移动,愈小,曲线沿,x,轴愈向左移动,越大表示数据越分散,曲线越胖,越小表示数据越集中,曲线越瘦,1.,3,标准正态分布,正态分布由,和,所决定,不同的,、,值就决定了不同的正态分布密度函数,因此在实际计算中很不方便的。需将一般的,N(,,,2,),转换为,=0,2,=1,的正态分布。我们称,=0,2,=1,的正态分布为标准正态分布(,standard normal distribution),可见,由正态分布密度函数,得到标准正态分布密度函数:,1.4 正态分布的概率计算,根据概率论原理,可知随机变量,x,在区间(,a,b),内取值的概率是一块面积:,面积由,曲线,所围成的曲边梯形所组成:,随机变量,x,在(-,+)间取值的概率为1,即:,求随机变量,x,在某一区段内取值的概率就转化成了求由该区段与相应曲线所围成的曲边梯形的面积。,由于正态分布的概率密度函数比较复杂,积分的计算也比较麻烦,而这些计算在动物科学或动物医学生产实践中又经常会用到。,最好的解决办法:将正态分布,转化为,标准正态分布,然后根据标准正态分布表(附表1)直接查出概率值。,(1)标准正态分布的概率计算,附表1列出了在标准正态分布随机变量,u,在区间,(,,,u,内取值的概率:,标准正态分布的概率计算通式,标准正态分布函数表,例1:,若,u,N,(0,1),,求:,(1),(2),(3),解:,(1),(2),(3),关于标准正态分布,以下几种概率应当熟记:,P,(-1,u,1)=0.6826,P,(-2,u,2),=,0.9545,P,(-3,u,3)=0.9973,P,(-1.96,u,1.96)=0.95,P,(-2.58,u,2.58)=0.99,P,(,u,1),u,变量在上述区间以外取值的概率,,即两尾概率:,=1-,P,(-1,u,1),=1-0.6826=0.3174,P,(,u,2)=1-,P,(-2,u,2)=0.0455,P,(,u,3)=1-0.9973=0.0027,P,(,u,1.96)=1-0.95=0.05,P,(,u,2.58)=1-0.99=0.01,(2)正态分布的概率计算,对于服从任意正态分布,N,(,2,),的随机变量,欲求其在某个区间的取值概率,需先将它标准化为标准正态分布,N,(0,1),的随机变量,然后查表即可。,实质:,为了能使正态分布应用起来更方便一些,可以将,x,作一变换,令:,变换后的正态分布密度函数为:,标准正态分布均具有,=0,,2,=1,的特性,如果随机变量,u,服从标准正态分布,可记为:,u,N,(0,1),u,变换,这个变换称为标准化或,u,变换,由于,x,是随机变量,因此,u,也是随机变量,,所得到的随机变量,U,也服从正态分布,因此,由任意正态分布随机变量标准化得到的随机变量的标准正态分布常称为,u,分布。可见:,例2,:,设,x,N,(30,10,2,),试求,x,40,的概率。,解:,首先将正态分布,转化为标准正态分布,令:,则,u,服从标准正态分布,故:,例3,:,设,x,服从,=30.26,2,=5.102,的正态分布,试求,P(21.64x32.98)。,解:,令,则,u,服从标准正态分布,故,=,P,(-1.69,u,0.53),=(0.53)-(-1.69),=0.7019-0.04551,=0.6564,关于一般正态分布,经常用到以下几个概率:,P,(-,x,+)=0.6826,P,(-2,x,+2)=0.9545,P,(-3,x,+3)=0.9973,P,(-1.96,x,+1.96)=0.95,P,(-2.58,x,+2.58)=0.99,把随机变量,x,落在平均数,加减不同倍数标准差,区间之外的概率称为两尾概率(双侧概率),记作,。,对应于两尾概率可以求得随机变量,x,小于,-,k,或大于,+,k,的概率,称为一尾概率(单侧概率),记作,2。,0.3173,0.0455,0.0027,0.05,0.01,/2,附表2:,给出了满足,两尾临界值,u,因此,可以根据两尾概率,,,由附表2查出相应的临界值,u,。,例4:,已知,u,N,(0,1),,试求,u,:,(1),(2),解:,(1),(2),2.二项分布,二项分布(,binomial distribution,),是一种最常见的、典型的离散型随机变量的概率分布。,有些试验只有非此即彼两种结果,这种由非此即彼的事件构成的总体,称为二项总体。,结果“此”用变量1表示,,概率为,p,结果“彼”用变量0表示,,概率为,q,对于,n,次独立的试验,如果每次试验结果出现且只出现对立事件,A,与,A,-,中之一,在每次试验中出现,A,的概率是,p,(0,p,5,,np、nq,较接近时,接近正态分布,,n,时服从正态分布,即二项分布的极限是正态分布,(,4,)二项分布的平均数为:,方差为:,标准差为:,例4:某奶牛场情期受胎率为0.6,该场对30头发情母牛配种,使24头母牛一次配种受胎的概率为多少?,解:,2.3 二项分布的概率计算,课堂练习:,用某种常规药物治疗猪瘟的治愈率为0.7,对20头患猪瘟的肥育猪进行治疗,问20头猪中16头猪治愈的概率是多少?,解:,3.泊松分布,当二项分布中的,n,p0,时,二项分布趋向于一种新的分布,泊松分布(普哇松分布)(,Poissons distribution),当试验次数(或称观测次数)很大,而某事件出现的概率很小,则离散型随机变量,x,服从于泊松分布。,3.1 泊松分布的定义,若随机变量,x,(,x,=,m,),只取零和正整数值0,1,2,且其概率分布为:,其中:,=,np,,,是一个常量,且,则称,x,服从参数为,的泊松分布,,记为,x,P,(),泊松分布主要是用来描述小概率事件发生的概率,单位空间中某些野生动物数,畜群中的畸形,个体数,畜群中某些遗传性疾病的患病数,泊松分布不是用来描述几乎不可能发生的事件的概率,山无棱,天地合,南京六月飞雪,(1)泊松分布只有一个参数,,=,np,。,3.2 泊松分布的特点,既是泊松分布的平均值,,,又是方差,2,,,即:,(2)泊松分布的图形决定于,,,值愈小分布愈偏倚,随着,的增大,分布趋于对称。,当,=20,时分布接近于正态分布;当,=50,时,可以认为泊松分布呈正态分布。,3.3 泊松分布的概率计算,例5:,某大型猪场因某种疾病死亡的猪数呈泊松分布。已知该场平均每年因这种疾病死亡的猪数为9.5头,问2007年该场因这种疾病死亡的猪数为15头的概率是多少?,解:,根据泊松分布的性质可知:,2007年该场因这种疾病死亡的猪数为15头的概率是2.65%。,第二节,抽样分布,统计学的主要任务就是研究总体和样本的关系:,从样本到总体,从总体到样本,目的就是通过样本来推断总体。,目的就是研究样本统计量的分布及其与原总体的关系,从特殊到一般,,从一般到特殊,,统计推断,抽样分布,抽样分布是统计推断的基础,研究抽样分布的目的就是为了更好地进行统计推断,并能正确地理解统计推断的结论。,1.抽样分布的概念,样本平均数,和样本方差,S,2,是描述样本特征的两个最重要的统计量,总体平均数,和总体方差,2,是描述总体特征的两个最重要的参数,因此,研究总体和样本的关系,实际就是研究:,S,2,2,就总体而言,,和,2,都是常量,从总体中随机地抽取若干个体所组成的样本,即使每次抽取的样本容量都相等,每一个样本所得到的样本平均数,也不可能都相等,同时也不可能就等于总体平均数,样本统计量将随样本的不同而有所不同,因而样本统计量也是随机变量,也有其概率分布,样本统计量的概率分布称为抽样分布(,sampling distribution),样本统计量与总体参数之间的差异称为抽样误差,(,sampling error),从总体中抽取样本的过程称为抽样(,sampling),抽样分为复置抽样和不复置抽样两种:,复置抽样指每次抽出一个个体后,这个个体应返回原总体,不复置抽样指每次抽出的个体不返回原总体,对于无限总体,或者样本容量,n,与总体容量,N,相比很小时,返回与否都可保证每个个体被抽到的机会相等,复置抽样等同于不复置抽样,对于有限总体,应该采取复置抽样,否则各个体被抽到的机会就不相等,在实际操作中,均为不复置抽样,在理论研究中则以复置抽样为主,2.样本平均数的抽样分布,2.1 样本平均数抽样分布的概念,从总体容量为,N,的总体中进行抽样,如果每个样本的样本容量均为,n,,将所有这样的样本都抽出来,并计算出每一个样本的平均数,原来的那个总体,称为原总体,由样本平均数组成的分布称为样本平均数的抽样分布,如果原总体的平均数为,,,标准差为,,,那么样本平均数抽样总体:,平均数为:,标准差为:,称为样本平均数抽样总体的标准误差,简称为标准误(,standard error,),由这些样本平均数组成的新总体,就称为样本平均数抽样总体。,标准误表示平均数抽样误差的大小,反映样本平均数与新总体平均数之间的离散程度。,标准差表示的是原总体中原始数据与原总体平均数的关系,标准误表示的是从原总体中抽取的样本平均数与样本平均数抽样总体平均数的关系,研究总体与样本的关系就转化成了讨论原总体与样本平均数抽样总体的关系:,例6,:,设有一总体,总体容量为,N=3,,观测值分别为2、4、6,以样本容量,n=2,对该总体进行复置抽样,证明:,(1),(2),原总体的总体平均数为:,(1),以样本容量,n,=2,对该总体进行复置抽样,则样本平均数抽样总体为:,样本平均数抽样总体的总体容量为:,样本平均数抽样总体的总体平均数为:,(2),原总体的总体标准差为:,样本平均数抽样总体的总体标准差为:,2.2 样本平均数抽样分布的特点,(1)样本平均数抽样总体的总体平均数与原总体的总体平均数相等,,因此,可用,代替,(2)样本平均数抽样总体的方差与原总体的方差的关系为,(3)当随机变量,x,N,(,2,),时,样本平均数,当随机变量,x,不呈正态分布或分布未知时,只要样本容量,n,不断增大(或足够大),则样本平均数的分布逐渐趋向于正态分布,且平均数为,,,方差为,中心极限定理,样本平均值 服从或近似服从正态分布,2.3,与 的关系,(1),(2),表示原总体中各观测值的离散程度,表示样本平均数抽样总体中各样本平均数的离散程度,(3),是总体中各观测值变异程度的度量值,是样本平均数抽样误差的度量值,是用来衡量样本平均数代表总体平均数的代表程度的,(4),称为标准差,用,Sd,表示,称为标准误,用,Se,表示,4.,t,-,分布(不要求),4.1,t,-,分布的定义,设有服从正态分布的随机变量,x,,正态分布的标准化公式为:,对于总体方差,2,已知的总体,,根据公式可以计算出随机变量,x,在某一区间内出现的概率:,对于总体方差,2,已知的总体,根据公式可以知道,样本平均数,在某一区间内出现的概率,公式为:,服从标准正态分布,附:,服从标准正态分布,假如,2,未知,而且样本容量又比较小(,n,30),时:,标准化公式可变换为:,t,统计量组成的分布,就称为,t,分布(,t distribution),不再服从标准正态分布,t,分布是一组曲线,自由度不同,曲线不同,但均以,y,轴为对称,t,分布只有一个参数,即自由度,df,t,分布的平均数和标准差为:,0(,df,1),(,df,2),服从,t-,分布,4.2,t,-,分布的特点,(,1),t,分布为对称分布,关于,t,=0,对称;只有一个峰,峰值在,t,=0,处;与标准正态分布曲线相比,,t,分布曲线顶部略低,两尾部稍高而平,(2),t,分布曲线受自由度,df,的影响,自由度越小,离散程度越大,(3),t,分布的极限是正态分布。,df,越大,,t,分布越趋近于标准正态分布,当,n,30,时,,t,分布与标准正态分布的区别很小;,n,100,时,,t,分布基本与标准正态分布相同;,n,时,,t,分布与标准正态分布完全一致,4.3,t,-,分布的概率计算,附表4给出了,t,分布的两尾临界值,当左尾和右尾的概率之和为,(每侧为,/2)时,,t,分布在横坐标上的临界值的绝对值,记为,t,例7:根据附表4查出相应的临界,t,值:(1),df,=9,=0.05;,(2),df,=9,,=0.01,从一个平均数为,,,方差为,2,的正态总体中,进行独立地抽样,可获得随机变量,x,,,则其标准离差:,N,(0,1),如果连续进行,n,次独立抽样,可得,n,个标准正态离差,u,i,,,对这,n,个独立的标准正态离差,u,i,进行平方求和就得到一个新的统计量,2,:,5.,2,-,分布(不要求),5.1,2,-,分布的定义,如果用样本进行计算:,由这些,2,值所组成的一个分布,就称之为,2,分布(,2,distribution),5.2,2,-,分布的特点,(1),2,分布的取值范围为,0,+),无负值,(2),2,分布的平均数为:,方差为:,(3),2,分布的形状决定于自由度,df,当,df,=1,时,曲线呈反,J,形,随着,df,的增大,曲线渐趋对称,当,df,30,时,向正态分布渐近,(4),2,还可以定义为理论次数与观察次数间的符合程度(离散型变量),O,观察次数,E,理论次数,5.3,2,-,分布的概率计算,附表3给出了,2,分布的右尾临界值,当右尾概率为,时,,2,分布在横坐标上的临界值的绝对值,记为,例8:根据附表3查出相应的右尾临界,2,值:,(1),df,=9,=0.05;(2),df,=9,,=0.01,如果计算左尾概率为,时,2,分布的临界值,只需查右尾概率为1-,的右尾临界值即可。,6.,F-,分布,6.1,F-,分布的定义,从一个方差,2,的正态总体中独立地抽取样本容量分别为,n,1,、,n,2,的两个样本,这两个样本的方差分别为:,则有:,这两个,2,变量除以各自的自由度后的比值为:,由一系列,F,值所构成的分布称为,F,分布(,F distribution),F,F,(,df,1,df,2,),已计算:,6.2,F-,分布的特点,(1),F,分布密度曲线是随自由度,df,1,、,df,2,的变化而变化的一簇偏态曲线,其形状随着,df,1,、,df,2,的增大逐渐趋于对称;,(2),F,分布的取值范围是(0,+),其平均数:,6.3,F-,分布的概率计算,附表5给出了,F,分布的右尾临界值,当右尾概率为,时,,2,分布在横坐标上的临界值的绝对值,记为,F,例9:根据附表5查出相应的右尾临界,F,值:,(1),df,1,=4,,df,2,=20,,=0.05;(2),df,1,=4,,df,2,=20,,=0.01,F,0.01(4,20),=4.43,F,0.05(4,20),=2.87,第三节 统计推断,假设检验,参数估计,统计学,1.统计推断:根据样本的观察结果以及样本统计量的抽样分布,对总体的数量特征作出具有一定可靠程度的,估计和判断,。,2.统计推断的基本内容有两个:,(1)参数估计,(利用样本指标来推断估计未知的总体指标。),(2)假设检验,(先对总体参数做一个假设,然后利用样本资料检验这个假设是否成立。),统计推断概述,假设你正在研究平均一个美国人一生中要得到多少交通罚单,报告研究结果的方法有以下两种:“10”或者“8到12之间”,一、参数估计,区间估计:给结论留一些余地。,Gudmund R.Iversen,1、点估计,1.用样本的估计量直接作为总体参数的估计值,例如:用样本均值直接,作为,总体均值的估计,例如:用样本方差直接,作为,总体方差的估计,2.没有给出估计值接近总体参数程度的信息,2、区间估计,在点估计的基础上,给出总体参数估计的一个,区间范围,,该区间由样本统计量加减抽样误差而得到的,根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量,比如,某班级平均分数在,75,85,之间,置信水平是,95%,样本统计量(点估计),置信区间,置信下限,置信上限,(不要求),统计假设检验又称为显著性检验,是生物统计学的核心内容,是统计推断的主要组成部分,统计推断(,statistical inference),就是通过样本特征(统计量)来推断相应总体特征(参数)的方法,参数估计(,parametric estimate),通过样本统计量估计总体参数的方法,点估计(,point estimate),区间估计(,interval estimate),直接用样本统计量的数值估计出相应总体参数具体值的方法,在一定的概率保证下(一般为95%或99%),根据样本统计量的分布,计算出总体参数出现的数值范围或区间,用该区间来估计总体参数的方法,参数估计是对总体参数的,定量分析,二、假设检验,统计假设检验(,hypothesis test),根据某种实际需要,对未知的或不完全知道的总体参数提出一些假设,然后根据样本观测值和统计量的分布,通过一定的计算,再作出在一定概率意义上应当接受哪种假设的方法。,统计假设检验的假设是对总体提出的,由于最后检验的结论只有两种:要比较的总体参数间要么存在显著差异,要么不存在显著差异,统计假设检验是对总体参数的,定性分析,1.统计假设检验的意义,以两个平均数之间差异的显著性检验为例,现随机挑选10名中国女性和10名韩国女性,请世界网络知名度大赛评委和观众进行知名度评分,试比较哪个国家女性知名度更高?,9.99,9.85,9.99,9.95,9.98,9.97,9.95,9.95,中国女性的平均得分9.98,韩国女性的平均得分9.91,两个国家女性的平均得分并不相等,其差值(表面效应)为:,根据两个样本平均数的差值0.07,是否可以给两个样本所在总体的总体平均数下这样的结论:,中国女性总体的平均得分高于韩国女性总体的平均得分,中国女性比韩国女性知名度更高,如果从经典数学的角度来看,答案应该是肯定,如果从生物统计学的角度来看,在未经过统计假设检验以前,只能说“不一定”,事实上,仅仅凭借样本平均数之差不等于0就得出其所属的总体平均数不相等是不可靠的,实际上,进行试验研究的目的并不在于了解样本的结果,而是要通过样本了解总体,通过样本来推断总体,从而对总体给出一个全面的结论,2.统计假设检验的基本思想与步骤,首先根据具体试验目的提出一个假设,然后在假定该假设成立(或正确)的前提下进行试验,并取得数据,接着对这些资料进行统计分析,获得该假设成立的概率,最后根据所获得的概率值的大小来判断假设是否成立,如果所得概率较大,就表明我们没有足够的理由来否定所作假设,即必须接受这一假设,如果所得概率较小,就表明这一假设不大可能成立,应予否定,从而接受其对立假设,统计假设检验的基本步骤,例3-3:通过以往的大规模调查,已知某地成年黑白花奶牛血液中的白细胞数为52.3,标准差为5.38,现测得10头黑白花牛白细胞数分别为53.6,55.3,46.4,57.2,46.0,43.2,48.1,51.1,49.9,44.5;=49.53。试问这批黑白花奶牛是否来自于某地黑白花奶牛总体?,(1),对所研究的总体提出假设,研究某一随机样本所在的总体(用,表示)和一已知总体(用,0,表示)是否为同一总体,也就是研究这一随机样本是否来自于已知总体,假设:,两个总体为同一个总体(即两个总体的总体平均数相等),无效假设(,null hypothesis),用,H,0,表示,即,H,0,:,=,0,无效假设的含义:,无效假设就是假设两总体的平均数相等,即,H,0,:,假设样本平均数,与已知总体平均数,由抽样误差引起的,并不是两总体之间的真实差异,两总体之间的差异是由抽样误差所引起的,为了在无效假设被否定后有可以被接受的假设,因此应在设立无效假设的同时设立一个后备假设,备择假设(,alternative hypothesis),用,H,A,表示,即,H,A,:,备择假设的统计学意义:,样本所在总体与已知总体不是同一个总体,即两总体的平均数不等,即:,两总体之间的差异,是真实差异,而不是由抽样误差引起的,统计假设检验中完整的假设是:,两总体之间的差异是真实差异,(2),在假定无效假设成立的前提下,研究样本平均数的抽样分布,计算样本平均数出现的概率,样本平均数与总体平均数间有一个实际存在的差值:,这个差值就是表面效应,可能是抽样误差,也可能是真实差异,因此需要借助概率原理来进行判断,第一种方法:计算差值,-2.77(或样本平均数),出现的概率,在无效假设成立的前提下,样本所在的总体与已知总体为同一个总体,因此样本所在总体的总体平均数和方差已知,即:,由于总体方差已知,根据标准正态分布就可以计算出差值-2.77出现的概率,0.10.11,标准化:构造统计量 正态分布转换为标准正态分布-计算概率,第二种方法:计算样本平均数的接受区间,根据标准化公式计算样本平均数的接受区间:,接受区间,否定区间,接受区间和否定区间是有一定的概率保证的,保证概率为1-,,,常用的保证概率为95%和99%;,为显著水平,常用的显著水平有0.05和0.01,倘若样本平均数落在接受区间内,就接受,H,0,,,反之,倘若样本平均数落在接受区间之外,就否定,H,0,,,接受,H,A,作为0.05显著水平上接受或否定无效假设的两个临界值,作为0.01显著水平上接受或否定无效假设的两个临界值,95%的接受区间为:,99%的接受区间为:,(3),根据“小概率事件实际不可能性原理”接受或否定无效假设,小概率事件实际不可能性原理是指在一次试验中,概率很小的事件是不可能出现的,在统计学中,当样本平均数与总体平均数差值出现的概率小于5%时,就认为这种差异由抽样误差引起的概率较小,而是两总体间的真实性差异,从而否定无效假设,差值-2.77出现的概率为0.10.11,大于0.05,概率较大;说明样本平均数与已知总体的总体平均数之间的差异是抽样误差的概率较大,而不大可能是真实差异,接受无效假设,也就是说这批黑白花奶牛是来自于某地黑白花奶牛总体。,总结:统计假设检验的步骤,(1)提出假设,(2)构造、计算检验统计量(转换为方便计算概率,如,U,t,值等),(3)查附表,根据小概率原理作出接受或者否定无效假设的推断,并结合专业知识作出合理的、科学的解释,例4-2:1995年,已知某地20岁应征男青年的平均身高为168.5,cm。2005,年在当地20岁应征男青年中随机抽取85人,平均身高为171.2,cm,,标准差为5.3,cm,,问2005年当地20岁应征男青年的身高与1995年的是否相同?,解:,(1)提出假设,H,0,:=168.5,H,A,:168.5,与1995年相比,2005年当地20岁应征男青年的身高没有变化,与1995年相比,2005年当地20岁应征男青年的身高有变化,(2)计算,u,值,(3)查表,作出推断,u,0.05,=1.96,,u,0.01,=2.58,|,u,|=4.70,2.58=,u,0.01,,,P0.01,根据“小概率事件原理”可以认为无效假设不成立,因此否定无效假设,接受备择假设,样本不是来自于已知总体,即2005年当地20岁应征男青年的身高有变化,比1995年增高了,在显著性检验中,否定或接受无效假设的依据是“小概率事件实际不可能性原理”,用来确定否定或接受无效假设的概率标准称为显著水平,记作,若|,u,|,u,0.05,P,0.05,,说明表面效应属于试验误差的可能性大,不能否定无效假设,,两个总体平均数间,差异不显著,若,u,0.05,|,u,|,u,0.01,P,0.05,,说明表面效应属于试验误差的概率,P,在0.01-0.05之间,表面效应属于试验误差的可能性较小,应否定无效假设,接受备择假设,两个总体平均数间,差异显著,标记,*,若|,u,|,u,0.01,P,0.01,,说明表面效应属于试验误差的概率,P,不超过0.01,表面效应属于试验误差的可能性更小,应否定无效假设,接受备择假设,两个总体平均数间,差异极显著,标记,*,3.一尾检验和两尾检验,所研究样本的样本平均数,有可能大于已知总体的总体平均数,也有可能小于已知总体的总体平均数,即计算所得的,u,值可能会落在标准正态分布左边否定区,也有可能会落在右边否定区,既考虑左边否定区又考虑右边否定区即考虑分布曲线两尾的检验称为两尾检验(,two-tailed test),在很多情况下,事先并不知道所抽样本的样本平均数是不是肯定大于总体平均数或肯定小于总体平均数,因此,备择假设,H,A,:,0,中,有两种可能性存在,既包括,0,,,又包括,0,两尾检验是生物统计学中最常用的方法,应用范围极其广泛,52.3,49.53,两尾检验的假设:,H,0,:,=,0,,H,A,:,0,有些时候,试验目的是明确的,即所抽样本的样本平均数只可能大于总体平均数,0,,,或只可能小于总体平均数,0,在这种情况下,无效假设否定后的备择假设只有一种情况:要么,0,,,要么,0,只有一个否定区(一尾)的假设检验称为一尾检验(,one-tailed test),一尾检验的假设:,H,0,:,0,,H,A,:,0,在样本容量和显著水平相同的情况下,一尾检验的效率高于两尾检验,一尾检验比两尾检验更容易否定无效假设,若对同一资料进行两尾检验和一尾检验,那么在,水平上一尾检验显著,只相当于两尾检验在,(,查表时双侧2,即可,),水平上显著。所以,同一资料两尾检验与一尾检验所得的结论不一定相同,两尾检验显著,一尾检验一定显著,一尾检验显著,两尾检验未必显著,一尾检验的假设:,H,0,:,0,,H,A,:,0,4.假设检验的两类错误,在假设检验中,接受或者否定无效假设的依据是“,小概率事件实际不可能性原理,”,因此所得出的结论(不论是接受还是否定无效假设)都没有,100%,的把握,只是在一定的概率范围内认为这种结论是正确的,4.1 第一类错误,如果无效假设,H,0,成立,即,H,0,:,=,0,为真,但:,检验结果发现“差异显著”而否定了它(此时,只有95%的把握,要冒5%下错结论的风险),检验结果发现“差异极显著”而否定了它(此时,只有99%的把握,要冒1%下错结论的风险),这一类错误称为型错误或,型错误,型错误的实质就是把非真实差异(抽样误差)错判为真实差异,,即:,H,0,:,=,0,为真,却接受了,H,A,:,0,弃真,H,0,正确被否定,犯型错误的概率不会超过显著水平,(5%、1%),4.2 第二类错误,如果无效假设,H,0,不成立,即,H,0,:,=,0,为假,但:,检验结果发现“差异不显著”而接受了它,同时放弃了正确的备择假设,在统计学中所谓的“差异不显著”就是指没有充分的理由去否定无效假设,但也没有充分的理由去接受备择假设,但生物统计学实行的是“非此即彼”的原则,因此,既然“差异不显著”就必须接受无效假设。,这一类错误称为型错误或,型错误。,型错误的实质就是把真实差异错判为非真实差异,即虽然,H,0,:,=,0,是假的,但通过检验却接受了,存伪,H,0,错误被接受,统计推断的基本特点就是,“,有很大的可靠性,但也有一定的错误率,”,两类错误与假设的关系,客 观 实 际,接 受,H,0,否 定,H,0,无效假设,H,0,成立,推断正确(1-,),型错误(,)“,弃真”,无效假设,H,0,不成立,型错误(,)“,存伪”,推断正确(1-,),
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服