1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2020年5月29日星期五,#,07 六月 2025,第五章抽样与抽样分布,第一节 统计量,第二节 大数定律与中心极限定理,第三节 由正态分布导出的几个重要分布,第四节 常用的抽样方法,第五节 抽样分布,第五章 抽样与抽样分布,第一节 统计量,统计量,(statistic):描述样本特征的概括性数字度量,根据样本数据计算的一个随机变量,是对总体分布特征推断的工具。,设,X,1,X,2,X,n,为总体,X,的样本,如果样本的函数g,(X,1,X,2,X,n,),是一个随机变量,并且,不包含任何未知参数,,则称g,
2、X,1,X,2,X,n,),为,统计量,。,几个常用的统计量:,1.样本均值:,2.样本方差:,3.样本标准差:,第二节 大数定律与中心极限定理,一、大数定律,大数定律(laws of large numbers)也称,大数法则,,它是阐述大量同类随机现象的,平均结果,稳定性的规律。,辛钦大数定理,设随机变量X,1,X,2,X,n,相互独立,服从同一分布,且具有数学期望EX,i,=,(i=1,2,,,n),则对任意,0,,有,定律表明:只要随机变量独立同分布,即使不存在有限方差,其数学期望仍可由n个随机变量的,算术平均值,作为其近似值。,二、中心极限定理,在统计学中,论证随机变量和的极限分布
3、是正态分布的一系列定理统称为,中心极限定理,(central limit theorem)。,独立同分布,中心极限定理,设,X,1,X,2,X,n,是,独立同分布,的随机变量序列,且存在有限的数学期望EX,i,=,和方差DX,i,=,2,(i=1,2,,n),那么当n,时,,中心极限定理为,均值的抽样推断,奠定了理论基础。不论总体服从何种分布,只要期望和方差存在,对这一总体进行重复抽样,当,样本量充分大,,,样本均值就趋于正态分布,。,棣莫佛拉普拉斯,中心极限定理,定理表明,当n很大,np和n(1-p)(,n是试验的次数,p是试验中事件A发生的概率,)也都不太小时,,二项分布可以用,正态分布去
4、近似,。,第三节 由,正态分布,导出的几个重要分布,由样本统计量对未知总体分布进行推断,必须知道,统计量所服从的分布,。,本节介绍几个重要的常用统计量分布:,2,分布,t分布,,F分布。,一、分位数,设,X,为随机变量,对给定的概率,(10),,若实数,F,满足不等式,则称F,为随机变量X分布概率为,的,上侧分位数,。,若实数,T,/2,满足不等式,则称T,/2,为随机变量X分布概率为,的,双侧分位数,。,标准正态分布的,上侧分位数,Z,0,Z,标准正态分布的,双侧分位数,/,2,/,2,Z,0,-Z,/2,Z,/2,设,X,1,,,X,2,,,X,n,是取自,标准正态,总体的样本,则随机变量
5、服从具有,n,个自由度的,2,分布,,记为,c,2,-,分布,(,2,-,distribution,),不同自由度的,c,2,-,分布,c,2,n,=1,n,=4,n,=10,1.,变量值始终为正,2.通常为不对称的,右偏分布,,随着自由度的增大逐,渐趋于对称,3.,期望,E,(,2,)=,n,,,方差,D,(,2,)=2,n,(,n,为自由度),4.,可加性,:若,U,和,V,为两个,独立,的,2,分布随机变量,,U,2,(n,1,),,V,2,(,n,2,),则,U,+,V,服从自由度为,n,1,+,n,2,的,2,分布,c,2,-,分布,性质和特点,t-分布(t-distributio
6、n),设XN(0,1),Y,2,(,n,),且X与Y相互独立,则称,服从自由度为,n的t分布,,记为tt(n),t,分布与标准正态分布的比较,t,分布,标准正态分布,t,t,(,df,=20),t,(,df,=10),z,0,t分布的性质,:,(1)与正态分布一样,是,对称的,,但比正态分布要平一些。,(2)自由度充分大时,t分布近似于正态分布。自由度趋向无穷大时,t分布就是标准正态分布。,(3),t分布的均值为0,其方差为n/(n-2)。,设X,2,(,m,),Y,2,(,n,),且X与Y相互独立,则称,服从自由度,m,和,n,的,F,分布,,记为,F,-,分布,(,F,distributi
7、on,),不同自由度的,F,分布,F,(1,10),(5,10),(10,10),右偏分布,第四节 常用的抽样方法,通常有以下几种抽样方法:,简单随机抽样,分层抽样,系统抽样,整群抽样,多阶段抽样,一、简单随机抽样,对总体未作任何处理,按,随机原则,直接从总体中抽出若干单位构成样本.,抽取样本的具体方法:,抽签法:,将总体中每个单位的编号写在外形完全一致的签上,将其搅拌均匀,从中任意抽选,签上的号码所对应的单位就是样本单位。,随机数表法:,将总体中每个单位编上号码,然后使用随机数表,查出所要抽取的调查单位。,仅适用于,规模不大、内部各单位标志值差异较小,的总体,直接抽选法,先将总体按某一标志分
8、层,然后从各层中按,随机原则,抽取样本单位组成样本。,二、分层抽样,实质上是,分组法,与,随机原则,的结合。,例如,在,居民生活水平调查,中,先按职业分类,然后每种职业分别随机抽取部分居民进行调查。,样本在各层间的分配方法:,等比例分配法,:按各层单位的比例分配样本单位。,类型抽样的优点:,能提高样本的代表性;,组织起来较为方便;,先将总体各单位按某一标志排队,然后按固定的顺序和间隔抽取样本单位。又称,机械抽样,或,等距,抽样,。,三、,系统,抽样,系统抽样是不重复抽样,适合于对单位数不多且能进行排序的总体抽样。,按无关标志排队,按有关标志排队,排序和所研究标志数值大小无关。如,调查居民生活水
9、平时,按姓氏笔划排队。,排序和所研究标志数值大小有密切关系。如,居民收入调查,按银行存款多少排序。,根据样本抽选的方法不同,可分为:,随机起点系统抽样,半距起点系统抽样,对称起点系统抽样,(总体单位按某一标志排序),(总体单位按某一标志排序),(总体单位按某一标志排序),系统抽样的好处:,1.,可,以使抽样过程大大简化,减轻抽样的工作量;,2.,如,果用有关标志排队,还可以缩小抽样误差,提高抽样推断效果。,按有关标志排队,系统,抽样,,实际上是一种,特殊的,分层,抽样,。,将总体全部单位分为若干,“群”,,然后以群作为抽样单位,从总体中抽取若干群作为样本,并对中选群的所有单位进行全面调查。,例
10、总体群数R=16 样本群数r=4,样本容量,简单、方便,能节省人力、物力、财,力和时间,但其样本代表性可能较差,四、整群抽样,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,D,P,I,H,五、,多阶段抽样,某公司要进行全国性的产品售后服务满意度调查时,通常是先抽几个省,然后从抽中的省中抽取若干个城市,从抽中的城市中,再抽取若干个县、村,最后再抽到户,这种抽样方式就是多阶段抽样。,第五节 抽样分布,一、抽样分布概念,样本统计量取值的概率分布,叫,抽样分布,(sampling distribution)。,是推断统计中用样本推断总体时的重要理论依据。,在重复选取容量为,n,的样
11、本时,由,样本均值的所有可能取值形成的概率分布,推断,总体均值,的理论基础,二、样本均值,的分布,=50,=10,X,总体分布,n,=4,抽样分布,x,n,=16,总体服从,正态分布,N,(,2,),,该总体的,任何容量,的,样本均值,x,也服从,正态分布,,,x,的期望值为,,方差为,2,/,n,。即,x,N,(,2,/,n,),从均值为,,方差为,2,的一个,任意总体,中抽取容量为,n,的样本,当,n,(,30)充分大,时,,样本均值的抽样分布,近似服从均值为,、方差为,2,/,n,的,正态分布,样本均值的抽样分布,趋于正态分布,任意分布的总体,x,样本均值抽样分布,与,总体分布,的关系,总体分布,正态分布,非正态分布,大样本,小样本,样本均值,正态分布,样本均值,正态分布,样本均值,非正态分布,总体(或样本)中具有,某种属性的单位与全部单位总数之比,不同性别的人与全部人数之比,合格品(或不合格品)与全部产品总数之比,总体比例,可表示为,样本比例,可表示为,三、样本比例的分布,(proportion),在重复选取容量为,n,的样本时,由样本比例的所有可能取值形成的,概率分布,当,样本容量很大时(np5,和,n(1-p)5,),样本比例的抽样分布可用,正态分布近似,,即,样本比例的分布,






