资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第七章,抽样法,第一节 基本概念,一、抽样调查的意义,一,般所讲的抽样调查,即指狭义的抽样调查,(,随机抽样,),:按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。,抽样(随机抽样)的特点,遵循随机原则,(,不受主观因素影响,是抽样推断的基础,),抽取样本,是由部分推断总体的一种研究方法,可以对抽样误差进行控制,(,概率论,),二、抽样调查的适用范围,抽,样调查方法是市场经济国家在调查方法上的必然选择,和普查相比,它具有准确度高、成本低、速度快、应用面广等优点。,1.,实,际工作不可能进行全面调查观察,而又需要了解其全面资料的事物,;,2.,虽,可进行全面调查观察,但比较困难或并不必要;,3.,对,普查或全面调查统计资料的质量进行检查和修正;,4.,抽,样方法适用于对大量现象的观察,即组成事物总体的单位数量较多的情况;,5.,利,用抽样推断的方法,可以对于某种总体的假设进行检验,判断这种假设的真伪,以决定取舍。,一般适用于以下范围:,三、抽样调查的基本概念,(,一,),总体和样本,总体:所要调查观察的全部事物。,总体单位数用,N,表示。,样本:抽取出来调查观察的单位。,抽样总体的单位数用,n,表示。,n,30,大样本,n 30,小样本,样本容量与可能的样本数目,可能的样本数目:从一个单位数为,N,的总体中随机抽出单位数为,n,的样本的全部可能的数量。至少为:,从,300,名学生中按不重复抽样方法抽出,20,名学生,则可能的样本数目为:,约,750,万亿亿亿个,在抽样估计中,总体单位为有限个、且可以逐个调查登记的总体称为有限总体。总体单位为无限个、或总体单位虽然有限但不可能逐个调查的总体称为无限总体。,以下内容被视为属于无限总体:,单位数太多的总体;,一个正在进行的过程;,预期将会发生的某个总量。,有限总体与无限总体,有限总体与无限总体,有限总体:已知,可以排队编号并利用随机数表抽取样本单位。,无限总体:未知,不能编号,不能使用随机数表。,(,二,),总体指标和样本指标,总体,指标:全及总体的那些指标。,样本,指标:抽样总体的那些指标。,抽,样框,即总体单位的名单,是指对可以选择作为样本的总体单位列出名册或顺序编号,以确定总体的抽样范围和结构。,样,本个数,指从总体中可能抽取的样本的数量。,样,本容量,指一个样本所包括的单位数。,第二节 抽样调查的组织形式,通常有以下四种组织形式:,一、简单随机抽样,(,纯随机抽样,),即从总体单位中不加任何分组、排队,完全随机地抽取调查单位。,随机抽选可有各种不同的具体做法,如:,1.,直接抽选法;,2.,抽签法;,3.,随机数码表法;,重复抽样放回抽样:,重复抽样与不重复抽样,抽出个体,登记特征,放回总体,继续抽取,通常只在必须使样本单位能重复出现时使用,某彩票中奖号码(号码不重复出现):,1 2 3 4 5 6,失去中奖机会的号码,11,、,121,、,122,、,1231,、,1232,、,1233,、,12341,、,12342,、,12343,、,12344,、,123451,、,123452,、,123453,、,123454,、,123455,总计:,12345,个至少占总数,重复抽样与不重复抽样,抽出个体,登记特征,继续抽取,最为常用的抽样方法,用于无限总体和许多有限总体的抽样。,不重复抽样无放回抽样:,二、类型抽样,(,分层抽样,),先对总体各单位按一定标志加以分类,(,层,),,然后再从各类,(,层,),中按随机原则抽取样本,组成一个总的样本。,类型的划分:,一,是必须有清楚的划类界限;,二,是必须知道各类中的单位数目和比例;,三,是分类型的数目不宜太多。,类型抽样的好处是:,样,本代表性高、抽样误差小、抽样调查成本较低。如果抽样误差的要求相同的话则抽样数目可以减少。,两种类型:,1.,等,比例类型抽样,(,类型比例抽样,),;,2.,不,等比例类型抽样,(,类型适宜抽样,),。,类型抽样(分层抽样),总体,N,样本,n,等额,等比例,三、机械抽样,(,等距抽样,),先,将全及总体的所有单位按某一标志顺序排队,然后按相等的距离抽取样本单位。,排列次序用的标志有两种:,1.,选,择标志与抽样调查所研究内容无关,称无关标志排队。,2.,选,择标志与抽样调查所研究的内容有关,称有关标志排队。,研究工人的平均收入水平时,按工号排队。,例,研究工人的生活水平,按工人月工资额高低排队。,例,机械抽样按样本单位抽选的方法不同,可分为三种:,1.,随,机起点等距抽样,k k k,k+a 2k+a (n-1)k+a,a,k,(k,为抽取间隔,),示意图:,2.,半,距起点等距抽样,k k k,k,(k,为抽取间隔,),示意图:,3.,对,称等距抽样,示意图:,k k k,2k-a 2k+a 4k-a 4k+a,a,k,(k,为抽取间隔,),机械抽样的好处:,1.,可,以使抽样过程大大简化,减轻抽样的工作量;,2.,如,果用有关标志排队,还可以缩小抽样误差,提高抽样推断效果。,机械抽样,实际上是一种特殊的类型抽样。因为,如果在类型抽样中,把总体划分为若干相等部分,每个部分只抽一个样本,在这种情况下,则类型抽样就成了机械抽样。,四、整群抽样,整群抽样,即从全及总体中成群地抽取样本单位,对抽中的群内的所有单位都进行观察。,整群抽样的好处:,组织工作比较简单方便,适用于一些特殊的研究对象。其不足之处是,一般比其它抽样方式的抽样误差大。,总体群数,R=16,样本群数,r=4,样本容量,例:,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,L,H,P,D,五、多阶段抽样,即把抽样本单位的过程分为两个或几个阶段来进行。,(如果一次就直接抽选出具体样本单位,这叫单阶段抽样)具体讲:,先抽大单位,(,可以用类型抽样或机械抽样,),,,再在大单位中抽小单位,(,可用整群抽样或简单随机抽样,),,,小单位中再抽更小的单位;而不是一次就直接抽取基层的调查单位。,例:,在某省,100,多万农户抽取,1000,户调查农户生产性投资情况。,多阶段抽样,第一阶段:从省内部县中抽取,5,个县,第二阶段:从抽中的,5,个县中各抽,4,个乡,第三阶段:从抽中的,20,个乡中各抽,5,个村,第四阶段:从抽中的,100,个村中各抽,10,户,样本,n=10010=1000(,户,),六、重复抽样和不重复抽样,以上每一种组织方式又有不同的抽取样本方法,(,机械抽样和整群抽样没有重复抽样,),:,重复抽样:又称有放回抽样。,不重复抽样:又称不放回抽样。,例,例,第三节 抽样原理,一、可能样本,总体容量 和样本容量 都确定后,总体 中每一个可能被抽中的样本。,1,、重复抽样样本数:,2,、不重复抽样样本数:,所有样本指标(如均值、比例、方差等)所形成的分布称为抽样分布,是一种理论概率分布,随机变量是,样本统计量,样本均值,样本比例等,结果来自容量相同的所有可能样本,二、抽样分布,统计量与抽样分布,统计量:即样本指标。,样本均值,样本成数,样本方差,如:,抽样分布:,某一统计量所有可能的样本取值形成的分布。,数字特征,均值,E,(,X,),方差,Ex-E(x),2,方差的平方根即抽样分布的标准差就是,推断的,抽样误差。,抽样分布,抽样分布:样本统计量所有可能值的概率分布。,样本统计量,总体未知参数,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,样本统计量,分布的形状及接近总体参数的程度,样本均值的抽样分布,(一个例子),【例,】,设一个总体,含有,4,个元素(个体),即总体单位数,N,=4,。,4,个个体分别为,X,1,=1,、,X,2,=2,、,X,3,=3,、,X,4,=4,。总体的均值、方差及分布如下,均值和方差,总体分布,1,4,2,3,0,.1,.2,.3,样本均值的抽样分布,现从总体中抽取,n,2,的简单随机样本,在重复抽样条件下,共有,4,2,=16,个样本。所有样本的结果如下表,3,4,3,3,3,2,3,1,3,2,4,2,3,2,2,2,1,2,4,4,4,3,4,2,4,1,4,1,4,4,1,3,3,2,1,1,2,1,1,1,第二个观察值,第一个,观察值,所有可能的,n,=2,的样本(共,16,个),样本均值的抽样分布,(一个例子),计算出各样本的均值,如下表。并给出样本均值的抽样分布,3.5,3.0,2.5,2.0,3,3.0,2.5,2.0,1.5,2,4.0,3.5,3.0,2.5,4,2.5,4,2.0,3,2,1,1.5,1.0,1,第二个观察值,第一个,观察值,16,个样本的均值(,x,),样本均值的抽样分布,1.0,0,.1,.2,.3,P,(,x,),1.5,3.0,4.0,3.5,2.0,2.5,x,所有样本均值的均值和方差,式中:,M,为样本数目,比较及结论:,1.,样本均值的均值(数学期望)等于总体均值,2.,样本均值的方差等于总体方差的,1/,n,样本均值的分布与总体分布的比较,抽样分布,=2.5,2,=1.25,总体分布,1,4,2,3,0,.1,.2,.3,P,(,x,),1.0,0,.1,.2,.3,1.5,3.0,4.0,3.5,2.0,2.5,x,样本均值的抽样分布与中心极限定理,=50,=10,X,总体分布,n,=4,抽样分布,X,n,=16,当总体服从正态分布,N,(,2,),时,来自该总体的所有容量为,n,的样本的均值,X,也服从正态分布,,X,的数学期望为,,方差为,2,/,n,。即,X,N,(,2,/,n,),中心极限定理,当样本容量足够大时,(,n,30),,样本均值的抽样分布逐渐趋于正态分布,中心极限定理:设从均值为,,方差为,2,的一个任意总体中抽取容量为,n,的样本,当,n,充分大时,样本均值的抽样分布近似服从均值为,、方差为,2,/,n,的正态分布,一个任意分布的总体,X,样本均值的抽样分布(简称均值的分布),抽样,总体,样本,均值,X,(N),均值,=Xi/N,x,(n),样本均值是样本的函数,,故样本均值是一个统计量,,统计量是一个随机变量,,它的概率分布称为样本均,值的抽样分布。,均值分布的数学期望和方差,抽样方法 均值 方差 标准差,(,1,)从无限总体抽样和有限总体放回抽样,(,2,)从有限总体不放回抽样,抽样误差,抽样误差,样本均值,45 47.5 50 52.5 55 57.5 60,出现次数,1 1 2 3 4 4 5,离差,-15 -12.5 -10 -7.5 -5 -2.5 0,样本均值,62.5 65 67.5 70 72.5 75,出现次数,4 4 3 2 1 1,离差,2.5 5 7.5 10 12.5 15,学生,成绩,30 40 50 60 70 80 90,离差,-30 -20 -10 0 10 20 30,第四节 抽样误差,一、抽样误差的概念及其影响程度,在统计调查中,调查资料与实际情况不一致,两者的偏离称为统计误差。,抽样误差,167CM,169CM,172CM,160CM,162CM,167CM,175CM,180CM,165CM,167CM,170CM,175CM,178CM,180CM,162CM,173CM,155CM,160CM,170CM,165CM,平均身高,=169.8CM,平均身高,=174.6CM,总平均身高,=168.6CM,抽样误差即指随机误差,这种误差是抽样调查固有的误差,是无法避免的。,抽样误差的影响因素:,1.,全,及总体标志变异程度。,正比关系,2.,抽,样单位数目的多少。,反比关系,3.,不,同的抽样方式。,4.,不,同的抽样组织形式。,抽样误差的作用:,1.,在,于说明样本指标的代表性大小。,误差大,则样本指标代表性低;,误差小,则样本指标代表性高;,误差等于,0,,则样本指标和总体指标一样大,。,2.,说,明样本指标和总体指标相差的一般范围。,抽样推断误差,登记误差,代表性误差,由人为原因造成的、可以避免的误差:非抽样误差,非人为原因造成的、无法避免的误差:抽样误差,抽样估计的可能误差,非抽样误差的种类及产生的原因:,设计失误或工具不良;,调查对象选择失误;,无回答;,数据处理失误;,调查人员误导;,被调查者说谎。,抽样误差产生的原因:,用部分单位来推断总体,抽样估计的可能误差,抽样误差的控制,关于抽样误差的几点认识:,抽样误差是样本统计量与总体参数之间的绝对差异,对于任何一个样本,其抽样误差都不可能测量出来,抽样误差的大小可以依据概率分布理论加以说明,抽样误差的控制,抽样误差的控制途径:,第一,选择合适的抽样方式,第二,控制样本容量,分层随机样本可能优于简单随机样本,样本容量越大,则样本统计量就越接近总体参数。,样本均值,45 47.5 50 52.5 55 57.5 60,出现次数,1 1 2 3 4 4 5,样本均值,62.5 65 67.5 70 72.5 75,出现次数,4 4 3 2 1 1,样本均值,50 52 54 56 58 60,出现次数,1 1 2 2 3 3,样本均值,62 64 66 68 70,出现次数,3 2 2 1 1,n=,n=,某个样本容量的抽样分布,更大样本容量的抽样分布,二、抽样平均误差,抽样平均误差实际上是样本指标的标准差。通常用,表示。在,N,中抽出,n,样本,从排列组合中可以有各种各样的样本组:,1.,如果是重复抽样:,例,2.,如果是不重复抽样:,例,例,例,10,10,-20,400,20,15,-15,225,30,20,-10,100,40,25,-5,25,50,30,0,0,10,15,-15,225,20,20,-10,100,30,25,-5,25,40,30,0,0,50,35,5,25,10,20,-10,100,20,25,-5,25,30,30,0,0,40,35,5,25,50,40,10,100,10,25,-5,25,20,30,0,0,30,35,5,25,40,40,10,100,50,45,15,225,10,30,0,0,20,35,5,25,30,40,10,100,40,45,15,225,50 50,50,20,400,合 计,-,-,2 500,接左:,以上资料编成次数分配表如下:,样本数,f(,即次数分配,),10,1,-20,15,2,-15,20,3,-10,25,4,-5,30,5,0,35,4,5,40,3,10,45,2,15,50,1,20,合计,25,-,抽样误差是所有可能出现的样本指标的标准差。它是由于抽样的随机性而产生的样本指标与总体指标之间的平均离差。,抽取样本,样本平均数,离差,10 20,15,-15,225,10 30,20,-10,100,10 40,25,-5,25,10 50,30,0,0,20 30,25,-5,25,20 40,30,0,0,20 50,35,5,25,30 40,35,5,25,30 50,40,10,100,40 50,45,15,225,合 计,-,-,750,上例五户中抽取二户调查,如采取不考虑顺序的不重复抽样方法,则:,三、纯随机抽样的抽样平均误差,平均数的抽样平均误差,1.,重,复抽样,取得,的途径有:,1.,用,过去全面调查或抽样调查的资料,若同时有,n,个,的资料,应选用数值较大的那个;,2.,用,样本标准差,S,代替全及标准差,;,3.,在,大规模调查前,先搞个小规模的试验性的调查来确定,S,,代替,;,4.,用,估计的方法。,某灯泡厂从一天所生产的产品,10,000,个中抽取,100,个检查其寿命,得平均寿命为,2000,小时,(,一般为重复抽样,),,根据以往资料:,=20,小时,,根据以往资料,产品质量不太稳定,若,=200,小时,,例,2.,不,重复抽样:,平均数的抽样平均误差,总体方差,若,总体方差,未知:,用样本方差,2,代替,用历史资料代替,用试验结果估算,比率的抽样平均误差,总体方差已知,总体方差未知,四、类型抽样的抽样平均误差,五、机械抽样,(,等距抽样,),的抽样平均误差,1.,若,按无关标志排队,公式用以上纯随机抽样的公式,一般采用,不重复抽样公式:,2.,若,按有关标志排队,公式用类型抽样的公式:,六、整群抽样的抽样平均误差,整群抽样的抽样平均误差受三个因素影响:,(1),抽,出的群数,(r),多少,(,反比关系,),(2),群,间方差,()(,正比关系,),计算方法如下:,(3),抽,样方法,以上抽样平均误差的公式归纳如下:,第五节 抽样推断,一、点估计和区间估计,参数估计的方法,矩估计法,最小二乘法,最大似然法,顺序统计量法,估 计 方 法,点 估 计,区间估计,估计量和估计值,估计量:用来推断估计一个总体指标的样本 指标,叫这个总体指标的估计量。,如:,根据被抽中的一个样本,计算得到的估计量的一个具体数值,叫总体指标的估计值。,1.,用于估计总体某一参数的随机变量,如样本均值,样本比例、样本中位数等,例如,:,样本均值就是总体均值,的一个估计量,如果样本均值,x,=3,,则,3,就是,的估计值,理论基础是抽样分布,估计量,(概念要点),(,一,),点估计,例,点估计,(概念要点),从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计,例如,:,用样本均值,作为,总体未知均值的估计值就是一个点估计,2.,点估计没有给出估计值接近总体未知参数程度的信息,点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等,的抽样分布,点估计的最大好处:给出确定的值点估计的最大问题:无法控制误差,估计量的优良标准,(无偏,性),无偏性:,估计量的数学期望等于被估计的总体参数,P,(,X,),X,C,A,无偏,有偏,估计量的优良标准,(有效性,),有效性:一个方差较小的无偏估计量称为一个更,有效的估计量。如,与其他估计量相比,,样本均值是一个更有效的估计量,A,B,中位数的抽样分布,均值的抽样分布,X,P,(,X,),估计量的优良标准,(一致性),一致性:,随着样本容量的增大,估计量越来越接近被估计的总体参数,A,B,较小的样本容量,较大的样本容量,P,(,X,),X,(,二,),区间估计,是,根据样本指标和抽样误差去推断全及指标的可能范围,它能说清楚估计的准确程度和把握程度。,由于区间估计所表示的是一个可能的范围,而不是一个绝对可靠的范围。就是说,推断全及指标在这个范围内只有一定的把握程度。用数学的语言讲,就是有一定的概率。,根据中心极限定理,得知当,n,足够大时,抽样总体为正态分布,根据正态分布规律可知,样本指标是以一定的概率落在某一特定的区间内,统计上把这个给定的区间叫抽样极限误差,也称置信区间,即在概率,F(t),的保证下:,抽样极限误差,=t,,(,t,为概率度),当,F(t)=68.27%,时,抽样极限误差等于抽样平均误差的,1,倍,(t=1);,当,F(t)=95.45%,时,抽样极限误差等于抽样平均误差的,2,倍,(t=2);,当,F(t)=99.73%,时,抽样极限误差等于抽样平均误差的,3,倍,(t=3);,可见,抽样极限误差,即扩大或缩小了以后的抽样误差范围。,例,区间估计,(概念要点),1.,根据一个样本的观察值给出总体参数的估计范围,给出总体参数落在这一区间的概率,例如,:,总体均值落在,5070,之间,置信度为,95%,样本统计量,(,点估计,),置信区间,置信下限,置信上限,置信区间估计,(内容),2,已知,2,未知,均 值,方 差,比 例,置 信 区 间,区间估计原理,0.6827,落在范围内的概率为,68.27%,区间估计原理,0.9545,落在范围内的概率为,95.45%,区间估计原理,0.9973,落在范围内的概率为,99.73%,落在总体均值某一区间内的样本,x,_,X,X,=,Z,x,95%,的样本,-1.96,x,+1.96,x,99%,的样本,-2.58,x,+2.58,x,90%,的样本,-1.65,x,+1.65,x,置信水平,总体未知参数落在区间内的概率,表示为,(1-,为显著性水平,是总体参数未在区间内的概率,常用的显著性水平值有,99%,95%,90%,相应的,为,0.01,,,0.05,,,0.10,区间与置信水平,均值的抽样分布,1-,a,a,/,2,a,/,2,(1-,)%,区间包含了,%,的区间未包含,影响区间宽度的因素,1.,数据的离散程度,,用,来测度,样本容量,,置信水平,(1-,),,影响,Z,的大小,计算样本统计量,计算抽样平均误差,计算抽样极限误差,确定置信区间,区间估计步骤,(,以估计 为例,):,区间估计的数学表达方式:,区间估计步骤,(以估计 为例):,令:,则:,已知:,对于给定的显著性水平,有:,抽样极限误差,某农场进行小麦产量的抽样调查,该农场小麦播种面积为,10000,亩,采用不重复的简单随机抽样从中选,100,亩作为样本,进行实割实测,得到样本的平均亩产量为,400,千克,样本标准差为,12,千克。,则:,例,1,某机械厂日产某种产品,8000,件,现采用纯随机不重复抽样方式,(,按重复抽样公式计算,),,从中抽取,400,件进行观察,其中有,380,件为一级品,试以概率,95.45%,的可靠程度推断全部产品的一级品率及一级品数量的范围。,则:抽样一级品率:,例,2,第六节 样本容量的确定,一、影响必要抽样数目的因素,样本容量,调查误差,调查费用,小样本容量节省费用但调查误差大,大样本容量调查精度高但费用较大,找出在规定误差范围内的最小样本容量,确定样本容量的意义,找出在限定费用范围内的最大样本容量,(,一,),简单随机抽样,二、必要抽样数目的计算公式,(,二,),类型抽样,(,三,),整群抽样,等距抽样的抽样数目,在有总体差异程度和比重的全面资料时,可采用类型抽样的公式;没有总体的全面资料时,可采用简单随机抽样的公式。,根据均值区间估计公式可得样本容量,n,为,估计总体均值时样本容量的确定,样本容量,n,与总体方差,2,、允许误差,、可靠性系数,Z,之间的关系为,与总体方差成正比,与允许误差成反比,与可靠性系数成正比,其中:,通常的做法是先确定置信度,然后限定抽样极限误差。,或,S,必须事先知道,但通常未知。一般按以下方法确定其估计值:,a,以前类似样本的,S,;,b,试验调查样本的,S,;,计算结果通常向上进位,样本容量的确定,(实例),解,:,已知,2,=1800000,,,=0.05,,,Z,/2,=1.96,,,=500,应抽取的样本容量,为,【例,】,一家广告公想估计某类商店去年所花的平均广告费用有多少。经验表明,总体方差约为,1800000,元。如置信度取,95%,,并要使估计处在总体平均值附近,500,元的范围内,这家广告公司应抽多大的样本?,根据比例区间估计公式可得样本容量,n,为,估计总体比例时样本容量的确定,若总体比例,P,未知时,可用样本比例 来代替,p,其中:,通常的做法是先确定置信度,然后限定抽样极限误差,P,或,p,必须事先知道,但通常未知。一般按以下方法确定其估计值:,a,以前类似样本的,p,;,b,试验调查样本的,p,;,c,取,p,=0.5,。,计算结果通常向上进位,样本容量的确定,(实例),【例,】,一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对比例,p,的估计误差不超过,0.05,,要求的可靠程度为,95%,,应抽多大容量的样本(没有可利用的,p,估计值)。,解,:,已知,=0.05,,,=0.05,,,Z,/2,=1.96,,当,p,未知时用最大方差,0.25,代替,应抽取的样本容量,为,估计比率时的样本容量的确定(实例),某网站一个由,400,名使用者组成的样本表明,该网站的使用者中,26,的使用者为女性。在,95,的置信度下,若希望将抽样极限误差控制在,3,,则样本容量应当为:,例:某地硕士研究生毕业第一年年薪的标准差大约为,2000,元人民币。如果以,95%,的置信度估计其平均年薪,并且希望抽样极限误差分别不超过,500,元和,100,元,样本容量应为多少?,End of Chapter 7,
展开阅读全文