1、1. 抽样调查 广义的抽样调查:是从研究对象的全体(总体) 中抽取一部分单位作为样本,根据对所抽取的样本进行调查,获得有关总体目标量的了解。 从总体中抽取样本的方法看,抽取方法可以分为两类:一类是非随机抽样(非概率抽样);一类是随机抽样(概率抽样),狭义上的抽样就是随机抽样。2. 随机抽样(概率抽样) 随机抽样是从总体中按随机原则抽取样本,并依据样本观察值对总体的数量特征取得具有一定可靠性的推断,从而达到对总体的认识。随机抽样的特点:1.所谓随机原则就是在抽取样本时排除主观上有意识地抽取调查单元,使每个单元都以一个事先已知的非零概率有机会被抽中。2.每个单元被抽中的概率是已知的,或是可以计算出
2、来的,按照给定的入样概率通过一定的随机化程序进行抽样。3.估计量不仅与样本单元的观测值有关,也与其入样概率有关。随机抽样的主要优点是:随机抽样比非随机抽样更具有客观性,而且随机抽样可以依据调查结果计算抽样误差,从而得到对总体目标量进行推断的可靠程度。3. 非随机抽样(非概率抽样)非随机抽样是相对于随机抽样而言的。非随机抽样的共同特点是:抽取样本时,是依据主观判断有目的、有意识地进行,或根据方便的原则进行。4. 抽样调查的基本程序 一、确定调研问题二、抽样调查设计(抽样设计、问卷设计)三、实施调查过程四、数据处理分析五、撰写调查报告六、总结评估5. 总体、目标总体与抽样总体、抽样框、样本(包含第
3、十章抽样框误差定义)所要研究对象的全体称为总体,组成这个总体的每个个别对象就称为总体单元或总体单位。总体又有目标总体与抽样总体之分。目标总体就是抽样调查预先确定的所要认识的对象的全体,也就是从样本中得到信息对之进行说明的总体。抽样总体就是从中进行抽样的总体,是抽取样本的依据,从样本中得到的结论只适用于抽样总体。抽样总体应该与目标总体完全一致,但实践中两者不一致的情况时常发生。抽样框是一份包含所有抽样单元的名单、清册或地图。抽样单元是构成抽样框的基本要素。理想的抽样框标志是目标总体和抽样总体完全重合,就是说目标总体单元和抽样总体单元完全是一一对应的关系。否则,抽样框就是不完善的,这意味着有可能出
4、现抽样框误差。这种误差并不是来自于抽样的随机性,而是产生于不完善的抽样框,所以抽样框误差是一种非抽样误差。把从总体中按一定程序抽出的部分总体基本单元的集合称为样本。样本n对总体单元数N的比称为抽样比,即抽样比。6. 几种基本的抽样方法简单随机抽样、分层抽样、整群抽样、系统抽样、多阶抽样、不等概率抽样7. 抽样误差与非抽样误差(包含第十章内容:非抽样误差的定义及分类)由于样本的随机性引起的误差称为抽样误差,确切地讲,就是用样本数据估计总体指标而引起的总体指标估计值与总体指标真值之间的离差。非抽样误差是相对于抽样误差而言的,是指除抽样以外的,由于其他多种原因引起的总体指标估计值与总体指标真值之间的
5、差异。非抽样误差分类:1.抽样框误差,即由不完善的抽样框引起的误差。 2. 无回答误差,即由于种种原因没有能够从调查单元获得调查结果,造成调查数据的缺失。3.计量误差,即所获得的调查数据与调查项目的真值之间不一致造成的误差。8. 精度与费用、最优设计抽样误差的精度通常用给定置信度下的绝对误差限或相对误差限表示,也可以以估计量的方差、标准差或变异系数形式提出。抽样调查的精度取决于误差的大小。抽样误差越小,说明用样本统计量对总体指标进行估计时的精度越高。抽样误差与样本量有关,样本量越大,在其它条件相同情况下,抽样误差就越小,抽样调查的精度就越高。同时,样本量也与调查费用有关,样本量越大,调查费用就
6、越高。样本量与调查费用大致呈线性关系,但样本量与精度却成非线性关系。对于一个具体的抽样设计,在核定的费用内达到最高的精度,或在达到精度要求的条件下使调查的费用最少,则称这样的抽样设计为最优设计。9. 简单随机抽样(定义、作用、局限性)及其抽选方法简单随机抽样(或单纯随机抽样)是一种等概率的抽样方法,即每一个总体单元进入样本的概率都是相同的,一般局限于不放回随机抽样。简单随机样本的抽选通常有两种做法:抽签法和随机数法。简单随机抽样在抽样理论中占有重要的地位,其他抽样方法技术都是在它的基础上建立发展起来的。简单随机抽样的局限性主要表现在:首先,当总体单位数N很大时,则编制抽样框比较困难;其次,简单
7、随机抽样也不利用其他辅助信息,使得它的效率较其他利用辅助信息的抽样设计方法低。最后,由于样本在总体中的地理分布很广,如果采取面访,就费时费力,实际操作难度很大,完全有可能得到一个代表性很差的样本。10. 设计效应一个特定的抽样设计(包括抽样设计方法以及对总体目标量的估计方法)估计量的方差对相同样本量下(不放回)简单随机抽样的(简单)估计量的方差之比,即11. 分层抽样的定义、特点、划分原则 将容量为N的总体分成L个不相重叠的子总体,子总体的大小分别为N1、 N2、 NL,皆已知,且每个子总体就称为层。从每层中独立地进行抽样,这样的抽样方法称为分层抽样。分层随机抽样:在分层抽样中,如果每层中的抽
8、样都是简单随机抽样,则这样的分层抽样称为分层随机抽样。分层随抽样的特点:1.分层抽样的抽样效率较高,也就是说分层抽样的估计精度较高。2.分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。3.层内抽样方法可以不同,而且便于抽样工作的组织。4.为了组织调查的方便,各层可以根据层内的特点,分别采取不同的抽样方法。层的划分原则:1.层内单元具有相同性质,通常按调查对象的不同类型进行划分。2.尽可能使层内单元的标志值相近,层间单元的差异尽可能大(层间方差大,层内方差小),从而达到提高抽样估计精度的目的。3.既按类型又按层内单元标志值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的
9、目的。4.抽样组织实施的方便,通常按行政管理机构设置进行分层。12. 比率估计与回归估计概念与应用条件。 比率估计量又称比估计。在简单随机条件下,若分别以,表示两个指标均值,以表示样本比率,则,若以作为总体比率R的估计,就称为R的比率估计。在简单随机抽样下,总体均值与总体总量的线性回归估计量定义为:,其中,、分别为调查变量、辅助变量的样本均值,是辅助变量的总体均值,称为回归系数。有两种情况需要应用比率估计量。一是利用两种变量样本对总体比率进行估计时需要应用比率估计量;二是一个变量为调查变量,另一个变量表现为与调查变量有密切关系的辅助变量,在对调查变量总体总量、总体均值等目标量进行估计时,利用已
10、知的辅助变量信息构造比率估计量可以提高估计的精度。比率估计、回归估计是非线性估计,于简单估计相比,其优劣取决于辅助变量的选择,也就是辅助变量应该与调查指标有较好的正相关关系,例如正比例关系或线性回归估计。13. 不等概率抽样定义与适用场合总体单元差异特别大的情况时,通常是牺牲“简单”来提高抽样效率。一是将总体单元按规模(大小)分层,对较大单元的层抽样比定的高些,抽样比甚至可以是100%,而较小单元的层抽样比定的低些。二是赋予每个单元与其规模(或辅助变量)成比例的入样概率,这样一来,大单元入样概率大,小单元入样概率小。这就是不等概率抽样。实际工作中,以下情况可以考虑使用不等概率抽样:1.需要估计
11、总体总量但总体单元规模相差很大的情况,抽样单元在总体中所占的地位不一致。2.由于种种原因不能直接对基本的较小的单元抽样的情形。14. 整群抽样的定义与特点整群抽样是将总体单元归并成数量较少而规模较大的初级单元也称为群,二级单元即为基本单元。然后以群为抽样单元,按某种方式从中抽取部分群,对抽中的群中的所有基本单元进行调查的一种抽样方法。优点:1.构造抽样框比较容易。2.实施调查便利,节省费用。缺点:在多数情况下,与简单随机抽样相比,其抽样误差较大。但是,对于某些特殊结构的总体,整群抽样反而有较高的精度,例如总体中各个群的结构相似时。15. 整群抽样的设计效应和群的划分原则整群抽样的设计效应为:划
12、分群的原则:群内方差尽可能大,而群间方差尽可能小(群内单元差异大,群间差异小)。16. 多阶抽样的定义和优点将一个很大的总体划分为N个初级单元,每个初级单元又划分为若干二级单元(或次级单元),若在总体中按一定方法抽取n个初级单元,对每个被抽中的初级单元再相互独立地抽取若干二级单元进行调查,这种抽样称为二阶抽样。在二阶抽样中,全部抽样是分两步实施的:第一步是从总体中抽初级单元,称为第一阶抽样;第二步是从每个被抽中的初级单元中抽二级单元,称为第二阶抽样。优点:1.多阶抽样一方面保持了整群抽样的样本比较集中、便于调查、节省费用等优点,同时又避免了对小单元过多调查造成的浪费,充分发挥调查抽样的优点。2
13、.大大降低编制抽样框的工作量。3.能够提高估计精度。4.多阶抽样每一阶的抽样方法更加灵活和多样化。二阶抽样与分层抽样、整群抽样的关系:如果第一阶抽样采用全面调查,二阶抽样就成了分层抽样;如果第二阶抽样采用全面调查,二阶抽样就成了整群抽样。17. 系统抽样的定义、特点及局限性系统抽样是将总体单元按一定顺序排列,在规定的范围内随机抽取一个单元作为样本的第一单元,即起始单元,然后按照某种特定的规则抽取其他样本单元的一种抽样方法。特点:1.简便易行,简化抽样手续。2.对抽样框的要求比较简单。3.系统抽样的精度与总体单元的排列顺序密切相关。局限性:1.如果单元的排列存在周期性的变化,而抽样者对此缺乏了解
14、或缺乏处理的经验,抽取的样本的代表性就可能很差。2.一般系统抽样没有设计意义下的无偏估计量,且系统抽样的方差估计较为复杂。18. 无回答误差、计量误差与离群值的概念无回答误差是指在调查中由于各种原因,调查人员没能够从入样的单元处获得所需要的信息,由于数据缺失造成估计量的偏误。计量误差是指由于种种原因,调查中所获得的数据与真实值不一致而造成的误差。主要成因来自于设计误差、被调查者误差、调查者误差和其他误差。离群值是调查数据集里的极端值,是指和其他数据明显不一致的观测值。第三章 简单随机抽样 简单随机抽样的常见指标总体指标样本指标总体均值的估计性质1 对于简单随机抽样,的无偏估计。即性质2 对于简
15、单随机抽样,性质3 性质4 区间估计(,)(,)对于放回简单随机抽样,对总体均值的简单估计为:,的无偏估计,其方差为,其中,因为,因此,。总体总量的估计()性质4 对于简单随机抽样, 总体比例的估计设,总体中有A个单元具有这个特征,即,总体中具有某种特征的单元在总体中所占的比例P即是Y的均值:;总体方差为:,由于的取值为0或1 ,所以,即.相应地,样本比例为,样本方差为性质5 p为P的简单估计,且为无偏估计,即性质6 p的方差为性质7 在大样本条件下,利用正态分布可得P的置信度为1-的近似置信区间为 对其进行修正为:样本量的确定费用函数:,其中为总费用,为固定费用,为每调查一个样本单元所需的费
16、用。精度:误差限是在一定的概率(1-)保证意义下对参数(如总体均值)及它的估计(如样本均值)绝对或相对误差。绝对误差限:相对误差限: 其中简单随机抽样估计总体均值或总体总量时样本量的确定:(一)精度要求:估计量的方差上限为V,如果,则样本量直接取,否则对进行修正,取。(二)精度要求:估计量的绝对误差为d,则, (三)精度要求:估计量的相对误差为r,则,(四)精度要求:估计量的变异系数上限为C,则估计总体比例时样本量的确定:设,则第四章 分层随机抽样(,)对总体均值的估计总体均值的简单估计:性质1 对于分层抽样而言,如果是的无偏估计,则也是的无偏估计。且的方差为:性质2 对于分层随机抽样,是的无
17、偏估计,且的方差为 性质3 对于分层随机抽样,的一个无偏估计为: 在大样本近似条件下,利用正态分布,的置信度为的置信区间为:或总体总量的估计总体总量Y的估计为:,如果是分层随机样本,则总体总量Y的简单估计量为:性质4 对于一般的分层抽样,如果是的无偏估计,则也是的无偏估计。且的方差为:性质5 对于分层随机抽样,的方差为:性质6 对于分层随机抽样,的一个无偏估计为: 总体比例P的估计总体比例P的简单估计为:性质7 对于一般分层随机抽样,如果是的无偏估计(),则是的无偏估计,的方差为:性质8 对于分层随机抽样,是的无偏估计,且 性质9 对于分层随机抽样,的一个无偏估计是 类似地,在大样本条件下,P
18、的置信度为的置信区间为: 对总体总量的估计相应地有:方差估计比例分配(按各层层权(各层单位数占总体单位数的比例)进行分配)或 在分层随机抽样中,总体均值的估计量是 总体比例P的估计量是:的一个无偏估计为:的方差为:(当比较大时)的一个近似无偏估计为:最有分配 最有分配是指在分层随机抽样中,按某种分配方式将样本量分配到各层,使得在总费用给定的条件下,估计量的方差达到最小,或在给定估计量方差的条件下,使总费用最小,能满足这个条件的这种样本量分配就是最有分配。估计时,如果我们考虑简单线性费用函数,总费用,则这时最优分配是:,由此式可以看出:层愈大,层内变异愈大,而在该层的费用愈小,则在该层中的抽样应
19、愈多。最有分配下估计量的方差为:内曼分配(最有分配的一个特例)每层单元抽样费用相同,即时,最优分配可简化为(内曼分配):在内曼分配下,的方差达到最小值:注意:按最优分配时,有时抽样比较大,某个层的又比较大,则可能出现按最优分配计算的这个层的样本量超过的情况。实际工作中,如果第层出现这种情况,最优分配是对这个层进行100%的抽样,即取,然后,将剩下的样本量按最优分配公式分配到其余各层中。样本量的确定考虑精度的一般公式:由,如果估计精度是以误差限或变异系数的形式给出,则利用方差与误差限的关系式就可以得到相应的表达式。当按比例分配时:,则当按内曼分配时:,则当按最优分配时:,采取最优分配且总费用给定
20、时假设费用仍为简单线性费用函数,对于最优分配有:,则总体参数为P时当方差给定时,如果都较大,则按比例分配时总体样本量为:按内曼分配时总体样本量为:分层时的若干问题,则 最优分配(以Neyman为例)与比例分配在精度上的比较第五章 比例估计与回归估计设调查变量为,辅助变量为:总体总量:样本总量:总体均值:样本均值:总体方差:样本方差:总体协方差:样本协方差:总体相关系数:样本相关系数:总体变异系数:样本变异系数:比率估计性质1 对于简单随机抽样,当样本量n较大时,比率估计是渐进无偏的,即:性质2 对于简单随机抽样比率估计,当样本量n较大时,的方差为:性质3 对于简单随机抽样,当样本量n较大时,比率估计的方差的估计为:比率估计与简单估计的比较第七章 群规模相等时整群抽样总体群数:N样本群数:n总体第i群第j个单元的指标值:Yij每群含有的单元数:M样本第i群第j个单元的观测值:yij总体中单元总数:总体样本总体均值的估计性质1 是的无偏估计,即性质2 的方差为性质3 的方差估计为总体总量Y的估计性质1 性质2 性质3 总体比例的简单估计性质1 性质2 性质3
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100