资源描述
第四章 分层抽样,第四章 分层抽样,分层抽样的概念及特点,抽样标准误差的计算,抽样数目在各层的分配,本章重点:,先将总体各单位划分为,若干组(层),,然后从各组中按,随机原则,分别抽取一定数目的单位构成样本,以样本观测结果推断各组的数量特征和总体数量特征的一种抽样组织形式。,第一节 分层抽样概述,一、概念:,其随机性体现在:层内各单位有相同被抽中的机会(一般情况下),层与层之间相互独立。(对层而言是全面调查),不仅要求知道总体单位数,N,和具体名录,而且要求掌握至少一个可用以分层的标志的全面资料。即对于某一标志而言。总体,N,个单位的特征都是可知的。,二、特点:,1,分层抽样要求事先对总体有较多的了解。,用以分层的标志通常有两类:,与调查标志密切相关的标志。,调查标志本身的过去资料。,所以,分层抽样的样本代表性高低,取决于层内样本对层的代表性,与层间差异无关。因此,分层抽样要求尽量扩大层间差异,缩小层内差异。即尽量将层内差异转化为层间差异。为此,,要选好分层标志。并适当增加分层数。,2,分层抽样对层而言是全面调查,对层内单位而言是非全面调查。,当总体内部层界越明显,越适合分层抽样,效果也越好。此外,还可与其他抽样组织形式(整群、等距)结合,提高抽样效果。,3,适合于调查标志在各单位的分布差异大的总体。,(二),作用,1,分层抽样的,抽样效率较高,,也就是说分层抽样的估计精度较高。,比较定额抽样,与分层抽样有何区别?,与简单随机样本比较,分层样本在总体中的分布更为均匀,不会出现偏于某一部分的不平衡情况,在实际工作中受欢迎。,将相近的单位归为一层,且每一层必有若干单位抽中,所以,避免了样本明显偏高或偏低情况。,分类,确定每类抽选比例,主观抽样,有时调查的目的不仅要推算总体指标,可能还要推算各层的指标。,2,分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。,例如,一次全国性抽样调查,若以省为层,则调查后既可得到有关全国的数据,又可得到各省的数据,这一点大受各级政府领导的欢迎,也便于部门统计。,可使我们获得关于总体内部较多的信息。,例如,某项全国范围的大型抽样调查,要编制全国范围的抽样框往往是一件非常困难的事,但如果抽样按行政区划或行业分层后,可以调动各级主管部门的积极性,分头编制抽样框并实施抽样的组织和调查工作。为了组织调查的方便,各层可以根据层内的特点,分别采用不同的抽样方法。,3,层内抽样方法可以不同,而且便于抽样工作的组织。,二、使用场合与分层原则,根据分层抽样的特点,分层除了可以提供子总体指标和便于调查的组织实施外,通常,使用分层抽样的主要目的是为了提高估计的精度。为充分利用分层抽样的特点,在一项抽样调查项目中,往往反复使用分层抽样方法。,在对层进行具体划分时,通常考虑如下原则:,通常按调查对象的不同类型进行划分。这时,分层抽样能够对每一类的目标量进行估计。,1,层内单元具有相同性质。,通常用于分层的指标有行政区划、地理位置、海拔高度、行业、经济发达程度、企业规模、家庭收入水平、性别等。,2,使层间单元的差异尽可能大。从而达到提高抽样估计精度的目的。,3,既按类型又按层内单元标志值相近的原则进行多重分层,同时达到实现估计层值以及提高估计精度的目的。,4,抽样组织实施的方便。通常按行政管理机构设置进行分层。,例如,对全国范围汽车运输的抽样调查,调查目的不仅要推算全国货运汽车完成的运量,还要推算不同经济成分(国有、集体、个体)汽车完成的运量。为组织的方便,首先将货运汽车总体按省分层,由各省运输管理部门负责省内的调查工作;各省再将省内拥有的汽车按经济成分分层;为提高抽样效率,再按吨位对汽车分层。,又如,某高校对学生在宿舍使用电脑的情况进行调查,根据经验,本科生和研究生拥有电脑的状况差异较大,因此,在抽样前对学生按本科生和研究生进行分层是有必要的。,第二节 分层抽样的简单估计,设,X,ij,为第,i,层第,j,个单位的标志值(,i=1,2k,j=1,2N,i,),,为层内样本均值,为层均值,为样本均值,为总体均值,为层总值,为总体总值,则有:,一、层和总体体参数的估计量。,(即总体分为,k,层,第,i,层有,N,i,个单位,,N,i,=N,),上面六个式子中,只有 和 可通过样本资料计算,其余四个都需要估计。在简单估计下,各估计量为:,容易证明,是 的无偏估计量。,进一步可得 也是 的无偏估计量。,(第 层单位数占总体单位数的比重),如果令,则:,我们知道,纯随机抽样的抽样误差,是按总体方差计算的,对于分层抽样,由于对各层而言是全面调查,故层间不存在抽样误差问题。所以,其抽样方差等于平均层内方差。,二、分层抽样简单估计的抽样标准误,如果我们对总体方差 进行分解,可得,总体方差,=,平均层内方差,+,层间方差,其中:,在不重复抽样下,根据前一章公式可知,也就是说,每一层可看作一个子总体。,所以:,上式在重复抽样下,则设有(,1,f,i,),例3.1,调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为,4,层,每层按简单随机抽样抽取,10,户,调查获得如下数据(单位:元),如表,3.1,。估计该地区居民奶制品年消费总支出及估计的标准差。,表3.1,样本户奶制品年消费支出,见教材,P44,页。,?思考问题:,如何计算与估计该地户均奶制品消费支出?即如何计算样本户户均奶制品消费支出?,算法,1,:,算法,2,:,算法,3,:,应该采用哪种算法?,总体比例的估计,总体比例的估计为:,对于一般的分层抽样,的方差为:,对于分层随机抽样,的方差为:,的一个无偏估计为:,【例3.2】,在例,3.1,的调查中,同时调查了居民户拥家庭电脑的情况,获得如下数据(单位:台),如表,3.2,。估计该地区居民拥有家庭电脑的比例及估计的标准差。,见教材,P,页。,如果按等比例抽样,即各层抽取的单位数 占样本,n,的比重等于该层单位数 占总体,N,的比重。,即:,则:,等比例分层抽样,这样我们就可得出等比例分层抽样的抽样平均误差公式,:,重复抽样,不重复抽样,实际应用中,以层内样本方差代替总体方差。,解:本题中,是等比例分配的分层抽样。,估计区间为,48223.84,万元,此时,各层抽样比 也相等:,三、各层应抽单位数 的确定,确定 最简单常用的方法,它只考虑各层单位数 占总体,N,的比重大小这一因素。,(1,)比例分配法。,由于没考虑不同层有不同变异程度,而是把它们同等看待了。事实上,变异程度大的层应多抽样本,变异程度小的层应少抽样本,若某层没有变异,只需抽,?,?,单位就够了。,?,比例分配法的缺陷:,所以,此法不能使抽样精度达到最高。,此法同时考虑了各层单位数和各层标准差两个因素。它在给定条件下,所确定的 能使估计量的方差达到最小。,(2),Neyman,(,奈曼)分配,即在约束条件,建立目标函数:,下,使,即:,求 关于 的偏导,并令其等于,0,,得:,又由于:,所以:,按此法确定的 ,有最小的估计量方差为:,代入,有:,(请同学们自己去推导),若各层的标准差相等,则有:,即为比例分配。,?,最优分配可能可能出现 的情况吗?,某些层需要超过,100%,抽样时的修正,在某些特殊情形,例如某些层的方差特别大,按最优分配方法,这些层有可能需要超过,100%,抽样,即 。,此时的处理办法(,?,):提出你自己的思路来!,对这些层进行,100%,抽样,然后将剩下的待分配的样本是再按最优分配公式在其余层内分配。,解决思路:,按最优分配公式,若有某层(不妨记为第,1,层)的最优分配样本量 ,则令实际抽样量:,步骤如下:,对其余各层,:,(i2),若仍有,:,如:,则令,:,(i3),遇到类似情况同样处理,直到所有分配的样本量都不超过为止。,而此时最优分配达到的最小方差公式,需作相应的修改,对于那些作全面调查的层,不产生抽样误应,因此方差只来自实际抽样的层。,其中 为仅对最后实际分配 的层求和,为这些层中抽样的样本量之和。,某些层需要超过,100%,抽样时的修正之例:,例:某个总体分为四层,资料如下,设,n=80,,问如何进行各层样本分配(奈曼分配)?,层,N,i,S,i,N,i,S,i,n,i,1,2,3,4,5,10,200,400,400,500,10,20,2000,5000,2000,8000,9.41,23.53,9.41,37.65,615,17000,80,计算步骤如下:,1,、按正常公式计算,n,列于表的右列。其中,1、2,层均超过各自的层中所包含的单元数,必须进行修正。,2,、令,n,1,=N,1,=5,,然后将剩下待分配的样本量,n-N,1,=75,仍按奈曼分配公式分配到,24,层,结果是:,3,、再令 ,然后将剩下,65,个样本单元仍按奈曼分配公式分配到,34,层,结果是:,因此最终结果是:,5;10;13;52,此时的估计量方差达到最小值:,考察,、和调查费用,C,三个因素。即要在调查总费用既定、各层单位调查费用不同的条件下,所确定的 能使估计量的方差达到最小。,(三)经济分配法(最优分配),其中,C,为总调查费用,,C,0,为固定费用,,C,i,为第层的单位调查费用。,也就要在约束条件:,下,,使,最小。,建立目标函数:,求偏导并令其为,0得:,又由于,两式相除,若各层单位调查费用相等,则该式同与奈曼分配,得:,得:,按经济方法确定的估计量的方差为:,若各层单位调查费用相等,则上式等同于奈曼分配。,例:设某总体,N=5000,,分三层,资料如下表。,n=100,,问在三种分配方法下的,n,i,以及估计量方差,.,结果请同学们自己计算。,计算结果如下:,在等比例分配法下,各层应抽单位数为:,估计量的方差为:,在奈曼分配法下,各层应抽单位数为:,同理可得:,估计量,方差为,在最优分配法下,各层应抽单位数为:,同理可得:,估计量方差为:,相差不大时;,可见对于相同的,n,,在不同分配法下,有不同的,n,i,和不同的估计量方差 。,但事实上,当各层 相差不大时,经济分配法意义不大。,同时,在多数情况下,奈曼分配法也无多大“优势”。,?,未知要用,S,来代替时。,都难以保证奈曼分配法一定优于比例分配法,样本量的确定,一、一般公式,令,n,i,=,nw,i,其中,w,i,已经选定,于是当方差,V,给定时,可由以下公式,:,得到确定样本量的一般公式为:,当按比例分配时,,实际工作中,,n,的计算可分两步走,先计算,:,然后进行修正:,当按,Neyman,分配时,当按最优分配,(,经济分配,)时,由下式,:,例:某总体,N=5000,,分三层,资料如下:,分层,N,i,i,C,i,1,2,3,1000,2700,1300,100,212,510,2,6,10,125,265,530,合计,5000,-,-,-,要求在总体均值估计量方差不超过,350,的前提下,分别计算比例分配、奈曼分配、最优(经济)分配下的样本容量。,根据表中资料可计算得到:,四、分层抽样简单估计的效果分析,一般情况下,对于相同的,n,,有,因为:,而:,即层内平均方差,+,层间方差,从而:,显然,又因为:,而:,故:,当各层标准差相等时,等号成立。,另外,一般介于 与 之间。,分层抽样的其他问题:,一、什么时采用分层抽样,如前所述,分层抽样的效果一般优于纯随机抽样,因而在实际中得到广泛应用。但是否任何一次抽样都应该采用分层抽样呢?这就涉及到以下几个问题:,、如果说分层抽样的效果优于纯随机抽样,那么从所增加的人力财力与所提高的抽样精度对比上看是否值得?,如果分层抽样并不需要增加什么费用,或者说所增加的费用有限,那么只要其他条件适合,就可采用分层抽样组织形式。,如果分层抽样在方差上下降的幅度不大,那么有时从工作简便性考虑,即使分层抽样不会增加费用,也宁可采用纯随机抽样。,、分层抽样的效果是否一定优于纯随抽样?,当层间方差大,层内方差小,即分层合理时,分层抽样效果优于纯随机抽样;但如果分层标志选择不当,造成分层极不合理时,可能会发生相反的情况。所以不是任何分层的分层抽样都有好的效果。,、如果不采用分层抽样,纯随机抽样的估计精度是否达到事先所设计的要求?,这是从抽样推断的实际需要来考虑的。有时,分层抽样所能提高的精度可能是很有限的,但为了达到事先设计的精度要求或尽量提高抽样精度,哪怕是一点点,那么在样本容量不能增加的情况下,分层抽样是必要和值得的。,二、如何选择分组标志?,为了使分层抽样的层间方差尽量大,选择好分层标志是关键中的关键。如果分层标志选择有误,就可能使分层抽样的误差比纯随机抽样的还要大。例:,男,300,320,150,160,165,170,女,315,320,155,120,某总体由名男职工和名女职工组成,月奖金(元)分别为:,(,n=5).,容易计算,:,1,、在纯随机抽样下估计量方差为:,2,、按工资高低分两层,每次抽取,50%,的单位,其估计量方差为:,高,320,320,315,300,低,165,170,155,120,150,160,说明分层抽样的效果较好。,3,、按性别分层进行分层抽样,每层仍抽,50%,的单位,估计量方差为:,估计量方差比纯随机抽样的还大,这样的分层抽样是很不好的。,分层抽样中选择好分组标志的关键是让调查标志分层后的层间方差达到最大。提出以下几点思路:,1,、如果具备调查标志的全面的过去资料,而且变化不会太大,那么以调查标志本身的过去资料来分层是值得提倡的。,例如某省以县为单位进行粮食总产量分层抽样调查,那么就可以按各县过去的粮食总产量资料进行分层。,2,、尽量利用自然分层标志。,如居民按居住地域标志分为城镇居民和农村居民两层;土地按自然耕作条件分层等。,3,、充分利用那些能决定调查标志数量差异的品质标志。,例如:职业往往能决定收入高低,因此职业标志作为居民收入抽样调查的分层标志是合适的。,再如,居民的性别差异能决定个人消费支出结构的差异,因此以性别标志作为居民消费支出结构调查的分层标志也是合适的。,优先选择品质标志的另一个理由是:其标志表现较数量标志少得多,界限也易确定。,4,、在多个可供选择的数量标志中,应选择那个与调查标志相关系数之绝对值最大者。,三、分几层,分层标志选好后的问题是,如何确定分层数。分层数的多少与分层抽样效果有关。,思考?:,在正常情况下,层数多少与层间方差及抽样效果有何关系?,由于总体方差可分解为层内方差与层间方差两部分,所以,正常情况下,分层数越多,层间方差就会越大,分层抽样的效果就会越好。,所以,在样本单位数既定和不增加调查费用(或增加不多)的情况下,尽量多地分层是可取的。但这并不意味着分层数可以无限多。两个原因:,其一:因为当层数达到一定时,估计量方差下降的速度就变得很慢,这时再增加层数的意义就不大。,其二:分层越细,工作量就越大,费用也不可能不增加。因此当层数达一定量时,再分层的费用会大幅度上升,与所提高的精度相比可能会得不偿失。,对于按自然标志分层的总体,自然层数通常就是理想的和有效的层数。,因为这种分层轮廓清晰、层次分明,即与实际情况相符,又能体现性质差异,并且基本上现成可用。,可采用现代多元统计分析方法中的聚类分析与判别分析法来确定层界和层数。但要注意以下几个问题:,若是按数量标志分层,而层界较难确定时,可用什么现代统计分析方法解决?,1,、聚类、判别分析要与定性分析相结合,避免以数量上的小距离把不同性质的单位归为一类。例如:计划,99%与101%;59与60,。,2,、要与传统统计分析法相结合,灵活分层,不拘泥与数量框框。,3,、要具备一定的现代计算技术条件。,小结,本章介绍了分层抽样理论及若干相关问题。分层抽样技术在实际中应用非常广泛,几乎所有的大型抽样调查项目都要用到分层抽样技术,有时与其他抽样方法结合反复使用。人们之所以喜欢分层抽样技术主要是因为便于项目的组织与管理,同时,其抽样效率通常比简单随机抽样要高。,与简单随机抽样相比,分层抽样在抽样之前需要对总体抽样框进行分层,这个过程有时是现成的,有时需要增加额外的工作量,而且有时可能是相当费时费事的。在推算时需要知道各层的层权或层的大小。,
展开阅读全文