资源描述
单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不当之处,请联系本人或网站删除。,在实际工作中,整群抽样方法被广泛采用。例如,在社会经济调查中的人口调查、家计调查、农林牧业调查以及工业产品质量检验等等都经常采用整群抽样调查。,采用整群抽样调查的原因有二。其一是在某些情况下,往往由于不适合采用一个个地抽取样本单位,不得不采用整群抽样。例如,某些工业产品的质量检验,事实上不能逐个抽取样本单位来进行,只能在某一时间内,成批地抽取产品来检验。,其二,即使抽样调查能够一个个地取样,但由于经济的考虑也会选择整群抽样。例如,职工家庭生活水平调查中,如果不是以居委会为群进行整群抽样调查,而是以居民户为单位抽样,这些被抽到的居民户一般分散地居住,必然增加交通费、延长调查时间等。所以出于对工作时间、经费等客观条件的考虑,也得采用整群抽样调查。,整群抽样作为一种抽样组织形式,具有以下的,优点,:,1,、调查单位比较集中,进行调查比较方便,可以减少调查人员来往于调查单位之间的时间和费用。例如,在进行农村居民户收入情况调查时,在一个县抽千分之五的村庄,对其所有居民户进行调查,明显地比从全县直接抽千分之五的农户进行调查,更便于组织,节省人力、旅途往返时间及费用。,2,、设计和组织抽样比较方便。例如,调查农村居民住户,不必列出农村所有居民住户的抽样框,可以利用现成的行政区域,如县、乡、村,将农村划分为若干群,这给抽样设计方案带来很大方便。尤其是对那些无法事先掌握总体单位情况的总体,采用整群抽样更为合适。,然而,,整群抽样,由于调查单位只能集中在若干群上,而,不能均匀分布在总体的各个部分,因此,它,的精度比起简单,随机抽样来要低一些,。,当然我们可以通过多抽几个群来弥补这一缺陷,但最关键的一条还是在于总体内群的划分。,为了使整群抽样的样本具有一定的代表性,应当使群与群之间尽可能地差异小,而群内单元之间的差异应当大,(,注意:这一点与分层抽样中总体内层的划分有着极大的差别,),这意味着每个群均具有足够的代表性。如果划分的群相互之间颇多相似之处,那么少量群的抽取足以提供良好的精度。一个总体划分成多少个群,每个群的规模大小如何又是一个新问题,通常我们面临的总体会有自然的初级单元,例如本章开头所说的各所中学它们互相之间,关于学生的体质,很相似,但在一个学校里每个学生之间有一定的差异。,例如,在一个有,500,个村庄、,100000,个农户的县,抽取,1,的农户就是,1000,户,而抽,1,的村庄则只有,5,个村庄,也,许抽到的,5,个村庄农户多于,1000,,但由于样本单位只集中在,5,个村庄,显然不如在全县范围内简单随机抽取,1000,户分布,均匀,代表性一般要差一些,抽样误差较大。,倘若需要我们自行划分群,一般还要考虑到组织管理上,的方便、精度上的要求以及费用的多少等等因素。,1,群大小相等的整群抽样,首先讨论群大小相等时的简单情况。所谓群的大小相等主要指群内次级单元的个数相等,假定关于群的抽取是随机无放回的。,首先引进一些必要的记号:,表示第 群中第 个次级单元,表示样本中第 群中第 个次级单元的观测值,第 群总和,第 群平均值,总体平均值,总体差异平方和,群间差异平方和,群内差异平方和,将 改为 ,则为相应的样本指标值,它们之间的关系为:,(8.1),将 改为 ,代替 ,由于是整群抽样,仍为 ,不难,得到样本方差平方和的关系式:,(8.2),可作为 的估计,但不是无偏估计。这是因为次级单元是,在抽到的群内普查,此时样本不是简单随机的。,由于群的选取是简单随机的,因此 与 分别是 与 的,无偏估计,于是得到 的无偏估计为:,(8.3),(8.4),当 相当大时,该估计可近似写为:,从(8.2)式可知,若,n,也足够大的话,也可写成(8.4)形式,,此时,就可以看作是 的近似无偏估计了。,再引进一个群内相关的记号 ,这个概念的重要性在于,它可以度量群内次级单元的差异程度,因为我们已经知道群,内单元的差异大就可能保证样本的代表性,如何划分群实质,上是一个抽样方案的设计问题。易见设计的效应好还是差在,相当程度上与这个 有关。的定义为:,(8.,5),具体计算得,(8.,6),计算可得 ,在一定程度上反映了群内单元的,差异,当然这种差异一般是相对于群间差异而言的。它可以,用群内方差 与群间方差 来表示:,(8.,7),当,N,足够大时,近似有,(8.,8),当,N,足够大时,近似有,又,(8.,9),(8.,10),由(8.,8),以及,(8.10),可得 的估计,(8.,11),由(8.,11),也可以发现,考虑,N,相当大时,当 ,与,几乎相等,也就是说群间方差几乎与群内方差一样,实际上,指出了我们对群的划分完全是随机进行的。如果 ,那,么群间的方差远远大于群内方差,群内单元差异相对不显著,将引起样本的代表性差,从而精度一定会差!,,表明群内单元的差异远比群间差异大。,由(8.,11),可知,的情况最多只能到 ,此时,群间毫无诧异,任意抽取几个群都可以作为总体的真实写照,因此,的取值范围应当在 之间。,1,、估计量及其方差,总体平均数 的无偏估计是,其方差为:,(8.,12),当,N,足够大时,近似有,(8.,13),另外,我们还可以提供一个关于 的无偏估计:,(8.,16),总体总和 的无偏估计为:,其方差为:,在实际问题中,具有某种特征的(次级)单元在总体中,的比例 的估计常用整群抽样,不仅方便而且效率也高,在,各群大小相等的情况下,利用前面 的讨论立即可得 的估,计量及其方差。,总体百分数,第 群百分数,总体百分数的无偏估计为:,样本百分数,方差 的无偏估计为:,例题:,试根据下表所得的某林场抽取的,5,个样本群的林木蓄,积量资料,对该林场每块,0.04,公顷的林地上的平均蓄积量及,该林场的每公顷蓄积量进行估计,并给出估计误差。如果一,棵林木能够出材,3,立方米以上就为成材林木,求该林场林木,的成材率估计及其误差。(假设共分为,N=100,个群),群号,i,单元号,j,1,2,3,4,5,3.4,5.9,6.3,13.2,3.3,0.1,2.5,11.8,11.4,2.2,1.8,1.7,2.9,2.9,4.6,0,4.9,7.6,15.5,2.4,3.1,2.5,18.9,6.9,0.5,8.4,17.5,47.5,49.9,13,0.4,0.4,0.8,0.8,0.4,解:,N=100,,,n=5,,,M=5,该林场每块,0.04,公顷的林地上的平均蓄积量的无偏估计是,方差为,由表可得 分别为:,1.68,,,3.5,,,9.5,,,9.98,,,2.6,标准差为,该林场每公顷的林地上的平均蓄积量估计为,标准差为,故该林场林木的成材率估计为:,56,方差为,标准差为,即,9.54,2,、设计效应,已经指出在整群抽样中,如何划分群、群的大小规模如,何控制对于估计的精度颇有影响,这就涉及到设计效应的讨,论。根据设计效应的定义,我们必须考虑与整群抽样同等规,模的简单随机抽样,由于整群抽样调查的对象是次级单元,,因此考虑在拥有,NM,个次级单元的总体中抽取容量为,nM,的简,单随机样本,计算所得的平均数(为统一且方便起见,记为,)的方差为:,群大小相等的整群抽样的设计效应为:,(8.,17),(8.,17),式右端 是显然的,否则就不是整群抽样。实,际问题中,很难做得划分的群互相之间很少差异,因此一,般有 ,这就是说,整群抽样的精度在大多数情形下,要比抽同样数量的次级单元的简单随机抽样的精度低。倘,若要想获得相同的精度,那么整群抽样的样本量必须是简,单随机抽样样本量的 倍。这个事实提供,给我们确定整群抽样的样本量的方法。,例,8.1,对全国成年人人体尺寸测量,若以工作单位为现成的,群划分,这些单位一般不是等规模的,以平均大小 人,计算,通过少量样本的预测,若单位内同性别人的群内相关,估计 。根据精度要求,简单随机抽样需要样,本量为,6147,人,那么整群抽样需要多少人才能达到同样的估,计精度?,整群抽样需要人数 人,约等于 个群,2,群大小不等的整群抽样,在实际操作中,很少有各群,M,相等的情况,那些 相差,不大的情况就常常作为群大小相等进行处理,通常的手法是,以群的平均大小 代替公式中的,M,。,如果各群大小差异甚大,那么它们在总体中所占的地位,也各有不同,对群采取用简单随机抽样明显地效果欠佳,这,种场合一般我们采用不等概率抽样。,同样先引进一些记号:,表示第 群中第 个次级单元,表示样本中第 群中第 个次级单元的观测值,第 群总和,第 群平均值,总体平均值,表示总体中次级单元总数,各群平均值的平均值,表示第 群含有的次级单元数,1,、对群实施,pps,抽样,独立有放回地从,N,个群中抽取,n,个群,每次抽取一个,群,第 个群被抽到的概率为,相应抽到的群的群内总和记为 ,群大小记为,则总体总和 的估计量为:,(8.,18),(8.,19),根据第七章关于,HH,统计量的讨论,是 的无偏估计,,其方差为:,它的一个无偏估计为:,(8.,20),在实际问题中,如果产生的自然群(例如现成的工厂、,学校、居委会等)内次级单元比较均匀,则采用,pps,抽样效,果较好一些。,2,、对群实施严格的 抽样,与上一章的 抽样情况完全一样,若设第 个群的,入样概率为 ,采用,HorvitzThompson,估计:,也是 的无偏估计。,本章习题解,8-1,总体百分数,第 群百分数,总体百分数的无偏估计为:,样本百分数,方差 的无偏估计为:,8-2,N=500,,,n=10,,,M=6,人均选修付课门数的估计为:,由表经计算可知,每个宿舍人均选修付课门数为,方差为,标准差为,8-3,N=1000,,,n=10,,,M=30,箱均坏灯泡数的估计为:,坏灯泡总数的估计为:,方差为,经计算可知被抽的各箱废品率分别为,灯泡废品率的估计为,方差为,
展开阅读全文