收藏 分销(赏)

抽样调查-第8章多阶段抽样.ppt

上传人:可**** 文档编号:10672774 上传时间:2025-06-08 格式:PPT 页数:45 大小:6.53MB 下载积分:8 金币
下载 相关 举报
抽样调查-第8章多阶段抽样.ppt_第1页
第1页 / 共45页
抽样调查-第8章多阶段抽样.ppt_第2页
第2页 / 共45页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,PPT,文档演模板,Office,PPT,08 六月 2025,抽样调查-第8章多阶段抽样,一、多阶段抽样的定义,先在总体单元(初级单元)中抽出样本单元,并不对这个样本单元中的所有下一级单元(二级单元)都进行调查,而是在其中再抽出若干个二级单元并进行调查。,这种抽样方法称为二阶段抽样。同样的道理,还可以有三阶段抽样、四阶段抽样等。对于二阶段以上的抽样,统称为,多阶段抽样,。,二、多阶段抽样的优点,(1)多阶段抽样保持了整群抽样的样本比较集中、,便于调查、节约费用等优点。,(2)多阶段抽样不需要编制所有小单元的样本框。,三、抽选方法与推断原理,多阶段抽样时,每一个阶段的抽样可以相同,也可以不同。它通常与分层抽样、整群抽样、系统抽样,结合使用。多阶段抽样时,抽样是分步进行的,因此,,讨论估计量的均值及其方差时,需要分阶段进行这要,用到下面的性质,。,性质1,对于两阶段抽样,有,式中,为在固定初级单元时对第二阶抽样求均,值和方差;为对第一阶抽样求均值和方差。,性质1可以推广到多阶段抽样的情形,例如,对于三阶段抽样,有,8.2 初级单元大小相等的二阶抽样,第一阶段在总体N个初级单元中,以简单随机抽样抽取n个初级单元,第二阶段在被抽中的初级单元包含的M个二级单元中,以简单随机抽样抽取m个二级单元,即最终接受调查的单元,。,例如:某个新开发的小区拥有相同户型的15个单元的楼盘,居民已经陆续搬入新居,每个单元住有12户居民,为调查居民家庭装修情况,准备从180户居民户中抽取20户进行调查。如下表:,编号,单 元,房 号,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,一栋A座,一栋B座,一栋C座,二栋A座,二栋B座,二栋C座,三栋A座,三栋B座,三栋C座,四栋A座,四栋B座,四栋C座,五栋A座,五栋B座,五栋C座,1,2,3 4,5 6 7 8 9,10,11 12,1 2 3 4 5 6 7 8 9 10 11 12,1 2 3 4 5 6 7 8 9 10 11 12,1 2 3 4 5 6 7 8 9 10 11 12,1 2 3 4 5 6 7 8 9 10 11 12,1,2 3 4 5,6,7 8,9,10,11,12,1 2 3 4 5 6 7 8 9 10 11 12,1 2 3 4 5 6 7 8 9 10 11 12,1 2 3 4,5,6,7 8,9,10,11 12,1 2 3 4 5 6 7 8 9 10 11 12,1 2 3 4 5 6 7 8 9 10 11 12,1 2 3 4,5,6,7 8,9 10,11,12,1 2 3,4,5,6 7,8 9 10,11,12,1 2 3 4 5 6 7 8 9 10 11 12,1 2 3 4 5 6 7 8 9 10 11 12,表中红字为抽中的房号。,这时,初级单元有15个,每个初级单元拥有二级单元,12个。首先将单元从1到15编号,在15单元中随机抽取,5个单元,分别是1,6,9,12,13号;然后在被抽中的,单元中,进行第二次抽样,即分别在12户居民户中随机,抽取4户。,一、符号说明,初级单元和初级单元拥有的二级单元个数:N,M,第一阶段和第二阶段抽样的样本量:n ,m,第i个初级单元中的第j个二级单元的观测值:,样本中第i个初级单元中的第j个二级单元的观测值:,第一阶段和第二阶段的抽样比:,第i个初 级 单 元 按,二级单元的平均 值:,按二级单元的平均值:,初级单元间的方差:,初级单元内的方差:,由 的表达式可知,若记,则有,即 是 的平均值。同理有,二、估计量及其性质,(一)总体均值的估计,性质2,对于初级单元大小相等的二阶抽样,如果两个阶,段都是简单随机抽样,且对每个初级单元,第二阶抽样,是相互独立进行的,则对总体均值 的无偏估计为:,其方差为:,的无偏估计为:,【例8.1】,欲调查4月份100家企业的某项指标,首先,从100家企业中抽取了一个有板有5家样本企业的简单随,机样本,调查人员对5家企业分别在调查月内随机抽取3,天作为调查日,要求样本企业只填写这3天的流水帐。,调查的结果如下。,样 本 企 业,第一日,第二日,第三日,1,2,3,4,5,57,38,51,48,62,59,41,60,53,55,64,50,63,49,54,要求根据这些数据推算不100家企业该指标的总量,并,给出估计的95%置信区间。,解,将企业作为初级单元,将每一天看着二级单元。,调查月内拥有30天(即拥有30个二级单元)。,首先在初级单元中抽取一个n=5的简单随机样本再,对每个样本的二级单元分别独立抽取一个m=3的简单,随机样本,由题意,N=100,M=30,n=5,m=3,首先计算样本初级单元的均值 、方差 :,样 本 企 业,1,2,3,4,5,60,43,58,50,57,13,39,39,7,19,于是得到:,置信度为95%的置信区间为:1608001.969216,在上面的方差估计式中,第一项是主要的,第二项,要小得多!,(二)对总体比例的估计,如果要估计总体中具有所研究特征的二级单元数占全,体全体二级单元数的比例,则,式中,为第i个初级单元中具有所研究特征的二级单元,数,则对P的估计为:,式中,为第i个初级单元中具有所研究特征的二级单元,数。,性质3,对于二阶抽样,如果两个阶段都是简单随机,抽样,则有,估计量 的方差为:,的无偏估计为:,式中,,【例8.2】,欲调查某个新小区居民家庭装潢聘请装潢,公司的比例。我们在15个单元中随机抽取了5个单元,在,这5个单元分别随机抽取了4户居民进行调查,对这20户,的调查结果如下表:,样本单元,第一户,第二户,第三户,第四户,一栋A座,二栋C座,三栋C座,四栋C座,五栋B座,是,否,否,否,是,是,是,否,否,否,否,否,否,否,否,否,否,是,否,否,要求根据这些数据推算,居民家庭装潢聘请装潢,公司的比例。,解:,记,聘请装潢公司的居民户为“1”,否则记为“0”。,这里,N=15,M=12,n=5,m=4 ,因此,,其方差的估计为:,P的置信区间为:,8.3 初级单元大小不等的二阶抽样,一般而言,初级单元的大小是不相等的,如果按初,级单元的大小分层后,层内初级单元的大小差别仍很大,,则需用本节介绍的方法来处理二阶抽样的问题。当初级,单元大小不等时,一般采用不等概抽样。,一、符号说明,总体中初级单元个数及第一阶抽取的样本量:N,n,第i个初级单元中二级单元数:,第i个初级单元中第二阶抽样的样本量:,第i个初级单元中第j个二级单元的观测值:,样本中第i个初级单元中第j个二级单元的观测值:,第一阶和第二阶的抽样比:,二级单元个数:,指标总和:,第i个初级单元指标总和:,第i个初级单元按二级单元的平均值:,按二级单元的平均值:,初级单元间的方差:,第i个初级单元二级单元间的方差:,二、估计量及其性质,(一)对初级单元进行简单随机抽样,如果二阶抽样中每个阶段都采用简单随机抽样,并且,每个初级单元中二级单元的抽样是相互独立的,则对,总体总和的估计可以采用简单估计,也可以考虑采用,比率估计。,1.简单估计量,对总体总和的简单估计为:,根据,性质1,,不仅可以证明这个估计量是无偏的,并,且它的方差为:,的一个无偏估计为:,式中,,2.比率估计量,由于初级单元的大小 不同,往往,造成初级单元的观测值 差异很大,使得估计量方差,的第一项很大,从而估计量的方差也就变得很大。,这时,可以考虑将初级单元的大小 作为辅助变量,,采用比率估计量对总体总和进行估计。,对总体总和的估计量为:,这是一个有偏估计量,但随着样本量的增加,,其偏倚将趋于零。其近似均方误差为:,的样本估计为:,式中,,(二)对初级单元进行放回不等概抽样,利用第五章的方法,事先规定每个初级单元被抽中的,概率 对被抽中的初级单元,再抽取,个二级单元。,对总体总和的估计通常是构造初级单元指标总量,的无偏估计 ,然后利用第五章介绍的Hansen-Hu,Rwitz估计量对总体总量Y进行估计。,由于 是 的无偏估计,由性质1,可以证明,是Y的无偏估计。且 的方差为:,的一个无偏估计为:,注意上述对第二阶抽样并没有做出特别的规定,而,且估计量的方差估计式与第二阶抽样的方式无关。,在实际工作中,如果初级单元大小不相等,通常人,们喜欢在第一阶抽样时按放回的与二级单元数成比例,的不等概抽样;第二阶抽样则采用简单随机抽样,且,每个样本初级单元的样本量都相等,此时,估计量的,形式非常简单。,【例8.3】,某小区拥有10座高层建筑,每座高层建筑,拥有的楼层数如下表:,高层建筑,A,B,C,D,E,F,G,H,I,J,楼层,12,12,16,15,10,16,10,18,16,20,用二阶抽样方法抽出10个楼层进行调查,第一阶抽样,为放回的、按与每座建筑拥有的楼层数成比例的不等概,抽样抽取5座建筑,第二阶按简单随机抽样对每座建筑抽,取两层。对10个楼层居民人数的调查结果如下表:,一阶样本序号,1,2,3,4,5,居民数,18,12,15,18,19,13,16,10,16,11,解:,已知 n=5,m=2,注意到这个样本是自加权的,根据P181公式(8.29),得,估计量的方差为:,=9776.625,估计量的标准差为:,(三)对初级单元进行不放回不等概抽样,不放回不等概抽样的效率比放回的效率高,因此,,有时人们也会倾向于用不放回不等概抽样来抽取初级单,元。这时可利用第五章介绍的不放回不等概抽样的结果,对总体总量进行推算。当然估计量的推算比较复杂。,对总体总量Y的估计可以采用Horvitz-Thompson(赫,魏兹-汤普森)估计。,8.4 其他问题,一、总样本量及最优样本量的配置,对于二阶抽样,应该抽多少二级单元,即确定n m为,多少,一般可采用两种方法:,1.根据调查费用,确定可以调查的样本量。,2.根据简单随机抽样时应抽样本量,再乘以设计,效应deff获得。,由于影响精度的主要原因是初级单元之间的差异,,所以多抽一些初级单元,少抽一些二级单元较好。但,往往初级单元的调查费用比二级单元要高。,考虑费用函数为最简单的一种形式:,式中,为与样本量无关的固定费用,如公司的办,公费、场租费等;为每调查一个初级单元的费用;为,每调查一个二级单元的费用。,则 m 的最优值为:,式中,,实际使用时,m 应为整数,但计算出的 往往不,是整数,令 为的 整数部分,则m的取值规则为:,求出m之后,根据总费用函数,就可以确定n,从而,确定最优抽样比 和,二、三阶及多阶抽样,(一)各级单元大小相等的多阶段抽样,如果总体拥有N个初级单元,每个初级单元拥有M个,二级单元,每个二级单元又拥有K个三级单元,各阶的,样本量分别为 n,m,k,每个阶段都按简单随机抽样,则三,级单元总体均值的估计为:,其方差为:,方差的无偏估计为:,由于方差的主要项为第一项,其次为第二项,第三项,几乎可以忽略。所以对于更高阶的抽样,估计量的方差,计算一般只计算到第二阶至第三阶就可以了。,(二)各级单元大小不相等时的多阶段抽样,(略),(三)多阶抽样的实例,某调查公司接受了一项关于全国城市成年居民人均,奶制品消费支出及每天至少喝一杯鲜奶人数的比例情况,的调查。确定抽样范围为全国地级及以上城市中的成年,居民。成年居民指年满18周岁以上的居民。,第一步:确定抽样方式。,调查公司决定采用多阶段抽样方法进行方案设计,,调查的最小单元为成年居民。确定调查的各个阶段为,城市、街道、居委会、居民户,在居民中利用而维随,机表抽取成年居民。,第二步:确定样本量及各阶段样本量的分配。,按简单随机抽样,在95%置信度下,绝对误差为5%,取使方差达到最大的比例P=0.5,则全国样本量为:,根据以往调查经验,估计回答率为b=80%,因此调整,样本量为:,多阶段抽样的效率比简单随机抽样的效率低,这里取,设计效率为deff=3.2,则在全国范围内应调查的样本量为:,各阶段的样本量配置为:,初级单元:20个城市;,二级单元:80个街道,每个样本市内抽4个街道;,三级单元:160个居委会,每个样本街道内抽2个居委会;,四级单元:1600个居民户,每个样本居委会内抽10个居,民户。在样本居民户内,随机抽取一名成年,居民。,第三步:确定抽样的操作方法。,第一阶段,在全国城市中按与人口数成比例的放回的,不等概抽样,即PPS抽样。,第二、三阶段,分别按人口数成比例的不等概等距抽样。,以第二阶段为例,在某个被抽中的城市中,将其所属的,街道编号,搜集各街道的人口数,赋予每个街道与人口,相同的代码数;根据该市总人口数除以样本量4,然后对,代码进行随机起点的第距抽样,则被抽中代码所在的街,道为样本街道。,第四阶段,分别在每个居委会中,按等距抽样抽出10个居民户。即根据居委会拥有的居民户数除以样本量10得到抽样间距,然后随机起点等距抽样。,在每个样本居民户,调查员按二维随机表抽,取一名成年居民。二维随机表的使用如下:,1.随机号的确定。,2.选出被访者。,序号,姓名,性别,年龄,1,2,3,4,5,6,7,8,9,10,11,12,1,肖明,男,53,1,1,1,1,1,1,1,1,1,1,1,1,2,汪红,女,52,2,1,1,2,1,2,1,2,1,2,2,1,3,肖晓波,男,23,3,2,1,1,3,2,2,1,3,1,2,3,4,肖晓玲,女,21,4,1,3,2,2,3,1,4,3,2,4,1,5,5,4,1,2,3,4,1,2,3,5,4,2,6,6,3,1,5,2,4,3,5,1,4,6,2,7,7,1,4,3,6,2,5,2,5,7,4,3,8,8,4,5,7,1,2,6,3,7,5,3,1,9,9,5,1,4,3,8,2,7,6,5,2,8,10,10,3,5,9,4,1,7,2,8,6,9,4,11,11,6,1,5,10,4,9,8,3,2,7,6,12,12,7,2,9,4,11,6,1,8,3,10,5,第四步:总体估计,记各样本城市的80位样本居民中,奶制品,消费总支出为 ,则各样本城市人均奶,制品消费支出为:,全国1600名居民组成的样本中,奶制品消费总支出为,则成年居民人均奶制品消费支出为:,方差估计为:,对总体比例的推算可以借用对均值的推算公式。记,各样本城市的80位样本居民中,每天至少喝一杯鲜奶,的人数为,则各样本城市每天至少喝一杯鲜奶的人数,比例为:,全国1600名居民组成的样本中,每天至少喝一杯鲜奶,的总人数为 ,则成年居民中每天至少喝一,杯鲜奶的人数的比例为:,p的方差的估计为:,式中,,本章小结,(1)对于大规模的抽样,调查项目,通常采用多,阶段抽样方法;,(2),多阶段抽样方法,可以,看做对样本群内的单元进,行再抽样的一种方法;,(3)一般来说,多阶段抽样,的前几阶采用PPS抽样,最,后一阶采用等概率抽样.,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服