抽样框和样本抽取过程说明.doc

资源描述

抽样框和样本抽取过程说明一、抽样单位本方案采用分层的四阶段不等概率抽样，各阶段的抽样单位为：第一阶段：以区（地级市、省会城市和直辖市的各大城区和郊区）、县（包括县级市）为初级抽样单位。第二阶段：以街道、乡镇为二级抽样单位。第三阶段：以居民委员会、村民委员会为三级抽样单位。第四阶段：以家庭住户并在每户中确定1 人为最终单位。二、构建抽样框根据行政区划资料，全国（含22 个省、4 个自治区、4 个直辖市；不含西藏自治区、港澳台）共有2801 个区县单位，这些区县单位作为PSU（初级抽样单元）构成调查总体，具体划分为5 个抽样框。抽样框1：三大直辖市市辖区具体包括北京、天津、上海三个直辖市的共44 个市辖区，需要说明的是，这一部分未包括直辖市重庆，原因如下： (1) 从设立直辖市的时间来看，1997 年全国行政区划正式设立重庆直辖市，而1949 年建国之初即存在京津沪三大直辖市的行政区划。 (2) 从各省、直辖市人类发展指数(HDI)的排名来看，重庆与京津沪三大直辖市相比差距较大（见表一）； (3) 从所处经济地理区域上来看，重庆位于内陆地区，而京津沪三大直辖市均位于沿海发达地区； (4) 从经济发展水平来看，重庆的人均GDP 与京津沪三大直辖市相比差距较大（见表一）； (5) 从城乡人口对比来看，重庆的农业人口与非农业人口的比例与京津沪三大直辖市相比差距较大（见表一）；表一重庆与京津沪三大直辖市部分指标对比指标北京天津上海重庆人类发展指数排名 2 3 1 22 人均GDP（万元） 2.26 1.79 3.48 0.52 非农业人口百分比 60% 56% 67% 23% 总之，从人文、经济、城乡人口对比、地理、历史等多方面相比较，重庆与京津沪三大直辖市的同质性并不明显；若简单地按行政区划的标准将重庆划分至直辖市这一抽样框，将对结果产生一定的影响。抽样框2：省会城市市辖区具体包括全国26 个省会城市和重庆市的共175 个市辖区。依照各城市的经济地理区域分为三层。东部：沈阳市、济南市、杭州市、南京市、福州市、广州市中部：哈尔滨市、长春市、石家庄市、郑州市、太原市、合肥市、南昌市、武汉市、长沙市、海口市、南宁市西部：呼和浩特市、乌鲁木齐市、银川市、兰州市、西宁市、昆明市、贵阳市、西安市、成都市、重庆市抽样框3：东部地区区县具体包括京津沪三大直辖市和东部6 省的所有区县，除去直辖市和6 个省会城市市辖区部分；共611 个区县。即：北京（除市辖区）、天津（除市辖区）、上海（除市辖区）、辽宁省（除沈阳市市辖区）、山东省（除济南市市辖区）、浙江省（除杭州市市辖区）、江苏省（除南京市市辖区）、福建省（除福州市市辖区）、广东省（除广州市市辖区）。抽样框4：中部地区区县具体包括中部11 省和自治区的所有区县，除去11 个省会城市市辖区部分；共1136 个区县。即：黑龙江（除哈尔滨市市辖区）、吉林省（除长春市市辖区）、河北省（除石家庄市市辖区）、河南省（除郑州市市辖区）、山西省（除太原市市辖区）、安徽省（除合肥市市辖区）、江西省（除南昌市市辖区）、湖北省（除武汉市市辖区）、湖南省（除长沙市市辖区）、海南省（除海口市市辖区）、广西壮族自治区（除南宁市市辖区）抽样框5：西部地区区县具体包括西部10 省和自治区的所有区县，除去10 个省会城市市辖区部分；共835 个区县。即：内蒙古自治区（除呼和浩特市市辖区）、新疆维吾尔自治区（除乌鲁木齐市市辖区）、宁夏回族自治区（除银川市市辖区）、甘肃省（除兰州市市辖区）、青海省（除西宁市市辖区）、云南省（除昆明市市辖区）、贵州省（除贵阳市市辖区）、陕西省（除西安市市辖区）、四川省（除成都市市辖区）、重庆（除重庆市市辖区）三、总样本量由于调查的结果主要是估计各种比例数据以及比例数据之间的比较，所以在调查样本量的确定上是以估计简单随机抽样的总体比例P 时的样本量为基础。在95%的置信度下按抽样绝对误差不超过3%的要求进行计算，需要抽取样本量：这里d 为抽样绝对误差取0.03，uα 在置信度为0.95 时为1.96， p(1− p) 最大取0.25。由于采用多阶段的复杂抽样，设计效应deff 一般会在2 和2.5 之间，我们把deff 定为2，这样需要的样本量就为2000 个。综合考虑精确度、费用以及调查实施的可行性等因素，以及以往若干全国社会调查的经验；再加上考虑到在调查实施中通常会存在一部分户内找不到、或没有合格调查对象、以及各种原因造成的无回答等情况，根据对回答率的估计，以及总体划分为五个抽样框，我们把样本量确定为10000 个。这10000 个样本不仅能满足对总体的估计，而且也能满足对抽样框各自总体的估计，所以是比较合适的样本量。四、样本分配总样本数10000，采用四阶段抽样方案，在每个抽选出的初级抽样单元（区/县）中抽出 4 个二级抽样单元（街道/乡镇），在每个抽选出的二级单元中抽出2 个三级抽样单元（村委会/居委会），最后在每个抽选出的三级抽样单元中抽出10 个最终抽样单元在抽样框1（三大直辖市市辖区）中共抽出15 个PSU，每一个直辖市对应抽出5 个PSU；在抽样框2（省会城市市辖区）中共抽出16 个PSU，并以东中西三层的省会城市市辖区人口按比例分配，其中东部省会城市抽出5 个PSU，中部省会城市抽出6 个PSU，西部省会城市抽出5 个PSU；在抽样框3（东部地区区县）、抽样框4（中部地区区县）和抽样框5（西部地区区县）中共抽出94 个PSU，并以东部、中部、西部各部分的总人口剔除其中包括的直辖市和省会城市的市辖区人口后的剩余人口按比例分配，其中抽样框3 中抽出30 个PSU，抽样框4 中抽出42 个PSU，抽样框5 中抽出22 个PSU。对应于四阶段抽样方案，样本在各抽样框中的具体分配数目如下表所示：表二样本在各抽样框中的分配二、抽样步骤 1、初级抽样单元（区县）的选取： (1) 抽样框1 中PSU 的抽取每个直辖市以简单随机抽样的方式抽出5 个PSU，共计15 个。 (2) 抽样框2 中PSU 的抽取将抽样框2（省会城市市辖区）分为东部、中部、西部三层，对照表二中各层的样本分配数，分别将各层内的省会城市市辖区按照所属省会城市的教育水平（即中学以上的人口数百分比）排序，并以各市辖区人口数作为辅助信息，采用PPS（不等概率抽样）系统抽样，抽出16 个PSU。 (3) 抽样框3、4、5 中PSU 的抽取考虑本次调查的具体内容，在10000 个样本中，欲实现城市样本数与农村样本数的对比约为6000：4000。在抽样框1 和抽样框2 中，每个PSU 都抽出4 个街道作为二级抽样单元，对应的最终抽样单元均为城市样本；为实现城乡样本比例的平衡，在抽样框3、4、5 中，每个PSU 对应下表（表三）确定4 个二级抽样单元在街道和乡镇中的分配。表三抽样框3、4、5 中二级单位分配标准二级抽样单位层别非农人口百分比街道乡镇 1 43.37%及以上 4 0 2 [22.53％ , 43.37%） 3 1 3 [14.75％ , 22.53％） 2 2 4 [11.34％ , 14.75％） 1 3 5 11.34％以下 0 4 在抽样框3（东部地区区县）中，将各区县按表三所述标准分为5 层；考虑到本次调查的具体内容，在每一层中各区县按教育水平（即各区县中，教育程度为中学以上的人口数百分比）排序，并以各区县人口数作为辅助信息，采用PPS 系统抽样，抽出30 个PSU。抽样框4 和抽样框5 中的PSU 抽取过程与之相同。这种方式的目的在于，保证在抽选出的PSU 中农业人口与非农业人口比例的分布、以及各PSU 教育水平的分布与总体分布大体相符。具体控制目标是在抽样框3、4、5 中的376 个二级抽样单元中，街道与乡镇的比例大致为176： 200，从而实现抽样框3、4、5 中抽取的最终单元中城镇样本与农村样本的比例大致为3520： 4000（即[176×2×10]：[200×2×10]）。 211 2、二级抽样单元（街道或乡镇）的选取：根据表三，我们可以计算出各初级抽样单元中二级抽样单元（街道或者乡镇）的分配表. 基于该分配表，根据2000 年人口普查分区县、街道/乡镇、居委会和村委会的人口数，我们按照如下步骤选取二级抽样单元： 3.a 城镇样本街道级单位的抽取 (1) 在选取的每一个区县级单位内，计算所有街道级单位居委会20－69 岁人口总数，同时给每一含有居委会人口的街道级单位一个随机数字； (2) 将各街道级单位按照所给出的随机数字从最低到最高排序； (3) 按照PPS 法选取K 个街道（K 表四中该初级抽样单元所要求的二级抽样单元（街道）数目，如果某些街道居委会人口过大，该街道可能被抽中2 次或者以上），具体为： 1) 列出该区县中含有居委会人口的街道/乡镇名称，以及20－69 岁居委会人口数； 2) 累加各街道/乡镇的居委会人口数生成一列数组，累加到该区县内的总居委会人口。例如，假设该区县有10 个街道/乡镇单位，各居委会人口数分别为50，150， 90，70，180，110，40，60，120，和130，总人口为1000。我们将人口数列表如下：街道1：1－50 街道2：51－200 街道3：201－290 街道4：291－360 街道5：361－540 街道6：541－650 街道7：651－690 街道8：691－750 街道9：751－870 街道10：871－1000 3) 假设表四中该初级抽样单元所要求的二级抽样单元数目为2 个街道，二级抽样单元的抽样方法为：（1）在1 和N/2 之间选取一个随机数字（在我们的例子中为1000）并且选取包含所选取的随机数字的街道，（2）加上N/2 选取第2 个街道。例如，假设本例子中第一个随机数字是222，因为222 对应的为街道3，该街道被选取了。然后选取第2 个街道，对应222＋500＝722 的那个街道（街道8）。 3.b 农村样本乡镇级单位的抽取 1) 在选取的每一个区县级单位内，计算所有乡镇级单位村委会20－69 岁人口总数，同时给每一含有村委会人口的乡镇级单位一个随机数字； 2) 将各乡镇级单位按照所给出的随机数字从最低到最高排序； 3) 按照PPS 法选取K 个乡镇（K 为表四中该初级抽样单元所要求的二级抽样单元（乡 212 镇）数目，如果某些乡镇村委会人口过大，该乡镇可能被抽中2 次或者以上），具体为： 1) 列出该区县中含有村委会人口的街道/乡镇名称，以及20－69 岁村委会人口数； 2) 累加各街道/乡镇的村委会人口数生成一列数组，累加到该区县内的总村委会人口。例如，假设该区县有10 个街道/乡镇单位含有村委会人口，各村委会人口数分别为50，150，90，70，180，110，40，60，120，和130，总人口为1000。我们将人口数列表如下：乡镇1：1－50 乡镇2：51－200 乡镇3：201－290 乡镇4：291－360 乡镇5：361－540 乡镇6：541－650 乡镇7：651－690 乡镇8：691－750 乡镇9：751－870 乡镇10：871－1000 3) 假设表四中该初级抽样单元所要求的二级抽样单元数目为2 个乡镇，二级抽样单元的抽样方法为：（1）在1 和N/2 之间选取一个随机数字（在我们的例子中为1000）并且选取包含所选取的随机数字的乡镇，（2）加上N/2 选取第2 个乡镇。例如，假设本例子中第一个随机数字是222，因为222 对应的为乡镇3，该乡镇被选取了。然后选取第2 个乡镇，对应222＋500 ＝722 的那个乡镇（乡镇8）。 (2) 三级抽样单元（居委会或村委会）的选取：在每一选取的街道或者乡镇中，通过PPS 随机选取2 个三级单元（居委会或村委会）。这一步可以采取与街道/乡镇抽样同样的步骤。也就是，根据2000 年人口普查分区县、街道 /乡镇、居委会和村委会的人口数，我们按步骤选取三级抽样单元。以居委会的抽样为例，在每一选取的街道，列出每一居委会20－69 岁人口数，同时给每一居委会一个随机数，各居委会按照所给出的随机数字从最低到最高排序，计算该街道所有居委会人口的累积分布，假设N 为该街道累积居委会人口数：（1）在1 和N/2 之间选取一个随机数字并且选取包含所选取的随机数字的居委会，（2）加上N/2 选取第2 个居委会。 (3) 最终抽样单元的选取（在居委会内抽取居民户和在户内抽取受访者）：在抽中的居/村委会中按照第五次人口普查摸查底册进行等距系统抽样，确定应调查的居民户，然后在抽中的户中随机抽取一位年龄介于18 到69 岁、在本户内居住了一周以上或将 213 居住一周以上的人作为我们的调查对象。有关本次调查城市居民户及其被访者确定的具体步骤，请参阅附录六《关于抽取居民户和户内确定被访者的说明》。最终抽样结果是，共计抽出125 个区县（初级抽样单元），二级抽样单元中街道数与乡镇数的对比为295：205，对应的三级抽样元中居委会与村委会的对比为590：410，对应最终抽样单元中城市样本与农村样本的对比为5900：4100，基本满足总样本量10000 在城乡分配上的要求。 __

展开阅读全文