抽样方法案例.doc_咨信网zixin.com.cn

资源描述

附件二：国家卫生服务总调查样本地区和样本个体的抽取方法一、概述１.１国家卫生服务总调查抽查的原则是既要兼顾调查设计的科学性即样本地区和样本个体对全国和不同类型地区有足够的代表性，又不致于过多增加样本量而加大调查的工作量，即经济有效的原则。１.２抽样的方法是多阶段分层整群随机抽样法。第一阶段分层是以县（市或市区）为样本地区；第二阶段分层是以乡镇（街道）为样本地区；第三阶段分层以村为样本地区；最后是住户为样本个体。二、第一阶段分层整群抽样２.１第一阶段抽样着重解决两个基本问题：一是由于全国各县、市差异极大，如何确定第一阶段分层的基准；二是抽样比例，多大的县、市样本量能经济有效地代表全国和不同类型的地区。２.２第一阶段分层基准的确定第一阶段分层的指标是通过专家咨询法和逐步回归法筛选的１０个与卫生有关的社会经济、文化教育、人口结构和健康指标。１０个指标的主成份分析结果如表１。表⒈ 主要社会经济和人口动力学指标的主成份因子模型变量单位主成份１主成份２主成份３第一产业就业率％ 0.82* -0.49 0.17 14岁人口比例％ 0.80* -0.10 -0.49 文盲率％ 0.69* 0.32 0.22 粗出生率 ‰ 0.69* 0.35 -0.10 粗死亡率 ‰ 0.67* 0.51 0.33 婴儿死亡率 ‰ 0.67* 0.60* -0.02 人均工农业产值（元） -0.65* 0.53* 0.12 第二产业就业率％ -0.84* 0.45 -0.10 初中人口比例％ -0.92* 0.02 -0.04 65 +人口比例％ -0.10 -0.19 0.93* 从主成份分析中可以看出主成份１与绝大多数变量有十分显著的关联，意义十分明确，而且代表 10 个变量整体信息的 51.22％。其值的大小可以综合反映一个地区社会经济、文化教育、人口及其健康的发展。因此，确定主成份１为分层的基准称它为分层因子。２.３第一阶段的聚类分层在计算各县、市分层因子的得分后，用 K-Means聚类分析方法将总体分为组间具有异质性和组内具有同质性的五类地区即五层。聚类分层的结果第一层有 201 个县（市或市区），占整个县（市或市区）的 8.2％；第二层有 650个县（市或市区），占 26.5％；第三层有 698 个县（市或市区），占 28.5％；第四层有 691个县（市或市区），占 28.2％；第五层有 212，占 8.6％。表⒉显示了各层因子得分和选择的社会经济等变量的均值，可见各层呈明显的梯度。可以认为，第一层所在的市县，是社会经济、文化教育和卫生事业发展以及人群健康状况好的地区，第二层是比较好的地区，第三层是一般性地区，第四层是比较差，第五层是差的地区。表2 主要社会经济和人口动力学指标的主成份因子模型市县因子得分社会经济和人口动力学指标层别数均数距离 GNP AEP ILLIT CDR IMR 1 201 -2.4354 3210.28 3330 15.7 19.7 5.1 17.5 2 650 -0.6638 2164.66 835 64.6 23.7 5.7 26.2 3 698 0.0692 1655.00 450 83.5 32.4 6.3 31.4 4 691 0.5776 1264.57 341 88.1 43.6 7.4 49.1 5 212 1.7457 539.61 319 90.0 66.8 11.7 121.4 ２.４第一阶段分层等概率多种样本容量的抽样用经济有效的样本代表总体是抽样调查的精髓。样本量的确定基于以往的经验和其他国家抽样调查样本的设计，首先给定一个样本量大小的范围，确定抽取样本量为 120，90，60，45，30 五个大小不等的样本。为了保证各层每一个县（市或市区）都有同等被抽取为样本的概率，必须考虑不同大小样本量的样本在各层的分配，即按比例的分层抽样。见表⒊。表⒊ 不同大小样本量样本在各层的分配层数全国不同大小样本量样本的分配: 合计（％） 120 90 60 45 30 第一层 201 （8.2） 10 8 5 4 2 第二层 650 （26.5） 32 23 16 11 8 第三层 698 （28.5） 34 26 17 13 9 第四层 691 （28.2） 34 25 17 13 8 第五层 212 （8.6） 10 8 5 4 3 按系统随机抽样方法，每个不同大小样本量的样本抽取 6 次。同一样本量的 6 次抽样，通过计算每次抽样样本各变量的统计量，分别与总体各变量参数进行比较，从中筛选出与总体参数最为接近的那个样本，作为该样本量的最佳抽取样本。２.５第一阶段最佳样本量样本的选择与评价 ⑴ 不同样本量样本各变量均值与总体均数的比较：如果将不同样本量样本各变量的均值与总体各变量的均数绝对误差，绝对误差与总体均数之比为相对误差，同一样本各变量的相对误差具有可加性，其均数称为该样本各变量的平均相对误差。平均相对误差可作为判断不同大小样本量样本对总体代表性的一个尺度。同时，用“１-平均相对误差”作为精确度。表⒋显示了不同样本量样本各变量的均数，与总体各变量比较的相对误差、平均相对误差和精确度。从不同样本量样本来看，平均相对误差随着样本量的减少而增大。如样本量从120减少到60，平均相对误差由1.4％增加到2.7％，增加了62％，而样本量从60 减少到30，平均相对误差从2.7％增加到5.6％，增加了一倍以上。样本量为 120，90，60 的样本精确度均大 95％，也就是说样本量大于 60 就可对总体有较好的代表性。 ⑵ 不同样本量样本各变量的分布与总体分布的比较：样本变量的分布与总体分布是否吻合也是衡量样本对总体代表性的一个尺度。表⒌列出了不同样本量各变量分布与总体分布卡方检验的结果。从不同样本各变量分布与总体分布的结果，平均卡方值小于 9.49这一差异有显著性水平的样本量为 120，90 和 60。鉴于上述分析，故可认为，样本量大于 60 的样本，各变量的分布大多与总体分布相拟合，对总体有较好的代表性。见表５。 ⑶ 不同样本量样本分散度的评价：样本分散度指样本中各层的变量统计量对总体各层的代表性。在第一层中，样本量为 120 和 90 的样本，平均每个指标的精确度均大于 95％；样本量为 60 的样本，精确度为 89.4％。从第二层到第四层，样本量为 120 和 90 的各个样本，平均每个指标的精确度都大于95％；第五层样本量为 120，90和 60的各样本，精确都分别为94.1％，92.5％和 93.9％，与上述四层相比，精确度略差一些。也就是说，要对总体各层有较好的代表性，样本量至少为 90 。详见表６。２.６考虑到经济有效的原则和对全国、不同类型的地区和上述每个指标的代表性，国家卫生服务总调查的县（市或市区）样本容量取９０。具体抽出的县、市或市区见附件５。三、第二阶段整群随机抽样３.１在上述抽取的９０个“样本县（市或市区）”中，以乡镇（街道）为第二阶段整群系统随机抽样单位。全国每个乡镇（街道）被抽取为“样本乡镇（街道）”的概率是1∶160。第二阶段整群系统随机抽样全国共抽取 450个乡镇（街道）。平均每个“样本县（市或市区）”抽５个乡镇（街道）。第二阶段分层整群抽样具体由各样本县（市或市区）按下述方法抽取。３.２第二阶段整群随机抽样的基准由于一个县（市或市区）内社会经济、文化教育和卫生状况的差异远小于全国各县、市之间的差异，因而确定县（市或市区）的抽样基准相对容易。根据我国各县（市或市区）的基本特征、实际的可操作性和以往抽样调查常用的指标，确定采用人口数（或人均收入）作为分层基准。３.３第二阶段整群随机抽样的的方法 ① 将样本县（市或市区）所有的乡镇（街道）按人口数的多少（或人均收入的大小）由多到少依次排序； ② 由多到少依次计算人口数（或人均收入）的累计数； ③ 计算抽样间隔，用累计的人口总数（或人均收入累计总数）除于抽取的样本数（累计总数／５）； ④ 用纸币法（随便拿出一张人民币，看人民币的号码与最初累计数哪一个数接近，取这个数为开始数）随机确定第一个样本乡镇（街道），然后加上抽样距离确定第二个样本乡镇（街道），依次类推确定第三至五个样本乡镇（街道）。３.４第二阶段整群随机抽样实例某个样本县共有 18个乡、镇，要从该样本县抽取５乡镇作为样本。根据抽样方案的要求，第一步人口数的多少由大到小排序，并计算累计数（该县人口累计数即人口总数为210100），见表６；第二步计算抽样间隔，用人口总数除于抽样的样本数，248600／5 = 49720，该县乡镇整群抽样的抽样间隔为49720；第三步确定第一个随机数，取一张人民币，其编号的为FP59243854，取后５位数是 43854，所取的后５为数不能大于抽样间隔数，如大于再取一张人民币．该后５位随机数接近第２编号即平湖镇后面的累计数，因此确定第２号平湖镇为第一个样本；第四步用第一个样本的累计数加抽样间隔，即 43000 + 49720 = 92720，该数接近第５编号即新龙乡的累计数，确定第５号新龙乡为第二个样本。第五步用第二个样本的累计数加抽样间隔，即 100900+49720=142920，该数接近第８编号新原乡的累计数，确定第８号新原乡为第三个样本；同样的方法确定第⒔号和第⒙号即桐连乡和四顶乡。这样，五个样本乡镇就确定了。表６. 第二阶段整群随机抽样的实例编号乡镇人口数累计编号乡镇人口数累计编号乡镇人口数累计 ⒈城关镇 22000 22000 ⒎平原乡 16400 134900 ⒔新店镇 10000 205500 ⒉平湖镇 21000 43000 *⒏新原乡 15000 149900 *⒕定安乡 9500 215000 ⒊玉阳镇 20000 63000 ⒐古农乡 14000 163900 ⒖五岖乡 8900 223900 ⒋五一乡 19500 82500 ⒑王店乡 11000 174900 ⒗五庙乡 8500 232400 *⒌新龙乡 18400 100900 *⒒双莲乡 10500 185400 ⒘双山乡 8200 240600 ⒍湖泊乡 17600 118500 ⒓桐连乡 10100 195500 *⒙四顶乡 8000 248600 四、第三阶段随机抽样４.⒈第三阶段随机抽样的基准和样本容量 ⑴ 在同一个乡镇（街道）内，各村（居委会）的经济发展和卫生状况基本上变异不大。因此，第三阶段不用分层，直接采用随机整群抽样的方法从“样本乡镇（街道）”中抽取样本村（居委会）。但是，抽样时应按各村人均收入或人口数作为标识进行排序。第三阶段随机抽样由调查指导员负责。 ⑵ 每个“样本乡镇（街道）”整群随机抽取２个村（居委会），全国共抽取 900个村（居委会），全国每村（居委会）被抽为样本的概率为 1:1120。４.２第三阶段整群随机抽样的的方法 ① 将样本乡镇（街道）所有的村（居委会）按人均收入的多少（或人口数的大小）由多到少依次排序； ② 由多到少依次计算人均收入（或人口数）的累计数； ③ 计算抽样间隔，用累计总数除于抽取的样本数（累计总数／２）； ④ 用纸币法（随便拿出一张人民币，看人民币的号码与最初累计数哪一个数接近，取这个数为开始数）随机确定第一个样本村（居委会），然后加上抽样距离确定第二个样本村。４.３.第三阶段随机整群抽样的实例第一步将所有的村按人均收入的多少由大到小排序，并计算累计数；第二步计算抽样间隔： 7337/2 = 3669 ；第三步确定第一个随机数，取一张人民币，其编号的后 4 位数是 2273，这个随机数接近第４编号的累计数，因此确定第４号村为第一个样本；第五步用第二位的累计数加抽样间隔（2805 + 3669 =6474），接近第⒑编号的累计数，确定第⒑号为第二个样本。表7. 第三阶段随机整群抽样实例编号村人均收入累计数编号村人均收入累计数 ⒈ 镇西店村 724 724 ⒎ 长生庙村 589 4606 ⒉ 唐家铺村 721 1445 ⒏ 王甸子村 574 5180 ⒊ 镇东村 689 2134 ⒐ 民生村 571 5751 *⒋ 镇北村 671 2805 *⒑ 清平村 544 6295 ⒌ 李家店村 610 3415 ⒒ 老平埠村 534 6829 ⒍ 湖泊村 602 4017 ⒓ 高坝村 508 7337 * 为随机抽取的样本数。五、样本个体的抽样５.１最终的抽样单位是住户。在每个“样本村（居委会）”中按 20％的比例随机抽取住户，平均每个村抽60户，全国共抽取54000户。全国平均每户被抽取为样本的概率为 54000/28000万，约五千户中抽一户。如果按每户四个人计算，人口抽样比为1:5000 左右。５.２抽户方法是各样本乡镇（街道）的调查指导员上述抽样比例在样本村（居委会）随机抽取，具体方法： ① 按人口普查的编码顺序，按门牌号、楼号、单元号、门号从小到大排列； ②对同一门牌号，同一个大院和楼号的，按门号从小到大排列，对同一门牌号内没有门号的按从左到右、从外到里、从下到上的原则编码。一经编码不许变动； ③编好住户码列入住户清单表式中：序号户主姓名家庭住址门牌号码家庭人口数累计人口数抽中住户１张三＊村＊组东1 ５５２李四＊村＊组东2 ４９３王五＊村＊组东3 ４１３ * ４赵六＊村＊组东4 ３１７５陈七＊村＊组东5 ５２２。。３００赵末＊村＊组北6 ６ 1200 ④根据抽样比例计算应抽的户数（一般平均每个样本村６０户），然后系统随机抽取。方法同上：第一步将所有住户的人口累计数、本村的平均人口数（1200/300=4）和本村应抽取的住户数（300*20%=60）；第二步计算抽样距离（1200/60=20）；第三步确定第一个随机数（如取一张人民币，其编号的后两位数是 12，这个随机数接近第３编号的累计数，因此确定第３号住户为第一个样本；第五步用第３号的累计数加抽样距离（13 + 20 =33），看 33 最接近第几编号住户，并确定这家住户为第二个样本，同理用第二个样本住户对应的累计数加抽样距离确定第三个样本。同样确定以后各样本住户。 ⑸ 抽样时可多抽取六户，作为备用。抽取方法是在上述抽取完毕以后，按上述步骤再从未抽取的住户中抽取６户。表8. 国家卫生服务总调查样本容量和抽样概率 ____________________________________________________ 单位名称全国总数抽样样本数抽样概率县／市区 2450 90 1:27 乡镇／街道 70000 450 1:160 村／居委会 1000000 900 1:1120 户 280000000 54000 1:5000 人 1200000000 216000 1:5000 全国每一户家庭被抽群为样本的概率模型： 90／2567 * 450 * ST／<(90/2567)*280000000> * 2／ST/280 * 60／280 = 1:5000 -------- --- ------------------------- -------- ------- ↑ ↑ ↑ ↑ ↑ 在样本村每户｜｜｜｜被抽取的概率｜｜一个乡被抽取为样本的概率一个村被抽取为样本的概率｜样本乡镇（街道）数一个县（市或市区）被抽取为样本的概率（ ST: 乡镇（街道）户数的大小）表４. 不同大小样本社会经济和人口动力学指标的均数以及与总体均数的相对误差全国不同大小样本的均数指标均数 120 90 60 45 30 指标均数: 0-14岁人口比例％ 33.6 33.3 33.6 33.5 33.0 31.9 岁人口比例％ 4.9 4.9 4.9 4.9 5.0 5.2 15-49岁妇女比例％ 26.2 26.6 26.9 26.7 25.8 27.6 人均工农业总产值（元） 806 795 767 702 756 813 第一产业就业率％ 74.4 74.5 75.5 76.4 76.2 75.4 第二产业就业率％ 15.4 15.5 15.2 15.0 16.1 14.0 文盲和半文盲率％ 32.1 33.4 33.4 33.0 33.2 34.6 初中学历人口比例％ 18.2 18.3 18.5 18.2 19.5 18.5 粗出生率每千人口 22.5 22.7 23.3 22.5 21.3 21.4 粗死亡率每千人口 6.3 6.3 6.3 6.3 6.0 6.2 婴儿死亡率每千出生 32.4 30.5 30.2 30.2 26.2 26.9 （二）相对误差％ 0-14岁人口比例％ 0.9 0.0 0.3 1.8 5.1 65+岁人口比例％ 0.0 0.0 0.0 2.0 6.1 15-49岁妇女人口％ 1.5 2.7 1.9 1.5 5.3 人均工农业总产值（元） 1.4 4.8 13.0 6.2 0.9 第一产业就业率％ 0.1 1.5 2.7 2.4 1.3 第二产业就业率％ 0.6 1.3 2.6 4.6 9.1 文盲和半文盲率％ 4.1 4.1 2.8 3.4 7.8 初中学历人口比例％ 0.6 1.9 0.1 7.1 2.1 粗出生率每千人口 0.9 3.6 0.0 5.3 4.9 粗死亡率每千人口 0.0 0.0 0.0 4.8 1.6 婴儿死亡率每千出生 5.9 6.8 6.8 19.0 17.0 相对误差合计（％） 16.1 26.5 30.0 58.2 61.2 平均相对误差（％） 1.46 2.41 2.73 5.29 5.56 精确度（％） 98.54 97.59 97.27 94.71 94.44 表５. 不同大小样本量样本社会经济和人口动力学指标的频数分布与总体分布的拟合度检验不同大小样本的卡方值 : 指标 120 90 60 45 30 平均人口数/县（市）人口大小 0.47 1.20 2.83 5.07 14.82** 0-14岁人口数/0-14岁人口比例 4.74 4.36 7.19 4.56 26.12** 65+ 岁人口数/65+ 岁人口比例 9.10 8.83 21.7** 13.21* 20.90** 15-49岁妇女数/15-49岁妇女比例 3.79 3.88 5.01 10.96* 32.47** 样本数/人均工农业总产值 2.92 6.27 6.69 12.56* 28.39** 第一产业人数/第一产业就业率 2.81 7.19 9.32 8.20 25.40** 第二产业人数/第二产业就业率 3.21 6.06 4.26 24.24** 30.38** 文盲半文盲人数/文盲半文盲率 4.37 4.87 8.44 7.28 32.62** 初中以上人数/初中以上人口比例 3.13 4.23 3.74 6.23 18.42** 出生人数/粗出生率 2.89 3.49 4.21 4.94 29.33** 死亡人数/粗死亡人数 1.91 2.03 5.77 15.16** 19.96** 婴儿死亡人数/婴儿死亡率 6.77 11.6* 14.8** 45.45** 51.02** 卡方值平均数 3.61 5.02 7.26 12.30* 25.39** 与总体分布无显著性差异的指标数 13 12 11 7 1 * X 95％（4）=9.49 ** X 99％（4）=13.2 表⒐ 不同大小样本社会经济和人口动力学指标的均数以及与各层均数的相对误差（1） _____________________________________________________________ 变量各层均数 120 90 60 第一层 0-14岁人口比％ 24.58 25.24 25.42 25.77 65岁及以上人口比％ 4.60 4.46 4.43 4.50 人均工农业产值（元） 3330 3378 3505 2463 第一产业就业率％ 18.72 20.15 21.48 25.83 第二产业就业率％ 55.91 54.21 54.55 51.88 文盲半文盲率％ 13.69 14.96 14.95 16.98 初中以上人口比％ 32.15 32.50 32.69 31.74 粗出生率‰ 16.71 16.30 16.14 14.78 粗死亡率‰ 5.11 5.16 5.26 5.25 婴儿死亡率‰ 17.45 19.50 20.63 17.25 精确度％ 96.8％ 95.6％ 89.4％ 0-14岁人口比％ 32.36 32.96 33.72 32.24 65岁及以上人口比％ 4.77 4.55 4.47 4.91 人均工农业产值（元） 835 780 777 764 第一产业就业率％ 64.62 66.10 66.28 65.56 第二产业就业率％ 21.24 20.33 19.88 20.67 文盲半文盲率％ 23.69 22.72 22.42 22.35 初中以上人口比％ 21.65 22.38 22.34 22.80 粗出生率‰ 19.90 20.09 19.47 18.45 粗死亡率‰ 5.71 5.64 5.53 5.92 婴儿死亡率‰ 26.20 25.34 25.72 23.82 精确度％ 96.9％ 96.2％ 95.8％表⒐不同大小样本社会经济和人口动力学指标的均数以及与各层均数的相对误差（2）变量不同样本容量各层均数 120 90 60 第三层 0-14岁人口比％ 35.48 34.54 34.60 34.65 65岁及以上人口比％ 4.86 5.11 5.11 5.03 人均工农业产值（元） 450 429 410 437 第一产业就业率％ 83.50 84.95 86.20 85.21 第二产业就业率％ 8.18 7.75 6.83 7.25 文盲半文盲率％ 32.41 32.59 32.03 30.57 初中以上人口比％ 16.55 16.68 16.70 16.40 粗出生率‰ 21.73 20.90 21.22 21.84 粗死亡率‰ 6.28 6.23 6.10 6.28 婴儿死亡率‰ 31.39 30.59 30.83 30.57 精确度％ 97.2％ 96.4％ 95.7％第四层 0-14岁人口比％ 37.13 36.49 36.50 36.64 65岁及以上人口比％ 4.64 4.76 4.88 4.61 人均工农业产值（元） 341 345 346 338 第一产业就业率％ 88.13 88.79 89.24 88.74 第二产业就业率％ 4.84 4.35 4.06 4.24 文盲半文盲率％ 43.58 44.05 44.57 43.68 初中以上人口比％ 12.65 12.64 13.28 12.20 粗出生率‰ 21.75 20.37 20.69 20.10 粗死亡率‰ 7.40 7.31 7.33 7.29 婴儿死亡率‰ 49.14 46.26 45.80 46.94 精确度％ 97.1％ 95.8％ 96.8％第五层 0-14岁人口比％ 40.16 40.50 41.05 41.06 65岁及以上人口比％ 4.43 4.45 4.40 4.82 人均工农业产值（元） 319 304 274 344 第一产业就业率％ 90.00 86.84 86.47 86.64 第二产业就业率％ 2.41 2.83 2.26 2.78 文盲半文盲率％ 66.83 62.23 63.25 64.64 初中以上人口比％ 5.40 6.29 6.26 5.27 粗出生率‰ 32.20 36.30 36.61 37.71 粗死亡率‰ 11.70 10.96 10.88 11.30 婴儿死亡率‰ 121.45 112.00 100.67 122.80 精确度％ 93.1％ 92.5％ 93.9％

展开阅读全文