抽样理论讲义.doc_咨信网zixin.com.cn

资源描述

抽样讲义壹、导论　　抽样的意思顾名思义，就是从全体之中抽取一部分个体做为样本，借着对样本的观察，再对全体做出推论。譬如说，我们想知道某个地区七岁到十二岁的小孩在除夕夜平均每人收了多少压岁钱，这些钱又跑到那里去了；或是我们的商品检验单位想要知道有一批货柜的棒球是不是每一个都符合使用标准；或是水库管理当局想要知道到底水库里有多少鱼。在理论上，我们当然可以不厌其烦地针对母体所有成员一个一个观察以取得数据，但在实际上我们知道这很不容易做到，事实上在有些情况下我们还非得做抽样调查不可。一、为什么要抽样？（一）因为要节省经费，(二)因为要节省时间。这两个理由很容易了解，如果要访问全体，则所耗费的时间和经费是相当可观的，而且有许多调查性质具有时间性，如果拖得太长就会失去时效。例如想知道学生们对某一项考试的反应如何，就非得打铁趁热，在短时间内完成调查不可。(三)因为要提高资料的准确性，这是由于全体调查牵涉到相当大量而又繁杂的作业，动员不少人力、物力和行政管道，增加许多犯错的机会，导致取得的数据质量不佳，而抽样调查工作涉及的作业负担相对地轻松许多，参与人员因为较少，好控制，使得数据的品质也较好。事实上联合国的专家们也发现，在一些教育较不发达的地区，人口普查的资料就不如抽样调查来得好。(四)因为要取得较详尽的数据，譬如我们想要知道七岁到十二岁小孩的压岁钱流到那里去，如果进行全体调查的话，由于人力和物力的限制，我们只能针对每一个小孩取得一点点资料，但是如果是抽样调查，则因为调查对象不多，反而可以很从容的取得细节资料提供分析之用。每十年一次的人口普查，除了全体都查之外，总是还要再抽取少数样本做更详尽的访问就是这个道理。(五)因为要减轻损失，例如汽车车身的耐撞试验，罐头食品的安全检查，或是电灯泡寿命的质量管理检验。这些调查本身就具有破坏性，总不能每部汽车都撞一撞，或是每个罐头都打开检查，这种情形非得进行抽样检验不可，而且样本数目还要控制到越少越好。二、机率抽样与非机率抽样在谈抽样设计之前，让我们先厘清一下这里所谈的抽样是指机率抽样，也就是说：「在完整定义的母体之中，每一个个体都有一个不为零的中选机会」。凡不属于这个定义范围的都是非机率抽样。常见的非机率抽样方法，综合Kish(1965)和Cochran(1977)的说法，有下列几种：　　（一）偶遇样本（haphazard sample）或便利抽样（convenient sample），是碰到谁就选谁的抽样，做研究的人并不在乎调查对象是否有代表性，例如生物学家解剖青蛙，心理学家观察人们对声光刺激的反应，医生征求自愿者做药物反应的实验等等。　　（二）立意选样要照顾每个省的情况。不得已而为之。造成了不等机率抽样。所以要加权。立意选样按照母体的资料来分层。事后分层把母体的结构找出来（purposive sampling）或判断选样（judgment sampling），这是经由专家主观判断，立意选定他们认为「有代表性」的样本来观察。例如人类学家或社会学家会选定一个或几个村庄来代表乡村地区，交通专家选定几个路口来计算交通流量，教育专家选定几个学校班级的学生来代表所有的学生等等。　　（三）自愿样本（volunteer subjects），听任自动送上门来的人组成样本群。　　（四）配额选样（quota sampling），依照母体的人口特征按比例分配样本数，在配额之内进行非机率抽样，也就是把调查对象依照特征分类后，根据各类别的百分比每类立意选样至额满为止。例如某个地区七岁到十二岁的小孩之中，约有一半是男的，另一半是女的，有四分之一住在都市，四分之三住在乡村。如果样本数是一千，则根据上述各类别的比例先算出各种特征交叉汇编后每一组合的配额，在配额内立意选出符合该类别的人即可。这样做可以节省时间和资源，而又维持了样本的「代表性」。　　（五）雪球抽样（snowballed sample），先找到原始受访者，然后再从受访者所提供的信息找到其它受访者。　　以上这些非机率抽样方法由于没有机率做推论基础，大多只能做描述性的用途，而不能对全体做科学的估计或验证理论的假设检定，因为它们提不出确切的误差数据，无法计算样本数据的准确程度。贰、抽样的基本原理　　假设某个地区七岁到十二岁的小孩共有两百四十万人，如果我们要抽取一千个人来调查有关他们的压岁钱收入和支出情形，怎么抽才会「准」呢？用常识来判断，总要有一些都市人，一些乡下人，要男生，也要女生，要富豪子弟，也要清寒子弟等等。这些顾虑都是担心万一抽得不好，变成瞎子摸象，整个推论就失效了。　　在谈抽样原理之前，首先让我们先熟悉几个名词和符号。一、资料的中心点和离散程度：平均数和标准差　　大家都知道平均数是什么，它是所有个案观察值的总和除以累加的个案数，也就是我们通常说的一组资料的中心点。我们把全体的平均数写成μ（念成mu）。它的定义是： = (x1 + x2 + …+ xN) / N ……………………………………（2.1）式中Ｎ是全体的总个案数，xi 是第 i 个个案的观察值。　　其次一个名词是标准差σ（念成sigma），是衡量一组资料中各个点和中心点之间的「标准距离」。也就是衡量一组数据中各点的集中或离散程度。它的定义是： ………………………（2.2）从定义上来看，它是每一个点和中心点μ的差，平方后累加起来取平均数，再开根号还原。平方的原因是要避免各点和中心点的差正负相抵。二、正态分布和中央极限定理假设这个地区两百多万个七岁到十二岁小孩的压岁钱平均数是μ，标准差是σ。现在我们要抽取一千个样本，从样本观察值来估计μ，一个很自然的选择是用样本的平数来估计，让我们把样本的平均数写成（念成ＸBar，Bar是横杠的意思），它的定义是： ………………………………………… （2.3）式中ｎ是样本数。如果我们使用一套机率抽样的作业程序抽出一千人，取得他们的观察值后会得到一个平均数，把它写成，表示是第一次抽样得到的结果。现在把整个作业重做一遍，我们可能得到不同的一千个人，因为在机率抽样之下每个人都有中选的机会，重新做一遍就可能抽到不同的人。我们把第二次抽样的结果写成。当然这个不一定会和相同，就像两颗子弹不会射中相同的一点一样。如此一直做下去，如果我们做Ｋ次的话，会有一共有Ｋ个样本平均数。在数学上有个中央极限定理，它的内容是：在样本数足够大的情况下，如果把这Ｋ个排起来，它们会形成正态分布，而这些样本平均数的平均数会等于μ，这些样本平均数的标准差会等于。什么是正态分布呢？它是一种钟形，以平均数为中心、左右对称的图形分布。譬如说，全校同学的身高由低而高排列起来，会有少数人很矮或很高，大部分人集中在中间，而越靠近平均身高的人会越多，形成像钟形的样子。事实上，我们可以利用正态分布的特性计算出身高在某一高度之间者到底有多少人。这是因为根据正态分布，有68％的人会落在平均数左右一个标准差距离之内，有95％的人会落在平均数左右两个标准差之内，而有99.7％的人会落在平均数左右三个标准差范围之内的缘故。三、点估计、区间估计、和信赖系数根据中央极限定理，我们知道如果做很多次抽样的话会得到很多个，而这些排起来会形成正态分布，它们的平均数是μ，标准差是。换句话说，有68％的会落在之间，有95％的会落在之间，有99.7％的会落在之间。把上述的说法稍为转换一下就变成：有68％的会包含着μ，有95％的会包含着μ，有99.7％的会包含着μ，而这就是抽样和估计最根本的道理。我们从全体之中以机率抽样方式抽取ｎ个样本，取得样本观察值，计算它们的平均数，然后加减两倍的得到一组上下区间，然后说：我们有95％的信心，这个上下区间一定会包含着全体的平均数μ。如果我们仍不放心的话，可以用加减三倍的，那么这组区间包含着μ的信赖度就有99.7％。用样本平均数来估计全体的平均数μ称为点估计。点估计命中目标的机会是很低的，因为只凭着少数样本观察值得到的结果要和全体的平均数吻合几乎是不可能的事，所以我们最好不要用点估计，而要用区间估计。根据中央极限定理和正态分布的特性我们知道这个区间包含着全体平均数μ的机会有68％，的机会有95％，而的机会有99.7％！真正可靠的估计势必要用区间估计，只有这样做我们才可以知道估计准确的程度，而这68％，95％，99.7％就称做是信赖系数。说得更确切一点，以95％信赖系数为例，它的意思是：如果我们进行一百次独立的抽样估计，会有一百个样本平均数，也会有一百个区间估计，而这一百个区间估计里会有95个正确地包含着全体平均数μ。实际上我们不会做一百次抽样，而是只做一次，所以说这一次抽样而来的区间估计会包含着μ的机会是95％，信赖系数越高，估计的区间也就越宽，这是高信赖系数所必须付出的代价。譬如我们估计全国七岁到十二岁小孩的压岁钱平均数是在10元到1000元之间。这个估计即使有99.7％的信赖度也没有什么用，因为这段区间实在太宽了，如果是100元到120元之间，而且信赖系数是99.7％，这就是个非常好的估计。我们学习抽样方法就是要使这个信赖区间尽可能的缩小。刚刚提到过一个好的估计必须既准又稳，我们用来估计μ，如果做很多次的话，会有很多个。中央极限定理已经给我们保证，这些的平均数会等于μ，所以是「准」的估计已无问题，但是这些是否都靠近在一起，称得上是「稳」呢？这就要看这些的标准差了。我们已经知道的标准差是，其中σ是全体的标准差，ｎ是样本数，把样本数加大会使得标准差变小，所以我们马上领悟到样本数越大，估计也就越稳。其次，σ是全体数据的标准差，我们并不知道它到底是多少，在区间估计里我们也需要用到它，因此为了要知道估计的准确程度，连全体资料的σ也要一起估计才行。至少有两种方法来估计σ，一是用样本观察值的标准差，它的定义是： ………………… （2.4）在数学上可以证明用来估计是合乎「准」的要求的，但是这个方法必须做完抽样，取得样本数据后才能派上用场，有时很不方便事前的规划和设计。二是用速简方式，我们知道通常的数据若以平均数为中心，左右各三个标准差的距离大概可以网罗绝大部分的数据。所以我们可以用常识判断，找出这组资料可能的最大数和最小数的差，再除以六，即是我们对σ的速简估计，因为从最小数到最大数之间大概有六个标准差的距离。举例来说：压岁钱最少的大概是零，最大的大概有一万元，差距是一万，除以六得 1667 元，这就是我们对σ的估计。先不论我们抽样得到的是多少，在规画作业时我们就可以知道，如果样本数是一千，那么95％信赖度的区间宽度是，估计是或是±105元，这个宽度通常也叫做抽样误差。四、抽样误差和样本数的决定　　习惯上我们都以95％的信赖系数做为一般抽样设计的常模，因此公式就成为我们决定样本数和误差大小的依据。上述的例子说明了如果样本数是一千，则抽样误差是±105元。若希望把误差控制在±50元之内，那么至少需要多少样本呢？我们可以代入公式，计算得到ｎ应该是4446人。另外一个比较快速的估计方式是使用百分比。假设我们想调查的是全体国民之中有多少百分比的人吸烟，则以前的平均数现在变成百分比，亦即从０到１之间的一个数字。样本百分比的标准差则跟着这个百分比变化，但是绝对不会超过，P(1-P)开方,最大值0.5*0.5 为了保险起见，我们就用来代入，换句话说，原来的公式现在变成，这是估计的最大抽样误差。例如样本数为400时，抽样误差为；样本数为900时，抽样误差是±0.033；同理，样本数一千六百时，抽样误差是正负二点五个百分点；样本数二千五百时抽样误差是正负二个百分点。我们可以看到样本数在一千到一千六百时最划得来；若再往上加，经费会增加很多，但抽样误差却减少得很有限，并不经济，所以一千到一千六百是最常见到的样本数。还有一件值得注意的事情是：样本数的大小和母体总数的大小并没有什么关系。这似乎出乎一般人的意料之外。在理论上，如果样本数和母体数的比例，也就是抽取率，在百分之五以下的话，样本数的决定几乎不受母体数的影响。美国有三亿人，盖洛普民意调查经常把样本数定在一千二百左右，英国有六千万人，要达到相同的准确度也需要相同的样本数，北京大学有三万学生，同样的也需要一样多的样本数。参、单纯随机抽样　　在介绍抽样方法之前，让我们先认识一下随机数表（如附录表一）。这个表是根据两个原则做出来的：(一)从０到９任何一个数字在任何位置出现的机会都是一样的。(二)每一个数字出现在任何一个位置并不影响其它数字出现在其它的位置。换句话说，每一个数字的出现都是独立的，从这两个特性我们可以引申到：(三)从００，０１，０２，......到９８，９９任何两位数出现在一起的机会都是相等的。(四)从０００，００１，......到９９８，９９９任何三位数出现在一起的机会都是相等的。(五)以此类推到更多位数。　　我们将透过以下抽样方法的介绍来熟悉随机数表的使用。一、单纯随机抽样的定义　　单纯随机抽样（simple random sampling, srs）的定义是：任何样本数为ｎ的样本组合中选的机率都是相等的。这个方法有理论上的用途，但实际上使用的并不多。二、单纯随机抽样的执行　　把全体所有成员从１到Ｎ编号，然后依随机数表抽取ｎ个号码。例如从四千人中抽五个人，把所有人自１到４０００编号，然后用随机数表随便选一行开始，假设我们选第三行，由于４０００是四位数，所以我们一次要用四个数字以使得从０００１到４０００之间的每一个号码都有相同的中选机会。自上至下第三行起自左向右，所有的数字都依次算入，它们是４５４６，７７１７，０９７７，５５８０，００９５，３２８６，３２９４，８５８２，２２６９，００５６，５２７１，......等。把超过４０００的号码舍去，我们有０９７７，００９５，３２８６，３２９４，２２６９五个号码中选，代表这五个号码的人就是我们的样本。三、对母体平均数的估计 = i / n .......................................... （3.1）四、的变异数估计（抽出不放回）（）= s2 / n （（N - n）/ N） .......... （3.2）式中 s2 = （yi - ）2 / （n - 1）是样本变异数。五、对母体百分比的估计 = i / n ............................ （3.3）式中 yi = 1 如果第 i 个个案具备该特征， yi = 0 如果第 i 个个案不具备该特征。六、的变异数估计（抽出不放回）（）= （（1 - ）/ n - 1 ）（（N - n）/ N）……（3.4）肆、等距抽样SYS比较好用一、等距抽样的定义等距抽样（systematic sampling）也有人称它为系统抽样。它是先把全体总数Ｎ除以样本数ｎ，得到Ｋ，也就是每间隔Ｋ个抽一个的意思，再用随机数表自１到Ｋ选一个随机数Ｒ，则Ｒ，Ｒ＋Ｋ，Ｒ＋２Ｋ，......，Ｒ＋（ｎ－１）Ｋ等号码中选。例如四千人抽五人，Ｋ＝４０００／５＝８００，每隔８００个抽一个，自１到８００选一个随机数。假设我们自随机数表第五行开始，８００是三位数，所以我们要用三位数，自上至下第五行，自左向右，第一个是９５５太大舍去，第二个是９２９，也太大舍去，第三个是４００，所以编号４００，１２００，２０００，２８００，３６００，这五个人中选。　　如果Ｋ不是整数，我们可以四舍五入取整数，也可以用「借一位小数」的方法，也就是把所有的数字都向后挪一位数，包括K值、随机数值在内，抽出之后再将此一小数去掉，如此则不会出现多抽或少抽一个样本的情形。例如N＝ 50，n＝ 6，K＝ 8.33，借1位小数，取K＝ 83，由1到83取一个随机随机数53，则得到53、136、219、302、385、468等五个样本，将个位数无条件删去，则中选的样本是第5，13，21，30，38，46等五个。二、母体清册(抽样框可以有形也可以无形)（frame）的排列次序无次序汽车通过十字路口可以乱抽r=0\有次序r 负design<1(周期性r正) 公共汽车的乘客,百货公司的顾客无形学校的学生有形等距抽样的效果和据以抽样的母体清册（frame）的排列次序有很大的关系。理论上，等距抽样的样本平均数变异数是 V（sy）= 〔1 + （n - 1 ）r〕 s2/ n .......................... （4.1）式中 r 是「群内相关系数」（intracluster correlation） r = E（yij - m）（yij’ - m）/ E（yij - m）2 ............................. （4.2）理论上，当母体清册呈无次序状态完全随机方式排列时， r = 0，样本平均数的变异数完全等于单纯随机抽样下样本平均数的变异数，估计公式可以直接引用上一节的所有公式（3.1）至（3.4）。当母体清册呈有次序排列时， r 是负值，样本平均数的变异数比单纯随机抽样下样本平均数的变异数还要小，引用上述公式形成高估。当母体清册呈周期性排列时， r 是正值，样本平均数的变异数比单纯随机抽样下样本平均数的变异数还要大，引用上述公式形成低估。例如在有次序排列的情况下： N=9，n=3，K=3， =1，2，3，4，5，6，7，8，9 ； =5， r=1时，中选1，4，7，平均数为4，其群内组合为(1，4) (1，7) (4，7)； r=2时，中选2，5，8，平均数为5，其群内组合为(2，5) (2，8) (5，8)； r=3时，中选3，6，9，平均数为6，其群内组合为(3，6) (3，9) (6，9)。另一个例子是母体清册在周期性排列的情况下： N=9， n=3， K=3， =1，4，7，2，5，8，3，6，9； =5， r=1时，中选1，2，3，平均数为2，其群内组合为(1，2) (1，3) (2，3)； r=2时，中选4，5，6，平均数为5，其群内组合为(4，5) (4，6) (5，6)； r=3时，中选7，8，9，平均数为8，其群内组合为(7，8) (7，9) (8，9)；所以在母体清册有次序排列的情况下，等距抽样的中选样本不但可以自动反映母体的代表性(或母体结构)K分之一照相，也可以降低抽样误差。在几乎大部分的母体清册都计算机化之后，排序容易，等距抽样势将成为主流趋势。从另一方面来看，母体清册如果是在周期性排列的情况下，这种情况大多是时间序列或是经济方面的数据，也有可能是有规则性的组合如军队、中小学生等，为正值，抽样误差可能非常大，解决的办法是抽取多个随机数，例如有一组周期性排列的数据，N=1000，n=10，K=100，若利用等距抽样，原为1至k抽一个随机数，现在改采1至rk抽r个随机数。若r=2，则为1-200抽2个r，假设抽到随机数036和147，则中选的样本是： 36，147，236，347，436，547，636，747，836，847。等距抽样的好处是快速方便，所以用得很多。有时候不知道Ｎ和ｎ，只知道Ｋ也可以用。譬如以百货公司顾客、汽车乘客或球场观众为对象，若决定每三十人抽一人，则马上即可进行而不必事先知道全体有多少人，样本要多少等等。它的缺点是最怕遇到具有周期性的数据，万一这一个周期和Ｋ成比例，则样本死守一个规则，完全失去代表性。例如每七天查一次帐，结果永远查到一星期内的同一天，后果必然不堪设想。伍、分层不分白不分，物以类聚随机抽样分层随机抽样（stratified random sampling）是先把母群体的所有个体依某些特征分类，也就是分层，然后在各层之内再进行独立的随机抽样。譬如某个地区七岁到十二岁的小孩，我们可以先区分为都和乡村两大层，然后各自以各层为新的全体进行抽样。这个方法的好处很多，不但可以减化工作量，而且可以提高估计的精确度，只要分层时守着「同层之内同构型取其最大，异层之间异质性取其最大」的原则即可。如此可使得层内的数据一致而集中，标准差愈小，则抽样误差也愈小。一、对母体平均数的估计 st = i i .......................................... （5.1）二、st 的变异数估计（抽出不放回）（st）=i2 （ si2 / ni ）（（Ni - ni）/ Ni） .......... （5.2）三、对母体百分比的估计 st = i i .......................................... （5.3）四、st 的变异数估计（抽出不放回）（st）= i2 （i （1 - i）/ ni - 1）（（Ni - ni）/ Ni） .... （5.4）五、各层样本数的分配：纽曼的最佳分配（Neyman’s optimum allocation）如果不考虑各层的抽样调查费用或是各层的费用没有差别，则 ni = n （Ni si / i si ） ..................................... （5.5）可导致最小的抽样误差。陆、比率估计比率估计并不是抽样方法的一种，却是常用的一种估计方式。它借着辅助变量当作分母提出一些比前几节直接估计较为间接但却可能更好的估计方法，譬如回归就是其中一个例子。在接下来要介绍的集体抽样方法用的也是比率估计。一、对母体比率值的估计 r = （i ）/ （i） = / .............................................. （6.1）二、 r 的变异数估计（r）= ..................................................... （6.2）式中 = （yi - rxi）2 / （n - 1） .................................... （6.3）三、对母体平均数的估计 y = （（i ）/ （i））mx = r mx ..................................... （6.4）四、对 y 变异数的估计（y ）= .............................................................. （6.5）柒、集体抽样能不用就不用集体抽样教育、公共卫生一般用得多（cluster sampling）是先把母群体分割成许多小集群，把这些小集群编上号码，然后随机抽取这些号码，凡是被抽中的，则整个小集群的所有成员全部调查。譬如学校的班级就是常用的集群。　　这个方法的冒险性非常大。主要的功能是节省时间、人力和经费，是很不得已的作法，非万不得已不要采用样本数失控。只适合政府用不适合学术界用，因为资料只能估计不能分析，只有集体数据没有个体数据。不能做个案分析，一个学校4万人，一个学校3000人，每个学校出来一个数据。每个学校的个案不相等。即使要用，也要守着「集群内部异质性越大越好」的原则来做。一、对母体平均数的估计 = （i ）/ （i） ................................................. （7.1）式中 yi 是第 i 个集体所有样本观察值的加总， n 是抽出的样本集体数， mi 是第 i 个集体的个体数。二、的变异数估计（）= ........................................................ （7.2）式中 = （yi -mi）2 / （n - 1） .................................... （7.3） N 是母体总集体数，是母体平均每一集体的个体数。捌、多阶段集体抽样一、两段集体抽样（two-stage cluster sampling）两段或多段集体抽样其实并没有「集体全查」的意思，它是指在第一个阶段先抽出一部分集体（Primary Sampling Unit, PSU经费少第一阶段可以抽上层的比如省级，但样本代表性不好。经费多可以从种菜抽比如县级。不过要从整体上思考。可以从人口密度考虑，按照密度排序，再抽100个县），譬如说大学，然后在下一个阶段自中选的集体抽出第二阶段的集体（Secondary Sampling Unit, SSU），譬如说系所，其次在最后阶段抽出样本个体，譬如说学生。（一）对母体平均数的估计（假设每个阶段都是SRS抽出） = （N / M）i i / n ............................................................. （8.1）式中 Mi 是母体第 i 个集体的总个体数， M 是母体所有个体数， i 是第 i 个集体的样本平均数。（二）的变异数估计（）= + （s/ mi）式中 = （Mi i - ）2/（n - 1） s = / （mi - 1） ........................................... （8.2）二、抽取率与单位大小成比例的多阶段阶段越少越好，误差越小。考虑代表性、钱、人、时间。例如选校、系、人。三阶段。我们可以选20*2*50=2000资金缺乏的做法，不在乎学校和学校的差异，在乎人的差异；50*2*20=2000资金充足的做法。在乎学校和学校的差异，不在乎人的差异。第一阶段可以按照省将学校排序或者按照学校规模，甚至按女生人数排序。然后等距抽样。第二阶段随后按系排Ai/b=k然后抽人。Bj/C=k 抽样（probability proportional to size, pps）非常巧妙的设计可以控制每个样本被选中的概率　　这个方法大多用在规模比较大的抽样工作。譬如调查对象是某个地区七岁到十二岁的小孩，我们在第一阶段先抽取一部分乡镇市区，第二阶段再自中选的乡镇市区抽村或居委会，第三阶段再自中选的村或居委会抽户或直接抽人。在抽样过程中每一阶段各单位的中选机率和那个单位的大小成比例，也就是单位越大的中选机率越高。但是到最后结算下来，所有全体的每一个成员都有相等的机会被抽中。让我们看一个多阶段抽样的例子（如表8.1）：　　表8.1 区个案数累积个案数１１０００　１０００２２０００　３０００３２０００　５０００４１５００　６５００５３０００　９５００６４０００１３５００７２５００１６０００现在要从全体七个区总共１６０００人中第一阶段先抽取两个区，然后再自中选区中每区各抽５０人，也就是自全部１６０００人中抽取１００人。　　第一阶段要抽两个区，意思是每隔１６０００／２＝８０００人抽一个区，自１至８０００选一个随机数，假设自随机数表第八行开始，我们需要四位数，结果６０９４中选，其次６０９４＋８０００防止随机数落在同一个选区＝１４０９４中选。这两个号码一个落在第四区，另一个在第七区，所以两个区中选。这个阶段各区中选的机率要看各区的大小而定。其次，我们再分别自第四区和第七区各抽５０人，方法可以自行决定，单纯随机方式或等距方式均可。为什么说全体之中的每一个人中选机会都相等呢？譬如李先生位在第三区，他中选的机率是a*Ai/N*b/Ai=n/N （把第一阶段的中选率看做是２０００／８０００可能较容易了解）而王先生位在第六区，他中选的机率是很显然的，到最后每一个人中选的机率都是１００／１６０００，也就是早先决定的抽取率。（一）对母体平均数的估计 pps = ............................................................. （8.3）（二）pps 的变异数估计（pps）= （i - pps ）2 ........... （8.4）玖、其它抽样方法全查没有代表性，有时可以利用交情全查，查回来后用PPS处理，个案就有代表性了一、双重抽样（double sampling, or two-phase sampling）　　这是先以低廉快速低廉的方式通常是电话访问。筛选。对公共汽车的乘客。的代价先自全体之中抽取大量的样本，然后再自这群样本中抽取第二次样本。在流行病学的研究里比较常见到这种方法。通常是先用很快的方法初步选取大量的样本验血，然后再自有反应的血液中追溯抽样，选取少数的样本进行详细的查验工作。在设计流程中，有时会遇到定义母体困难或抽样清册无从建立的情况，譬如汽车使用者的意见调查，或学校毕业生的成就调查，最常见到的则是某项服务或某项产品的消费者意见调查。这些调查的共同困难是建立抽样清册极不可能或代价极高。在实务上就可以使用双重抽样来解决，先以较快速低廉的代价进行抽样调查，如xx访问或信件回邮，只询问受访者资格方面的问题，其次再自合格的样本中第二次抽样，进行访问。二、「捉－放－捉」式的野生动物抽样（capture-recapture method）　　这种方法主要用来估计野生动物的数目。通常是选定某些地区在一定的时间内捕捉动物。在动物身上记上标志后放走，隔了一阵时间后再于同一地区捕捉动物，打上标记后再放走，如此一再重复进行在相同的地点重复。统计专家们可以用重复被捉的机率来推算该区动物的总数也可以研究城市。把大地区切割成小格子。评估治安。每季或者每月调查一次，是否是犯罪的被害者。重复被害率。FBI的网站上公布官方数字。地下赌场的估计。。三、敏感性问题的随机反应估计（randomized response）有时候研究者必须对敏感性的问题做出合理的估计，譬如比如买票。但是电话调查很难。生日是单数回答。血型是O型的回答。生日是0123，456，789诚实回答考试有没有作弊。面访容易成功。同性恋倾向，考试舞弊，或是堕胎等议题。一个可行的方式是准备一迭卡片，其中有 q 百分比的卡片是正面陈述，例如「我考试作弊」，其余卡片则是反面陈述，例如「我考试没有作弊」。访员可以请受访者过目所有卡片后洗牌抽出一张，然后问受访者「是不是同意抽中卡片上所说的事」，假设所有回答「是」的受访者人数为 n1 ，则母体考试作弊的百分比估计为： = - ...................................................... （9.1）（）= ........................................ （9.2）通常 q 值不等于 0.5 以免分母为零，此外这种估计通常都放在问卷最后一题，而且不能进行交叉分析。区域抽样（area sampling）用地图来抽样,采用pps抽样，psu为county.第二阶段为户口普查区或者乡镇，然后选街道（在美国四个街道围起来为一个Block。估计Block的单位的规模Size人口数，不用很准就是排序累加。抽完后一定要真的调查每个街道的户数，然后抽第一户。户中选样。每户选一个人利用KISH TABLE找人。8+12个表（在访员身上轮）问户中合格人数年龄最大的、中的小的。拾、抽样设计与执行步骤在我们面临一个抽样调查或研究案时，通常会依照下列步骤进行：一、决定数据的搜集方式：面访、邮寄问卷、xx访问、或混合使用。二、定义母体。三、决定操作性定义及据以抽样的母体清册，如会员名单、户籍数据、或xx簿。四、决定样本数。五、分层。六、决定各层样本数。七、各层独立进行抽样设计。八、分段。九、决定各段抽出单位数。十、执行。十一、列出母体参数的推估公式及其变异数之估计式；如有必要加权，列出加权公式。以下我们将讨论其中的一些考虑因素。一、面访、邮寄问卷、与xx访问　　一般说来，面访所需经费最大，行政作业繁杂，访问失败问题严重，数据质量亦难监控，其抽样设计着重在如何有效率地运用有限资源，使得访员顺利接近受访者。因此在初步对调查对象的操作性定义上，通常先把困难度高、耗费大、工作负荷重的地区排除在外，或单独列为一次母体另行处理。　　邮寄问卷和xx访问渗透力强，无远弗届，行政作业易于掌握，抽样设计束缚条件极少。然而邮寄问卷有回收率的问题，xx访问有不完整包罗性和问卷不能深入的问题，抽样设计虽然容易，非抽样的问题则难以解决。二、样本数的决定数据搜集方式和调查对象确定之后，第一件要做的事就是决定样本数。一般要考虑的因素有：（一）抽样误差　　假设非抽样误差（譬如问卷设计不当、访员作假、数据键入错误）不存在，只计算因抽样而来的估计θ和母体参数θ的差异量，通常用平均差方（Mean Squared Error,MSE）表示，，Ｅ表示期待值或平均数，则，第一项是的变异数，表示每次抽样都会得到不同的，如果做很多次，这些就会有集中或分散的现象，用示之，是对母体参数估计的稳定程度或可靠度的意思；bias表示偏差

展开阅读全文