调查中的非抽样误差讲解.pptx

资源描述

第十一章第十一章调查中的非抽调查中的非抽样误差样误差1、误差的来源及特点2、抽样框误差3、无回答误差4、计量误差l数据的准确性与可靠性是抽样调查的生命力之所在。l换言之，一次抽样调查是够成功的关键是选取的样本能否很好地代表总体，样本和总体之间的差异有多大。l如果不考虑样本的代表性和误差，很可能会得出错误的结论。l如美国选举前的调查。为什么要研究误差？为什么要研究误差？美国选举案例美国选举案例l谁会在谁会在1936选举中获胜选举中获胜?Alf London还是还是 F.D.R.(罗斯福罗斯福)?lLiterary Digest(文摘文摘)送出一千万份问卷送出一千万份问卷(返返回二百四十万份回二百四十万份)后后,预测预测London 会赢。会赢。l而而Gallop(盖洛普盖洛普)只问了只问了5000人说人说 Roosevelt(罗斯福罗斯福)会赢。会赢。l最后罗斯福和盖洛普都赢了。最后罗斯福和盖洛普都赢了。文摘文摘倒闭了。倒闭了。样本数据误差的来源样本数据误差的来源误差抽样误差由抽样的随机性造成非抽样误差抽样框不完善、无回答、调查过程的差错、数据整理过程的差错抽样误差的特点抽样误差的特点l在抽样调查中，抽样误差是不可避免的，但是可以估算出抽样误差的大小；l增大样本量可以减少抽样误差；l选择更适合的抽样方法可有效减小抽样误差，如分层抽样、多阶段抽样等；l利用辅助变量改进估计方法也可提高估计的精度，如比估计和回归估计。l预先可知。返回返回l非抽样误差不随样本量增大而减小l造成估计量有偏，且难以从样本中估计出来，（知道存在，但无法估计出误差的大小）；l有些非抽样误差难以识别和测定，（不知道是不是存在非抽样误差）；如班级人数l成因复杂，有社会的、经济的、心里的等多方面的因素，处理方法复杂，且较困难。非抽样误差的特点非抽样误差的特点非抽样误差的产生非抽样误差的产生l1、调查及抽样设计阶段l问卷设计：词汇、问题能导致多种理解l抽样框不完善l2、数据采集阶段l无回答：没有填写l信息不真实：没有填对l3、数据处理与分析阶段l审核、整理、录入时出错l估计方法不当：抽样方法必须和估计方法一致。在抽样调查的各个阶段都有可能出现非抽样误差NEXTNEXT问卷设计阶段可能出现的问题问卷设计阶段可能出现的问题l您是否认为使用电脑数字技术制作的广告更具有吸引力？l人们认为长虹牌彩电质量不错，你觉得怎么样？l您觉得产品的包装不好看吗？返回返回抽样框抽样框不完善抽样框不完善返回返回目标总体抽样框抽样框抽样框误差及其控制 l一、抽样框误差的产生 l抽样框是有关总体全部单元的名录或地图等的框架，是抽取样本单元的依据。理想的抽样框(也称抽样总体)应该同所研究现象的总体(也即目标总体)一致，但在实践中，抽样总体与目标总体常常不一致，由此产生的误差就是抽样框误差。考察抽样框误差的成因，大致有以下几个方面：l(1)丢失目标总体单元。在此情形下，抽样框没有能够覆盖全部目标总体单元，也就是使部分目标总体单元没有包括在抽样框中，因而也就没有机会被选入样本。由于存在丢失单元，使得总体总和的估计偏低，总体均值的估计也可能会出现偏差。丢失单元是一种威胁性较大的抽样框误差，具有较强的隐蔽性，不易被发现。l(2)包含非目标总体单元。l有时，抽样框中也可能包含了一些不属于研究对象总体即非目标总体的单元，由此容易导致总体总和的估计偏高。但这种类型的抽样框误差一般要比丢失单元的威胁性小。因为在调查中，非目标总体单元往往更容易被发现，并予以剔除。l(3)复合联接。l实践中常可能会遇到这种情况：抽样框中的单元与目标总体单元不完全为一一对应，而是一对多或多对一，即存在复合联接。在这种情形下，目标总体中各个单元的入样概率可能会受到相应的影响，从而导致非抽样误差的扩大。但是，有时候采用经过精心设计的有复合联接的抽样框可以提高稀有元素被抽中的概率。l比如：一个门牌号内有几户人家，或一个比如：一个门牌号内有几户人家，或一个家庭有几处住房。家庭有几处住房。l(4)不正确的辅助信息。l一般将不包含辅助信息的抽样框称之为简单抽样框，而将包含辅助信息的抽样框称为复杂抽样框。复杂抽样框中的辅助信息可以用于分层抽样、不等概率抽样，以及使用比估计和回归估计等。如果辅助资料不完全或不正确，则不但不能提高抽样估计的效率，反而会降低估计的准确性。l(5)抽样框陈旧。l有时由于构成抽样框的抽样单元资料“老化”，抽样框所提供的信息与现实情况差距较大，也会导致抽样框误差。并且这类误差也可能进一步引起前面四类抽样框误差中的一种或几种同时发生。l比如，以2000年的人口普查资料作为抽样框。二、抽样框误差的确定 l(一)丢失目标总体单元时的影响 l前已指出，丢失目标总体单元是抽样框误差中威胁最为严重的一种。现设目标总体是由N1个抽样总体单元及另外N0个没有包含在抽样框中的单元(即丢失单元)组成，即N=N1+N0，则总体总和应为：(一一)丢失目标总体单元时的影响丢失目标总体单元时的影响l其中Y1为抽样总体总和，Y0为丢失单元总和，Yi为第i单元的观测值。现从抽样框的N1个单元中随机抽取n1个单元组成样本，则是Y1的无偏估计。当估计Y时，结果就会出现偏差，偏差为-Y0。l如果以r表示丢失单元与抽样框中单元的均值之比，又以W0表示丢失单元占全部目标总体单元的比重。(一一)丢失目标总体单元时的影响丢失目标总体单元时的影响l则估计Y的相对偏倚为：l则均值的相对偏倚为：l由此可见，相对便宜取决于r和W0两个因素。l当r=1是，均值估计量是无偏的。总体总和估计偏倚总体总和估计偏倚总体均值估计偏倚总体均值估计偏倚(二)包含非目标总单元时的影响 l如果以M0表示抽样框中所含非目标总体单元数，MT表示抽样框中所含目标总体单元数，则抽样框所含全部单元数M=MT+M0,在抽样框中不存在丢失单元，也没有复合联接时MT=N，则抽样总体总和可表示为(二)包含非目标总单元时的影响l其中，Y0是非目标总体单元观测值之和，Y是目标总体总量，Yi为第i单元的观测值。现从抽样框的M个单元中随机抽取m个单元组成样本，则 l为YF的无偏估计。当用来估计Y时，就会产生偏差，这表明被高估了。(二)包含非目标总单元时的影响l如果以u表示非目标总体单元与目标总体单元均值之比，Q0表示非目标总体单元占抽样总体单元的比重，即l则总和估计量YF的相对偏差可表示为l当估计总体均值时，估计的偏差为 l此时的相对偏差为 (二)包含非目标总单元时的影响l在实际调查中，如果将那些被选入样本的非目标总体单元剔除，而以样本中剩余的属于目标总体单元的资料进行估计，由于减少了样本容量则会使估计的误差增大。令：(二)包含非目标总单元时的影响l则总体总和估计为l此时有l其中l同完善的抽样框(即Q00)相比，包含非目标总体单元抽样框使得估计误差增大三、抽样框误差的补救 l根据前面的分析可以看出，当抽样框不完善时常会给抽样估计产生程度不同的影响，但在实际中取得一个好的抽样框又可能十分困难，我们常常不得不面对各种有缺陷的抽样框。但这并不等于说我们就只能使用这种不完善的抽样框，事实上可以有多种办法用来对抽样框误差进行调整和补救。(一)丢失单元抽样框的补救 l基本思路大致有三种类型：一利用资料对抽样框进行调整或对估计量进行调整；二利用规则进行现场处理；三使用多个抽样框进行抽样。具体方法有：l(1)对丢失单元实行连接。当在调查过程中能够查明丢失单元时，在调查前可以确定某种规则，将丢失单元同抽样总体中的单元联接起来，以便将查明的丢失单元纳入到不完善的抽样框中，并赋于其与抽样总体相同的抽选概率。(一)丢失单元抽样框的补救l(2)采用辅助抽样框。即将查明的丢失单元单独编制成一个辅助抽样框，并同原抽样框一起使用。l(3)利用有关资料进行推算。通过分析丢失单元的特征，尤其将丢失单元同抽样总体单元进行比较，结合其它一些资料，则可以大致对丢失单元的统计特征性作出一个估计或判断，并以其对实际调查的结果进行调整的基础上作出估计，这样也可以减弱丢失单元造成影响。(一)丢失单元抽样框的补救l(4)用复查结果调整。也就是采用核查和质量检查的方式，查明丢失单元的影响程度，并做为对原调查结果调整的依据。这种方法在我国的农产量调查中得到应用，在那里，抽样是依据上报面积进行，而在推算过程中是以核实面积调整上报面积(具体是用核实系数)，又以丈量面积调整核实面积。(二)其它类型不完善抽样框的补救 l对于包含非目标总体单元的抽样框的补救，可以利用有关信息来进行调整，也可以通过对抽样框进行质量检查的方法以查明和剔除非目标总体单元。不准确的辅助信息常常是同抽样框资料的老化有关的。因此，在构造完善的抽样框时，必须注意选择最新的资料，同时要加强对抽样框的维护，以保证抽样框的质量。(二)其它类型不完善抽样框的补救l对于抽样框中的复合联接问题，需要具体进行区分：对属于一对多联接(即一个抽样总体单元对应多个目标总体单元的联接)的情形，当这种现象比较多时，可以将其作为一种整群抽样，按整群抽样的方法处理；而对属于多对一联接(即多个抽样总体单元对应一个目标总标单元的联接)的情形，一是可以针对产生这种复合联接的原因重新定义联接规则，以使每个目标单元与抽样总体单元唯一联接。(二)其它类型不完善抽样框的补救l如以职工名单为抽样框抽选职工家庭时，规定必须是家庭中年龄最大的职工方可入选样本，这样即使一个家庭有几个职工，但与只有一个职工的家庭被抽中的概率是相同的。二是利用有复合联接的调查数据，对目标总体进行估计，(具体方法可查阅有关文献，如J.T.莱斯勒等人的著作)。(二)其它类型不完善抽样框的补救l使用多个抽样框l多个抽样框可能会产生重叠，对估计有影响，方法就是剔除重叠部分。第三节第三节无回答误差无回答误差l无回答误差比较普遍，对估计的影响也较大。根据产生条件不同，无回答可分为：l1、根据内容区分：l单元无回答：调查单元没有参与或拒绝接受调查。l项目无回答：某些问题没有回答，如敏感性、隐私性的问题。无回答误差无回答误差l2、按性质分：l有意无回答：l有意无回答对数据质量的影响很大，回答者与无回答者之间往往存在系统性差异，不仅减少了有效样本量，增大了估计量方差，而且导致估计偏倚。l无意无回答：l一般认为是随机的，但若产生于某个具有同样特征的群体时，也会造成估计的偏倚。（如旅游开支）产生原因产生原因l1、查找阶段：l找不到被调查者l2、接触阶段：l找到但没有接受调查l3、采访阶段：l部分问题没有回答无回答影响无回答影响l对无回答进行研究时，可以把总体分为两层：第一层由入样能得到其计量值的所有单元组成，简称回答层；第二层由无法测得计量值的单元组成，简称无回答层。设N。N1，N2分别为总体单元数，回答层单元数和无回答层单元数，R1，R0分别为总体回答率和无回答率：无回答影响无回答影响l则总体均值：l从总体中抽取容量为n的简单随机样本，n1来自回答层，n0来自无回答层。可知回答单元样本均值是总体回答层均值的无偏估计。l用作为总体均值的估计时，其偏倚为：无回答影响无回答影响l由此可得总体总量的偏倚和相对偏倚。l可以看出，导致无回答偏倚的原因主要来自两个方面：l回答层与无回答层之间的数量差异；l无回答率l启示：l如，这时相当于样本量的减少；l如，必须降低无回答率或加以调整。降低无回答的措施降低无回答的措施l解决问题最好的方法是不让它发生。l1、问卷设计l2、激发被调查者的参与意识l3、确定准确的调查方位l4、消除疑虑l5、调查员的挑选l6、调查员培训l7、过程监控l8、奖励措施l9、再次调查（改变方法）l10、替换被调查者（按一定规则）无回答数据的处理无回答数据的处理l（一）再抽样调整l指在第一次无回答单元中随机抽取一个子样本进行深入调查，作为无回答层的估计。l估计量见教材p261页l对无回答层单元进行再抽样，可以得到无偏估计量，但是以增大估计量方差为代价的。无回答数据的处理无回答数据的处理l（二）加权调整l通过对调查中所获得的回答数据使用加权因子，来减小由于无回答造成的估计偏倚。无回答数据的处理无回答数据的处理l（三）相关推估法l主要用于项目无回答l用已知信息估算未知信息的方法无回答数据的处理无回答数据的处理l（四）插补调整l插补可以达到两个调整目的：l减小估计量偏倚l力图构造一个完整的数据集l实际中用的比较多的是均值插补：l将样本分成若干组l计算各分组均值替代缺失值l弱点：l1、歪曲了样本单元的分布；2、对方差的低估第四节第四节计量误差计量误差l成因：设计误差、被调查者误差、调查者误差、其他误差。l（一）设计误差l用词不当l问题顺序l抽样过程设计（严格随机）l（二）被调查者误差l无意识误差和有意识误差第四节第四节计量误差计量误差l（三）调查者误差l记录错误l诱导l（四）其他误差l测量工具l编码l录入计量误差模型计量误差模型l模型说明l如果存在计量偏倚，估计量有偏，且偏倚无法计算；l偏倚不影响方差估计；l如果不存在常数偏倚，且样本中计量误差互不相关，会使总方差增大，即低估实际误差；l若计量误差存在相关，对方差影响很大；l随着n增大，均方误差不会减小。减少计量误差的措施减少计量误差的措施l1、调查设计方面l2、现场准备方面l3、调查结果审核l数据收集时进行审核l收集完毕后审核，主要是一致性和离群值检查离群值的监测和处理离群值的监测和处理l离群值可分为单变量和多变量离群值l产生原因：l回答数据有误l录入错误l数据本身差异性l确认：l标准化l四分位数法离群值的处理离群值的处理l估计时有三种方法处理离群值：l1、改变数值缩尾法，适合单变量情况l2、调整权重l3、稳健估计

展开阅读全文