资源描述
,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,第,11,章 如何选取样本,兔年春晚调查,1、您今年收看了中央电视台春节联欢晚会了吗?,A、,看了,B、,没看,2、如果你收看了,请问您对兔年春晚的评价如何?,A、,满意,B、,一般,C、,不满意,春晚满意度调查数据,央视市场研究股份有限公司的调查结果是:在全国收看电视的家庭中,有93.88的家庭收看了中央电视台春节联欢晚会,有 81.92的受访者认为今年中央电视台春节联欢晚会办得好。,腾讯网对春晚满意度调查结果显示:有38.47的网友给春晚打出了60-80分,而有43的人认为今年春晚表现不及格。,在1万多人参与的微博小秘书发起的调查中,对兔年春晚表示,“,满意,”,的只有6,认为,“,一般,”,的有25,还有59的人表示,“,失望,”,,10的人,“,没看,”,。,有人会问,81.92%的受访者满意和43的人认为不及格,我们相信谁?,应该说,我们都没有绝对相信的理由,因为我们不能确知调查的科学性。例如,由央视自己调查自己的成绩,本身就缺乏公信力;其次,调查方法我们也不知道,包括样本如何选择、问题如何设置都会直接影响到调查结果。,因此,我们与其相信调查数据,还如靠自己的判断。,【,教学目标,】,熟悉抽样设计的术语,了解概率抽样与非概率抽样方法的区别,了解如何使用四种概率抽样,了解如何使用四种非概率抽样,掌握不同类型抽样技能,能够制定一份抽样计划,开篇案例:两种抽样两种命运,(一)防弹钢板应焊在哪里?,第二次世界大战后期,美军对德国和日本展开了大规模战略轰炸,每天都有成千架轰炸机呼啸而去,返回时则往往伤亡惨重。,美国空军对此十分头痛:如果要降低损失,就要往飞机上焊防弹钢板;但是飞机焊上防弹钢板后,速度、航程、载弹量都会受影响,同样也会影响轰炸机安全返航。,这是一个两难选择,怎么办呢?,美国空军请来数学家亚伯拉罕,沃尔德。,数学家沃尔德的方法十分简单。他把统计表发给地勤技师,让他们把飞机上中弹弹孔的位置报上来。他自己铺开一张大纸,画出轰炸机的轮廓,再把那些小窟窿一个个地填上去。,画完后大家一看,飞机浑身上下都是窟窿,只有飞行员座舱和尾翼两个地方几乎是空白。,为什么是这样?,防弹钢板应该焊在哪里呢?,沃尔德告诉大家,从数学家的眼光来看,这张图明显不符合概率分布的规律,而明显违反规律的地方往往就是问题的关键。,飞行员最终明白了数学家沃尔德这套做法的意义。如果飞行员座舱中弹,飞行员就完了;如果飞机尾翼中弹,飞机失去平衡就会坠落,这两处中弹,轰炸机多半就会掉下来了,难怪顺利返航的轰炸机只有这两处几乎没有弹孔。,结论很简单,只需给这两个部位焊上防弹钢板就可以了,一个两难的难题就这样解决了。,(二)文学摘要的厄运,在1936年美国总统选举中,由文学摘要杂志组织了一项民意调查,这项民意调查动用了大量的人力物力进行调查。,在调查的基础上,该杂志预测共和党候选人阿尔夫,伦敦将击败在任总统富兰克林,罗斯福,这个预测准不准呢?,阿尔夫,伦敦 富兰克林,罗斯福,预测结果,55%41%,实际结果 37%61%,这项全国瞩目的民意调查得出了完全错误的结论,文学摘要也因此关门倒闭。,为什么会出现这样严重的错误?,一个原因是抽样框架主要是根据电话号码簿和汽车登记册建立的。,在1936年,拥有汽车或电话的这些人显然是富裕的美国人,这些人大多是共和党的坚定支持者,而大多数投票选民既不拥有电话,也不拥有汽车。,另一个问题可能是由于无回答引起的偏倚,总共寄出了一千多万份的问卷,但是返回的问卷不足25%。,上面两个案例都涉及同一个重要问题,抽样问题。,但是,处理方式不同,导致两种完全不同的结果,一个有效地解决了问题,另一个则被问题所拖累,破产倒闭了。,样本和抽样的基本概念,1、总体,2、普查,3、样本和样本单位,4、抽样框和抽样框误差,5、抽样误差,什么是抽样?,抽样:,是根据一定的,规则和程序,,从研究总体中抽取其中的一部分样本来代表总体的过程。,为何抽样,首先,从成本的角度看,抽样比普查更优越;,其次,专业调研公司或调研人员不可能分析处理由普查产生的大量数据。,两种基本的抽样方法,概率抽样:样本设计,采取随机的办法,排除研究人员主观因素的干扰,使样本总体中的每一个成员都有一个事先确定好抽中概率。,非概率抽样:样本设计,依赖于研究人员的个人判断而非随机原则选择样本个体,事先并不确定每个样本单位被抽中的概率。,12-,17,图示,两种抽样方法的特点,概率抽样的特点,因为样本个体是随机选择的,所以可确定样本估计值的精确度,计算包含给定确定程度的真实总体值的置信区间,并对样本所在的目标总体做出推论。概率抽样技术本身操作起来相对复杂,成本较高,对抽样设计和现场抽人员的专业技术要求也高。,非概率抽样的特点,最大特点是操作简便,时效快,成本低。非概率样本可以产生对总体特征很好的估计,但是,无法对样本结果的精确度做出客观评价。,概率抽样,1、简单随机抽样,2、系统抽样,3、整群抽样,4、分层抽样,1、简单随机抽样,简单随机抽样:在简单随机抽样中,总体中所有的成员被选为样本的概率是相等的。,简单随机抽样即完全按照随机的原则来抽取样本。,最常见的有抽签法和随机数表法。,简单随机抽样的优点:,最简单、最典型的概率抽样技术,易于理解;,抽样框不需要其他(辅助)信息就能进行抽样;,样本结果可以推论到目标总体上,大多数统计推论方法都假定数据是由简单随机抽样方法收集的。,简单随机抽样的局限性:,(1)采用简单随机抽样,一般必须对总体各单位加以编号,而实际所需调查总体往往是十分庞大的,单位非常多,逐一编号几乎是不可能的;,(2)在总体单位数不清楚的情况下,无法采用简单随机抽样;,(3)当总体各单位差异较大时,采用简单随机抽样抽出的样本可能会集中于某类单位,不能做到在各种类型的单位中较为均匀分布,其样本的代表性就比较差;,(4)采用简单随机抽样抽出的样本分布较为分散,实地调查消耗的人力、物力、费用较大;,简单随机抽样的适用条件:,简单随机抽样比较适用于总体单位数不多,且内部差异不大的情况下进行的抽样。,简单随机抽样在实践中的应用,1、随机数字拨号,2、计算机随机抽样,2、系统抽样,系统抽样,:,也叫等距抽样或机械抽样,,它是将调查总体单位按照一定标志进行顺序排列,然后根据总体单位数和样本单位数计算出抽样间距(,k),,并从抽样框中每隔,k,个单位抽选一个个体,组成样本。,抽样间距(,k),总体单位数(,N)/,样本单位数(,n),例如:从600名大学生中抽选50名大学生进行调查,可以利用学校现有的名册顺序按编号排队,从第1号编至600号。,抽选距离=,N/n=600/50=12,人,如从第一个12人中用简单随机抽样方式,抽取第一个样本单位,如抽到的是8号,依次抽出的是20号、32号、44号,。,排列调查总体单位时所依的标准有两种:,一种是按与调查项目无关的标志排队。例如:在住户调查时,选择住户可以按住户所在街区的门牌号码排队,然后每隔若干个号码抽选一户进行调查;,另一种是按与调查项目有关标志排队。例如:住户调查时,可按住户平均月收入排队,再进行抽选,。,总体单位的排序决定着系统抽样的代表性,并决定系统抽样调查结果的统计效率,分三种情况说明:,如果排序与要研究的特征无关,则结果与简单随机抽样相似;,当排序与要研究的特征有关时,系统抽样能增加样本的代表性。,若排序呈现循环形式,抽样间距又与循环周期相同时,系统抽样会降低样本的代表性。,系统抽样的适用条件:,系统抽样比较适用于总体中个体数目较多,且个体之间有明显差异进行的抽样。,3、整群抽样,整群抽样:,指首先将调查总体区分为若干群,然后采用简单随机方法抽出部分群作样本,最后对这些样本群进行全面调查-即两段整群抽样。,在两段整群抽样中,如果不对所抽样本群进行全面调查,而是进一步将这些群划分为若干小群,然后按照随机原则抽出一部分群进行全面调查,就形成所谓的三段整群抽样。,整群抽样以群体为单位进行抽选,抽选单位比较集中,明显得影响了样本分布的均衡性。,因此,整群抽样与其他抽样比较,在抽样单位数目相同的条件下抽差误差较大,代表性较低,在抽样调查实践中,采用整群抽样技术一般都要比其他抽样技术抽选更多的单位,以降低抽样误差,提高抽样结果的准确程度。,当然,整群抽样的可靠程度主要还是取决于群与群之间的差异的大小,当各群间差异较小时,整群抽样的调查结果就越准确。,因此,在大规模的市场调查中,当群体内各单位间的误差较大,而各群之间的差异较小时,最适宜采用整群抽样方式。,整群,抽样的适用条件:,整群,抽样比较适用于,适用群体内各单位间的误差较大,而各群之间的差异较小的情况。,另一种适用情况:工业抽样,例如:对工业产品进行质量调查时,每隔五个小时,抽取一个小时的产品进行检查。,4、分层抽样,分层抽样:,指将调查总体中的所有单位按照一定的属性或特征分成不相重叠的若干层次(或类),然后在每一个层次(或类)中进行简单随机抽样或等距抽样。,抽样程序:,1)确定分层变量,2)分层,3)确定各层的样本量,4)在各层内部进行抽样,分层抽样的必要性,设计抽样方法时,最核心的问题是考虑如何使抽取的具有代表性,为此在设计抽样方法时,我们应考虑如何利用已有的总体。,例如:调查高一学生平均身高,由经验知,男同学一般要比女同学高,这时就要采用分层抽样,因为简单随机抽样或系统抽样都有可能产生部分是男生(或女生)或全部是男生(或女生)的样本,这样的样本是不能代表总体的。,等比例分层抽样,等比例分层抽样是按各层中的个体数量占总体数量的比例分配各层的样本数量。,这种方法简单易行,分配合理,计算方便,适用于各类型之间的个数差异不大的分类抽样调查。,不等比例分层抽样,不等比例分层抽样不提按照各层中个体数占总体数的比例分配样本个体,而是根据其他因素,调整各层的样本数。,不等比例分层抽样适用于各类总体的个数相差很大的情况。,分层抽样的适用条件:,分层抽样比较适用于总体由差异明显的几个层次组成且层内差异较小进行的抽样。,分层抽样和整群抽样的相同之处,都是先对总体中的群体再对个体进行操作;,都不是完全随机地抽取样本,都涉及一定的规则:分层随机抽样涉及的规则是分层群体之间属性的差异,而整群随机抽样涉及的规则是子群体之间的相似;,都能提高随机抽样的效率和改善随机抽样的结果。,分层抽样和整群抽样的不同之处,操作的群体不同,分层抽样操作的是分层群体,而整群抽样操作的是子群体;,适用的总体不同,分层抽样适用于容易按属性差异进行群体划分的总体,而整群抽样适用于不容易按属性差异但容易按可见标志进行群体划分的总体。,非概率抽样,1、便利抽样,2、判断抽样,3、推荐抽样,4、配额抽样,1、便利抽样,便利抽样:,就是依据方便原则抽取样本,对抽样单位的选择主要是由调查人员完成,通常被访者由于碰巧在适当的时间出现在适当的地点而被选中。例如:,“,街头拦人法,”,是在街上或路口任意找某个行人,将其作为被调查者进行调查。,利用客户的名单进行调查,将问卷登在宣传媒体上,被调查者自填后寄回,2、判断抽样,判断抽样,:是按照调研设计者的主观判断选取调查单位组成样本的一种抽样方法。应用前提是,调研设计的必须以对调查总体的有关特征相当了解,或者可以依靠专家判断来决定样本。,在判断抽样中,样本单位的选取通常分为两种情况:,第一种情况是,选择最能代表普遍情况的调查对象,即选取,“,多数型,”,、或,“,平均型,”,的样本作为调查对象。,第二种情况是,选择那些异乎寻常的个案,目的是调查造成异常的原因。,3、推荐抽样,推荐抽样:有时候也被称为滚雪球抽样,,指一种抽样程序,最初的应答者通过概率方法进行选择,而另外的应答者则是通过最初应答者所提供的信息而获得。该过程可以通过一轮接一轮的推荐进行下去,因而产生一个,“,滚雪球,”,效应。即使在选择最初的被访者时使用了概率抽样,最终的样本还是一个非概率样本。,该技术用于通过推举找到那些罕见的总体单位。,4、配额抽样,配额抽样:,是指首先将总体单位按照一定的属性或者特征分成若干类,然后在每类中按照方便抽样或者判断抽样的方法选取样本单位。,配额抽样的具体步骤:,S1:,选定控制特征。即据以对总体单位分层的属性和特征。,S2:,确定调查总体中各个控制特征的比例。,S3:,按照分层比例表确定各层次样本数目,建立样本配额表。,S4:,确定抽样单位。采用方便/判断抽样方式抽取样本单位。,行业,比例,所有制,比例,商店规模,比例,饮食业,40%,国营,25%,大型,10%,烟酒糖业,26%,集体,50%,中型,30%,百货业,34%,个体,25%,小型,60%,合计,100%,合计,100%,合计,100%,表8-4 交叉控制样本配额表,大 型,中 型,小 型,合计,国营,集体,个体,国营,集体,个体,国营,集体,个体,饮食业,X,11,X,12,X,13,X,14,X,15,X,16,X,17,X,18,X,19,40%,烟酒糖,X,21,X,22,X,23,X,24,X,25,X,26,X,27,X,28,X,29,26%,百货业,X,31,X,32,X,33,X,34,X,35,X,36,X,37,X,38,X,39,34%,小计,100%,合计,10%,30%,60%,在线抽样方法,1、在线随机拦截抽样,2、邀请在线抽样,3、在线固定样本抽样,4、其他在线抽样方法,抽样方法的选择,1、是否要以样本结果对总体进行推断,2、非抽样误差相对于抽样误差是大还是小,3、总体的差异化程度如何,4、有没有或是否有可能建立一个总体所有单位的名录,5、调查是否要求对一个相当大的地理区域进行面访,6、总体单位是否自然成群,或是否有此类群体的名录,7、抽样框是否有能用作分层或度量大小等辅助信息,8、是否需要进行域估计,域能否在抽样框中确定。,9、抽样框有无用来分层或对总体单元筛选的辅助信息。,10、是否部分信息收集起来费用较高。,抽样方案设计,1、,定义总体,2、,获得总体名单(抽样框),3、,设计抽样方案(样本容量与方法),4、,抽样,5、,验证样本,6、,如有需要,重新抽样,1、定义目标总体,目标总体是客户所感兴趣并希望从中获取信息的所有个体的集合。,目标总体定义源于调研设计开始阶段对调研问题和目标的系统陈述,涉及调研将从哪里获取数据信息,哪些人的观点、态度或反应对调研问题至关重要等。,定义目标总体的四个因素:,总体中个体类型,个人、家庭还是企业单位或其他什么类型;,个体的特征,包括人口统计特征、行为甚至心理特征等;,个体的地理位置,即区域范围;,调查的标准时点或时期。,调研者还须区分目标总体与调查总体。,目标总体通常只是概念性的;但调查总体则是实际调查所覆盖的总体,在抽样调查中也称为抽样总体。,2、制定抽样框,抽样框,:供抽样使用的所有调查单位的名单。它为调查者提供了辨别和联系调查个体的有效途径。,一个抽样框架应该包括下述部分或全部内容:,识别资料:如姓名、家庭住址、身份证号码等;,联系资料:确定个体所在位置的项目:地址/电话;,分类资料:提供区分调查对象的有用信息;,维护资料:像日期以及资料的变更信息等;,识别和联系资料是不可少的,而分类和维护资料有助于提高抽样的效率。,抽样框架的类型,(1)名录框,定义:一份涵盖总体中所有个体的实际的或者概念的名录清单。区分两类名录框:,概念名录框。,实际名录框可取自各种不同的来源。例如:,商业注册:所有在经营的企业名录(由工商行管部门收集);,地址和邮编册:所有城市地区的住址和邮编(由邮政局收集);,电话号码簿:所有公开的、家庭的电话号码簿(由电信局收集)。,使用前须评估要素:所需费用;涵盖范围;更新频率;来源稳定性;定义一致性;合法且正式的关系。,(2)区域框,区域框是指个体由地理区域构造的一种特殊的名录框,调查总体则由这些地理区域组成。,区域框适用于以下所述两种情况:,当调查本质就是地理性质的;,或者调查机构不能获得一个适当的名录框。,区域框中的个体可以分不同的层次,上一级个体可以细分成许多下一级个体。抽样时只需对被抽中的那些最小的地理区域建立名录。多阶抽样经常使用区域抽样框架。,(3)多重抽样框架,多重抽样框架是两个或两个以上的抽样框架的组合,如名录框和区域框的组合,或者两个或两个以上名录框的组合。,当没有一个抽样框架(名录/区域)能够全部覆盖总体时,就需要使用多重抽样框架。,由于一个个体经常出现在多个抽样框架里,所以使用多重抽样框时面临的主要问题是,找出各个抽样框架之间重复的个体并将其消除。,
展开阅读全文