1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第四章 抽样,第一节 抽样的意义与作用,第二节 非概率抽样方法,第三节 概率抽样的原理与程,第四节 概率抽样方法,第五节 户内抽样与PPS抽样,第六节 样本规模与抽样误差,1,教学要求:,了解抽样的概念、意义,掌握概率抽样和非概率抽样的的几种方法,教学重点:概率抽样,教学难点:概率抽样中的分层抽样,2,第一节 抽样的意义与作用,1、抽样估计在统计方法中的地位,2、抽样的概念,3、抽样的作用,4、抽样的优越性,5、抽样的类型,3,1、,抽样估计在统计方法中的地位,统计方法,描述统计,推断统计,抽样估计,假
2、设检验,4,2、抽样的概念,(1)总体(population),(2)样本(sample),(3)抽样(sampling),(4)抽样单位(sampling unit),(5)抽样框(sampling frame),(6)参数值(parameter),(7)统计值(statistic),(,8)抽样误差,(9)置信水平与置信区间,5,(1)总体(population),总体通常与构成它的元素共同定义,总体是构成它的所有元素的集合,而元素则是构成总体的最基本单位。在社会研究中,最常见的总体是由社会中的某些个人组成的,这些个人便是构成总体的元素。,(2)样本(sample),就是从全体或总体中随机
3、抽取出来并用来代表总体的那部分单位所构成的新的小总体。,(3)抽样(sampling),指的是从组成某个总体的所有元素的集合中,按一定的方式选择和抽取一部分元素(即抽取总体的一个子集)的过程,或者说,抽样是从总体中按一定方式选择或抽取样本的过程。,6,总体与样本,样本,总体,样本统计量,例如:样本均值、比例、方差,总体均值、比例、方差,7,(4)抽样单位(sampling unit),就是我们可以单独从总体中抽取出来的基本单位。,一个理想的抽样框的要求是,它应该尽可能地与目标总体相一致。,一般而言,如果总体中的每个元素在清单上分别只出现一次,且清单上又没有总体以外的其他元素出现,则该清单就是一
4、个完备的抽样框。在完备的抽样框中,每个元素必须且只能同一个号码对应。,(,5,)抽样框,(sampling frame),又称抽样范畴,是从中抽取样本的抽样单位名单。,8,(6)参数值(parameter),关于总体中某一变量的综合指标,在统计中最常见的总体值是某一变量的平均值。,(7)统计值(statistic),它是关于样本中某一变量的综合描述,它是相应的总体值的估计量。,9,(,8)抽样误差,总体的异质性和样本与总体范围的差异性,在用样本的统计值去推算总体的参数值时会有偏差,这种偏差就是抽样误差。,(9)置信水平与置信区间,置信水平是指总体参数值落在样本统计值某一正负区间内的概率,而置信
5、区间是指在某一置信水平下,样本统计值与总体参数值的误差范围。,10,3、抽样的作用,(1)现实生活中有些研究总体是不可能进行全面调查的,只可能调查其中的一部分。,(2)节约人力、物力。,(3)对其他调查方法所得到的资料的可信性的检验,尤其是对普查资料的修正与补充,必须进行抽样调查。,11,4、抽样的优越性,(1)调查费用较低。,(2)速度快,(3)应用范围广。,(4)可获得内容丰富的资料。,(5)准确度高。,12,抽样技术,非概率抽样,概率抽样,方便抽样,判断抽样,配额抽样,滚雪球抽样,简单随机抽样,系统抽样,分层抽样,整群抽样,多级抽样,其他抽样技术,按比例,不按比例,5,、抽样的类型,13
6、,第二节 非概率抽样,1、偶遇抽样,2、判断抽样,3、定额抽样,4、滚雪球抽样,5、空间抽样,14,1、偶遇抽样,偶遇抽样又称做方便抽样或自然抽样,是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为对象,或者仅仅选择那些离得最近的、最容易找到的人作为对象。,常见的未经许可的街头随访或拦截式访问、邮寄式调查、杂志内问卷调查等都属于偶遇抽样的方式。,其优点就在于方便省力,速度快,可以用于那些需要迅速了解到信息的调查。,但是样本的代表性差,带有很大的偶然性。,举例说明:,15,1、偶遇抽样,为了调查某市的交通情况,研究者到离他们最近的,公共汽车站,,把当时正在那里等车的人选作调查对象。,其
7、他类似的偶遇抽样还有:,在街口拦住过往行人进行调查;,在图书馆阅览室对当时正在阅读的读者进行调查;在商店门口、展览大厅、电影院等公众场所向进出往来的顾客、观众进行的调查;,利用报刊杂志向读者进行调查;,老师以他所教的班级的学生作为调查样本的调查等等。,16,实例“都市里的吉卜赛人对武汉市外来务工、经商人员的调查”,青年研究2001年第6期,作者:刘玉等,调查对象。本次调查以武汉市外来务工、经商人员为对象。具体做法如下:在武汉市外来务工、经商人员集中的地方,(,汉正街,),的几条主街道发放调查问卷,由调查员按照非随机抽样中的偶遇抽样原则抽取一定的人员进行调查。,资料的收集方法。本次调查问卷由,5
8、8,个问题组成,主要询问了外来务工、经商人员的基本社会特征、工作、收入与支出、观念、社会交往以及对现有生活的满意度等方面的问题。实际发放问卷,280,份,回收有效问卷,252,份,有效回收率,90 0%,。问卷采用自填法,由被调查者当场填写回收,对一些没有上过学不识字的被调查者采取由调查员根据问卷的内容逐一访谈的方式完成。,17,2、判断抽样,判断抽样又称立意抽样,它是研究者根据研究的目标和自己主观的分析来选择和确定研究对象的方法。,这种抽样首先要确定抽样标准。,这种通过主观判断对样本的选择通常有两种方法,,一是找“平均人”的方法,,一是找异常个案的方法。,小组座谈会调查属于判断抽样。,18,
9、2、判断抽样,案例:,我们要对学生抗议活动中的学生领袖进行研究。许多学生领袖是很容易找到的,但是却不大可能对所有的学生领袖的样本进行研究。,为了对所有的或大多数样本进行研究,就必须根据研究目的来搜集资料,所运用的抽样方法就是判断抽样法。,19,实例:“丹江口水库移民生活满意度的调查”,载社会,2002,年,6,月,作者:陆青华。,这次我们调查的对象是1978年前因丹江口水库工程而迁出的移民,着重是了解他们的生活状况以及对移民生活的满意程度,希望通过对移民们生活中这一敏感而又关键的问题的把握,为改善移民工作提供一些有价值的参考意见。,本次调查以湖北的宜城市和荆门市的部分乡镇的移民为总体,采用判断
10、抽样方法选取调查对象。由于该项调查的指导者王茂福教授对宜城一带较熟悉且得到荆门地区移民局的热情支持,所以我们首选了这两个地区。此次调查总样本为人。其中宜城市为人,占总样本的,%,荆门市为人,占总样本的,%,。,资料收集方法:问卷法。,20,3、定额抽样,定额抽样与分层抽样中的比例抽样相似,也是按调查对象的某种属性或特征将总体中所有个体分成若干类或层,然后在各层中抽样,样本中各层所占比例与他们在总体中所占的比例一样,,但不同的是,分层抽样中各层样本是随机抽取的,而定额抽样中各层样本是非随机抽取的。,定额抽样假定:,(1)只要类型划分较细,那么同一个类型中的每一个个体都是同质的,因而无需采用随机抽
11、样。,(2)只要类型划分合理,且分配给各类的名额符合总体中各类人员的分布,那么,样本就可以准确地反映总体。,21,3、定额抽样,举例如下:,1936年美国的盖洛普使用定额抽样的方法成功地预测了总统当选人,而同样的方法却也造成了他在1948年的错误预测。,就像概率抽样一样,定额抽样所强调的也是样本的代表性,虽说二者所达到目的的方法不一样。,22,表 4-1,年龄,所得,34岁以下,35岁以上,合计,¥10,000以下,21%,27%,48%,¥10,101以上,12%,40%,52%,合计,33%,67%,100%,组合不同年龄与所得额可形成四种类型:,(1)年龄在34岁以下,所得额在10000
12、元以下;,(2)年龄在34岁以下,所得额在10101以上;,(3)年龄在35岁以上,所得额在10000元以下;,(4)年龄在35岁以上,所得额在 10101元以上;,定额抽样示例,23,定额抽样示例,此时,研究者就根据研究目的从不同的格子里选择样本并搜集资料,而代表每一个格子出现的人,则按照这些格子相对于总体的比例,给予加权。,当所有的样本的要素都被加权时,这样的资料就可以合理的代表整个总体了。,同样,定额抽样的逻辑有时还可以有效地用于实地调查。,24,实例:,“职业地位:社会分层的指示器上海社会结构与社会分层研究”,仇立平,社会学研究,调查方法和样本:,研究总体是具有上海户籍的、年龄在,35
13、-60,岁的上海职工,(,包括部分郊区农民,),。,由于根据研究框架设计的问卷涉及到许多个人隐私,如家庭财产、经济收入、重大生活事件、家庭出身或家庭成分等,因此抽样是采用判断抽样法,即要求访问员在自己的熟人范围里选择调查对象。,考虑到样本的代表性,访问员在选择调查对象时要按照年龄、性别、职业等要求,按配额抽样方法选择样本。,计划样本,400,个,有效样本,391,个,调查时间是,1999,年,1,月。,25,实例:,“职业地位:社会分层的指示器上海社会结构与社会分层研究”,仇立平,社会学研究,根据调查结果,样本的基本情况如下,:,男性占,59 3%,,女性占,40 7%,;平均年龄为,46 2
14、5,岁。大多数调查对象的教育程度在初中及以上,(95%),。,本人平均月收入约,1030,元,家庭平均月收入约,2074,元;家庭平均财产,(,包括不动产,),为,23 29,万,(,据,99,上海年鉴,,1998,年职工月平均工资为,1005,元,,2000,年为,1188,元。文汇报,2000),。,虽然样本的本人月收入较接近总体状况;但由于是非概率抽样,某些指标如性别、职业等与总体有较大差别,且样本较小,因此样本的资料按抽样理论是不能推论总体的,或者在推论时要谨慎。,本调查的目的在于检验以“职业地位”作为社会分层标准的有效性和可行性,以及理论假设的内在逻辑性。,26,配额抽样和分层抽样的
15、区别,二者虽然都依据某些特征对总体进行分层,但二者的目的不同,抽样方法也不同。,定额抽样之所以分层分类,其目的在于要抽选出一个总体的“模拟物”,其方法则是通过主观的分析来确定和选择组成这种模拟物的成员。,也就是说,定额抽样注重的是样本与总体在结构比例上的表面一致性。,27,配额抽样和分层抽样的区别,而分层抽样进行分层,,一方面是要提高各层间的异质性与同层中的同质性,,另一方面也是为了照顾到某些比例小的层次,使得所抽样本的代表性进一步提高,误差进一步减小。,而其抽样的方法则是完全根据概率原则,排除主观因素,客观地。等概率地到各层中进行抽样,这与定额抽样中那种“按事先规定地条件,有目的地寻找”的做
16、法是完全不同的。,28,4 滚雪球抽样,是先从几个适合的调查对象开始,然后通过他们得到更多的调查对象,这样一步步扩大样本范围。,当调查总体中的个体信息不充分时,常采用这种方法。,例如,某研究部门在调查某市劳务市场中的保姆问题时,,先访问了7名保姆,,然后请她们再提供其他保姆名单,逐步扩大到近百人。,通过对这些保姆的调查,对保姆的来源地、从事工作的性质等状况就有了较全面的掌握。,还有对政府工作人员心理素质的测试、家用健身器的应用状况、老人问题调查等等。,29,4 滚雪球抽样,滚雪球抽样的主要优点:,能够保证抽取的样本均具有某总特征,且抽样误差和成本都较小;,这种由推荐获得的样本能够很好地满足抽样
17、对样本的人口统计学和心理统计学的特征的要求,因为推荐人对这些特征比随机情景更熟悉。,滚雪球抽样的局限性:有许多个体无法找到,产生误差。,30,实例:“城市非自愿离岗女性的社会支持系统北京市个案研究”,载妇女研究论从,2001,年第,1,期,作者:张艳霞,这篇文章借鉴组织制度变迁理论、社会网理论和社会性别理论,通过分析北京市,26,位非自愿离岗者的个案访谈资料,阐述了城市非自愿离岗女性主要的社会支持需求,揭示了离岗女性的社会支持系统是一个由正式支持系统和非正式支持系统共同组成的多元化结构,并分析了在社会支持系统的具体构成和各组成部分的特点上,离岗女性与男性之间的性别差异。,31,实例:“城市非自
18、愿离岗女性的社会支持系统北京市个案研究”,载妇女研究论从,2001,年第,1,期,作者:张艳霞,这个研究主要采用个案深人访谈和定性分析方法。全国妇联妇女研究所课题组在,1999,至,2000,年进行了“北京市暂不在业女性的社会支持系统”调查研究,走访了,30,位非自愿离岗人员,其中女性,22,人,男性,8,人,对男性个案的调查研究,主要是为了补充丰富调查资料和进行男女两性的比较分析。这篇文章基于对其中,20,位女性、,6,位男性个案访谈材料的定性分析。在个案的选择上,这个研究使用的是滚雪球抽样方法,在选择调查对象时,尽量选择了有代表性的个案。值得一提的是,在文章最后,作者补充到由于采用非概率抽
19、样,调查对象的代表性有一定局限。,32,5 空间抽样,是针对一个变动的总体,如游行队伍、集会等进行抽样的方法,这种总体虽然是变动的,但在空间上是有限的。,具体做法如下:同时派出若干名经过训练的调查人员,排成一排均匀地分布在群体的一侧,每个调查者以它所面对的人为第一个调查对象。,然后按一定的步数间隔穿过聚集的群体,每一间隔停顿下来时碰到的人均为调查对象。当然,还可采用其他的方式进行。,33,其他的非概率抽样方法,志愿者抽样,:从与调查目标有关的志愿者中抽取样本,如医疗实验,媒体座谈讨论节目等只能从志愿者中抽选参与者。,修正的概率抽样,:是概率抽样与非概率抽样的结合。在多阶段概率抽样中,前几个阶段
20、均采用概率抽样,在最后阶段采用非概率抽样的方法。,34,非概率抽样的缺点,非概率抽样,不是按照概率均等的原则,而是根据人们的主观经验或其它条件来抽取样本。因而,其样本的代表性往往较小,误差有时相当大,而且这种误差又无法估计。(非概率抽样由于每个个体进入样本的概率是未知的,而且由于排除不了调查者的主观影响,因而无法说明样本是否重现了总体的结构,用这样的样本推论总体是极不可靠的。,35,非概率抽样的优点,在很大情况下,严格的随机抽样几乎无法进行,例如调查对象的总体边界不清而无法制作抽样框。此外有些研究为了符合研究的目的,不得不按照需要从总体中抽取少数有代表性的个体作为样本。,为了保证随机的原则,对
21、抽样的操作过程要求严格,实施起来比较麻烦,费时费力,因此如果调查的目的仅是对问题的初步探索,获得研究的线索和提出假设,而不是由样本推论总体,采用随机抽样就不一定是必须的。,综上所述:非概率抽样操作方便、省钱省力,统计上也远较概率抽样简单,而且若能对调查总体和调查对象有较好的了解,抽样也可获得相当的成功。,36,第三节 概率抽样的原理与程序,1 概率抽样的原理,2 抽样的一般程序,3 抽样设计的原则,37,1 概率抽样的原理,抽样的最终目的在于通过对样本的统计值的描述来相对准确地勾画出总体的面貌。概率抽样的方法可以帮助我们实现这一过程的目标,并且可以对这种勾画的准确程度作出估计。随机抽取是这一过
22、程的关键。所谓随机抽取,就是保证总体中的每一个个体都有同等的机会入选样本。,概率抽样之所以能够保证样本对总体的代表性,其原理就在于它能够很好地按总体内在结构中所蕴涵的各种随机事件的概率来构成样本,使样本成为总体的缩影。,38,1 概率抽样的原理,在讨论概率抽样的问题时,应对有关放回抽样与不放回抽样的问题作出说明:,所谓放回抽样,是指抽取一个单位后,在抽选下一个单位时把前一个已被抽中的单位放回总体中再进行抽取;,所谓不放回抽样,则是将已抽中的单位不放回总体,因而每个单位最多只能被抽中一次。,39,界定总体,收集全部名单,决定样本大小,设计抽样方法,评估样本,2 抽样的一般程序,40,界定总体,清
23、楚地说明全部研究对象的范围,包括时间、地点和人物。,例如,我们要调查兰州市青年对计划生育的态度,可以界定总体范围如下:2005年年中兰州市界乎1525岁之间的居民。,总体的定义越清楚越好。由样本所得的结果,原则上只能推论到这个所界定的总体范围。,41,收集全部名单,例如,从有关的单位取得符合上述总体定义的青年姓名。这份名单,称为抽样框架。,在应用前,必须审核其完整性和准确性,例如,有无遗漏?有无列于名单上但实际不存在的个案?名单上的个案有无重复或不属研究范围的?,42,决定样本大小,决定样本大小的一般准则是:根据所能付出的研究代价的最大限度抽取最大的样本。其实,除了这个准则之外,还有两个准则可
24、供参考:我们愿意容忍多少错误?所研究的个案之间的相互差异有多大?,但总的原则是“宁纵无枉”。,43,设计抽样方法,不同的抽样方法所犯的抽样误差会很不一样,所需要付出的代价也不一样。,因此,我们在抽样时,要小心选择一种较为恰当的方法。,44,评估样本的正误,如果总体的资料分布与样本的资料分布基本上一致,则我们对样本的代表性就有较大的信心。,年龄,总体(N=100000),样本(n=1000),1517,30,28,1822,50,51,2325,20,21,45,3 抽样设计的原则,目的性原则。目的性原则是指在进行抽样方案设计时,要以课题研究的总体方案和研究的目标为依据。,可测性原则。可测性原则
25、指的是抽样设计能够从样本自身计算出有效的统计值或者抽样变动的近似值。,可行性原则。可行性原则是指研究者所设计的抽样方案必须在实践上切实可行。,经济性原则。这一原则指的是抽样方案的设计要与研究的可得资源相适应。这种资源主要包括研究的经费、时间、人力等等。,46,第四节 概率抽样方法,1 简单随机抽样,2 系统抽样,3 分层抽样,4 整群抽样,5 多阶段抽样,47,1 简单随机抽样的概念与操作,简单随机抽样又称纯随机抽样,是概率抽样的最基本形式。,它是按等概率原则直接从含有N个元素的总体中随机抽取n个元素组成样本(Nn)。,48,简单随机抽样的操作,有三种方法,直接抽选法:,即直接从调查对象中随机
26、抽取一个样本。,但这种方法有难以完全遵循随机的缺点,,因为在抽选的过程中往往受到主观判断的影响,所以采取这种方法时避免主观判断的影响是关键。,在正式调查中,很少采用直接抽选法。,49,简单随机抽样的操作,抽签法:先将研究总体中的每一个单位统一编号,使每一个单位都有一个号,,然后将每一个号作成一个卡号并且混合均匀,最后从中随机抽取卡片,直到抽到额定的数目为止。,这种方法在一般日常生活中用得比较多。,50,简单随机抽样的操作,随机数字表法:其具体步骤如下是先取得一份总体所有元素的名单,将总体中所有元素一一按顺序编号,根据总体规模是几位数来确定从随机数表中选几位数码;,然后以总体的规模为标准,对随机
27、数表中的数码逐一进行衡量并决定取舍;根据样本规模的要求选择出足够的数码个数;,依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素。,51,一千个随机数字,0004,0509,1014,1519,2024,2529,00,54463,22662,65905,70639,79365,67382,01,15389,85205,18850,39226,42249,90669,02,85941,40756,82414,02015,13858,78030,03,61149,69440,11286,88218,58925,03638,04,05219,81619,10651,67079,92511,
28、59888,52,2 系统抽样,系统抽样又称等距抽样或机械抽样。,它是把总体的单位进行编号排序后,再计算出某种间隔,,然后按这一固定的间隔抽取个体的号码来组成样本的方法。,53,系统抽样的具体步骤,(1)将总体的所有个体前后排列起来。,(2)计算抽样距离。抽样距离是由总体大小和样本大小决定的,假设总体所含个体数为N,样本所含个体数为n,则抽样距离应为K=N/n。,(3)在头K个个体中,用完全随机的方式抽取一个个体,设其所在位置的序号是k。,(4)自k开始,每隔K个个体抽取一个个体,即陆续抽取的个体所在位置序号为k,k+K,k+2K,直到k+(n-1)K。,54,系统抽样实例,某地区有零售店11
29、0户,采用系统抽样方法抽取11户进行调查。,第一步:将总体调查对象进行编号,即从1号到110号;,第二步:确定抽样距离。调查总体N=110户,所需样本数n=11户,所以,抽样距离K=10户;,第三步:确定起抽号数。随机地从1-10中抽取一个数作为抽号;,第四步:确定被抽取单位。从起抽号开始,按照抽样距离选取样本如果随机抽取了2为起抽号,那么:,2,2+10=12,2+10*2=22,等等,即所抽的样本为编号是2,12,22,32,一直到102共11个零售店。,55,系统抽样的优点,系统抽样不需多次使用随机数字表抽取个体,而只需按间隔等距抽样即可,系统抽样的另一个优点是样本在总体中的分布更均匀,
30、故而抽样误差小于或至多等于简单随机抽样,即较其更准确。,56,20111011,大家晚上好,今天的安排,复习上次讲过的内容,讲新的内容,课堂练习,57,复习上次讲过的内容,什么是抽样?,抽样有什么意义?,抽样的代表性保证主要依赖于哪两个因素?,样本的大小任何确定?,样本的构成有哪两大类?,58,讲新的内容,概率抽样中的第3种方法,分层抽样,59,3 分层抽样,分层抽样的概念:,又称类型抽样,它是先将总体中的所有单位按某种特征或标志划分成若干类型或层次,,然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本,,最后,将这些子样本合起来构成总体的样本。,60,分层抽样的使用条件,
31、(1)被抽取的总体是异质的,一个变量或多个变量可能影响调查结果。,如,大学生的性别、年级、籍贯可能影响对婚恋的态度。,(2)对所研究的总体有详细地名单。,流程图:总体层子样本样本,61,分层抽样的运用,在实际运用分层抽样的方法时,研究者需要考虑下列两个方面的问题:,(1)分层的标准问题。通常采用原则有:以所要分析和研究的主要变量或相关的变量作为分层的标准;以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量;以那些已有明显层次区分的变量作为分层变量。,(2)分层的比例问题,62,分层抽样实例,等比例层次抽样,某地共有居民20000户,按经济收入高低进行分类,其中高收入的
32、居民为4000户,占总体的20%;中等收入为12000户,占总体的60%;低收入为4000户,占总体的20%。要从中抽取200户,进行购买力调查,则各类型应抽取的样本单位为:,经济收入高的样本单位数目为:200*20%=40户,经济收入中的样本单位数目为:200*60%=120户,经济收入低的样本单位数目为:200*20%=40户,63,分层抽样实例,非比例抽样,它不是按各层中单位数占总体单位的比例分配样本单位,而是根据其他因素(如各层平均数或成数标准差的大小),调整各层的样本单位数。,仍以上例为主,各层样本标准差高收入为300元,中收入为200元,低收入为100元。样本标准差的计算公式为:离
33、差平方根/样本数目后,在开算术平方根。得到,高收入的样本数为60户,中等收入为120户,低收入为20户。,64,分层抽样的特点,1)当一个总体其内部分层明显时,分层抽样能够克服简单随机抽样的缺点。,2)分层抽样可以提高总体参数估计值的精确度。,3)有些研究不仅要了解总体的情形,而且还要了解某些类别的情形,分层抽样可以同时满足这两个要求。,4)便于行政管理。因一层可以看作一个总体,因此每层可由专人进行管理。,65,4 整群抽样,整群抽样是将总体按照某种标准划分为一些子群体,每一个子群为一个抽样单位,用随机的方法从中抽若干子群,将抽出的子群中所有个体合起来作为总体的样本。,66,整群抽样的优点,(
34、1)它可以通过转换抽样单位扩大抽样的应用范围;,(2)它可以节省人力、物力。整群抽样的最大缺点是样本分布不均匀,样本的代表性较差。,整群抽样分为等规模整群抽样和不等规模整群抽样,,前者总体内所有的群规模都相等,,而后者总体内各群大小不一。在社会调查中一般遇到的是后一种情况,在这种情况下,往往出现样本规模随机变动的问题。,67,整群抽样实例,在山东的一项对儿童行为问题的调查分析中,调查人员使用了整群抽样的方法获得了3927个比较有代表性的样本,具体方法是:,首先,按照文化水平和经济水平将山东所属15个城市分为三个层次;,其次,在每个层次中抽取两个城市,从而得到济南、青岛和枣庄等6个城市。,最后,
35、根据在每个城市抽取一个文化经济水平中等的地区,根据户口登记抽取,共抽得3927名,男女比例1.061。,68,5 多阶段抽样,多阶段抽样又称多级抽样或分段抽样,它是按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行。,在社会研究中,当总体的规模特别大,或者总体分布的范围特别广泛时,研究者一般采取多阶段抽样的方法来抽取样本。,69,多阶段抽样的具体做法,先从总体中随机抽取若干大群,然后再从这几个大群内抽取几个小群,这样一层层抽下来,直至抽到最基本的抽样元素为止。,3实例,为了调查某市青年工人的状况,采用多阶段抽样。,首先,以企业为单位抽样,即以全市所有企业为抽样框,从中随机抽取一部分企业
36、;,其次,在抽中的企业中,以车间为抽样单位,即从全部车间中抽取若干车间;,最后,再在抽中的车间内抽取青年工人。,70,第五节 户内抽样和PPS抽样,1 户内抽样,2 PPS抽样,71,1 户内抽样,当调查者以家庭为分析单位,以入户访谈的方法收集资料时,他们往往采用多阶段抽样的方法。,具体做法如下:,(1)从某一市(县)中抽取区(乡)。,(2)再从区(乡)中抽取街(村),(3)从街(村)中抽取居委会(居民组),,(4)然后从居委会(居民组)中抽取家庭户,,(5)最后从家庭户中抽取一位成年人作为访谈对象。,72,KISH表的具体用法,(1)确定该户符合调查要求的人口数。,(2)依照男性在前,女性在
37、后;年纪大的在前,年纪小的在后的原则,把编号的家庭成员按顺序写在表的相应位置上。,(3)确定样本户的编号。通常的做法是:调查员调查的第一户的编号为1,第二户的编号为2,以次类推。,(4)样本编号末位数所在列,和家庭成员人口数所在行对应的数为该户成员年龄由大到小排列的编号,此编号所对应的人为抽样样本。,73,2 PPS抽样,先将各个元素排列起来,然后写出它们的规模、计算它们的规模在总体规摸中所占的比例;将它们的比例累积起来,并根据比例的累计次数依次写出每一元素所对应的选择号码范围,,然后采用随机数表的方法或系统抽样的方法选择号码,号码所对应的元素入选第一阶段样本。,最后,再从所选样本中进行第二阶
38、段抽样。,74,第六节 样本规模与抽样误差,1、样本规模,2、影响样本规模确定的因素,3、样本规模与抽样误差,75,1、,样本规模,样本规模又称样本容量,它指的是样本中所含个案的多少。,确定样本规模也是每一项具体的社会研究所必须解决的问题之一。,统计学中通常以30为界,把样本分为大样本和小样本。,76,2、,影响样本规模确定的因素,总体的规模,抽样的准确性,总体的异质性程度,总体的方差越大,则抽样误差越大;反之,抽样误差越小。,研究者所拥有的经费、人力和时间,77,3、样本规模与抽样误差,抽样误差就是用样本值去估计总体值时所出现的误差。它是由于抽样本身的随机性所引起的误差。减少抽样误差可以从以下几个方面着手:,要准确选定抽样方法。,要正确确定样本的数目。,要加强对抽样调查的组织领导,提高抽样调查工作的质量。,以科学的态度对待抽样。,78,课堂练习,根据下面的要求,设计一个抽样方案。,从沈阳市10所高校在读大学生中,组成一个200名学生的样本。,要求200名学生,是由概率抽样完成。,79,