1、第五章第五章 抽抽样样第一第一节节 抽抽样样的基本的基本概念概念第二第二节节 非概率抽非概率抽样样第三第三节节 概率抽概率抽样样1.抽抽样设计样设计将要解决的是将要解决的是调查谁调查谁的的问题问题,即,即如何挑如何挑选调查对选调查对象的象的问题问题。要解决包括要解决包括选择选择哪一部分作哪一部分作为调查对为调查对象,象,这这部分部分应应包含的个体有多少,用什么包含的个体有多少,用什么样样的的方法方法进进行行选择选择,以及所,以及所选选出来出来这这一部分一部分调调查对查对象与象与总总体体间间的关系是什么等的关系是什么等问题问题。2.第一第一节节 抽抽样样的基本概念的基本概念一、一、为为什么需要抽
2、什么需要抽样样普普查查3.4.抽抽样调查样调查起源于起源于统计统计学,学,18951895年,挪威年,挪威统统计计学家学家凯凯尔尔在国在国际统计际统计学会学会(International Statistical Institute,International Statistical Institute,ISI)ISI)第五届大会上提出第五届大会上提出“用代表性用代表性样样本方本方法来代替全面法来代替全面调查调查”的建的建议议,这这一年被一年被认认为为是抽是抽样调查历样调查历史的开端。史的开端。5.抽抽样样就是从一个就是从一个总总体中抽取部分个体或元体中抽取部分个体或元素素组组成成样样本的本的过
3、过程。程。原因:原因:1、节节省研究省研究经费经费和和时间时间 2、提高研究者、提高研究者对对研究研究过过程的管理效率程的管理效率总总总总体体体体样样样样本本本本 6.抽抽样样的假的假设设:1、部分是含于整体之中;、部分是含于整体之中;2、部分与整体具有相同的特征、部分与整体具有相同的特征、规规律、相律、相互关系及互关系及变变化化过过程;程;3、部分能、部分能够为够为研究者提供一个有关整体状研究者提供一个有关整体状态态、态态度、意度、意见见和行和行为为更加清晰的脉更加清晰的脉络络。7.抽抽样样的目的的目的获获得具有代表性的得具有代表性的样样本本代表性意味着:代表性意味着:1、样样本和本和总总体
4、的分布系体的分布系统统相同相同2、总总体和体和样样本的均本的均值值相同相同3、总总体和体和样样本里本里变变量之量之间间的关系相同的关系相同8.二、抽二、抽样样的基本概念的基本概念(一)(一)总总体和元素体和元素1、总总体体总总体体是研究中所涉及的所有个体的集合,它是研究中所涉及的所有个体的集合,它可以是一群人,一批文件,一些事件或可以是一群人,一批文件,一些事件或观观念。念。2、元素、元素构成构成总总体的每一个个体就是元素。体的每一个个体就是元素。例如例如,研究我国媒体,研究我国媒体对对艾滋病的艾滋病的报报道,那么道,那么上万家媒体就成上万家媒体就成为为本研究的本研究的总总体,每一家具体,每一
5、家具体的媒体是构成体的媒体是构成总总体的元素。体的元素。9.确定研究的确定研究的总总体和元素,要依体和元素,要依赖赖研究者个研究者个人的判断。人的判断。例如例如调查调查我国新我国新闻闻工作者的工作者的职业职业意意识识,“新新闻闻工作者工作者”都包括哪些人?都包括哪些人?10.(二)(二)样样本(本(sample)按照一定方法,从按照一定方法,从总总体抽取出的部分个体体抽取出的部分个体就就组组成了成了样样本本,用它来代表,用它来代表总总体。体。如果如果对对总总体中所有元素体中所有元素进进行研究,称行研究,称为为普普查查(census)。)。11.如:上海地区记者生存状态调查总体限定为上海地区报纸
6、、广播电视、杂志的拥有记者证的一线采编人员,主要媒体单位包括SMG、文新集团、解放日报集团、第一财经日报、新民周刊、瞭望东方等上海主流媒体集团。被调查的200名记者以报纸平媒体记者为主要组成部分,占到样本总数的60.67%。因此本次调查样本偏向于报纸、杂志平面媒体记者。主要基于以下因素考虑:上海主流媒体中广播电视呈现一家独大的局面,文广集团是上海最大的广播电视集团,而竞争相对激烈的领域在于平面媒体。12.抽抽样样框框指的是包含指的是包含总总体所有元素的体所有元素的详细详细名名单单、地地图图或其他形式的或其他形式的资资料。可以分料。可以分为为名名单单抽抽样样框、地框、地图图抽抽样样框、框、时间时
7、间抽抽样样框等。框等。在抽在抽样样框中,每个元素都有自己的框中,每个元素都有自己的对应对应位置位置或或顺顺序,通常通序,通常通过编过编号来号来实现实现。抽抽样样框框13.第一第一节节 抽抽样样的基本概念的基本概念几个概念的区几个概念的区别别总总体体样样本本抽抽样样框框抽抽样样研究研究对对象象的的总总体体总总体中抽出体中抽出的成的成员员总总体的列体的列表名表名单单抽出抽出样样本本的的过过程程14.假定要假定要进进行一行一项项有关改革开放有关改革开放30年来全国性年来全国性报纸报纸的广告内容方面的研究,的广告内容方面的研究,试说试说明抽明抽样过样过程程为为了了简简化化问题问题,假定研究的主要目的是
8、改革开放,假定研究的主要目的是改革开放30年年来人民日来人民日报报、中国青年、中国青年报报、光明日、光明日报报三三份全国性份全国性报纸报纸的广告的广告规规模、内容及形式等方面的模、内容及形式等方面的变变化;化;总总体:体:1978年年1月月1日至日至2007年年12月月31日在上述三份日在上述三份报纸报纸上刊出的全部广告;上刊出的全部广告;抽抽样样框:北京框:北京图书馆图书馆内可以内可以查阅查阅到的在此到的在此30年期年期间间上上述三份述三份报纸报纸上的广告;上的广告;抽抽样单样单位:位:报纸报纸,可以按照等距抽,可以按照等距抽样样来来进进行;行;记录单记录单位:每份位:每份报纸报纸上各个版面
9、各种上各个版面各种类类型的广告;型的广告;总总体参数:各体参数:各类报纸类报纸和版面上不同和版面上不同时时期刊出的平均广期刊出的平均广告条数、平均面告条数、平均面积积数、各种数、各种类类型广告条数所占的比重、型广告条数所占的比重、面面积积所占的比重等。所占的比重等。15.(三)概率抽(三)概率抽样样和非概率抽和非概率抽样样概率抽概率抽样样是根据随机原是根据随机原则进则进行的行的选择选择,每个,每个个体被个体被选择选择的概率是已知的。它可以在抽的概率是已知的。它可以在抽样样过过程中避免人程中避免人为为因素造成的因素造成的误误差,差,还还可以可以计计算出由算出由样样本推断本推断总总体体时时的抽的抽
10、样误样误差,因而其差,因而其样样本能本能够够推断推断总总体;体;非概率抽非概率抽样样并不遵循随机原并不遵循随机原则则,而是根据主,而是根据主观观意意识识在研究在研究对对象中象中进进行的行的选择选择,它无法确,它无法确定每个个体被定每个个体被选选中的概率是多少,无法中的概率是多少,无法计计算算抽抽样误样误差,所以不能从差,所以不能从样样本推断本推断总总体。体。16.(四)随机性(四)随机性随机性随机性意味着没有任何已知的准意味着没有任何已知的准则则能能够够描描述事件或解述事件或解释结释结果。果。随机不等于随意或随便,它是根据概率随机不等于随意或随便,它是根据概率论论的基本原理来确定的基本原理来确
11、定样样本,不遵循任何已知本,不遵循任何已知的确定的准的确定的准则则。17.三、抽三、抽样样的原理的原理小小样样本、大本、大样样本本为为什么大什么大样样本能本能够够代表代表总总体?体?大数法大数法则则:总总体中的每一个元素都包含着能体中的每一个元素都包含着能够够体体现总现总体体规规律的律的稳稳定特征和不能体定特征和不能体现总现总体体规规律的偶然律的偶然现现象。象。对对某个元素来某个元素来讲讲,对总对总体的体的结论结论可能不成可能不成立;立;但当但当总总体体规规模很大的模很大的时时候,偶然候,偶然现现象可以象可以相互抵消,相互抵消,总总体呈体呈现现出出稳稳定特征。定特征。18.对对大大样样本本进进
12、行行统计统计分析所得出的并非是分析所得出的并非是针针对对所有个体都适用的所有个体都适用的结论结论,而是估,而是估计计一定一定概率机会下概率机会下总总体特征出体特征出现现的可能性有多大,的可能性有多大,个体所体个体所体现现出的无出的无规规律的偶然性被限制在律的偶然性被限制在“一定概率机会一定概率机会”这这个前提之下。个前提之下。19.34标标准常准常态态曲曲线线20.中心极限定理中心极限定理当当样样本数量足本数量足够够大的大的时时候(如大于候(如大于30),那),那么,无么,无论总论总体的分布如何,其体的分布如何,其样样本的平均本的平均值值所构成的分布都所构成的分布都趋趋于正于正态态分布。分布。
13、当无当无穷穷次地按照同一原次地按照同一原则进则进行抽行抽样时样时,虽虽然然每次抽取出来的每次抽取出来的样样本所包含的个体并不相同,本所包含的个体并不相同,但是但是这这些些样样本的均本的均值值的分布呈的分布呈现现正正态态分布,分布,而且而且这这个正个正态态分布的中分布的中间间位置(即位置(即样样本的平本的平均均值值的平均的平均值值)就是)就是总总体的平均体的平均值值。21.四、抽四、抽样过样过程中的程中的误误差差1、随机随机误误差差:不可控因素造成的:不可控因素造成的误误差,差,降低了个体被降低了个体被选选入入样样本或被分析的机会。本或被分析的机会。案例:文学摘要的厄运案例:文学摘要的厄运预测结
14、预测结果果实际结实际结果果阿阿尔尔夫夫.伦伦敦敦55%55%阿阿尔尔夫夫.伦伦敦敦37%37%富富兰兰克林克林.罗罗斯福斯福41%41%富富兰兰克林克林.罗罗斯福斯福61%61%22.文学摘要文学摘要为为什么会出什么会出现现这样严这样严重的重的错误错误?原因之一是抽原因之一是抽样样框和框和总总体不体不符:抽符:抽样样框主要是根据框主要是根据电话电话号号码码簿和汽簿和汽车车登登记记册建立的。册建立的。另一个原因是由于回收率低另一个原因是由于回收率低引起的引起的误误差:差:总总共寄出了一共寄出了一百多万份百多万份问问卷,但是返回的卷,但是返回的问问卷不足卷不足25%。23.2、抽抽样误样误差差:抽
15、:抽样误样误差是指在采用随机抽差是指在采用随机抽样样技技术术,由,由调查结调查结果推算全体果推算全体时时,预预先能先能算出来的算出来的误误差。差。抽抽样误样误差会受到差会受到样样本本规规模的影响模的影响:一般而:一般而言,采用随机抽言,采用随机抽样时样时,样样本本规规模愈大,抽模愈大,抽样误样误差愈小。差愈小。抽抽样误样误差是衡量差是衡量样样本代表性本代表性强强弱的弱的标标准。准。24.样样本本规规模模是指抽是指抽样单样单位数,在随机抽位数,在随机抽样时样时必必须须确定必要的确定必要的样样本数。本数。样样本数本数过过多,浪多,浪费费人力、物力、人力、物力、财财力和力和时间时间;样样本数本数过过
16、少,会影响少,会影响调查结调查结果的精确度,果的精确度,造成造成较较大大误误差。差。五、五、样样本本规规模模25.影响影响样样本本规规模的因素:模的因素:(一)(一)对对精确性的要求精确性的要求置信水平置信水平(confidence level):从:从样样本推本推论论总总体体时时,我,我们们有多大的信心确定有多大的信心确定样样本会在本会在可容忍可容忍误误差内正确反映差内正确反映总总体。体。一般有一般有90%、95或或99置信水平。置信水平。社会科学研究通常把置信水平定社会科学研究通常把置信水平定为为95。26.简单随机抽样中推论总体平均数的样本规模计算公式为:推论总体成数(或百分比)的样本规
17、模计算公式为:27.简单简单随机抽随机抽样样所需要的最小所需要的最小样样本量本量抽抽样误样误差差()置信水平置信水平90%时时的的样样本本规规模模置信水平置信水平95时时的的样样本本规规模模置信水平置信水平99时时的的样样本本规规模模168069604166412170224014160375610671849442560010405272384666618926746228.(二)研究者的精力和(二)研究者的精力和经费经费(三)(三)总总体的异体的异质质性程度性程度总总体异体异质质性程度越高,需要的性程度越高,需要的样样本量越大。本量越大。(四)研究方法和研究目的(四)研究方法和研究目的(五
18、)数据分析里所涉及的(五)数据分析里所涉及的变变量数目量数目一般来一般来说说,多,多变变量数据分析比一元二元量数据分析比一元二元变变量分析要求更大的量分析要求更大的样样本本规规模。模。29.我我们们能不能能不能说说“总总体越大,体越大,样样本本规规模越大模越大”?30.第二第二节节 非概率抽非概率抽样样优优点:点:1.按一定的主按一定的主观标观标准抽准抽选样选样本,可以充分利用本,可以充分利用已知已知资资料。料。2.可以可以缩缩小抽小抽样样范范围围,节约调查时间节约调查时间、调查调查人人员员和和调查费调查费用。用。不足:不足:无法判断其无法判断其误误差,差,检查调查结检查调查结果的准确性。果的
19、准确性。31.一、偶遇抽一、偶遇抽样样(accidental or haphazard sampling)或任意抽或任意抽样样、方便抽、方便抽样样:研究者把一定:研究者把一定时间时间内内一定一定环环境里最容易接触到的人作境里最容易接触到的人作为样为样本的方法,本的方法,如街如街头拦访头拦访、商、商业调查业调查、试测试测。但是偶遇抽但是偶遇抽样样不是随机的,不是随机的,结结果偏差果偏差较较大,可信程度大,可信程度 较较低,没有足低,没有足够够代表性。代表性。32.志愿者抽志愿者抽样样(volunteer sampling)33.志愿者抽志愿者抽样样存在的存在的问题问题:1、回收率低;、回收率低;
20、2、参加研究的志愿者往往更、参加研究的志愿者往往更倾倾向于向于“夸大夸大”真真实实情况。情况。34.二、立意抽二、立意抽样样(purposive sampling)或目的抽或目的抽样样、判断抽、判断抽样样:指研究者根据特定:指研究者根据特定目的和主目的和主观观判断而确定研究判断而确定研究样样本。本。适用情况:适用情况:1、研究、研究对对象是那些象是那些难难以接触的、特定以接触的、特定总总体体中的个体中的个体2、研究、研究对对象是独一无二的个案象是独一无二的个案3、研究者清楚地知道自己的目的是、研究者清楚地知道自己的目的是试图试图深深入了解某些特定入了解某些特定类类型的人群型的人群35.三、配三
21、、配额额抽抽样样(quota sampling)根据根据调查调查目的找出与研究目的关系密切的目的找出与研究目的关系密切的特性作特性作为为配配额额指指标标,抽,抽样时样时保保证样证样本中具本中具有某种特性的比例与有某种特性的比例与总总体中具有体中具有这这种特性种特性的比例一致。的比例一致。36.配配额额抽抽样样法是在分法是在分层层基基础础上上进进行的。行的。配配额额抽抽样样法的基本步法的基本步骤骤:1、选择选择控制特性作控制特性作为为分分层标层标准准 2、分、分层层 3、确定各、确定各层样层样本本额额 4、配、配额额指派指派37.配额抽样根据其抽样方法可以分为:1、独立控制配独立控制配额额抽抽样
22、样,规定按独立的控制特征分配并抽取样本,即对调查对象只规定具有一定控制特征的样本抽取数目并规定配额,而不是规定具有两种或两种以上控制特征的样本抽取数目并规定配额。2、非独立控制配非独立控制配额额抽抽样样,也称为相互控制的配额抽样或交叉控制配额抽样。是同时对具有两种或两种以上控制特征的每一个样本数目都作出具体的规定。38.独立控制配独立控制配额额抽抽样样案例案例 一项研究要调查400名北京市区18-42岁的白领阶层对时尚的看法,配额的重要指标是城区、性别、年龄、职业。根据已知的资料得知总体中这四个指标的大致比例,则400人的样本也应该与总体中各项指标的比例相一致:城区东城西城朝阳海淀宣武崇文合计
23、50501001005050400性别男女400人200200年龄18-28岁29-35岁36-42岁400人100200100职业公务员企业管理公司行政事业单位大学生400人8060140804039.非独立控制配非独立控制配额额抽抽样样某大学有4000名学生,其中男生占60%,女生占40%,管理类和理工类学生各占50%,大一、大二、大三、大四的学生比例分别为40%、30%、20%和10%,现在要抽取500人进行调查,按非独立控制配额抽样,其情况如下:男男女女管理管理类类理工理工类类管理管理类类理工理工类类年年级级一一 二二 三三 四四一一 二二 三三 四四一一 二二 三三 四四一一 二二
24、三三 四四人数人数60 45 30 1560 45 30 15 40 30 20 10 40 30 20 1040.四、四、滚滚雪球抽雪球抽样样(snowball sampling)或网络抽样(network sampling):是指先随机选择一些被访者并对其实施访问,再请他们提供另外一些属于所研究目标总体的调查对象,根据所形成的线索选择此后的调查对象。这种抽样中有些分子最后仍无法找到,有些分子被提供者漏而不提,两者都可能造成误差。41.第三第三节节 概率抽概率抽样样优优点:点:1.排除了人排除了人为为的干的干扰扰。2.能能够计够计算算调查结调查结果的可靠程度。果的可靠程度。不足:不足:1.对
25、对所有所有调查样调查样本都本都给给予平等看待,予平等看待,难难以体以体现现重点。重点。2.抽抽样样范范围围广,所需广,所需时间长时间长,参加,参加调查调查的人的人员员和和费费用多。用多。3.需要具有一定需要具有一定专业专业技技术术的的专业专业人人员进员进行抽行抽样样和和资资料分析。料分析。42.概率抽概率抽样样的基本程序的基本程序1、明确研究的目的,确定研究所要估、明确研究的目的,确定研究所要估计计的的主要主要总总体参数;体参数;2、确定研究、确定研究总总体和抽体和抽样单样单元;元;3、确定和构造抽、确定和构造抽样样框:框:在确定在确定调查总调查总体和抽体和抽样单样单位后,位后,应应将将总总体
26、按体按照抽照抽样单样单位划分位划分为为各部分,构成抽各部分,构成抽样样框;框;4、选择选择适当的抽适当的抽样样方法以及确定方法以及确定样样本量的本量的大小;大小;5、制定抽、制定抽样样方案的具体方案的具体实实施施细节细节。43.一、一、简单简单随机抽随机抽样样(simple random sampling)又称又称单纯单纯随机抽随机抽样样,是所有随机抽,是所有随机抽样样方法中方法中最最简单简单的一种方法。的一种方法。它按照随机的原它按照随机的原则则从从调查总调查总体中不加任何分体中不加任何分类类、排序、分、排序、分组组等先行工作,直接从等先行工作,直接从总总体中体中逐个抽取若干逐个抽取若干单单
27、位位组组成研究成研究样样本。本。44.1、无放回的、无放回的简单简单随机抽随机抽样样2、非常、非常简单简单随机抽随机抽样样概率抽概率抽样样是不是等概率抽是不是等概率抽样样?45.抽抽样样框框在在进进行随机抽行随机抽样时样时,研究者首先要列出一研究者首先要列出一个包含所有元素的个包含所有元素的详详细细名名单单,每个元素都,每个元素都对应对应着一个独一无二着一个独一无二的、以数字表示的位的、以数字表示的位置,置,这这个名个名单单就是抽就是抽样样框。既没有框。既没有遗遗漏,漏,也没有重复。也没有重复。46.简单简单随机抽随机抽样样的方法的方法1、抽、抽签签法:当法:当总总体很小的体很小的时时候,将抽
28、候,将抽样样框框中的中的N个元素个元素编编号,把每个元素的号号,把每个元素的号码码写在写在签签上,将上,将签签充分的混合,随机不放回的抽充分的混合,随机不放回的抽取直至取直至样样本本规规模符合要求。模符合要求。2、随机数表法:从随机数表上的任意位置、随机数表法:从随机数表上的任意位置开始,横向或开始,横向或纵纵向地向地连续选择连续选择数字,每个数字,每个数字所代表的那个元素就被数字所代表的那个元素就被选选入入样样本。本。3、计计算机模算机模拟拟法;法;4、使用、使用统计软统计软件直接抽取件直接抽取47.48.二、系二、系统统抽抽样样(systematic sampling)又称等距抽样、机械抽
29、样,就是先将总体各元素按一定标准排序编号,再根据样本规模确定抽样间隔,然后随机确定以某个元素为起点,每隔若干个元素抽取一个,直到抽取元素符合样本规模的要求。抽样间距=总体规模 样本规模49.先按某种顺序给800名观众编号,然后随机确定起点为12,K=80010=80,则样本包括编号为 12,92,172,252,332,412,492,572,652,732的十个人。例:使用系例:使用系统统抽抽样样从从800名名观观众中抽取众中抽取10名名作作为调查对为调查对象象50.1、媒介内容分析:、媒介内容分析:构成周抽构成周抽样样2、系、系统统抽抽样样有可能造成抽有可能造成抽样误样误差。差。如抽如抽样
30、样框里的框里的800800个元素按收入高低排序:个元素按收入高低排序:1212,9292,172172,252252,332332,412412,492492,572572,652652,7327327575,155 155,235 235,315 315,395395,475475,555555,635635,715715,795795因此,抽因此,抽样样框里的元素要不要按照某种框里的元素要不要按照某种顺顺序序排列,要看排列,要看这这种种顺顺序是否影响了研究序是否影响了研究变变量。量。3 3、避开抽、避开抽样样框里的元素排列周期框里的元素排列周期51.三、三、分分层层抽抽样样也称分也称分类类
31、抽抽样样,方法是将,方法是将总总体按照某些重要体按照某些重要的指的指标标分成若干个互不重叠、分成若干个互不重叠、穷穷尽的尽的层层次,次,使使总总体中的每一个体中的每一个单单位都属于且只属于一个位都属于且只属于一个层层次,然后在每一次,然后在每一层层内分内分别进别进行行简单简单随机抽随机抽样样或系或系统统抽抽样样,将各,将各层层所抽取出的子所抽取出的子样样本本组组成成总总的研究的研究样样本。本。52.小学或以下小学或以下10%初中初中20%大大专专以上以上30%高中或中高中或中专专40%大大专专以上以上3000人人N1高中或中高中或中专专4000人人N2初中初中2000人人N3小学或以下小学或以
32、下1000人人N430n140n220n310n4总总体体N=10000样样本本n=100人人某某电视电视台需要了解某个台需要了解某个电视节电视节目的受众接受程度,以目的受众接受程度,以观观众众受教育程度受教育程度为标为标志,划志,划为为四个四个层层次:小学及以下、初中、次:小学及以下、初中、高中或中高中或中专专、大、大专专及以上分及以上分别别取取样样,合并成,合并成样样本。本。53.分分层层抽抽样样的的优优点:点:1 1、降低抽、降低抽样误样误差:分差:分层层抽抽样样可以避免可以避免样样本本差异差异过过大大导导致的抽致的抽样样分布不准确。分布不准确。2 2、了解不同、了解不同层层的情况的情况
33、当具当具备备某些特征的个体在某些特征的个体在总总体里所占比例体里所占比例比比较较少,而少,而这这些特征又可能会影响最些特征又可能会影响最终终的的研究研究结结果果时时,研究者往往采用分,研究者往往采用分层层抽抽样样。54.如研究我国新如研究我国新闻闻工作者的工作者的职业职业意意识识。研究者希望能研究者希望能够发现够发现新新闻闻工作者的地理位置工作者的地理位置和他和他们们的的报报道道风风格、收入水平、教育程度等格、收入水平、教育程度等因素之因素之间间的关系。的关系。东东部大城市的新部大城市的新闻闻工作者要多工作者要多过过于西部,如于西部,如果果进进行行简单简单随机抽随机抽样样,西部的入,西部的入样
34、样概率低于概率低于东东部。部。因此首先得按照地理位置(因此首先得按照地理位置(东东南西北)和每南西北)和每个省的国民生个省的国民生产总值产总值(高中低)将全国(高中低)将全国3131个个省划分省划分为为1212组组,然后在每一,然后在每一组组里里进进行随机抽行随机抽样样,最后的,最后的样样本才能本才能够够体体现现不同地理位置、不同地理位置、不同不同经济发经济发达程度地区的新达程度地区的新闻闻工作者的特征。工作者的特征。55.在在实际实际操作中,使用分操作中,使用分层层随机抽随机抽样应样应注意以下注意以下几点:几点:1 1、分分层层的的标标志必志必须须可以把可以把总总体分隔体分隔为为相互排相互排
35、斥的斥的层层次,而次,而层间层间不能交叉重叠;不能交叉重叠;2、各、各层层之之间间差异大,但差异大,但层层内差异小;内差异小;3、各、各层单层单位数目和比例必位数目和比例必须须能能够获够获得;得;4、分、分层层的的层层次数量不宜太多。次数量不宜太多。56.分分层层抽抽样样与配与配额额抽抽样样相同点:相同点:都是事先都是事先对总对总体中所有体中所有单单位按其属性、特征位按其属性、特征进进行分行分类类,这这些属性、特征我些属性、特征我们们称之称之为为“控控制特征制特征”;不同点:不同点:分分层层抽抽样样是按随机原是按随机原则则在在层层内抽内抽选样选样本(本(简简单单随机抽随机抽样样&系系统统抽抽样
36、样),配),配额额抽抽样则样则是由是由调查调查人人员员在配在配额额内主内主观观判断判断选选定定样样本(偶遇本(偶遇抽抽样样&立意抽立意抽样样)。)。57.当研究者的抽当研究者的抽样样框不完整,研究框不完整,研究对对象在地象在地理位置上理位置上过过于分散,而研究于分散,而研究经费经费有限有限时时,研究者如何抽研究者如何抽样样?58.四、整群抽四、整群抽样样(cluster sampling)或群集抽或群集抽样样,是先将,是先将总总体划分体划分为为若干个群集,若干个群集,然后以然后以简单简单随机抽随机抽样样的方法的方法选选取部分群集作取部分群集作为调查样为调查样本,本,对对群集内各个群集内各个单单
37、位位进进行行调查调查的的一种随机抽一种随机抽样样方法。方法。优优点:点:1.可以通可以通过转换过转换抽抽样单样单位位扩扩大抽大抽样样的的应应用范用范围围2.可可节节省人力、省人力、财财力力59.总总体群数体群数R=16 样样本群数本群数r=4 样样本容量本容量ABCDEFGHIJKLMNOPLHPD(一)(一)单级单级整群抽整群抽样样60.1 1、定、定义义 又称多又称多阶阶抽抽样样、多、多级级抽抽样样或分段抽或分段抽样样,它是,它是按抽按抽样样元素的隶属关系或元素的隶属关系或层层次关系,把抽次关系,把抽样样过过程分程分为为几个几个阶阶段段进进行。行。调查对调查对象象总总体体庞庞大,分布广泛大
38、,分布广泛时时采用。采用。如:全国如:全国省省市市区(区(简单简单随机抽随机抽样样)(二)多(二)多级级整群抽整群抽样样61.2、多、多级级整群抽整群抽样样的步的步骤骤以大群以大群为单为单位位编编制抽制抽样样框框抽取若干大群抽取若干大群以小群以小群为单为单位位给给每个大群每个大群编编制抽制抽样样框框分分别别从每个大群中抽取小群从每个大群中抽取小群根据需要重复根据需要重复3、4步步骤骤得到基本元素,构成研究得到基本元素,构成研究样样本本62.多多级级整群抽整群抽样样案例案例共有共有50个村个村270人人200人人180人人170人人160人人 190人人 110人人 180人人 210人人200
39、人人170人人190人人210人人20人人20人人20人人20人人总总体体N=10000样样本本n=100110人人20人人63.案例案例调查调查背景:背景:为为了解普通居民了解普通居民对对某种新某种新节节目的接受程目的接受程度,需要在一个城市中抽度,需要在一个城市中抽选选10001000户户居民开展居民开展调查调查,在每在每户户居民中,居民中,选择选择1 1名家庭成名家庭成员员作作为为受受访访者。者。总总体抽体抽样设计样设计:由于一个城市中居民的:由于一个城市中居民的户户数可能多数可能多达数百万,除了一些大型的市达数百万,除了一些大型的市场场研究机构和国家研究机构和国家统统计计部部门门之外,
40、大多数企之外,大多数企业业都不具有都不具有这样庞这样庞大的居民大的居民户户名名单单。这这种情况决定了抽种情况决定了抽样设计样设计只能采取多只能采取多阶阶段段抽抽选选的方式。的方式。根据根据调查调查要求,抽要求,抽样样分分为为两个两个阶阶段段进进行,第一行,第一阶阶段段是从全市的居委会名是从全市的居委会名单单中抽中抽选选出出5050个个样样本居委会,本居委会,第二第二阶阶段是从每个被段是从每个被选选中的居委会中,抽中的居委会中,抽选选出出2020户户居民。居民。64.1 1、对对居委会的抽居委会的抽选选 从统计或者民政部门,我们可以获得一个城市的居委会名单。将居委会编上序号后,用计算机产生随机数
41、的方法,可以简单地抽选出所需要的50个居委会。2 2、在居委会中的抽、在居委会中的抽样样 在选定了居委会之后,对居民户的抽选将使用居委会地图来进行操作。此时,需要派出一些抽样员,到各居委会绘制居民居民户户的分布的分布图图,抽样员需要了解居委会的实际位置、实际覆盖范围,并计算每一幢楼中实际的居住户数。然后,抽样员根据样本量的要求,采用系统抽样或者其他方法,抽选出每个居委会的20户,作为最终访问的样本。65.3 3、确定受、确定受访访者者 访问员根据抽样员选定的样本户,进行入户访问。以谁为实际的被调查者,是抽样设计中最后一个问题。如果调查内容涉及的是受访户的家庭情况,则对受访者的选择可以根据成员在
42、家庭生活中的地位确定,例如,可以选择收视时间最长的人、收入最高的人、实际负责购买决策的人等等。66.3、多、多级级整群抽整群抽样样的的误误差:差:每每级级抽抽样样都会有都会有误误差,故差,故误误差差较较大。大。群集之群集之间间的差异越大,的差异越大,则则整群抽整群抽样样的的误误差越大。差越大。67.当当对对某市的新某市的新闻闻工作者工作者进进行行调查时调查时,研究者,研究者需要从全市需要从全市1010家新家新闻单闻单位中抽取具体的人,位中抽取具体的人,一个有两千一个有两千职职工的工的电视电视台与一个只有四十人台与一个只有四十人的的杂杂志社所占的地位志社所占的地位,显显然是很不一然是很不一样样的
43、。的。如果此如果此时时仍然采用等概率抽仍然采用等概率抽样样的方法,的方法,则样则样本的代表性和精度都会比本的代表性和精度都会比较较差。而如果采用差。而如果采用不等概率抽不等概率抽样样的方法,使大的新的方法,使大的新闻单闻单位入位入选选样样本的概率大一些,小的新本的概率大一些,小的新闻单闻单位入位入选样选样本本的概率小一些,的概率小一些,这样这样就可以大大提高估就可以大大提高估计计的的精度。精度。68.PPS PPS抽抽样样(Sampling with probability (Sampling with probability proportional to size)proportional
44、 to size)概率与元素的概率与元素的规规模大小成比例的抽模大小成比例的抽样样:l指在指在总总体中参照各体中参照各单单位的位的规规模(重要性)模(重要性)进进行抽行抽样样,规规模大的被抽取的机会大,模大的被抽取的机会大,总总体中体中每个个体被抽中的概率与每个个体被抽中的概率与该该个体的个体的规规模成正模成正比的抽比的抽样样。69.PPS的基本步的基本步骤骤:确定每个群集的确定每个群集的规规模模计计算它算它们们的的规规模在模在总总体体规规模中的比例模中的比例将将这这些比例累加起来些比例累加起来根据比例的累根据比例的累积积数数给给每个群集分配相每个群集分配相应应的代的代码码采用随机数表或系采用
45、随机数表或系统统抽抽样样来确定入来确定入选选的代的代码码,代代码码所所对应对应的群集被抽中的群集被抽中70.PPSPPS抽抽样样案例案例19991999年北京广播学院年北京广播学院调查设计调查设计中国人民中国人民银银行城行城镇储户调查镇储户调查抽抽样样方案中,第一方案中,第一阶阶段采段采用用PPSPPS抽抽样样的方法在的方法在655655个城市中随机抽取个城市中随机抽取5050个城市。个城市。71.首先,把全国首先,把全国655655个城市按照个城市按照“城城乡乡居民年末居民年末储储蓄余蓄余额额”、“年末市区人口数年末市区人口数”、“职职工平均工工平均工资资水平水平”、“社会消社会消费费品零售
46、品零售总额总额”、“人口密人口密度度”这这5 5个和个和储储蓄行蓄行为紧为紧密有关的指密有关的指标标把全部城把全部城市分市分为为5 5层层,如表:,如表:层层特征特征所包含城市数所包含城市数一一特大城市特大城市2二二大城市大城市13三三人口密度的大中城市人口密度的大中城市49四四经济经济活活跃跃的中等城市的中等城市156五五经济经济欠欠发发达的中小城市达的中小城市435合合计计65572.按照按照ppspps操作可以根据城市的大小操作可以根据城市的大小给给以每个城市以每个城市不同的被抽中机会。根据不同的被抽中机会。根据这这个思路接着考察每个思路接着考察每层层中各城市的市区人口数并决定每中各城市的市区人口数并决定每层应层应抽取的抽取的城市数。城市数。层层所包含城所包含城市市市区人口市区人口数数每每层层占全占全部的部的%应应抽取的抽取的城市数城市数一一21689.423.3%2二二134599.089.0%5三三493822.447.5%4四四15612772.7425.1%12五五43528066.0355.1%27合合计计65550958.71100%5073.
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100