1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第六章 抽样,第一节 抽样的意义与作用,第二节 概率抽样的原理与程序,第三节 概率抽样方法,第四节 户内抽样与,PPS,抽样,第五节,非概率抽样方法,第六节 样本规模与抽样误差,第一节 抽样意义与作用,一、抽样的概念,(,1,)总体(,population,):构成它的,所有元素,的集合,,用,“,N,”,表示。,(,2,)元素(,element):,构成总体的最基本单位。,(,3,)样本(,sample,):从总体中按一定的方式抽取出来的一部分元素的集合,即总体的一个子集。,用,“,n,”,表示,一、抽
2、样的概念,(,4,),抽样(,sampling,):按一定的方式从总体中选择、抽取样本的过程。,(,5,)抽样单位(,sampling,unit,),一次直接抽样所使用的基本单位。,抽样单位与构成总体的元素相同,:,从某高校,30000,名大学生中一次直接抽取,600,名作为样本,抽样单位与构成总体的元素不同,:,从某高校一次直接抽取,20,个班,以这,20,个班的全部学生作为样本,一、抽样的概念,(,6,)抽样框(,sampling,frame,),:又称作,抽样范围,一次直接抽样时总体所有抽样单位的名单。,(,7,)参数值(,parameter,):也称总体值,关于总体某一变量的综合描述。
3、8,)统计值(,statistic,):又称样本值,关于样本中某一变量的综合描述。,字母表示不同,样本统计值与总体参数值的关系,一一对应,:M,p,s,调研目的就是由统计值估计、推断参数值,参数值不变、唯一、未知,统计值则反之,二、抽样的作用,是实现由部分认识总体的关键环节。,是架在研究者有限的时间、人力、经费与研究对象的庞大、广阔、复杂二者之间的一座桥梁,!,二、抽样的作用,总 体,样 本,推 论,抽 样,统计值,参数值,(点值估计),(区间估计),三、抽样的类型,抽样方法,概率,抽样,非概率,抽样,简单随机抽样,系统抽样,分层抽样,整群抽样,多段抽样,偶遇抽样,判断抽样,定额抽样,第
4、二节 概率抽样的原理与程序,同质性,异质性,概率抽样:,保证总体中的每一个个体都有,同等且独立,的机会入选样本。,一、概率抽样的基本原理,二、抽样分布,样本容量从,1,到,5,正态分布,三、抽样的一般程序,界定总体,制定抽样框,决定抽样方案,实际抽取样本,评估样本质量,范围与界限,抽样单位名单,抽样方法、样本规模等,预先抽样、即时抽样,指标对比、加权,四、抽样设计的原则,目的性,原则:以课题研究的总体方案和研究的,目标为依据。,可测性,原则:能够从样本自身计算出有效的,估计值 或者抽样变动的近似值。,可行性,原则:必须在实践上切实可行。,经济性,原则:与研究的可得资源相适应。,第三节 概率抽样
5、方法,按等概率原则直接从含有,N,个元素的总体中抽取,n,个元素组成样本,(Nn).,常用方法:,抽签法,随机数表法,一、简单随机抽样,抽签法,编号,写纸条,放入容器,搅拌,抽取,一、简单随机抽样,随机数表法,抽样框,随机数选取,抽取对应样本,确定位数,抽取足够数,编号,二、系统抽样,先把总体的单位,编码排序,后,再,计算出某种间隔,,然后按这一,固定间隔抽取个体号码,组成样本的方法。,系统抽样,抽样框与编号,计算抽样间距,K,1-K,号中随机抽取,1,个元素,A,样本,:,A+(n-1)K,001,011,021,031,091,002,012,022,032,092,003,013,023
6、033,093,004,014,024,034,094,005,015,025,035,095,006,016,026,.,096,007,017,027,097,008,018,028,098,009,019,029,099,010,020,030,100,K=N/n,注意,:,(,1,)总体名单有排列,顺序,;,(,2,)总体中个体排列的,周期性分布,。,三、分层抽样,先,将总体的所有元素按某种特征或标志划分成若干层次或类型,,然后,再在各个层次或类型中采用简单随机抽样或系统抽样的方法抽取一个个子样本,,最后,把这些子样本合起来构成总体的样本。,分层抽样,优点:,降低抽样误差提高精度,便
7、于理解总体不同层次,分层,随机抽取,分层抽样的运用,(,1,)分层的标准,a,:以分析的主要变量或相关变量,b,:保证各层内部同质性强,各层之间异质性强突出总体内在结构的变量作为分层变量。,c,:以那些已有明显层次区分的变量作为分层变量,(,2,)分层的比例,a,:按比例分层抽样,b,:不按比例分层抽样,按比例分层抽样,学生,1200,女生,1000,(,5/6,),男生,200,(,1/6,),100,人,20,人,抽 样,(120,人),样本,120,5/6,1/6,分层,按各种类型或层次中单位数目同总体单位数目间的比例来抽取子样本的方法。可以确保得到一个与总体结构完全一样的样本。,不按比
8、例分层抽样,学生,1200,分层,女生,1000,(,5/6,),男生,200,(,1/6,),抽 样(,120,人),60,人,60,人,1/2,1/2,样本,120,注意:当用样本统计值,推断总体时,,必须对样本中各层的比例进行,加权处理,,使其恢复到总体中各层的比例结构。,四、整群抽样,它是从总体中随机抽取一些小的,群体,,然后由,抽出的若干个,小群内的所有元素,构成调查的样,本的方法。,整群抽样,不同子群,子群抽取,优点,:,简便易行,节省费用,扩大抽样应用范围,缺点,:,样本分布不广,,代表性相对较差,适用,对象:,总体的不同子群之间差别不大,,而每个子群内部差异较大,五、多段抽样,
9、按抽样元素的隶属、层级关系把抽样过程分为几个阶段进行:,先,从总体中随机抽取几个,大群,,然后,再,从这几个大群内随机抽取几个,小群,,这样,一级级抽,下去直到抽到,最基本的元素,为止,。,运用注意:,类别和个体之间保持平衡,比如说要在某市抽,1000,名中学生作调查。,可抽,20,所学校,每所学校抽,50,名学生;,也可只抽,5,所学校,每所学校抽,200,名学生。,如何选择呢?,如何确定每一级抽样的单位数目呢?考虑,的因素有三个方面:,一是各个抽样阶段中的子总体异质性程度;,二是各层子总体的人数;,三是研究者所拥有的人力和经费。,优点:,无需总体名单,各段抽样单位数较少,缺点:,总的抽样误
10、差较大,适用对象:,总体对象多,分布范围广,一、户内抽样,Kish,抽样法,调查表按比例分类,按照选择表确定对象,入户对户内成人按先男后女先长后幼顺序编号,同时获得样本家庭和个人资料,实际调查中的,简化,方法:,生日法,第四节 户内抽样与,PPS,抽样,二、,PPS,抽样,多段抽样因为,群规模大小不同,导致非等概率,假设一小城市有,100000,户居民,分属,200,个居委会。如果从总体中抽取,1000,户居民,构成样本,我们可能先从,200,个居委会中,随机抽取,20,个居委会;然后,在所抽取的,20,个居委会中,每个居委会随机抽取,50,户,居民。这样,我们总共抽到,1000,户居民。,当
11、居委会的规模大小不一样时,还能保证随机抽样的等概率原则吗?,甲居委会有,800,户居民,第一阶段抽中的概率为,20/200,;第二阶段被抽中的概率为,50/800,;甲居委会居民户被抽中的概率为,20/200,50/800=1/160,乙居委会只有,200,户居民,第一阶段抽中的概率为,20/200,;第二阶段被抽中的概率,50/200,;乙居委会居民户被抽中的概率为,20/200,50/200=1/40,二、,PPS,抽样,在社会调查中,有一种常用的不等概率抽样方法,叫做“概率与元素的规模大小成比例的抽样”,(sampling with probability proportional to
12、 size,,简称,PPS,抽样,),。,其原理可以通俗地理解成以阶段性的(或暂时)不等概率换取最终的、总体的等概率。,二、,PPS,抽样,我们还可以用下列公式来说明,PPS,抽样的这种原理:,每一个元素被抽中的概率,=,所抽取的群数,(群的规模,/,总体的规模),(平均每个群体中所要抽取的元素,/,群的规模,),甲:概率,=20,(800/100000),(50/800)=1/100,乙:概率,=20,(200/100000),(50/200)=1/100,二、,PPS,抽样,二、,PPS,抽样,局限:,需要知道每一个群的规模,一、偶遇抽样,碰到谁就选谁的简便方法,并不具有随机性,又称方便抽
13、样或自然抽样,指研究者根据现实情况,以自己,方便,的形式抽取,偶然遇到,的人作为调查对象,或仅仅选择那些,离得最,近的、,最容易找到,的人作为调查对象。,第五节 非概率抽样,二、判断抽样,研究者对总体情况熟悉,经验丰富,有理论修养,研究者主观能动性强,样本代表性难判断,又称立意抽样:研究者根据研究目标和自己的主观分析来选择和确定调查对象的方法,三、定额抽样,研究者要尽可能地依据那些有可能影响研究变量的各种因素来,对总体分层,,并找出具有各种不同特征的成员在总体中所,占的比例,。然后依据这种划分以及各类成员的比例,,采用偶遇或判断抽样,的方法去选择调查对象,使样本中的成员在上述各种因素、各种特征
14、方面的构成和在,样本的比例尽量接近总体,情形。,一、定额抽样,200,样本量的定额抽样实例:性别,/,年龄,/,收入,高收入,中收入,低收入,总计,男,女,男,女,男,女,18-34,岁,4,4,6,6,10,10,40,35-44,岁,7,7,9,9,14,14,60,45-60,岁,6,6,10,10,19,19,70,61+,3,3,5,5,7,7,30,合计,20,20,30,30,50,50,200,总计,40,60,100,比较:,定额抽样,VS,分层抽样,随机性,第六节 样本规模与抽样误差,一、样本规模(,sample size,),样本容量,指样本中所含个案的多少。,统计学中通
15、常以,30,为界,把样本分为大样本,(30,个个案及以上,),和小样本,(30,个个案以下,),。,社会调查中样本规模至少不能少于,100,个个案,样本规模的计算,简单随机抽样,中样本规模的计算,推论总体均值:,max,推论总体成数:,置信水平对应的临界值,总体的标准差,允许的抽样误差,总体的百分比,95%,置信水平下不同抽样误差所要求的样本规模,允许误差(,e%,)样本规模 允许误差(,e%,)样本规,模,1.0,10000,6.0,277,1.5,4500,6.5,237,2.0,2500,7.0,204,2.5,1600,7.5,178,3.0,1100,8.0,156,3.5,816,8.5,138,4.0,625,9.0,123,4.5,494,9.5,110,5.0,400,10.0,100,5.5,330,二、影响样本规模确定的因素,总体的规模,推断的把握性与精确性要求,总体的异质性程度,调查者所拥有的,经费、人力和时间,三、样本规模与抽样误差,抽样误差,(,sampling error,),用样本统计值去估计总体参数值时所出现的误差,是由于抽样本身的,随机性,所引起的误差。,小样本,增加样本,抽样误差减少,大样本,增加样本,抽样误差,减少很小,非抽样误差,