收藏 分销(赏)

初级第四章分层随机抽样.ppt

上传人:精*** 文档编号:1547623 上传时间:2024-05-01 格式:PPT 页数:83 大小:10.52MB 下载积分:18 金币
下载 相关 举报
初级第四章分层随机抽样.ppt_第1页
第1页 / 共83页
初级第四章分层随机抽样.ppt_第2页
第2页 / 共83页


点击查看更多>>
资源描述
抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 第一节第一节 基本问题基本问题 一、什么是分层随机抽样一、什么是分层随机抽样 抽样调查抽样调查 原理与方法原理与方法利用辅助信息,在抽样之前将总体的利用辅助信息,在抽样之前将总体的N N个单元划分为互个单元划分为互不交叉、重叠的不交叉、重叠的L L个层,每一层包含的单元数分别为个层,每一层包含的单元数分别为 ,从而,从而 。随后,抽样在每。随后,抽样在每个层中独立地进行,分别从各个层中抽取大小为个层中独立地进行,分别从各个层中抽取大小为 ,的样本,得到的大小为的样本,得到的大小为 ()()的样本称为分层样本。的样本称为分层样本。由上述定义,在每个层内采用的抽样方法可以相同,也由上述定义,在每个层内采用的抽样方法可以相同,也可以不同。若每层中的抽样都是简单随机抽样,那可以不同。若每层中的抽样都是简单随机抽样,那么这种分层抽样就称作分层随机抽样,所得到的样么这种分层抽样就称作分层随机抽样,所得到的样本称为分层随机样本。本称为分层随机样本。抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 二、特点二、特点 1.1.提高估计精度提高估计精度分分层层抽抽样样如如果果实实施施的的好好,将将可可以以提提高高整整体体估估计计的的精精度度,即即抽抽样样效效率率较较高高。这这是是因因为为分分层层抽抽样样估估计计量量的的方方差差只只和和层层内内方方差差有有关关,和和层层间间方方差差无无关关。因因此此,人人们们可可以以通通过过对对总总体体分分层层,尽尽可可能能地地降降低低层层内内差差异异,使使层层间间差差异异尽尽可可能能大大,从从而而提提高高估估计计的的精精度度。比比如如,不不同同年年龄龄的的人人血血压压值值通通常常存存在在很很大大差差异异,因因此此在在研研究究血血压压的的时时候候,按按照照不不同同的的年年龄龄分分类类是是很很有有意意义义的的。在在研研究究地地区区农农作作物物产产量量的的时时候候,按按照照地地形形的的不不同同分分类类也也是是很很有有意意义义的的,沼沼泽泽地里的农作物和森林里的农作物就有很大差异。地里的农作物和森林里的农作物就有很大差异。抽样调查抽样调查 原理与方法原理与方法2.2.可对各层进行估计可对各层进行估计分分层层抽抽样样不不仅仅能能对对总总体体指指标标进进行行推推算算,而而且且能能够够对对各各层层指指标标进进行行推推算算。有有时时候候,调调查查的的目目的的不不仅仅要要推推算算总总体体指指标标,而而且且需需要要推推算算各各层层的的指指标标。例例如如,某某省省准准备备实实施施一一项项针针对对全全省省中中小小企企业业的的调调查查,以以了了解解它它们们的的生生存存状状况况,要要求求最最终终能能给给出出各各企企业业所所属属行行业业的的相相关关指指标标。从从而而,如如果果按按行行业业进进行行分分层层,调调查查所所得得的的样样本本则则不不仅仅能能推推算全省的指标,还能对各个行业的相关指标进行推算。算全省的指标,还能对各个行业的相关指标进行推算。抽样调查抽样调查 原理与方法原理与方法3 3.便于组织便于组织分层抽样实施起来灵活方便,也便于组织。一方面,由于抽样在各层分层抽样实施起来灵活方便,也便于组织。一方面,由于抽样在各层独立进行,因而允许我们视层内的具体情况采用不同的抽样方法。独立进行,因而允许我们视层内的具体情况采用不同的抽样方法。例如,在一个商业调查中,规模较大的公司可能采取邮寄的方式例如,在一个商业调查中,规模较大的公司可能采取邮寄的方式调查,而小的公司可能采用入户调查或者电话调查的方式。再比调查,而小的公司可能采用入户调查或者电话调查的方式。再比如,对于某些调查,针对城市和农村可能要采用不同的调查方法。如,对于某些调查,针对城市和农村可能要采用不同的调查方法。另一方面,分层抽样的数据处理比较简单,各层的数据处理可以另一方面,分层抽样的数据处理比较简单,各层的数据处理可以单独进行,而层间汇总方式又非常简单,对估计量而言仅是对均单独进行,而层间汇总方式又非常简单,对估计量而言仅是对均值估计的加权平均或是对总量估计的简单相加,相应的精度估计值估计的加权平均或是对总量估计的简单相加,相应的精度估计也不复杂。也不复杂。抽样调查抽样调查 原理与方法原理与方法4.4.避免样本结构与总体结构避免样本结构与总体结构严重严重失真失真与简单随机样本相比,分层样本由于分别抽自各层,因而在总体中的与简单随机样本相比,分层样本由于分别抽自各层,因而在总体中的分布更为均匀,能较大程度地避免样本结构与总体结构严重失真分布更为均匀,能较大程度地避免样本结构与总体结构严重失真的情形发生。假如要进行全国使用语言文字的调查,估计讲普通的情形发生。假如要进行全国使用语言文字的调查,估计讲普通话、少数民族语言以及地方方言的人数等情况,如果采用简单随话、少数民族语言以及地方方言的人数等情况,如果采用简单随机抽样,则很难抽到一个代表使用各种语言文字的样本。由于抽机抽样,则很难抽到一个代表使用各种语言文字的样本。由于抽样的随机性,一些少数民族可能不会出现在样本中。此时如果采样的随机性,一些少数民族可能不会出现在样本中。此时如果采用按民族划分的分层抽样,就能够较大程度地避免样本结构失真用按民族划分的分层抽样,就能够较大程度地避免样本结构失真的问题,获得对总体而言更有代表性的样本。的问题,获得对总体而言更有代表性的样本。抽样调查抽样调查 原理与方法原理与方法三、分层原则三、分层原则根据分层抽样的特点,分层除了可以提供层指标和便于调查的组织实施,通常,根据分层抽样的特点,分层除了可以提供层指标和便于调查的组织实施,通常,使用分层抽样的主要目的是为了提高估计的精度。使用分层抽样的主要目的是为了提高估计的精度。总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个层总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个层或不属于任何一个层。或不属于任何一个层。分层抽样通常分层抽样通常考虑考虑如下如下原则原则:1 1可以对调查对象按不同类型进行划分,划分后层内单元具有相同性可以对调查对象按不同类型进行划分,划分后层内单元具有相同性质。这时,分层抽样能够对每一类的目标量进行估计。质。这时,分层抽样能够对每一类的目标量进行估计。2 2为了方便抽样的组织和实施,通常按行政管理机构设置进行分层。为了方便抽样的组织和实施,通常按行政管理机构设置进行分层。抽样调查抽样调查 原理与方法原理与方法3 3目标总体应具有这样的结构:即对总体分层后能使得层内单目标总体应具有这样的结构:即对总体分层后能使得层内单元的标志值尽量相近,而层间单元的差异尽可能大。这时,元的标志值尽量相近,而层间单元的差异尽可能大。这时,分层抽样能够达到提高抽样估计精度的目的。分层抽样能够达到提高抽样估计精度的目的。4 4既按类型又按层内单元标志值相近的原则进行多重分层,可既按类型又按层内单元标志值相近的原则进行多重分层,可同时达到实现估计类值和提高估计精度的目的。同时达到实现估计类值和提高估计精度的目的。抽样调查抽样调查 原理与方法原理与方法四、四、实施方法实施方法首先,根据分层的目的确定分层的标志,也就是首先,根据分层的目的确定分层的标志,也就是首先,根据分层的目的确定分层的标志,也就是首先,根据分层的目的确定分层的标志,也就是应根据研究的需要来分层。应根据研究的需要来分层。应根据研究的需要来分层。应根据研究的需要来分层。分层的目的不同,分层的分层的目的不同,分层的标志通常也不一样:为了便于抽样的组织管理,可以按总体单元标志通常也不一样:为了便于抽样的组织管理,可以按总体单元的组织系统来分层;为了了解各地区子总体的情况,可以按地区的组织系统来分层;为了了解各地区子总体的情况,可以按地区来分层;为了提高抽样效率,可以把标志值大小相近的单元划在来分层;为了提高抽样效率,可以把标志值大小相近的单元划在同一层内,按标志值大小分层。上述分层目的如果能够统一起来同一层内,按标志值大小分层。上述分层目的如果能够统一起来则最佳,如果不能统一则需要权衡利弊,服从主要目的。另外,则最佳,如果不能统一则需要权衡利弊,服从主要目的。另外,当分层的目的是为了提高抽样效率时,由于现实中的调查通常是当分层的目的是为了提高抽样效率时,由于现实中的调查通常是多指标的,那么就会有以哪个指标作为分层标志的问题。这时需多指标的,那么就会有以哪个指标作为分层标志的问题。这时需要视具体情况来决定是按照主要指标来分层,还是施行照顾多数要视具体情况来决定是按照主要指标来分层,还是施行照顾多数指标的折衷方案来分层。指标的折衷方案来分层。抽样调查抽样调查 原理与方法原理与方法其次,实施分层抽样,要求事先掌握总体单元的有关信其次,实施分层抽样,要求事先掌握总体单元的有关信其次,实施分层抽样,要求事先掌握总体单元的有关信其次,实施分层抽样,要求事先掌握总体单元的有关信息,如分层的抽样框,分层后各层的总体单元数等。息,如分层的抽样框,分层后各层的总体单元数等。息,如分层的抽样框,分层后各层的总体单元数等。息,如分层的抽样框,分层后各层的总体单元数等。但在某些场合,我们可能没有层的抽样框。这时可以采用先抽样,再根但在某些场合,我们可能没有层的抽样框。这时可以采用先抽样,再根据样本单元进行分层的办法。这种分层称作事后分层,将在本章的据样本单元进行分层的办法。这种分层称作事后分层,将在本章的后面后面加以介绍。加以介绍。最后,要确定层的划分界限,即划分多少层的问题。最后,要确定层的划分界限,即划分多少层的问题。最后,要确定层的划分界限,即划分多少层的问题。最后,要确定层的划分界限,即划分多少层的问题。如果如果用于分层的指标是属性变量,如性别、行政区划等,通常可按其分类值用于分层的指标是属性变量,如性别、行政区划等,通常可按其分类值直接进行划分。但有时候也需要根据研究目的来确定层的粗细,比如全直接进行划分。但有时候也需要根据研究目的来确定层的粗细,比如全国按地区分层,既可以按行政区划的省、市分层,也可以按经济发展情国按地区分层,既可以按行政区划的省、市分层,也可以按经济发展情况将几个省市归并在一起作为一个层。而如果用于分层的指标是数值型况将几个省市归并在一起作为一个层。而如果用于分层的指标是数值型变量,例如工业企业可按产值或增加值分层,人口可按年龄分层等,这变量,例如工业企业可按产值或增加值分层,人口可按年龄分层等,这时划分多少个层,就具有很大的灵活性。此时需要综合考虑研究目的、时划分多少个层,就具有很大的灵活性。此时需要综合考虑研究目的、抽样框的可获得性、如何提高抽样效率等多方面的因素,做到恰当的分抽样框的可获得性、如何提高抽样效率等多方面的因素,做到恰当的分层。层。抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 五、符号五、符号 总体总体 样本样本第第 层单位数层单位数 单位数总和单位数总和 第第 层均值层均值 第第 层方差层方差 抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 第第 层权数层权数 第第 层抽样比层抽样比等比例抽样等比例抽样 即:即:不等比抽样不等比抽样 抽样调查抽样调查 原理与方法原理与方法第二节 估 计 量一、对总体均值的估计一、对总体均值的估计分层样本分层样本,总体均值总体均值 的估计的估计分层随机样本分层随机样本,总体均值总体均值 的简单估计的简单估计 抽样调查抽样调查 原理与方法原理与方法估计量的性质 性性质质1 1:对对于于一一般般的的分分层层抽抽样样,如如果果 是是 的的无无偏偏估估计计(),则则 是是 的的无无偏偏估估计计。的的方方差差为:为:只要对各层估计无偏,则总体估计也无偏。只要对各层估计无偏,则总体估计也无偏。n各各层层可可以以采采用用不不同同的的抽抽样样方方法法,只只要要相相应应的的估估计计量量是无偏的,则对总体的推算也是无偏的。是无偏的,则对总体的推算也是无偏的。抽样调查抽样调查 原理与方法原理与方法证明性质1 由于对每一层有由于对每一层有 因此,因此,估计量的方差估计量的方差 由由于于各各层层是是独独立立抽抽取取的的,因因此此上上式式第第二二项项中中的的协协方方差差全全为为0 0,从而有,从而有 抽样调查抽样调查 原理与方法原理与方法 性质性质2 2:对于分层随机抽样,:对于分层随机抽样,是是 的无偏估计,的无偏估计,的方差为:的方差为:抽样调查抽样调查 原理与方法原理与方法证明性质2:对对于于分分层层随随机机抽抽样样,各各层层独独立立进进行行简简单单随随机机抽抽样样,对每一层有对每一层有 因此,由性质因此,由性质1 1,有,有 由第二章性质由第二章性质2 2,得,得 因此因此 抽样调查抽样调查 原理与方法原理与方法 性性质质3 3:对对于于分分层层随随机机抽抽样样,的的一一个个无无偏偏估计为:估计为:抽样调查抽样调查 原理与方法原理与方法证明性质3:对对于于分分层层随随机机抽抽样样,各各层层独独立立进进行行简简单单随随机机抽抽样样,由由第第二二章章性性质质3 3,得得 的的无无偏偏估估计为:计为:因此,因此,的一个无偏估计为:的一个无偏估计为:抽样调查抽样调查 原理与方法原理与方法二、对总体总量的估计 总体总量总体总量 的估计为:的估计为:如果得到的是分层随机样本,则总体总量的如果得到的是分层随机样本,则总体总量的简单估计为:简单估计为:抽样调查抽样调查 原理与方法原理与方法2.2.估计量的性质估计量的性质性质性质4 4:对于一般的分层抽样,如果:对于一般的分层抽样,如果是是 的的无无偏偏估估计计,则则 是是 的的无无偏偏估估计计。的的方差为:方差为:抽样调查抽样调查 原理与方法原理与方法性质性质5 5:对于分层随机抽样,:对于分层随机抽样,的方差为:的方差为:抽样调查抽样调查 原理与方法原理与方法性质性质6 6:对于分层随机抽样,:对于分层随机抽样,的一个无偏的一个无偏估计为:估计为:抽样调查抽样调查 原理与方法原理与方法例3.1 调调查查某某地地区区的的居居民民奶奶制制品品年年消消费费支支出出,以以居居民民户户为为抽抽样样单单元元,根根据据经经济济及及收收入入水水平平将将居居民民户户划划分分为为4 4层层,每每层层按按简简单单随随机机抽抽样样抽抽取取1010户户,调调查查获获得得如如下下数数据据(单单位位:元元),要要估估计计该该地地区区居居民民奶奶制制品品年年消消费费总总支支出出及及估估计计的标准差。的标准差。层层居民户居民户总数总数样本户奶制品年消费支出样本户奶制品年消费支出1234567891012001040011015104080900240050130608010055160851601703750180260110014060200180300220415005035150203025103025 抽样调查抽样调查 原理与方法原理与方法 抽样调查抽样调查 原理与方法原理与方法 抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 例:例:类别类别(户)(户)总村数总村数 0-150-15 635 635 153 153 4.05 4.05 20.19 20.19 16-30 570 16-30 570 138 13810.31 69.9610.31 69.96 31-50 475 31-50 475 115 11515.2915.29 63.13 63.13 51-75 51-75 303 303 73 7323.1623.16 170.32 170.32 76-100 89 76-100 89 21 2128.7128.71 184.90 184.90 合计合计 20722072 500 500 以以95.45%95.45%概率估计耕牛总头数的置信区间概率估计耕牛总头数的置信区间 抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 抽样调查抽样调查 原理与方法原理与方法 三、对总体比例的估计 总体比例总体比例P P的估计为:的估计为:估计量的性质估计量的性质 性性质质7 7:对于一般的分层抽样,如果 是 的无偏估计(),则 是 的无偏估计。的方差为:抽样调查抽样调查 原理与方法原理与方法性质性质8 8:对于分层随机抽样,:对于分层随机抽样,是是 的无偏估计,的无偏估计,因而 的方差为:抽样调查抽样调查 原理与方法原理与方法 性质性质9 9:对于分层随机抽样,的一个无偏估计为:抽样调查抽样调查 原理与方法原理与方法例3.2 在在例例3.13.1的的调调查查中中,同同时时调调查查了了居居民民户户拥拥有有家家庭庭电电脑脑的的情情况况,获获得得如如下下数数据据(单单位位:台台),要要估估计计该该地地区区居居民民拥拥有有家家庭庭电电脑脑的的比比例例及及估估计计的的标标准差。准差。层层居民居民户总户总数数样本户拥有家庭电脑情况样本户拥有家庭电脑情况12345678910120000010001002400010000001037501100001010415001000000000 抽样调查抽样调查 原理与方法原理与方法解:由上表可得,由上表可得,根据前面对各层层权根据前面对各层层权 及抽样比及抽样比 的计算结果,可得各层估计量的方差:的计算结果,可得各层估计量的方差:因此,该地区居民拥有家庭电脑比例的估计为:因此,该地区居民拥有家庭电脑比例的估计为:估计量的方差为:估计量的方差为:估计量的标准差为:估计量的标准差为:抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 第三节第三节 各层中样本单位数的分配各层中样本单位数的分配 一、一、不同分配方式不同分配方式 层层 常常数数分分配配 与与 成成正正比比 与与 成成正正比比 内内曼曼分分配配 1 0.2 20 100 49 60 40 2 0.3 30 100 110 90 90 3 0.5 34 100 141 150 170 n 300 300 300 300 3.86 3.11 3.09 3.00 抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 1 1.常数分配,实际中采用不多常数分配,实际中采用不多;2.2.与与 成正比成正比;3.3.与与 成正比,按比例分配,常采用成正比,按比例分配,常采用 4.4.内曼分配内曼分配 抽样调查抽样调查 原理与方法原理与方法比例分配比例分配这里的比例分配指的是按各层单元数占总单元数的比例,也就是按各这里的比例分配指的是按各层单元数占总单元数的比例,也就是按各层的层权进行分配,这时层的层权进行分配,这时 或或对于分层随机抽样,这时总体均值对于分层随机抽样,这时总体均值 的估计是:的估计是:这是因为总体中的任意一个单元,不管它在哪一个层,都以同样的概这是因为总体中的任意一个单元,不管它在哪一个层,都以同样的概率入样,因此按比例分配的分层随机样本,估计量的形式特别简率入样,因此按比例分配的分层随机样本,估计量的形式特别简单。这种样本也称为自加权的样本。单。这种样本也称为自加权的样本。抽样调查抽样调查 原理与方法原理与方法最优分配最优分配在分层随机抽样中,如何将样本量分配到各层,使得在总费用给定的条件在分层随机抽样中,如何将样本量分配到各层,使得在总费用给定的条件下,估计量的方差达到最小,或在给定估计量方差的条件下,使总费下,估计量的方差达到最小,或在给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。用最小,能满足这个条件的样本量分配就是最优分配。如果我们考虑简单线性费用函数,总费用如果我们考虑简单线性费用函数,总费用 则这时的最优分配是:则这时的最优分配是:由由上上式,如果某一层单元数较多,内部差异较大,费用比较省,则对这一式,如果某一层单元数较多,内部差异较大,费用比较省,则对这一层的样本量要多分配一些。层的样本量要多分配一些。抽样调查抽样调查 原理与方法原理与方法NeymanNeyman(奈曼)分配(奈曼)分配对于分层随机样本,作为特例,如果每层抽样的对于分层随机样本,作为特例,如果每层抽样的费用相同,即费用相同,即 时,最优分配可简化为:时,最优分配可简化为:这种分配称为这种分配称为NeymanNeyman分配。这时,分配。这时,达到最达到最小:小:抽样调查抽样调查 原理与方法原理与方法某些层大于某些层大于100%100%时的情况时的情况按最优分配时,有时抽样比按最优分配时,有时抽样比 较大,某个层的较大,某个层的 又比较大,则可能出现按又比较大,则可能出现按最优分配计算的这个层的样本量最优分配计算的这个层的样本量 超过超过 的情况。实际工作中,如的情况。实际工作中,如果第果第k k层出现这种情况,最优分配是对这个层进行层出现这种情况,最优分配是对这个层进行100%100%的抽样,的抽样,即取即取 ,然后,将剩下的样本量,然后,将剩下的样本量 按最优分配分到各层,直到按最优分配分到各层,直到所有层分配的样本量均不超过所有层分配的样本量均不超过 为止。为止。此时,最优分配下达到的最小方差公式需作相应的修改。由于对于那此时,最优分配下达到的最小方差公式需作相应的修改。由于对于那些全部调查的层,不会产生抽样误差,因而,方差只来自实际抽些全部调查的层,不会产生抽样误差,因而,方差只来自实际抽样的层。修改后的最小方差公式如下:样的层。修改后的最小方差公式如下:其中,其中,为仅对那些没有进行全部调查的层求和,为仅对那些没有进行全部调查的层求和,是从这些层中是从这些层中抽出的样本量总和。抽出的样本量总和。抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 5.5.最优分配最优分配 分配样本量时考虑费用因素分配样本量时考虑费用因素 费用函数费用函数 式中,式中,为抽样固定费用为抽样固定费用 (1 1)当方差一定时使)当方差一定时使 最小最小 (2 2)当)当 一定时使方差最小一定时使方差最小 抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 分配样本量的准则分配样本量的准则 实际运用中的考虑实际运用中的考虑 比例分配,内曼分配较多使用比例分配,内曼分配较多使用 抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 二、样本量的确定二、样本量的确定 1.1.一般公式一般公式 由由 令,令,代入上式代入上式 (1)(1)因为:因为:故故 抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 2.2.不同条件下一般公式的运用不同条件下一般公式的运用 在比例分配条件下在比例分配条件下 将将 代入(代入(1 1)式,)式,得得 或或 抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 在内曼分配条件下在内曼分配条件下 在在 条件下,条件下,故内曼分配样本量小于比例分配样本量故内曼分配样本量小于比例分配样本量 抽样调查抽样调查 原理与方法原理与方法给定给定C C时时 抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 第四节第四节 估计比例的分层抽样估计比例的分层抽样 一、目标量的估计一、目标量的估计 抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 例例:类别类别 小学小学2500025000 150 150 0.02 0.02中学中学2000020000 120 120 0.10 0.10大学大学 50005000 30 30 0.80 0.80合计合计5000050000 300 300 对硕士学位教师所占比例进行区间估计对硕士学位教师所占比例进行区间估计 抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 二、比例估计中样本量的确定二、比例估计中样本量的确定 抽样调查抽样调查 原理与方法原理与方法 一 分层抽样的效率分层抽样的效率 200,000 200,000 800,000 800,000 1,000,000 1,000,000 4,000,000 4,000,000 1,000,000 1,000,000 1,800,0001,800,000 有几种分配方案有几种分配方案 第一种第一种 第二种第二种 第三种第三种 第四种第四种 简单随机抽样简单随机抽样第五节 分层抽样中的其他问题 抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 四种抽样方案各自方差四种抽样方案各自方差:分层抽样:分层抽样:简单抽样简单抽样:省略省略 抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 方案一方案一 方案二方案二 抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 方案三方案三方案四方案四设计效果设计效果 抽样调查抽样调查 原理与方法原理与方法 抽样效果分析抽样效果分析对于固定样本量的情况,如果对于固定样本量的情况,如果 相对相对1 1可以忽略可以忽略n n如果各层均值差异越大,则采用按比例分配的方式较好如果各层均值差异越大,则采用按比例分配的方式较好如果各层均值差异越大,则采用按比例分配的方式较好如果各层均值差异越大,则采用按比例分配的方式较好;n n而当各层的标准差相差很大时,则最优分配更好。而当各层的标准差相差很大时,则最优分配更好。而当各层的标准差相差很大时,则最优分配更好。而当各层的标准差相差很大时,则最优分配更好。n n但但但但按比例分配按比例分配按比例分配按比例分配简单易行,自加权,有时即时相对最优分配增加简单易行,自加权,有时即时相对最优分配增加简单易行,自加权,有时即时相对最优分配增加简单易行,自加权,有时即时相对最优分配增加20%20%20%20%的方差,也被采用。的方差,也被采用。的方差,也被采用。的方差,也被采用。抽样调查抽样调查 原理与方法原理与方法有没有可能简单随机抽样优于分层随机抽样?有没有可能简单随机抽样优于分层随机抽样?n n层间方差小于层内方差时层间方差小于层内方差时层间方差小于层内方差时层间方差小于层内方差时n n000(1-r2)+r2/L2 Sy2/n 抽样调查抽样调查 原理与方法原理与方法Lr=0.99 r=0.95 r=0.90 r=0.8520.26 0.32 0.39 0.46 30.13 0.20 0.28 0.36 40.08 0.15 0.24 0.32 50.06 0.13 0.22 0.31 60.05 0.12 0.21 0.30 0.02 0.10 0.19 0.28 除非xy相关系数r大于0.95,超过6层后方差减少比较少n nDeffDeffDeffDeff 抽样调查抽样调查 原理与方法原理与方法例例美国人口普查局的当前人口状况调查:n n地理区域地理区域,人口密度人口密度,人群构成人群构成,主要产业等主要产业等加拿大在调查商业公司的就业,薪水,工作时间:n n工业工业,省省,雇员的人数雇员的人数Nielsen的收视率市场调查:n n根据地理区域根据地理区域,县市面积县市面积,有线网的覆盖情况等有线网的覆盖情况等其他变量分层。其他变量分层。抽样调查抽样调查 原理与方法原理与方法国家杀虫剂调查国家杀虫剂调查 (NPS)(NPS)在在19881988到到19901990年间年间,美国环境保护机构(美国环境保护机构(EPAEPA)从)从引用水的水井中抽样去估计杀虫剂和硝酸盐的引用水的水井中抽样去估计杀虫剂和硝酸盐的含量。含量。如何设计该抽样方案?如何设计该抽样方案?2 2种水井:种水井:“社区水井系统社区水井系统”和和“农村家庭水井农村家庭水井”当时美国大约存在多少饮用水井当时美国大约存在多少饮用水井?n n根据根据EPAEPA估计美国大约有估计美国大约有51,00051,000社区水井。社区水井。EPAEPA没没有一份包容所有农村家庭水井的数据。从有一份包容所有农村家庭水井的数据。从19801980年年美国人口普查局的数据美国人口普查局的数据,EPA,EPA估计大约美国大约有估计大约美国大约有13,000,00013,000,000农村家庭水井农村家庭水井,但是水井的拥有者和水但是水井的拥有者和水井的位置是不知道的。井的位置是不知道的。抽样调查抽样调查 原理与方法原理与方法如何选择分层指标如何选择分层指标?重点农业区域和地下水污染比较严重的区域应抽重点农业区域和地下水污染比较严重的区域应抽取更多的水井。取更多的水井。EPAEPA根据一些标准将社区水井根据一些标准将社区水井和农村家庭水井按杀虫剂分为和农村家庭水井按杀虫剂分为4 4层层,按地下水的按地下水的污染程度分为污染程度分为3 3类。类。感兴趣的感兴趣的 5 5个子群:地下水污染很严重县的社区水个子群:地下水污染很严重县的社区水井系统井系统,地下水污染很严重县的农村家庭水井系地下水污染很严重县的农村家庭水井系统统,使用很多杀虫剂县的农村家庭水井系统使用很多杀虫剂县的农村家庭水井系统,使使用杀虫剂多同时地下水污染也很严重县的农村用杀虫剂多同时地下水污染也很严重县的农村家庭水井系统家庭水井系统,农作物和易污染地区的农村家农作物和易污染地区的农村家庭水井系统。庭水井系统。抽样调查抽样调查 原理与方法原理与方法确定样本量和精度确定样本量和精度n n假设社区水井中含有杀虫剂的比例为假设社区水井中含有杀虫剂的比例为 0.5%0.5%,90%90%的估计精度的估计精度n n假设重点地区假设重点地区1%1%的家庭水井含有杀虫剂,的家庭水井含有杀虫剂,97%97%的估计精度的估计精度n nEPAEPA推断需要近似有推断需要近似有13001300个水井个水井(564(564个公共水井和个公共水井和734734个农个农村家庭水井村家庭水井)。农村家庭水井没有抽样框怎么办?农村家庭水井没有抽样框怎么办?n n因为具体的农村家庭水井的数目和地点是不知道的因为具体的农村家庭水井的数目和地点是不知道的,所以所以EPAEPA选择了由多阶段调查方式。先选择县,再选择使用特别杀虫选择了由多阶段调查方式。先选择县,再选择使用特别杀虫剂和地下水污染的子地区群。这种地区比较小。剂和地下水污染的子地区群。这种地区比较小。抽样调查抽样调查 原理与方法原理与方法美国美国3,1373,137个县根据杀虫剂或地下个县根据杀虫剂或地下水的污染情况分层水的污染情况分层层杀虫剂使用地下水情况COUNTIES数目1高高1062高中2343高低1294中高1105中中2046中低2677低高1938低中3759低低40410很少高18611很少中51312很少低416n n6363 抽样调查抽样调查 原理与方法原理与方法n n 2.2.层的分点:层的分点:n n(1 1)根据自然标志确定;)根据自然标志确定;n n(2 2)数量标志分层的若干方法)数量标志分层的若干方法n n *方程组法方程组法n n *等距分层(均匀分布情况下使用)等距分层(均匀分布情况下使用)n n *根据频数的根据频数的快速近似法快速近似法 抽样调查抽样调查 原理与方法原理与方法n n例:例:n nID ID 职工人数职工人数 f f(y y)频数频数 累积累积n n1 11 110 10000 100 10010 10000 100 100n n2 112 1120 2500 50 15020 2500 50 150n n.n n.n n.n n层距层距=(=(分层点分层点)抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样n三、事后分层三、事后分层n n实际工作中实际工作中 没有层的抽样框没有层的抽样框 总体特别大来不及事先分层总体特别大来不及事先分层 几个变量都适合于分层,要进行事先的交叉分层比较几个变量都适合于分层,要进行事先的交叉分层比较困难,并且我们并不需要交叉分层后每个子层的估计,困难,并且我们并不需要交叉分层后每个子层的估计,如需要按年龄分层的结果,还需要按受教育程度分层如需要按年龄分层的结果,还需要按受教育程度分层的结果,但并不需要这两个指标的交叉结果。的结果,但并不需要这两个指标的交叉结果。出现离群值出现离群值 提高估计精度提高估计精度 抽样调查抽样调查 原理与方法原理与方法 1.1.什么是事后分层什么是事后分层抽抽取取 的的简简单单随随机机样样本本 ,然然后后将将样样本按某种特征分层,调查后得到本按某种特征分层,调查后得到 和和 又已知又已知 抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 2.2.估计估计 当当 充分大时充分大时 故故 抽样调查抽样调查 原理与方法原理与方法 使用事后分层技术时,还应注意事后层不宜太多。简单随机样本,事后分层落到第层的样本量h h00,且固定时,且固定时n nn n足够大时,足够大时,为无偏估计为无偏估计 抽样调查抽样调查 原理与方法原理与方法n n充充分大分大第一项就是按比例分配分层抽样估计量的方差,第一项就是按比例分配分层抽样估计量的方差,第二项表示因事后分层而非事先按比例分配分第二项表示因事后分层而非事先按比例分配分层引起的方差增加量。由此看出,只要样本量层引起的方差增加量。由此看出,只要样本量足够大,事后分层的精度与按比例分配事先分足够大,事后分层的精度与按比例分配事先分层的精度相当。层的精度相当。抽样调查抽样调查 原理与方法原理与方法事后分层均值估计量方差的样本估计事后分层均值估计量方差的样本估计如果如果(1)(1)是已知的是已知的,(2)n,(2)nh h 足够大足够大(至少为至少为30),(3)n30),(3)n也很大也很大,我们可以用比例分配的方差我们可以用比例分配的方差作为近似估计。作为近似估计。n n7171 抽样调查抽样调查 原理与方法原理与方法 如果样本是按某一个辅助指标分层后抽取的,只要这个事先分层抽样是严格按比按比例分配例分配进行的,则这个样本是自加权自加权的,总体中每个单元被抽中的概率相同,我们可以将这个样本看作简单随机样本,看作简单随机样本,分别对其它指标进行事后分层估计分别对其它指标进行事后分层估计。抽样调查抽样调查 原理与方法原理与方法第四章第四章 分层随机抽样分层随机抽样 四、四、的情况的情况 例题例题企业规模企业规模 小企业小企业10,00010,000 0.8 0.8 8000 8000 200 200中企业中企业1,0001,000 8 8 8000 8000 200200大企业大企业100100 80 80 8000 8000 200 200合计合计11,10011,100 24000 24000 600 600 调整后调整后目录抽样(目录抽样(List SamplingList Sampling)的含义。)的含义。抽样调查抽样调查 原理与方法原理与方法目录抽样目录抽样凡是按照目录名单的抽样框抽取样本,都可称为目录抽样。此处介绍的目录抽样特指联合国1983年世界工业统计方案建议中提出的一种抽样方法,适用于偏斜分布的总体。实施时把工业企业的目录抽样框划分为两部分,一部分是规模较大的企业,其数量少但重要性程度高,在总量估计中占较大的份额,对这部分企业采用全面调查;另一部分是小企业,数量较多且每个单位的标志值都比较小,对这部分企业采用抽样调查。最后,把抽样的部分加以推断并与全面调查的部分合并,得到总体总量。目前我国的工业增加值、商业零售额采用的就是这种目录抽样方法。抽样调查抽样调查 原理与方法原理与方法目录抽样在某种意义上是一种特殊的分层抽样,它将总体分为两层:一层为全面调查层,另一层为抽样调查层。如何根据样本单元的大小将其分层便成为一个关键的问题。一种方法是根据客观情况用经验判断来划分全面调查和抽样调查层。比如我国目前现行的对工业企业的调查,就是根据我国工业企业的现状确定如下调查方法:对年产值在500万以上的工业企业
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服