收藏 分销(赏)

《抽样技术》全书电子教案正本书教学教程.pptx

上传人:精**** 文档编号:5438669 上传时间:2024-11-02 格式:PPTX 页数:569 大小:11.13MB
下载 相关 举报
《抽样技术》全书电子教案正本书教学教程.pptx_第1页
第1页 / 共569页
《抽样技术》全书电子教案正本书教学教程.pptx_第2页
第2页 / 共569页
《抽样技术》全书电子教案正本书教学教程.pptx_第3页
第3页 / 共569页
《抽样技术》全书电子教案正本书教学教程.pptx_第4页
第4页 / 共569页
《抽样技术》全书电子教案正本书教学教程.pptx_第5页
第5页 / 共569页
点击查看更多>>
资源描述

1、抽样技术抽样技术第1章绪论1.1调查与抽样调查调查与抽样调查n调查(调查(survey):通过使用明确的概念、方:通过使用明确的概念、方法和程序,依据专门设计的调查方案指导的方法和程序,依据专门设计的调查方案指导的方式,从一个总体全部或部分单元中搜集感兴趣式,从一个总体全部或部分单元中搜集感兴趣的指标信息,并将这些信息综合整理成数据系的指标信息,并将这些信息综合整理成数据系列的有关活动。列的有关活动。n例:调查北京市民对出租车行业的满意度调查全面全面调查与调查与非全面非全面调查调查根据根据“调查是否针对总体的所有单元调查是否针对总体的所有单元”划分:划分:l全面调查全面调查:普查普查l非全面调

2、查非全面调查非全面调查相对于全面调查的优点:(1)时间短速度快;(2)费用少成本低;(3)调查结果比较准确;(4)应用范围广泛。应用前提抽样调查的基本概念n抽样调查抽样调查(sampling survey)是一种非全面的调查,指从研究对象的全体(总体)中抽取一从研究对象的全体(总体)中抽取一部分单元作为样本,根据对所抽取的样本进行部分单元作为样本,根据对所抽取的样本进行调查,获得有关总体目标量的了解调查,获得有关总体目标量的了解。n抽样调查的作用抽样调查的作用n1节约费用节约费用n2时效性强时效性强n3可以承担全面调查无法胜任的项目可以承担全面调查无法胜任的项目n4有助于提高调查数据的质量有助

3、于提高调查数据的质量根据根据“单元是否按照一定的概率入样”划分:划分:概率抽样和概率抽样和 非概率抽样非概率抽样n随机抽样是指按照概概率率原则,从总体中抽取一定数目的单位作为样本进行观察,随机抽样使总体中每个单位都有一定的概率被选入样本,从而使根据样本所做出的结论对总体具有充分的代表性。n非随机抽样是以方便为出发点或根据研究者主方便为出发点或根据研究者主观的判断观的判断来抽取样本。非随机抽样主要依赖研究者个人的经验和判断,它无法估计和控制抽样误差,无法用样本的量化数据来推断总体。l概率抽样调查概率抽样调查l非概率抽样调查非概率抽样调查优点:能够保证样本的代表性,避免人为因素的干扰;用概率抽样取

4、得的样本去估计总体特征时,可以对由抽样产生的抽样误差进行估计。缺点:难以评价样本的代表性无法估计抽样误差偏倚往往较大概率(随机)抽样概率(随机)抽样(probability sampling)非概率(非随机)抽样非概率(非随机)抽样(non-probability sampling)抽样调查应用领域抽样调查应用领域n社会经济现象的调查社会经济现象的调查n社会性的民意调查社会性的民意调查n市场调查市场调查1.2基本概念基本概念n目标总体与抽样总体目标总体与抽样总体n抽样框与抽样单元抽样框与抽样单元n总体参数与统计量总体参数与统计量n估计量方差、偏差、均方误差估计量方差、偏差、均方误差n抽样误差与

5、非抽样误差抽样误差与非抽样误差n精度与费用精度与费用目标总体与抽样总体目标总体与抽样总体n总体总体n目标总体也可简称为总体,是指所要研究对象目标总体也可简称为总体,是指所要研究对象的全体,或者说是希望从中获取信息的总体,的全体,或者说是希望从中获取信息的总体,它是由研究对象中所有性质相同的个体所组成它是由研究对象中所有性质相同的个体所组成n组成总体的各个个体称作总体单元或单位。组成总体的各个个体称作总体单元或单位。n抽样总体是指从中抽取样本的总体。抽样总体是指从中抽取样本的总体。抽样框与抽样单元抽样框与抽样单元n抽样总体的具体表现是抽样框。通常抽样框是一份包含所有抽样单元的名单。n抽样框的形式

6、:名单、手册、地图、数据包等等。n抽样框的要求:n(1)抽样框必须是有序的,即抽样单元必须编号,且根据某种顺序进行了排列。n(2)抽样框中包含的抽样单元务必要“不重不漏”,否则将出现抽样框误差。n抽样单元分级:n初级单元次级单元三级单元四级单元基本抽样单元。总体参数和(样本)统计量总体参数和(样本)统计量n总体参数:总体是调查的客体,而总体参数是总体某个特征或属性的数量表现。n常见的总体参数有4种:(1)总体总值;(2)总体均值;(3)总体比例;(4)总体比率。n总体总值、总体均值、总体比例三者是统一的,它们都可以用总体均值来表示。why统计量和估计方法统计量和估计方法n统计量是根据样本的统计

7、量是根据样本的n个单元的变量值计算出的个单元的变量值计算出的一个量,也叫估计量,用于对总体参数的估计。一个量,也叫估计量,用于对总体参数的估计。n估计量是随机变量,比如样本均值n估计方法:最常见的估计方法是简单线性估计,除此之外,还可以借助于辅助变量。n辅助变量必须满足的两个条件:(1)与要估计的变量高度相关;(2)其总体信息已知。估计量方差、偏差、均方误差估计量方差、偏差、均方误差n估计量分布的方差称为估计量分布的方差称为估计量方差估计量方差,它,它是从平均的意义上说明估计值与待估参是从平均的意义上说明估计值与待估参数的差异状况数的差异状况,也是我们对抽样方案进行评价的标准之一。n估计量方差

8、表达式:n偏差偏差是指按照某一抽样方案反复进行抽是指按照某一抽样方案反复进行抽样,估计值的数学期望与待估参数之间样,估计值的数学期望与待估参数之间的离差。的离差。n偏差的表达式:n对于无偏估计量,偏差为零。估计量方差、偏差、均方误差估计量方差、偏差、均方误差n均方误差均方误差(MeanSquareError,MSE)指所指所有可能的估计值与待估参数之间离差平方的均有可能的估计值与待估参数之间离差平方的均值,它等于估计量方差加偏差的平方。值,它等于估计量方差加偏差的平方。=估计量方差、偏差、均方误差估计量方差、偏差、均方误差抽样误差与非抽样误差抽样误差与非抽样误差n n抽样误差:抽样误差:抽样误

9、差是由于抽取样本的随机性造成的样本值与总体值之间的差异,只要采用抽样调查,抽样误差就不可避免。n抽样误差是一个一般的概念,它可以用不同的量值来表示。例如:估计量方差或估计量标准差。n非抽样误差:是相对于抽样误差而言的,它不是由于抽样的随机性,而是由于其它多种原因引起的估计值与总体参数之间的差异。包括:抽样框误差、计量误差、无回答误差等精度与费用精度与费用n调查的费用是一个与样本量有关的函数,最简单的是线性费用函数。n最优抽样设计:指以最小的费用达到要求的精度或者在给定费用的情况下达到最大的精度样本容量抽样误差n精度由误差来表现。n抽样误差与样本量有关,样本量越大,在其它条件相同情况下,抽样误差

10、就越小,抽样调查的精度就越高。几种基本的抽样方式概率抽样调查概率抽样调查非概率抽样调查非概率抽样调查简单随机抽样简单随机抽样分层抽样分层抽样系统抽样系统抽样整群抽样整群抽样多阶段抽样多阶段抽样 判断抽样判断抽样(包括包括典型调查和重点调查典型调查和重点调查)便利抽样便利抽样自愿样本自愿样本滚雪球抽样滚雪球抽样配额抽样等配额抽样等简单随机抽样n简单随机抽样(simplerandomsampling)又称纯随机抽样,考虑一个包含N个单位的母体,从中抽取n个单位作为样本。如果抽样是不放回的,即同一个单位不能在样本中重复出现,那么总共有C(N,n)种不同的取法,也就是说共有C(N,n)个可能的不同样本

11、。如果每个样本被抽中的概率都相等,则称这种抽样方法为简单随机抽样,所得到的样本叫做简单随机样本(SRS)。n例题:某大学欲了解该校研究生中打算报考托福人数的比例,全校研究生共有570人,随机抽取了100人,其中有14人准备参加托福考试,试以95%的把握程度对研究生中欲报考托福人数的比例作出估计。简单随机抽样分层抽样n分层抽样(stratifiedsampling)又称类别抽样,它是先将总体所有单位按某些重要标志进行分类(层),然后在各类(层)中采用简单随机抽样或系统抽样方式抽取样本单位的一种抽样方式。例如,对员工收入状况进行调查,就可将员工按职业不同,分为生产人员、商业人员、服务性工作人员等各

12、层,再从各层中抽取员工。n等比例抽样n不等比例抽样n优点n更为精确n对每层的推论 分层抽样系统抽样n系统抽样是将N个总体单位按一定顺序排列,先随机抽取一个单位作为样本的第一个单位,然后按某种确定的规则抽取样本的其它单位。n其中最简单也是最常用的规则是等间隔抽取。所以系统抽样又称等距抽样。系统抽样n排列顺序与调查项目无关n排列顺序与调查项目有关n例如,从600名大学生中抽选50名大学生n利用学校现有名册按顺序编号排序,从第001号编至600号。n抽选距离=N/n=600/50=12(人)n如从第一个12人中用简单随机抽样方式,抽取第一个样本单位,如抽到的是8号,依次抽出的是20号,32号,44号

13、等。系统抽样n优点n均匀地分布 n简单易行 n缺点n抽样误差计算较为复杂 n周期性重合时会影响调查的精确度n需要较为详细、具体的相关资料 整群抽样n整群抽样是先将总体划分成许多不相重合的子总体或群,然后以群为抽样单位,按某种随机方式从中抽取若干个群,形成一个“群”的随机样本,对抽中的群内所有单位都进行调查。n例如,某大学要调查学生的视力,可以将班做为一个群,随机抽取几个班,对这些班的全部学生进行调查。整群抽样n一是没有总体最终单位的抽样框n实施便利、节省费用n影响整群抽样误差的主要是群间方差。分群时使群内方差尽可能大,使群间方差尽可能小。n整群抽样的估计精度一般低于简单随机抽样 多阶段抽样多阶

14、段抽样(multi multi stage sampling)stage sampling)多阶段抽样是指抽取样本单位时分几个阶段进行:n首先在总体中按随机原则抽取若干初级(一级)单位,n然后再从被抽中的初级单位中抽取若干次级(二级)单位,这种抽样称为二阶段抽样。n如果每个次级单位又可以进一步分为更小的三级单位,那么在每个被抽中的二级单位中再抽取三级单位,这称为三阶段抽样,n以此类推,可以定义更多阶段的抽样。多阶段抽样n例如,全国性调查,省;市或县;街道、镇、或乡,等等。n在大规模的抽样调查中,特别是当抽样单位为各级行政单位时,通常都采用多阶段抽样。n优点:n样本单位相对集中,实施调查比较方便

15、,可以节省调查费用。n抽样时并不需要全部低级单位的抽样框非随机抽样技术 n原因:v1受客观条件限制,无法进行严格的随机抽样;v2为了快速获得调查结果;v3在调查对象不确定,或无法确定的情况下采用,例如,对某一突发(偶然)事件进行现场调查等;v4总体各单位间离散程度不大,且调查员具有丰富的调查经验时。n方便抽样n根据调查者的方便与否来抽取样本,“街头拦人法”n判断抽样n凭研究人员的主观意愿、经验和知识,从总体中选择具有典型代表性样本作为调查对象n平均型”或“多数型”n按照一定标准,主观选取样本非随机抽样技术 n配额抽样n事先要对总体中所有单位按其属性、特征分为若干类型,这些属性、特征称为“控制特

16、征”。如被调查者的姓名、年龄、收入、职业、教育程度等;n然后,按照各个控制特征分配样本数额。n简单易行,样本具有较高的代表性n雪球抽样n前提:是总体单位之间具有一定的联系,非随机抽样技术 1.4抽样抽样调查调查步骤步骤n(1)确定调研问题确定调研问题n(2)抽样方案设计抽样方案设计n(3)问卷设计问卷设计n(4)实施调查过程实施调查过程n(5)数据处理分析数据处理分析n(6)撰写调查报告撰写调查报告抽样方案设计内容 n第一、确定抽样调查的目的、任务和要求;n第二、确定调查对象的范围和抽样单位;n第三、确定抽取样本方法;n第四、确定必要的样本数;n第五、对主要抽样指针的精度提出要求;n第六、确定

17、总体目标量的估算方法;n第七、制订实施总体方案的办法和步骤。第第2章章简单随机抽样(简单随机抽样(SRS)2.1概述2.2简单估计量及其性质2.3比率估计量及其性质2.4回归估计量及其性质2.5简单随机抽样的实施2.1 概述概述n简单随机抽样也称为纯随机抽样。n从含有N个单元的总体中抽取n个单元组成样本,如果抽样是不放回的,则所有可能的样本有个,若每个样本被抽中的概率相同,都为,这种抽样方法就是简单随机抽样。n具体抽样时,通常是逐个抽取样本单元,直到抽满n个单元为止。有限放回简单随机抽样与不放回简单随机抽样n放回简单随机抽样(SRSwithreplacement)n当从总体N个抽样单元中抽取n

18、个抽样单元时,如果依次抽取单元时,不管以前是否被抽中过,每次都从N个抽样单元中随机抽取,这时,所有可能的样本为?个(考虑样本单元的顺序),n每个样本被抽中的概率为?n放回简单随机抽样在每次抽取样本单元时,都将前一次抽取的样本单元放回总体,因此,总体的结构不变,抽样是相相互互独独立立进行的,这一点是它与不放回简单随机抽样的主要不同之处。n放回简单随机抽样的样本量不受总体大小的限制,可以是任意的。n除非特别说明,简单随机抽样指的是不放回简单随机抽样【例例2.1】n设总体有5个单元(1、2、3、4、5),按放回简单随机抽样的方式抽取2个单元,则所有可能的样本为25个(考虑样本单元的顺序):1,12,

19、13,14,15,11,22,23,24,25,21,32,33,34,35,31,42,43,44,45,41,52,53,54,55,5n不放回简单随机抽样n当从总体N个抽样单元中依次抽取n个抽样单元时,每个被抽中的单元不再放回总体,而是从总体剩下的单元中进行抽样。n不放回简单随机抽样的样本量要受总体大小的限制。n在实际工作中,更多的采用不放回简单随机抽样。【例例2.2】n设总体有5个单元(1、2、3、4、5),按不放回简单随机抽样的方式抽取2个单元,则所有可能的样本为个:1,22,33,44,51,32,43,51,42,51,5n简单随机抽样的抽取原则:n(1)按随机原则取样;n(2)

20、每个抽样单元被抽中的概率都是已知的或事先确定的;n(3)每个抽样单元被抽中的概率都是相等的。所有可能样本每个样本被抽中的概率相同所有可能样本每个样本被抽中的概率相同符号n大写符号表示总体的标志值,n小写符号表示样本的标志值总体样本n数理统计中的任何参数估计问题都是抽样调查涵盖的范围,理论上人们一般只关注四个方面的总体特征:n总体均值n总体总值n总体比率n总体比率2.2 简单估计量及其性质简单估计量及其性质n判断下面要估计的总体目标量分别属于什么类型?n调查城市居民家庭平均用电量。n估计湖中鱼的数量。n测试日光灯的寿命。n估计居民家庭用于做饭菜及饮用的用水量占家庭总用水量的比重。n估计婴儿出生性

21、别比。n检测食盐中碘含量。一、对总体均值的估计一、对总体均值的估计 以样本均值作为总体均值的估计n性质性质1 1:对于简单随机抽样,是 的无偏估计。例设总体为0,1,3,5,6,计算总体均值=3、总体方差=5.2和=6.5;给出全部的样本,并验证及。1010.5-2.50.52031.5-1.54.53052.5-0.512.540630185132-126153087163.50.512.58354129364.51.54.510平均565.52.50.5306.5方差1.95样本编号单元1单元2样本均值-样本方差 证明 性质性质1 1n对于固定的有限总体,估计量的期望是对所有可能样本求平均

22、得到的,因此n总体中每个特定的单元 在不同的样本中出现的次数。证明 性质性质1 1(对称性论证法)(对称性论证法)n由于每个单元出现在总体所有可能样本中的次数相同,因此 一定是 的倍数,且这个倍数就是 ,性质性质2:n对于有限总体的方差定义:n性质性质2:对于简单随机抽样,的方差式中:为抽样比,为有限总体校正系数。证明性质性质2(对称论证法):n 中的求和是对 项的,n 中的求和是对 项的每个特定单位被选入样本的概率:=P(i)=故其定义为:*不放回抽样*每个样本被抽中的概率为*每个单位被选入样本的概率利用无限总体理论Mean=随机变量证明性质性质2简单随机抽样下,简单估计量估计精度影响因素:

23、n估计量的方差 是衡量估计量精度的度量。影响估计量方差的因素主要是样本量n n n n,总体大小总体大小总体大小总体大小N N N N和总体方差和总体方差和总体方差和总体方差 。n通常N很大,当f0.5,比率估计比简单估计更为精确比率估计的其他问题n为何不对的分子、分母各自按简单估计获得置信区间,然后根据两个区间的上下限构造R的区间边界n为何不对每个样本点计算ri,然后使用估计R呢?n是否存在具有无偏性的比率估计量?2.4回归估计量及其性质n回归估计的性质假如研究发现,Y和X之间存在近似的线性关系,但这(直)线并不通过Y和X构成的平面坐标的原点,也就是所谓截距不等于0,那么这时利用比率估计显然

24、不合适,最好构造Y对X的线性回归关系进行估计。n主要变量总体均值的回归估计量定义时为简单估计量时为比率估计时为差估计因此简单估计量与比率估计量都是回归估计量的特例。n回归估计里辅助变量X的特点与比率估计里的十分相似:l辅助变量必须与主要变量高度相关;l辅助变量与主要变量之间的相关关系整体上相当稳定;l辅助变量的信息质量更好,帮忙而不添乱;l辅助变量的总体总值必须是已知的,或是更容易获得的。n对于简单随机抽样,如为常数(记为0),则有具体证明见定理2.8n使回归估计量的估计精度最高,即V()最小的0为n此时n对于简单随机抽样,n足够大时,的数学期望n对于简单随机抽样,n足够大时,的方差这个定理的

25、内容也包含两个结论:一个是说不是无偏的;一个是说在某种条件下,是近似无偏的。各种估计量的精度比较nn足够大的情形简单估计:比率估计:回归估计:nn不够大的情形2.5简单随机抽样的实施n费用n 总费用 固定费用 可变费用n 设计费分析费办公费管理费场租费等访问员费交通费礼品费电话费等样本量的确定样本量的确定STEPSn所需要的精度n找出样本量与精度之间的关系n估计所需的数值,求解nn如超出预算,调整精度值重新计算精度marginoferrorn对精度的要求通常以允许绝对误差(绝对误差限)或允许相对误差(相对误差限)来表示。样本量足够大时,可用正态分布近似变异系数SampleSizen0为重复抽样

26、条件下的样本量当N很大时,0,nn0,wr与wor几乎没有区别。总体参数为总体参数为P P的情形的情形n f0.05总体方差的估计n根据预调查数据或以前文献资料n根据数据的分布粗略估算S,例如全距/4,全距/6n对于比例估计,如果P在0.5附近(),可根据PQ在P=0.5时达到极大值来对样本量进行计算.n如果时间允许,且总体在时间上变化不快,调查可以分为两步,首先确定一个可以承受的样本量,调查后对估计精度进行计算,如果精度达到要求,则不再进行下一步,否则,计算为达到精度要求所需的样本量,再调查补充样本n通过定性分析,最好是对总体变异系数进行分析并估计,因为变异系数通常变化不大.样本量设计中的误

27、区样本量设计中的误区1.估计精度越高越好吗?估计精度越高越好吗?简单随机抽样估计比例简单随机抽样估计比例P的样本量与误差(当的样本量与误差(当P=0.5时)时)样本量样本量误差误差d500.141000.105000.04510000.032100000.0098对精度要求的判断十分重要。为得到最小误差而选择最对精度要求的判断十分重要。为得到最小误差而选择最大样本量不是好的选择。大样本量不是好的选择。2.样本量与总体规模样本量与总体规模N有关吗?按照总体比例确定样本量合有关吗?按照总体比例确定样本量合适吗?适吗?例:简单随机抽样估计例:简单随机抽样估计P,置信度,置信度95%,允许误差,允许误

28、差5%,在,在P=0.5条件条件下下总体规模(总体规模(N)所需样本量(所需样本量(n)5044100805002221000286500037010000385100000398100000040010000000400抽样调查中的样本量抽样调查中的样本量由此可知,在精度要求相同条件下,在北由此可知,在精度要求相同条件下,在北京市进行一项调查和在全国进行一项调查,样京市进行一项调查和在全国进行一项调查,样本量的差别并不大。本量的差别并不大。总体规模越大,进行抽样调查的效率越高。总体规模越大,进行抽样调查的效率越高。u若分类、分区、分层分别进行估计,如何处若分类、分区、分层分别进行估计,如何处

29、理?理?u对于多项目,如何处理?对于多项目,如何处理?其他影响因素n1.所研究问题目标量的个数n2.调查表的回收率例如回收率估计为80%,则应接触的样本量为计算出所需样本量的1.25倍;n3.非抽样误差n4.资源限制n5.有效样本netc定义:简单随机抽样的样本估计量的方差与复杂抽样的样本估计量的方差的比率。DeffVar()为复杂样本估计量的方差。设计效果设计效果(Designeffect,Deff)设计效应设计效应n基什(L.Kish)提出 比较不同抽样方法的效率.不放回简单随机抽样简单估计量的方差某个抽样设计在同样样本量条件下估计量的方差。Deff的作用:(1)评价抽样设计的一个依据,如

30、果deff1,则抽样设计比简单随机抽样的效率低。(2)计算样本量如多阶段抽样的Deff大约在22.5之间。n=n(deff)n为简单随机抽样所需样本量。n放回简单随机抽样的deff为:n 常用于复杂抽样样本量的确定;在一定精度条件下,简单随机抽样所需的样本量比较容易得到,复杂抽样的样本量为,第三章第三章 分层随机抽样分层随机抽样 3.1 概述3.2 简单估计量及其性质3.3 比率估计量及其性质3.4 回归估计量及其性质3.5 各层样本量的分配3.6 总样本量的确定3.7 分层抽样的其他方面2024/11/2周六106第一节第一节 概述概述2024/11/2周六1072024/11/2周六108

31、定定 义义 3.3 分 层 随 机 抽 样(stratified randomsampling):如果每层中的抽样都是独立地按照简单随机抽样进行的,那么这样的分层抽样称为分层随 机 抽 样,所 得 的 样 本 称 为 分 层 随 机 样 本(stratifiedrandomsample)。2024/11/2周六109二、作用n由于每层都进行抽样,这就可使样本在总体中分布更加均匀,从而具有更好的代表性。n由于抽样在每一层中独立进行,所以一者允许各层选择不同的适合本层的抽样方法,二则可同时对各子总体(层)进行参数估计,而不单是对整个总体的参数进行估计。n由于各层的总体方差因单元之间差异小而肯定小于

32、整个总体的方差,而抽样精度与此成正比,所以分层抽样可以提高参数估计的精度。2024/11/2周六110三、符号2024/11/2周六111所有总体参数的估计量都采用下标“st”以示区别:2024/11/2周六112第二节第二节 简单估计量及其性质简单估计量及其性质一、对总体均值的估计一、对总体均值的估计n分层样本分层样本,总体均值总体均值 的估计的估计n分层随机样本分层随机样本,总体均值总体均值 的简单估计的简单估计 2024/11/2周六113估计量的性质 n性性质质1&21&2:对于一般的分层抽样,如果 是 的无偏估计(),则 是 的无偏估计。的方差为:n只要对各层估计无偏,则总体估计也无

33、偏。n各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对总体的推算也是无偏的。2024/11/2周六114证明性质1由于对每一层有因此,估计量的方差由于各层是独立抽取的,因此上式第二项中的协方差全为0,从而有2024/11/2周六115n性质性质3:对于分层随机抽样,是的无偏估计,的方差为:2024/11/2周六116证明性质3:对于分层随机抽样,各层独立进行简单随机抽样,对每一层有因此,由性质1,有由第二章性质2,得因此n2024/11/2周六117n性性质质4:对于分层随机抽样,的一个无偏估计为:2024/11/2周六118证明性质4:对于分层随机抽样,各层独立进行简单随机抽样,由

34、第二章性质3,得的无偏估计为:因此,的一个无偏估计为:2024/11/2周六119二、对总体总量的估计二、对总体总量的估计n 总体总量 的估计为:n如果得到的是分层随机样本,则总体总量的简单估计为:2024/11/2周六1202.估计量的性质n性质性质1 1:对于一般的分层抽样,如果是 的无偏估计,则 是 的无偏估计。的方差为:2024/11/2周六121n性质性质2:对于分层随机抽样,的方差为:2024/11/2周六122n性质性质3 3:对于分层随机抽样,的一个无偏估计为:2024/11/2周六123例例3.13.1n调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平

35、将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及其95%的置信区间。2024/11/2周六124层层居民户居民户总数总数样本户奶制品年消费支出样本户奶制品年消费支出12345678910120010400110151040809002400501306080100551608516017037501802601100140602001803002204150050351502030251030252024/11/2周六125同理,求得:2024/11/2周六126=209650 三、对总体比例的估计三、对总体比例的估计n总体比

36、例P的估计为:n估计量的性质2024/11/2周六127性质性质1:对于一般的分层抽样,如果是的无偏估计(),则是的无偏估计。的方差为:性质性质2:对于分层随机抽样,是的无偏估计,2024/11/2周六128因而的方差为:性质性质3:对于分层随机抽样,的一个无偏估计为:2024/11/2周六129第三节第三节比率估计量及其性质比率估计量及其性质n先“比”后“加权”,此时所得的估计量称为分别比估计(separateratioestimator)n先“加权”后“比”,这样所得的估计量称为联合比估计(combinedratioestimator)2024/11/2周六130分别比估计n定义3.4总体

37、均值和总体总量的分别比估计为:2024/11/2周六131n定理3.5对于分层随机抽样的分别比估计,若各层的样本量都比较大,则有2024/11/2周六132证明n根据比估计量的性质,当比较大时,有2024/11/2周六133联合比估计2024/11/2周六1342024/11/2周六135分别比估计与联合比估计的比较2024/11/2周六1361)当,即或分别比估计的精度与联合比估计的精度是一样的。2)当,即,分别比估计的精度不低于联合比估计的精度。3)当且,这意味着分别比估计的精度要高于联合比估计的精度。2024/11/2周六1374)当且,或且,联合比估计的精度要高于分别比估计的精度。5)

38、当,即比估计量的方差小于简单估计量的方差时,需视具体情况而定。2024/11/2周六138第四节第四节回归估计量及其性质回归估计量及其性质n与比估计相似,将回归估计的思想与技术用于分层随机样本时,同样有两种可行的办法:n先“回归”后“加权”,此时所得的估计量称为分别回归估分别回归估计计;n先“加权”后“回归”,这时所得的估计量称为联合回归估联合回归估计计3.4.1分别回归估计分别回归估计n定义3.6分别回归估计分别回归估计是指在分层随机抽样中,先在每层中对层均值或层总和做回归估计,然后再对各层的回归估计按总体层权进行加权平均。1.各层的回归系数各层的回归系数h事先给定事先给定2.不能事先设定各

39、层的回归系数不能事先设定各层的回归系数h3.4.2联合回归估计联合回归估计1.当当为事先设定的常数时为事先设定的常数时2.当回归系数当回归系数不能事先设定时不能事先设定时3.4.3分别回归估计与联合回归估计的比较分别回归估计与联合回归估计的比较经化简得经化简得:例3.3n已知某公司一般职员(包括办事员和保管人员)及高级管理(经理)人员刚进入公司时的工资总额,欲通过抽样调查估计当前该公司职员的工资总额Y。抽样按照一般职员层与高管层进行分层随机抽取。一般职员层抽取n1=15名职员,高管层抽取n2=10名职员。同时还知道一般职员层人员总数N1=390名,该类职员进入公司时工资总额为X1=552396

40、5元;高管层人员总数N2=84名,该类职员进入公司时工资总额为X2=2541660元。经过分层随机抽样调查所得的数据如表35所示。请对上述数据分别按照分别比估计、联合比估计、分别回归估计、联合回归估计以及差估计方法对该公司当前职员工资总额Y做出估计,同时计算出各个估计量的精度。五种估计方法五种估计方法结果比较结果比较n注意注意:此时的比估计和回归估计(回归系数采用样本回归系数进行估计)均为有偏估有偏估计,并且考虑到各层的样本量都不大,回归估计的偏倚有可能更大,所以此时采用比估计,特别是联合比估计会更保险。而差估计虽然标准差相对较大,但它却是无偏的无偏的,均方误差并不一定大,所以仍然有采用的价值

41、。3.4.4比率估计与回归估计小结比率估计与回归估计小结n在分层随机抽样中,当辅助变量可加以利用时辅助变量可加以利用时,为了提高估提高估计量的精度计量的精度,可以采用分别比估计、联合比估计、分别回归分别比估计、联合比估计、分别回归估计以及联合回归估计估计以及联合回归估计等估计方法。n在比估计比估计中,当各层样本量都较大时,分别比估计与联合比估计近似无偏;当某些层的样本量不够大,而总样本量较大时,联合比估计近似无偏。n在回归估计回归估计中,少数情况下,回归系数可以是事先设定的常数,其估计量无偏;多数情况下,回归系数需利用样本回归系数进行估计,其估计有偏,但在大样本的情况下近似无偏。n当Y与X高度

42、相关时,分别比估计、联合比估计、分别回归估计以及联合回归估计等估计等产生的估计量都是有效的都是有效的。选择估计方选择估计方法,法,大致需遵循的原则大致需遵循的原则n在选择估计方法时在选择估计方法时,大致需遵循下面的原则大致需遵循下面的原则:(1)由于分别估计(无论是分别比估计还是分别回归估计)要求各层的样本量都比较大,所以当某些层的样本量不够大时,建议采用联合估计(2)当回归系数需要由样本进行估计时,回归估计量是有偏的。在这种情况下,采取比估计尤其是联合比估计也许更保险(3)如果各层的样本量都比较大,同时每层的比估计或回归估计也比较有效(即h均比较大),而且各层的Rh之间(或h之间)差异较大,

43、则此时分别估计优于联合估计,估计量的方差更小(4)如果各层的样本量不大,而且各层的Rh之间(或h之间)差异较小,则采用联合估计较为适宜(5)如果各层的Rh之间(或h之间)差别不是太大,而且并不是每层的样本量都相当大,则联合估计可能更保险一些n如果各层的回归系数都接近于1,则可以采用差估计。虽然有时差估计量的方差偏大,但由于它为无偏估计量,所以总的均方误差不一定大第五节第五节 各层样本量的分配各层样本量的分配n确定样本量:总的样本量,各层样本量n估计量的方差不仅与各层的方差有关,还和各层所分配的样本量有关。2024/11/2周六166n实际工作中有不同的分配方法,可以按各层单元数占总体单元数的比

44、例分配,也可以采用使估计量总方差达到最小、费用最小。2024/11/2周六167一、比例分配一、比例分配n按各层单元数占总体单元数的比例,也就是按各层的层权进行分配.n对于分层随机抽样,这时总体均值的估计是2024/11/2周六168自加权总总体体中中的的任任一一个个单单元元,不不管管它它在在哪哪一一个个层层,都都以以同同样样的的概概率率入入样样,因因此此按按比比例例分分配配的的分分层层随随机机样样本本,估估计计量量的的形形式式特特别别简简单单。这这种种样样本也称为自加权的样本。本也称为自加权的样本。n总体比例的估计是2024/11/2周六169二、最优分配二、最优分配(一)最优分配(一)最优

45、分配n在分层随机抽样中,如何将样本量分配到各层,使得总费用给定的条件下,估计量的方差达到最小,或给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。2024/11/2周六1702024/11/2周六1712024/11/2周六172定理定理3.7的证明的证明n对所有层成立时,达到极小2024/11/2周六173常数n简单线性费用函数,总费用由此得出下面的行为准则,如果某一层n单元数较多n内部差异较大n费用比较省则对这一层的样本量要多分配一些。2024/11/2周六174三三Neyman(内曼)最优分配(内曼)最优分配n如果每层抽样的费用相同,最优分配可简化为n这种分配

46、称为Neyman分配。这时,达到最小。2024/11/2周六175例例3.43.4某市有甲、乙两个地区,现要进行家庭收入的调查。令n=500,已知甲地区共有20000户居民,乙地区共有50000户居民;甲地居民和乙地居民年收入标准差估计分别为S1=2500,S2=2000;同时对甲地和乙地每户的平均抽样费用之比为23,请分别计算出在甲地和乙地进行比例分配、一般最优分配(考虑费用因素)以及内曼分配(不考虑费用因素)的样本量。2024/11/2周六1762024/11/2周六1772024/11/2周六178四、某些层要求大于四、某些层要求大于100%100%抽样抽样时的修正时的修正n 按最优分配

47、时,有时抽样比f较大,某个层的 又比较大,则可能出现按最优分配计算的这个层的样本量 超过 的情况。n实际工作中,如果第 k 层出现这种情况,最优分配是对这个层进行100%的抽样,即取 ,然后,将剩下的样本量 按最优分配分到各层。2024/11/2周六179五、五、偏离最优分配时对精度的影响偏离最优分配时对精度的影响2024/11/2周六180例3.62024/11/2周六1812024/11/2周六182第六节第六节 总样本量的确定总样本量的确定n令 当方差 给定时2024/11/2周六183n当按比例分配时,n实际工作中,n的计算可以分为两步,先计算:n然后进行修正:2024/11/2周六1

48、84n当按Neyman分配时,2024/11/2周六1852024/11/2周六1862、精度要求是以精度要求是以的绝对误差限的绝对误差限d(在给定的置在给定的置信水平信水平1-下下)的形式给出的的形式给出的2024/11/2周六1872024/11/2周六1883.精度要求以精度要求以的相对误差限的相对误差限r(在给定的置信水在给定的置信水平平1-下下)的形式给出的形式给出2024/11/2周六1892024/11/2周六190例3.72024/11/2周六1912024/11/2周六1922024/11/2周六193二、总费用给定时总样本量的确定n给定V时2024/11/2周六194给定C

49、时2024/11/2周六195第七节第七节 分层抽样的其他方面分层抽样的其他方面一、一、多重分层多重分层n定义定义当调查指标与两个或多个辅助变量x1,x2,都存在相关关系时,为了提高分层的效益,需要按每一个辅助变量进行分层,通常的做法是先按最主要的变量分成大层,在大层中再按第二主要变量分成子层,从而形成交叉分层。当存在多个分层变量时,这种分层方式即称为多重分层(multiplestratification)。2024/11/2周六196n对于多重分层,当“子层”划分好以后,就要考虑样本量在样本量在各子层的分配问各子层的分配问题。最简单常用的样本量分配方法是按照与每一子层大小成比例的原则进行分配

50、。n在多重分层中,有时会出现这样一个问题:当总样本当总样本量量n相对于子层总数相对于子层总数RC不够大时不够大时,会出现某些子层会出现某些子层分配不到样本的情况。分配不到样本的情况。若nmax(R,C),则此时应当考虑重新确定分层变量或者不采用分层抽样,否则这种分层的效益是很难保证的。若nRC,同时还满足nmax(R,C),就可以考虑用试验设计的思想来进行样本量的分配。2024/11/2周六197二、事后分层二、事后分层实际工作中,有时进行事先分层会存在一定的困难n各层的抽样框无法得到n几个变量都适合于分层,要进行事先的交叉分层比较困难,并且我们并不需要交叉分层后每个子层的估计n一个单位到底属

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服