1、第六章 抽样与抽样估计第一节 抽样调查的基本概念一、抽样推断的意义及特点1、 抽样推断的含义抽样推断是在抽样调查的基础上,利用样本的实际资料计算样本指标,并据以推算总体相应数量特征的一种统计分析方法。2、 抽样推断的特点抽样推断的特点归纳起来有以下几点:(1) 抽样推断是由部分推算整体的一种认识方法;(2) 抽样推断是建立在随机抽样的基础上;(3) 抽样推断是运用概率估计的方法;(4) 抽样推断的误差可以事先计算并加以控制。3、 抽样推断的内容利用样本资料认识总体的数量特征,可以有两种途径,因此抽样推断的主要内容也就有两个方面,即参数估计和假设检验。参数估计是依据所获得的样本观察资料,对所研究
2、现象总体的水平、结构、规模等数量特征进行估计;假设检验是利用样本资料对总体所作的某种假设进行检验,来判断这种假设的真伪,以决定我们行动的取舍。二、抽样的基本概念1、 总体和样本总体也称母体或全及总体,是统计研究对象的全体,它是由研究范围内具有共同性质的全体单位所组成的集合体。总体单位数用N来表示。样本又称子样,是从总体中随机抽出来的用来代表总体的那部分单位的集合体。样本单位数用n表示。总体是确定的,唯一的,样本是不确定的,也不是唯一的,是可变的。2、 参数和统计量根据总体各单位的标志值或标志属性计算的反映总体数量特征的综合指标称全及指标。全及指标是总体变量的函数。其指标值是确定的,唯一的,所以
3、称参数。常用的总体参数有总体平均数(总体成数)和总体方差(标准差)总体参数由于标志的性质不同计算方法也不同。在变量总体的条件下平均数: 或 标准差: 或 在属性总体条件下设具有某种属性的总体单位数为,不具有某种属性的总体单位数为,则具有某种属性的总体成数为: (不具有某种属性的总体成数为:)总体成数的标准差为: 根据样本中各单位标志值或标志属性计算的综合指标称为统计量.统计量是样本变量的函数,用来估计总体参数的.因此和常用的总体参数相对应,有样本平均数、样本方差和样本成数等.常用样本指标(统计量)的计算方法:在变量样本条件下: 或 或 在属性样本条件下: 3、 样本容量和样本个数样本容量是指一
4、个样本所包含的单位数,用n表示。如(重复抽样)(不重复抽样)4、 重复抽样和不重复抽样从抽样方法的方面来看,抽样可以有重复抽样和不重复抽样两种。重复抽样是指从总体N个单位中,随机抽取一个样本,登记之后又放回总体,第二次再从全部N个单位中抽取第二个样本,登记之后再放回去,依此类推,直到抽够样本容量n为止。因此,重复抽样的样本是由次相互独立的连续试验构成的,每次试验是在完全相同的条件下进行的,每个单位中选的机会在各次都完全相等。不重复抽样是从总体N个单位中,随机抽取一个样本,登记之后不再放回总体,而是从剩下的总体单位(N1)中抽取第二个样本,依次类推,最后从剩下的(N-n+1)个单位中抽取第n个样
5、本数为止。因此,不重复抽样的样本也由次连续抽选的结果构成,但连续次抽选的结果不是相互独立的,每次抽取的结果都影响下一次抽取,因而每个单位的中选机会在各次是不相同的。第二节 抽样误差一、抽样误差的含义抽样误差是指排除登记性误差和系统性偏差以外,由于随机抽样的偶然因素使样本各单位结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。抽样误差由抽样方式本身引起,是不可避免的,只能加以控制。二、抽样误差的影响因素影响抽样误差大小的因素有: 总体各单位标志值的差异程度.差异程度愈大则抽样误差愈大,差异程度愈小则则抽样误差愈小。 样本单位数.在其他条件相同的情况下,样本的单位数愈多,则抽
6、样误差愈小. 抽样方法.抽样方法不同,抽样误差也不同。一般情况下重复抽样误差比不重复抽样误差要大一些。 抽样调查的组织形式。不同的抽样组织形式就有不同的抽样误差。三、抽样平均误差1、抽样平均误差的含义抽样平均误差是反映抽样误差一般水平的指标,其实质是抽样指标的标准差。抽样平均误差反映抽样指标和总体指标间的平均误差程度。2、抽样平均误差的计算 平均数抽样的平均误差重复抽样条件下:不重复抽样条件下: 成数抽样平均误差重复抽样条件下:不重复抽样条件下:3、重复抽样和不重复抽样条件下抽样平均误差的区别。从上面的计算公式可看到,在其他条件相同的情况下,重复抽样和不重复抽样仅差一个修正因子的平方根(。由于
7、所以不重复抽样的平均误差小于重复抽样的平均误差的倍。又称抽样比例或抽样强度。四、抽样极限误差1、抽样极限误差的概念抽样极限误差是指抽样指标与总体指标之间误差可允许的最大范围.因平均误差反映抽样的可能误差范围,而实际上每次抽样推断中只抽一个样本,因此实际上的抽样误差可能大于抽样平均误差,也可能小于抽样平均误差。误差太大或太小都会给抽样工作造成不利影响,因而在抽样估计时,应根据研究对象的变异程度和分析任务的要求确定可允许误差的范围,这一允许范围称极限误差。2、 抽样误差的概率度把极限误差或分别除以或得相对数t ,表示误差范围为抽样平均误差的t倍。t是测量估计可靠程度的一个参数,称抽样误差的概率度.
8、 或3、 抽样极限误差与概率度、抽样平均误差的关系。抽样极限误差与概率度、抽样平均误差可以互相推算.即: 或 或以上公式展开以后可得到下面公式: 或 或 第四节 抽样估计方法一、总体参数点估计总体参数点估计的基本特点是,根据总体指标的结构形式设计样本指标作为总体参数的估计量,并以样本指标的实际值作为相应总体参数的估计值。即: 或 抽样估计的优良标准是无偏性、一致性和有效性。无偏性即以抽样指标估计总体指标要求抽样指标值的平均数等于被估计的总体指标值本身;一致性即以抽样指标估计总体指标要求当样本的单位数充分大时,抽样指标也充分的靠近总体指标;有效性即以抽样指标估计总体指标要求作为优良估计量的方差应
9、该比其他估计量的方差小.二、总体参数的区间估计1、区间估计的基本特点总体参数区间估计的基本特点是,根据给定的概率保证程度的要求,利用实际抽样资料,指出总体估计值的上限和下限,即指出总体参数可能存在的区间范围。如果总体参数是或,则其区间范围是:总体参数区间估计必须同时具备估计值、抽样误差范围和概率保证程度三个要素。抽样误差范围决定估计的准确性,而概率保证程度则决定估计的可靠性.对于一个样本,提高了估计准确性的要求,伴随的必然降低了估计的可靠性。同样,提高了估计可靠性的要求,也必然降低了估计的准确性。因此在抽样估计的时候,只能对其中的一个提出要求,而推求另一个要素的变动请情况。2、 抽样估计的概率
10、度和置信度 抽样误差的概率度( t )是测量估计可靠程度的一个参数;抽样估计的置信度 F( t )是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。二者的关系是:当概率度越大,表明抽样误差范围越大,则概率保证程度越大;反之,当概率度越小,表明抽样误差范围越小,则概率保证程度越小。概率保证程度F(t)也可表示为:称显著性水平,表示估计值落在区间以外的可能性。在大样本()的条件下,样本平均数的分布接近正态分布,这时可根据概率度t和置信度的对应函数关系通过正态分布概率表互相查找.3、 区间估计的方法区间估计根据所给定条件的不同,有两种估计方法. 已知抽样误差范围,求概率保证程度。 已知置信
11、程度要求,推算抽样极限误差的可能范围。第五节 其他抽样组织形式及其抽样估计常用的抽样组织形式有简单随机抽样、类型抽样、等距抽样、整群抽样等。一、简单随机抽样1、简单随机抽样的概念和特点简单随机抽样又称纯随机抽样,它是按随机原则直接从总体中抽取样本。简单随机抽样是最基本最简单的抽样组织形式,它适用于某种特征的单位均匀分布的总体.一般在抽样之前对总体各单位进行编号,然后用抽签的方式或根据随机数字表来抽选必要的单位数.2、 简单随机抽样中的有关计算前面所讨论的平均误差、极限误差、点估计、区间估计等计算问题,均是针对简单随机抽样而言的,应熟练掌握以上的各种计算方法.此外,也应该能熟练计算必要的样本数目
12、。 重复抽样条件下: 平均数抽样时必要的样本数目 成数抽样时必要的样本数目 不重复抽样条件下: 平均数抽样时必要的样本数目 成数抽样时必要的样本数目二、类型抽样类型抽样又称分层抽样,它的特点是先对总体各单位按主要标志加以分类(层),减小各组内的差异程度,然后从各类(层)中按随机原则抽取一定的单位组成样本.分类抽样的目的在于使样本的构成充分接近总体构成,从而增大样本的代表性。适宜于各单位标志值或属性差异较大的总体。三、等距抽样等距抽样又称系统抽样或机械抽样.它是先按某一标志对总体各单位进行排队,然后每隔一定的间隔抽取一个样本,直至抽够所要求的样本单位。设总体有N个单位,要抽容量为n的样本,则在一定顺序下抽样距离。即就是把总体分成n段,每段K个单位,每隔K个单位抽取一个样本。若第一个抽中第一段的I号,则样本顺序号依次是: I , I+K I+2K ,,I+(n-1)K等距抽样按总体单位排列情况分为按无关标志排队和有关标志排队两种,以无关标志排队的等距抽样可视同纯随机抽样.等距抽样的目的是将样本均匀地分布在总体中,以提高样本的代表性。四、整群抽样整群抽样是将总体划分为若干群,然后以群为抽样单位,从总体中抽取若干个群体样本,对中选群内的所有单位进行全面调查。整群抽样要求群与群之间的差异要尽量小,群内部的差异可以大一些.整群抽样的目的在于方便抽样。在对总体缺乏了解的情况下通常采用。