电子教案-统计学原理(第二版)：8章.doc

资源描述

1、第八章抽样调查一、教学目的1.介绍抽样调查、抽样估计的有关内容。2.掌握抽样估计的方法；理解抽样调查所涉及的基本概念和抽样组织形式；3.理解抽样误差产生的原因、影响因素和计算方法；4.了解抽样推断的概念及其特点。二、教学重点抽样估计的方法及计算三、教学难点抽样误差的概念及计算四、教学时数建议8课时，其中：课堂讲授7学时，习题课1学时。五、教学内容参考第一节抽样调查概述一、抽样调查的概念抽样调查是现代统计调查中最常用的基本方法之一。抽样调查是根据部分实际调查结果来推断总体标志总量的一种统计调查方法，属于非全面调查的范畴。它是按照科学的原理和计算，从若干单位组成的事物总体中，抽取部分样本

2、单位来进行调查、观察，用所得到的调查标志的数据以代表总体，推断总体。与其它调查一样，抽样调查也会遇到调查的误差和偏误问题。通常抽样调查的误差有两种：一种是工作误差（也称登记误差或调查误差），一种是代表性误差（也称抽样误差）。但是，抽样调查可以通过抽样设计，通过计算并采用一系列科学的方法，把代表性误差控制在允许的范围之内；另外，由于调查单位少，代表性强，所需调查人员少，工作误差比全面调查要小。特别是在总体包括的调查单位较多的情况下，抽样调查结果的准确性一般高于全面调查。因此，抽样调查的结果是非常可靠的。二、抽样调查的分类抽样调查可以按不同的标准进行分类。按抽选样本的具体原则不同，可以分为概率

3、抽样和非概率抽样。1.概率抽样在概率抽样中，如果总体中每个单元被抽中的概率都相等，则为等概率抽样；如果每个单元被抽中的概率不完全相等，则为不等概率抽样。2.非概率抽样有时，概率抽样在实际中难以实现，如从海水中抽样，通常只限于一部分；从运煤货车中抽样，一般是从顶部进行等。此时，只能采用非概率抽样。非概率抽样也就是非随机抽样，在抽样过程中不完全按随机原则进行，带有一定的主观随意性，所以无法估计抽样误差，也不能控制抽样误差。用非概率抽样取得的样本叫做非随机样本。非概率抽样主要包括：随意抽样：按抽样者的方便，随意地抽取样本。定额抽样：依一定的标志将总体分成若干层，并按各层在总体中所占的比例分配样本总量

4、在各层的数额，以抽到各层所需定额为止。定额抽样是美国的盖洛普(G.H.Gallup)创立的，它是非概率抽样中比较科学的一种抽样方式。判断抽样：抽样者依照自己的经验抽取具有平均水平的典型单位作为样本，因此也叫做典型抽样。滚雪球抽样：先从总体中找出少数个体，通过这些个体了解其它个体，再由已了解到的个体去发现更多的个体，以此类推，了解到的个体越来越多，最后接近于总体。三、抽样调查的基本步骤抽样调查一般可概括为以下八个基本步骤：(1)明确调查目的要求；(2) 编制抽样框；(3) 设计调查问卷； (4)设计抽样方案，随机抽取样本；(5)培训调查员，组织开展调查；(6)检查调查结果，进行数据处理；(7)分

5、析调查结果，撰写调查报告；(8)积累调查信息，总结调查经验，研究探讨新的调查方式方法或开拓现有调查方式方法应用的新领域。四、抽样调查的特点首先，按随机原则抽选调查单位是抽样调查的一大特色。其次，可以用样本资料推断总体资料是抽样调查的又一基本特征。其三，抽样调查的速度快、周期短、精度高。其四，在抽样推断之前可以计算和控制抽样误差。其五，抽样技术灵活多样。其六，抽样调查的应用十分广泛。最后，同其他调查方式相比，抽样调查的技术性更强。五、抽样调查的作用抽样调查所依据的概率原理属于数理统计学的一个重要分支，也是现代统计学的基础。抽样的方法不仅对统计推断、统计检验以及统计决策等理论的发展产生了直接的影响

6、，而且还构成了其他应用性学科如计量经济学、管理会计学等的方法论基础。其一，抽样调查能够解决全面调查所无法解决的现象的调查问题。 (1)产品质量的破坏性检验。 (2)无限总体的调查。(3)包括未来时序的总体。其二，抽样调查适用于对理论上可以作全面调查，而实际上又难以组织全面调查的现象进行调查。其三，抽样调查对于时效性要求较高、同时又可以不作全面调查的现象的调查有着特殊的作用。其四，抽样调查的结果可被用来检验和修正全面调查结果。其五，抽样调查可对工业生产过程的稳定性进行监测，从而实现质量控制。其六，利用抽样调查方法还可以对总体的某些假设进行检验，以判断这些假设的真伪，为管理决策提供依据。第二节

7、抽样误差与抽样估计一、抽样推断的相关概念（一）抽样推断的含义及特点 1. 含义抽样推断是指在抽样调查的基础上，利用样本的实际资料计算样本指标并据以推算总体相应数量特征的一种统计方法。 2. 特点抽样推断是由部分推算总体的一种认识方法；是一种建立在随机抽样基础上的统计方法；运用了概率估计的方法；抽样估计误差可以事先计算并加以控制。例如，要了解某班学生的数学平均成绩，在很紧张的时间限制下，无法得知全班100名同学的成绩，这样，老师决定在100名当中取出20名同学的分数来计算平均数，作为全班分数的平均数，来概括全班考试情况。这就是抽样推断。（二）抽样推断的内容 1. 参数估计参数估计是指依据所获

8、得的样本资料观察对所研究现象总体的水平，结构规模等数量特征进行估计。参数估计包括许多内容：确定估计值和确定估计的优良标准加以判别，求估计值和被估计值参数之间的误差范围，计算在一定误差范围内所作推断的可靠程度。 2. 假设检验假设检验是指先对总体的状况作某种假设，然后再根据抽样推断的原理，根据样本资料对所作假设进行检验，来判断这种假设的真伪，以决定我们行动的取舍。（三）相关概念 1. 总体和样本总体亦称全及总体，指所要认识的研究对象全体，它是由所研究范围内具有某种共同属性的全体单位所组成的集合体。样本又称抽样总体，它是全及总体中随机抽取出来的，作为代表这一总体的那部分单位组成的集合体。由此

9、可知，总体和样本，一个是整体，一个是部分，全及总体是我们的研究内容的对象，因此它是唯一的，确定的；而样本则是建立在随机基础上抽取出来的，所以每一次选样，都会选出不同的结果，所以它是变动的，不确定的。 2样本容量和样本个数样本容量指一个样本所包含的单位数（样本容量小于30的称为小样本，反之，则称为大样本）。样本个数指从一个总体中可能抽取的样本个数。重复抽样(有放回抽样)是把总体中已抽取的样本单位再放回总体中去，重复地参加以下的抽样。不重复抽样(无放回抽样)是某一单位在被抽中之后，就不再放回总体重复参加以后各次的抽样。3总体参数与统计量总体参数总体某个特征或属性的数量表现。通常有4种：总体均值

10、；总体方差和标准差；总体比例；总体标志总量N。统计量以样本指标为基础构造的，用以估计总体指标的规则或者形式，是随机变量。通常有4种：样本均值；样本和标准差；样本比例p；样本容量n。表8-1 总体参数与样本统计量对照表符号表示总体参数样本统计量均值比例p方差s 二、抽样误差与非抽样误差抽样调查中的误差分为两类：抽样误差和非抽样误差。（一）抽样误差1. 概念抽样误差是由于抽样的非全面性和随机性引起的偶然性误差，即因抽样的估计随样本而异造成的误差。抽样误差表现为三种形式：抽样实际误差、抽样标准误、抽样极限误差。（1）抽样实际误差抽样实际误差是指抽样估计值与总体指标之间的离差。每一次抽烟的实际误

11、差是不可知的，它是随机变量，若估计量无偏，所有可能的实际误差的总和为0。（2）抽样标准误抽样标准误是衡量抽样误差大小的核心指标，是对总体指标作出区间估计的一个重要因素，狭义上所指的抽样误差就是抽样标准误，它就是抽样分布或抽样估计量得标准差，是抽样分布方差或者抽样估计量方差（均方误差）的平方根。抽样分布的方差或标准差越大（小），估计量的抽样分布就越分散（集中），抽取样本估计总体的误差平均来讲就越大（小）。影响抽样标准误的主要因素有:总体内在差异；样本容量；抽样方式、方法。（3）抽样极限误差抽样极限误差是指以样本估计总体所允许的最大误差范围，也即在一次抽样估计时，抽样估计量所允许的最高值或者最

12、低值与总体指标之间的绝对离差。抽样极限误差取决于两个因素：抽样标准误差和置信水平（抽样估计概率保证程度）。2. 抽样标准误差抽样平均误差反映抽样误差的一般水平。（1）抽样平均数的标准误差在重复抽样条件下，抽样平均数的标准误差取决于总体的变异程度以及样本容量大小两个因素，即：在不重复条件下，平均误差为：（2）抽样成数的平均误差重复抽样条件下，样本比例的抽样方差为，则不重复抽样条件下，样本比例的抽样方差3. 抽样极限误差抽样极限误差是可允许的误差范围，或者说，是统计量与参数离差的最大范围，一般用表示。即： 4. 抽样误差的概率度抽样误差的概率度是测量估计可靠程度的一个参数，用t表示，反映误

13、差范围为抽样平均误差的t倍。或（二）非抽样误差非抽样误差是由随机抽样的的偶然性因素以外的原因引起的误差。非抽样误差主要有三类：抽样框误差、无回答误差、计量误差。抽样框误差抽样框误差抽样框误差抽样框误差是目标总体（研究对象的全体）与抽样总体之间的不一致导致的误差。三、置信区间置信区间是由样本对某总体参数所做的区间估计，该区间以一定的置信度(概率)包含该参数的真值。我们客观地承认，只要进行抽样调查，必然存在误差，并且根据经验或工作要求，我们可以设置一个误差最大值，但要使抽样调查结果一定符合误差在极限误差范围内，却并非能够实现。所以要保证误差不超过一定范围的，只能给一定程度的概率保证程度。抽样估

14、计置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。例如，现在设我们在很短的时间内要了解某个企业的职工工资水平，由于时间局限，只能在 300名职工中选出10名，来通过10名职工的平均工资水平估计全厂职工水平。假设抽样误差不超过20元，如果这10名职工平均工资为680元，则全厂职工的平均工资水平应为（660，700）。但是问题在于，如果我们在选样时被选单位工资分布较均匀，那么这种代表性当然很强，出现误差数肯定在20元以内，如果在选样时，被选单位工资过高（或过低），那么算出来的工资与实际水平的误差就可能不止20元了，说明因为随机选样，误差水平均不同，所以无法使得误差水平一定在设定

15、的范围内，而只能说在这个范围内的一种可能程度、概率，比如说有百分之九十的可能会使误差在设定范围内。由此可见，抽样估计置信度应是一个以百分比表示的概率数，记作P（概率学中表示概率的符号）。当误差变化时，概率怎么变化如下： 1.P与的关系。在其它条件不变的情况下：我们规定的（极限误差）越大，抽样的把握程度越大；反之，我们规定的（极限误差）越小，抽样的把握程度越小。即 P与之间是正方向变化。（P与之间存在一种函数关系）例如，以密云县太师屯、十里堡等几个地（随机抽样的结果）的小麦产量来估计全县的小麦产量，如果设误差最大值1=100斤，2=50斤，得（400，600）、（450，550）两个区

16、间。第一个区间的可能程度应大于第二区间的可能程度，因为它实际上包括了第二个区间的可能性。 2.因为，所以P与之间的函数关系也就是P与t、之间的函数关系，根据样本资料，作为平均误差，可以计算出来，是一个常数，这样，P的值就依赖于t数值的确定了，由此可以得到P=F（t）即抽样的置信度可以表示成抽样误差概率度的一个函数，也就是说，P与t值可以互相确定，知道t值就可以求出P值，反之亦然。如查正态分布概率分布表：t=1 F(t)=P=68.27% t=2 F(t)=F(2)=P=95.45% t=3 F(t)=F(3)=P=99.73% t=1.64 F(t)=90% t=1.96 F(t)=95% 四

17、、抽样估计方法（一）参数估计的方法 1. 点估计点估计是定值估计，以所抽样本资料为依据，直接根据所选的估计量对总体指标作出一个确定值的估计。基本表现形式：= 或p = 2. 区间估计区间估计是以点估计为依据，用一个具有一定可靠程度的区间范围来估计总体指标。基本表现形式：（， +）或（p-，p+）（二）估计的优良标准 1.无偏性若一个估计量的期望值等于我们想要估计的总体参数的真值，就称其为无偏估计量。即，对大量的样本观察值重复采用这个方法所得估计值的均值应当等于参数真值。即：E（x）=； E（p）= 2. 一致性一致性是指随着样本容量的增大，估计量越来越接近被估计的总体参数。如图所示：

18、 3. 有效性对同一总体参数的两个无偏点估计量，有更小标准差的估计量更有效。如图8-1所示：（三）总体均值的区间估计1. 总体均值的区间估计假定条件：设正态总体，且已知总体方差()；如果不是正态分布，只要样本容量充分大（一般习惯上要求），的抽样分布近似服从正态分布。此时样本均值数学期望为总体均值，方差为。而样本均值经过标准化以后的随机变量则服从标准正态分布。即随机变量，得置信概率为的的置信区间：当总体方差未知时，只要将公式中的总体标准差用样本标准差代替，就可近似得到总体均值的置信区间：【例8-1】为了解居民用于服装消费的支出情况，随机抽取90户居民组成一个简单随机样本，计算得

19、样本均值为810元，样本标准差为85元，试建立该地区每户居民平均用于服装消费支出的95%的置信区间。解：假设用随机变量表示居民的服装消费支出，本题虽然总体分布未知，但由于，是大样本且未知，所以可利用公式近似得到总体均值的置信区间。根据题意，元，元，，与置信度95%相对应的，查标准正态分布表，得到。将这些数据代入公式，便可得到总体均值的置信度为95%的置信区间为于是，我们有95%的把握认为，该地区每户居民平均用于服装消费的支出大约介于元到元之间。2. 总体比例的区间估计假定条件：设总体服从二项分布或如果不是二项分布，只要样本容量充分大样本比例p分布近似服从正态分布。

20、样本比例的数学期望等于总体比例。p的方差为。而样本比例经标准化后的随机变量服从标准正态分布，即得置信概率为的的置信区间：【例8-2】在对某地区1000名下岗工人的调查中发现，女工所占的比例为65%。试建立在下岗工人中，女工所占比例的95%的置信区间。能否作出下岗工人中女性所占比例超过男性的结论？解：假设用表示下岗工人中女工所占的比例，则由已知条件可知，样本比例。因为，，，所以的抽样分布近似服从正态分布。对于，查标准正态分布表，得。应用公式，得到在下岗工人中，女工所占比例的置信度为95%的置信区间为于是，我们有95%的把握认为，下岗工人中女工所占比例大约在0.62到0.68

21、之间，超过了0.5，所以可以得出女性所占比例超过男性的结论。第三节抽样组织形式概率抽样按其组织方式不同，可分成简单随机抽样、等距抽样、类型抽样、整群抽样。一、简单随机抽样简单随机抽样（也叫纯随机抽样），是指就是从总体中不加任何分组、划类、排队等，完全随机地抽取调查单位。特点是：每个样本单位被抽中的概率相等，样本的每个单位完全独立，彼此间无一定的关联性和排斥性。简单随机抽样是其它各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时，才采用这种方法。简单随机抽样方法：1. 抽签法一般地，抽签法就是把总体中的N个个体编号，把号码写在号签上，将号签放在一个容器中，搅拌均匀后，每次从

22、中抽取一个号签，连续抽取n次，就得到一个容量为n的样本。（抽签法简单易行，适用于总体中的个数不多时。当总体中的个体数较多时，将总体“搅拌均匀”就比较困难，用抽签法产生的样本代表性差的可能性很大） 2. 随机数法随机抽样中，另一个经常被采用的方法是随机数法，即利用随机数表、随机数骰子或计算机产生的随机数进行抽样。二、等距抽样等距抽样（也叫机械抽样或系统抽样），是指将总体各单位按一定标志或次序排列成为图形或一览表式（也就是通常所说的排队），然后按相等的距离或间隔抽取样本单位。其特点是：抽出的单位在总体中是均匀分布的，且抽取的样本可少于纯随机抽样。等距抽样既可以用同调查项目相关的标志排队，也可以用

23、同调查项目无关的标志排队。等距抽样是实际工作中应用较多的方法，目前我国城乡居民收支等调查，都是采用这种方式。三、类型抽样类型抽样（也叫分层抽样），是指将总体单位按其属性特征分成若干类型或层，然后在类型或层中随机抽取样本单位。其特点是：由于通过划类分层，增大了各类型中单位间的共同性，容易抽出具有代表性的调查样本。该方法适用于总体情况复杂，各单位之间差异较大，单位较多的情况。四、整群抽样整群抽样是指从总体中成群成组地抽取调查单位，而不是一个一个地抽取调查样本。其特点是：调查单位比较集中，调查工作的组织和进行比较方便。但调查单位在总体中的分布不均匀，准确性要差些。因此，在群间差异性不大或者不适宜单个

24、地抽选调查样本的情况下，可采用这种方式。整群抽样的实施步骤： 1.确定分群的标注，将总体分成i个群；2.总体（N）分成若干个互不重叠的部分，每个部分为一群。 3.根据各样本量，确定应该抽取的群数。 4.采用简单随机抽样或系统抽样方法，从i群中抽取确定的群数。第四节样本容量的确定样本容量又称“样本数”，是指一个样本的必要抽样单位数目。在组织抽样调查时，抽样误差的大小直接影响样本指标代表性的大小，而必要的样本单位数目是保证抽样误差不超过某一给定范围的重要因素之一。因此，在抽样设计时，必须决定样本单位数目，因为适当的样本单位数目是保证样本指标具有充分代表性的基本前提。一、估计总体均值时样本容量的

25、确定由于总体均值的置信区间是由样本均值和极限误差两部分组成。在重复抽样无限总体抽样条件下，极限误差为。的值和样本容量n共同确定了极限误差的大小，一旦置信水平1-确定，就可以确定。对于给定的和总体标准差，就能够确定任一希望的极限误差所需要的样本容量。若表示极限误差，则由此，可以推导出样本容量计算公式如下：【例8-3】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元，假定想要估计年薪95%的置信区间，希望边际误差为400元，应抽取多大的样本容量？解: 已知s =2000，=400, 1-a=95%， za/2=1.96 应抽取的样本容量为即应抽取97人作为样本二、估计总体比例时样

26、本容量的确定与估计总体均值时样本容量的计算类似，在重复抽样或无限总体抽样条件下，估计总体比例置信区间的极限无处为，的值和样本容量n共同确定了极限误差的大小，一旦置信水平1-确定，就可以确定。对于给定的和总体标准差，就能够确定任一希望的极限误差所需要的样本容量。若表示极限误差，则由此，可以推导出样本容量计算公式如下：【例8-4】根据以往的生产统计，某种产品的合格率约为90%，现要求边际误差为5%，在求95%的置信区间时，应抽取多少个产品作为样本？解: 已知p=90%，a=0.05， za/2=1.96， =5%应抽取139个产品作为样本根据样本量计算公式，我们知道，样本量的大小不取决于总体的多少，而取决于(1) 研究对象的变化程度；(2) 所要求或允许的误差大小（即精度要求）；(3) 要求推断的置信程度。也就是说，当所研究的现象越复杂，差异越大时，样本量要求越大；当要求的精度越高，可推断性要求越高时，样本量越大。13

展开阅读全文