应用统计学教案第4章-抽样推断.doc

资源描述

《应用统计学》教案张敏主编第4章抽样推断教学内容 4.1 统计抽样的一般问题 4.2 抽样推断的相关基本概念 4.3 参数估计 4.4 抽样误差 4.5 抽样调查的组织方式及其误差的计算 4.6 样本数目的确定 4.7 Excel在参数估计中的应用教学要求 1.理解不同种类抽样推断的基本原理； 2.理解统计量与统计分布、重置抽样与非重置抽样概念的内涵； 3.理解置信度与置信区间、抽样实际误差与平均误差的区别和联系； 4.掌握不同类型抽样的参数估计原理和方法； 5.了解样本数目确定的原理和方法。教学重点统计量与统计分布、重置抽样和非重置抽样的概念；抽样平均误差的计算；不同类型抽样的参数估计原理和方法；样本数目确定的原理和方法教学难点抽样平均误差的计算；不同类型抽样的参数估计原理和方法教学方法课堂讲授、多媒体教学、课堂讨论、案例分析、课堂练习、上机操作。课时数 12课时（课堂讲授9课时+课堂练习2课时+上机操作1课时）导入案例某品牌手机电池经过技术改进，待机时间得以提高，从该工厂抽取一定数量的样本，测得其平均待机时间，以此推断该工厂生产的电池的待机时间。 4.1 抽样推断的一般问题 4.1.1抽样推断的概念及特点抽样调查是一种非全面调查，它按照随机的原则从总体中抽取部分样本加以调查，目的是对总体相关信息进行推断。抽样调查是一种非全面调查，它按照随机的原则从总体中抽取部分样本加以调查，目的是对总体相关信息进行推断。抽样推断的主要特点如下。（1）按随机原则抽取样本。（2）根据部分推断总体。（3）抽样误差可以估计和控制。 4.1.2样本选取方法样本选取方法有：简单随机抽样、类型抽样、整群抽样等抽样方式问题与应用：统计研究经常面对“大数据”，抽样调查选取样本可大大减少研究成本。因此，用恰当的方式去获取样本是有效研究的前提。 4.2 抽样推断的相关基本概念和理论 4.2.1总和样本总体是所要认识的研究对象的全体，是由所研究范围内具有某种共同性质的全体单位所组成的集合体，具有固定性。样本是指在相同的条件下对总体X进行n次重复、独立的观测，将n次观测结果按试验的次序依次记为,,…,，这样得到的一组个体称为来自总体X的一个简单随机样本，n为这个样本的容量。 4.2.2总体参数和样本参数总体参数是指根据总体各个单位的标志值计算的，反映总体某种数量特征的综合指标，也称全及指标、总体指标。常用的总体参数有总体均值（或总体成数）、总体标准差（或总体方差）。样本参数是指通过样本各单位标志值计算，以此反映样本数量特征的综合指标，也被称为样本统计量。样本参数是样本各变量的函数，用来估计总体参数。常用的样本参数有样本均值（或样本成数）、样本离差（或样本方差）。 4.2.3大数定理和中心极限定理大数定理和中心极限定理是与统计学密切相关的重要数学定理，它们是抽样推断的数学理论基础。 4.2.4重置抽样和非重置抽样的概念重置抽样是指从总体的N个单位中抽取一个容量为n的样本，每次抽出一个单位后，将所要研究的标志登记下来，再将其放回总体中参加下一次抽取，这样连续进行n次抽取便得到一组包含n个单位的样本。重置抽样具有以下特点。（1）同一总体单位有可能被重复抽中。（2）每次都是从N个总体单位中抽取。（3）n次抽取就是n次相互独立的随机试验。 2. 非重置抽样非重置抽样是指将抽中的单位不再放回总体中，下一个样本单位只能从余下的总体单位中抽取。样本由n次连续抽取的结果组成，实质上相当于一次同时从总体中抽取n个单位。非重置抽样具有以下特点。（1）同一总体单位不可能被重复抽中。（2）每次抽取是在不同数目的总体单位中进行的。（3）n次抽取可看作是n次互不独立的随机试验。对于上述两种抽样方式，在实际工作中，更多的是采用非重置抽样，因为在经济工作的调查研究中，很难考虑到将已经被抽中的单位再重置于总体中参加下一次抽取，即使同一个单位被连续抽中，也只是采用其一次的信息，否则将影响抽样调查的结果。在统计学中，重置抽样的意义更多在于，推断统计所建立的随机变量独立同分布理论是从重置抽样的角度出发的。 4.3 参数估计参数估计就是以所计算的样本指标来估计相应的总体指标。参数估计的标准包括：无偏性、有效性和一致性。 4.3.1 点估计参数的点估计是指当总体参数不清楚时，用一个特定值（一般用样本统计量）对其进行估计，称为点估计。常用的点估计方法包括数字特征法、极大似然估计法。数字特征法在参数估计中，如果直接用求得的样本指标估计与之相应的总体指标，则这种方法就称为数字特征法。如用样本均值作为总体均值的估计量，则=；用样本成数作为总体成数的估计量，则=；用样本方差为总体方差的估计量，则=。例4.1 已知某班学生的身高X服从，其中，参数未知，现从该班学生中抽出6名学生作为样本，他们的身高分别为165cm、168cm、173cm、173cm、175cm、180cm，求的估计值。解：由数字特征法可知 ===≈172.33（cm） 4.3.2 区间估计区间估计就是根据样本估计量以一定可靠程度推断总体参数所在的区间范围。总体均值的区间估计（1）已知方差的正态总体设样本来自正态总体，这里已知，总体均值未知，在此条件下，求总体均值的置信水平为的置信区间。设样本均值为。因为总体，故，因此给定置信水平，查标准正态分布表，得临界值（见图4.1），使得，即（4.14）通过变形得（4.15）于是得到正态总体均值的置信水平为的置信区间（4.16）例4.3 某零部件生产厂家生产一种零部件，假设其质量为随机变量X，服从正态分布，其中，为50。现在从该厂生产的一批零部件中随机地抽取30个产品进行测试，测得它们的平均质量为600kg。请计算该厂生产的这一批零部件的平均质量的置信水平为95%的置信区间。解：由已知条件可得，总体方差，样本容量，样本均值。置信水平为，查表可得。，因此该厂此批零部件平均质量的95%的置信区间为(597.47,602.53)。（2）未知方差的正态总体在实际中，经常会遇到总体方差未知的情况，用样本方差来代替，即构造下述统计量给定置信水平，查t分布表，得临界值，使得，即（4.17）通过变形得（4.18）于是得到正态总体均值的置信水平为的置信区间（4.19）例4.4 某生产厂家生产一种灯泡，假设其寿命为随机变量X，服从正态分布，其中，未知。现在从该厂生产的灯泡中随机地抽取50个产品进行测试，直到灯泡寿命终止，测得它们的平均寿命为1200小时，样本标准差为60小时。试计算，在置信水平为95%情况下，该厂此种灯泡平均寿命的置信区间。解：由已知条件可得，样本标准差，样本容量，样本均值。置信水平为，查表可得因此该厂此种灯泡平均寿命的95%的置信区间为(1183.37,1216.63)。总体成数的区间估计成数是指在总体中具有某一特征的个体占总体的比率。对总体中具有某一特征的个体所占的比率进行估计，即对总体成数的估计。在估计时，首先从总体中抽取容量为n的一组样本，计算样本成数，根据经验法则，当与均大于5时，近似服从正态分布。的置信水平为的置信区间为（4.22）例4.7 设要检验10000件某产品的质量，现随机抽取100件，发现其中有25件废品，要求用重置抽样的方法以95%的置信度对该批产品的合格率进行区间估计。解： ≈0.67 ≈0.83 于是得到10000件该产品合格率的置信水平为95%的置信区间为(67%,83%)。 4.4 抽样误差 4.4.1 抽样误差的概念和影响因素概念：抽样误差是指用样本指标推断估计总体指标时，实际存在的绝对离差。影响因素： 1. 总体各单位标志值的变异程度 2. 样本单位数的数量 3. 抽样方法 4. 抽样的组织形式 4.4.2 抽样误差的度量原理在实际抽样推断中，由于各种随机性和系统性因素的影响，推断过程中常存在着误差的困扰，误差若过大，难免会影响抽样推断结果的客观性，因此，对误差的控制极其重要，而这涉及对抽样误差的度量。那么既然抽样极限误差无法直接求取，就只能通过抽样的方式进行间接推断，也即从若干抽样样本中求取（利用样本信息求取而非总体信息）一个抽样平均误差，进而通过抽样平均误差去推导抽样极限误差。 4.4.3 抽样平均误差 1. 抽样平均误差的概念抽样平均误差是根据随机原则抽样时，所有可能出现的样本平均数的标准差。它反映的是样本均值（样本成数）与总体均值（总体成数）的平均误差程度，常用μ表示。 2. 抽样平均误差的两种形式（1）在重置抽样条件下，样本平均误差为（4.24）样本成数误差为（4.25）（2）在非重置抽样条件下，样本平均误差为；（4.26）样本成数误差为（4.27）上述公式中，σ指总体标准差；N指总体单位数；n指样本单位数；指样本成数。例4.9 某公司出口一种名茶，规定每包规格质量不低于150克，现用简单随机抽样方法抽取其中1%进行检验，茶叶样本质料如表4.2所示，试求平均抽样误差。表4.2 茶叶样本资料每包质量 / 克包数 148～149 10 149～150 20 150～151 50 151～152 20 合计 100 解：（克）（克）在重置抽样条件下：（克）在非重置抽样条件下：（克） 4.4.4 抽样极限误差抽样极限误差又称抽样的允许误差范围，是指在一定的置信度下保证样本指标与总体指标之间的抽样误差不超过某一给定的最大可能范围，记作Δ。 1. 在总体服从正态分布且已知时统计量为给定置信水平，查标准正态分布表，得临界值，使得，即通过变形得在此情况下，极限误差可表示为（4.28） 2. 在总体服从正态分布且未知时统计量为给定置信水平，查t分布表，得临界值，在此情况下，极限误差可表示为（4.29）在实际抽样调查工作中，总体方差一般是未知的，故在本章我们只讨论上述第二种情况。由此可得总体均值和总体成数的极限误差表达式分如下。（1）总体均值的极限误差表达式：（4.30）（2）总体成数的极限误差表达式：（4.31）其中，t是指与置信度相对应的临界值。 4.5 抽样方式及其误差的计算 4.5.1 简单随机抽样 1. 简单随机抽样基本概念及特征对总体中的每一个单位，都按具有同等的互相独立的被选中机会的方式进行抽样（不对总体进行分组、排序等），这种抽样方式就称为简单随机抽样。其基本表达式为：N→n（从N个总体单位中抽取n个样本单位），可以分为重置抽样与非重置抽样。 2.简单随机抽样下的总体参数区间估计的计算步骤（1）标志值条件下的计算步骤第一步，计算样本均值。（4.33）第二步，计算抽样平均误差。（4.34）第三步，计算极限误差。，其中（4.35）第四步，计算估计区间。 (,) （4.36）例4.10 某学校进行了一次全校英语测试，为了了解考试情况，从参加测试的1000名学生中，随机重复抽取了10%的成绩进行调查，所得的分布数列如表4.3所示。表4.3 英语成绩分布表测试成绩 / 分 60以下 60～70 70～80 80～90 90以上学生数 10 20 22 40 8 试以95.45%的置信度求该校1000名学生英语平均成绩的估计区间。解：先求出各组组中值，再按以下步骤进行计算。第一步，计算样本均值。第二步，计算抽样平均误差。第三步，计算极限误差。由于置信度为95.45%，故临界值=2。第四步，计算估计区间。置信区间为=(74.32,78.88) 答：在95.45%的置信度下，该校学生英语测试的平均成绩为74.32～78.88分。（2）成数条件下的计算步骤第一步，计算样本均值。（4.37）其中，分母是指抽样样本数，分子是指样本中符合某一要求的样本数。第二步，计算抽样平均误差。，其中（4.38）第三步，计算极限误差。，其中（4.39）第四步，计算估计区间。 (,) （4.40）例4.11 根据表4.2所示的数据资料，试以95.45%的置信度求成绩在80分以上学生所占比重的估计区间。解：先求出各组组中值，再按以下步骤进行计算。第一步，计算样本成数。第二步，计算抽样平均误差。第三步，计算极限误差。由于置信度为95.45%，故临界值t=2。第四步，计算估计区间。置信区间为=(0.38,0.58) 答：在95.45%的置信度下，该校学生英语测试成绩在80分以上学生的比重为38%～58%。 4.5.2 类型抽样 1. 类型抽样基本概念及特征类型抽样是指在对总体进行分组的基础上，对所有各组分别按简单随机抽样方式抽取样本，通过对样本指标进行计算，对总体参数进行推断的一种抽样方式。其表达式为 2. 类型抽样下的总体参数区间估计的计算步骤（1）标志值条件下的计算步骤第一步，计算样本均值。（4.41）其中，=1,2,…,，也即分组的个数。第二步，计算抽样平均误差。，（4.42）其中，是利用组内方差求取的标准差，组内方差， =1,2,…,n。第三步，计算极限误差。，其中（4.43）第四步，计算估计区间。（，）（4.44）例4.12 现将某地区4000亩地按一定标准分为A、B、C这3种类型的地块，从4000亩地块按10%抽样，获得表4.4所示的资料。表4.4 三种类型地块分布情况地块总体 / 亩样本 / 亩平均亩产 / 千克亩产方差样本中高产地块亩数 A 1000 100 1000 50 20 B 1500 150 1200 60 80 C 1500 150 1100 80 60 合计 4000 400 — — 160 在95.45%的置信度下，求4000亩地块平均亩产的估计区间。解：第一步，计算样本均值。第二步，计算抽样平均误差。 =65 第三步，计算极限误差。第四步，计算估计区间。 (,)=(1111.694,1113.306) 答：在95.45%的置信度下，4000亩地块的平均亩产在1111.694～1113.306千克。（2）成数条件下的计算步骤第一步，计算样本成数。（4.45）其中，分母是指抽样样本数，分子是指样本中符合某一要求的样本数。第二步，计算抽样平均误差。（4.46）其中，是利用组内方差求取的标准差；组内方差，，=1,2,…,n。第三步，计算极限误差。，其中（4.47）第四步，计算估计区间。 (,) （4.48）例4.13 根据表4.3所示的数据资料，在99.73%的置信度下，求4000亩地块中高产地块所占比重的估计区间。解：第一步，计算样本成数。第二步，计算抽样平均误差。 =0.22 第三步，计算极限误差。第四步，计算估计区间。 (,)=(0.33,0.47) 答：在99.73%的置信度下，4000亩地块中的高产地块所占比重为33%～47%。 4.5.3 整群抽样 1. 整群抽样基本概念及特征整群抽样是指将总体划分为若干个（互不相交又穷尽）群，然后对群进行抽样并对选中的群进行全面分析的一种抽样方式。分群标准要求：群间异质性低，群内异质性高。其本质是以群为单位的简单随机抽样。表达式为N→R→r，意思是全及总体共有个单位，可以分为R个群体，再从R个群体中抽取r个样本群体。 2. 整群抽样下总体参数区间估计的计算步骤（1）标志值条件下的计算步骤第一步，计算样本均值。，（4.49）其中，=1,2,…,，也即分群的个数，而是指第个群内部的个体数，是指第个群内部所有个体某一指标值的总和。利用各群样本均值计算所抽取的全部群体的样本均值为（4.50）第二步，计算抽样平均误差。（4.51）其中，是利用组间方差求取的标准差。，=1,2,…, （4.52）第三步，计算极限误差。，其中（4.53）第四步，计算估计区间。 (,) （4.54）例4.14 从某公司所有车间中抽取3个车间，调查各车间内部所有工人的月平均生产量，得到表4.5所示的资料。表4.5 工人月平均生产量资料工人人数月平均生产量 / 件车间1 30 20 车间2 60 35 车间3 80 40 在95.45%的置信度下，试计算该公司所有车间全部工人的月平均生产量的估计区间。解：第一步，计算样本均值。第二步，计算抽样平均误差。 =51.38 =0.55 第三步，计算极限误差。 =1.1 第四步，计算估计区间。 (,)=(33.61,35.81) 答：在95.45%的置信度下，该公司所有车间全部工人的月平均生产量为33.61～35.81件。（2）成数条件下的计算步骤第一步，计算样本成数。（4.55）其中，分母是指第个群内部的个体数，分子是指第个群中符合某一要求的样本数。第二步，计算抽样平均误差。（4.56）其中，为所抽取到的各群个体数之和；为总体单位数是利用组间方差求取的标准差。，=1,2,…,n （4.57）第三步，计算极限误差。，其中（4.58）第四步，计算估计区间。 (,) （4.59）例4.15 某工厂大量连续生产某种产品，为掌握该月份某种产品的一级品率，确定抽取5%的产品进行检验，即在全月连续生产的720小时中，每隔20小时抽取1小时生产的全部产品进行检查，调查结果一级品率为80%，组间方差为7%，试以95%的置信度估计一级品率的置信区间。解：第一步，计算样本成数。 =80% 第二步，计算抽样平均误差。其中，，。第三步，计算极限误差。第四步，计算估计区间。 (,)=(71.6%,88.4%) 答：以95%的置信度估计一级品率的置信区间为(71.6%,88.4%)。 4.6 样本数目的确定在参数估计过程中，精度要求与可靠性要求常常相矛盾。当抽样标准差保持不变时，极限误差和临界值之间呈现同一方向的变化。如果要提高精度，需以牺牲置信度为代价；要提高置信度，又要以牺牲估计精度为代价。在抽样标准差不变的情况下，这个矛盾不可调和。但是，通过增加样本容量有可以降低样本均值的标准差，从而实现既保证一定的估计精度，又具有较高的置信度的目的。在抽样调查中，需根据调查任务的要求采用以下公式确定样本容量。在重置抽样条件下（4.60）例4.16 某广告公司想估计某类商店去年所花广告费的平均值，经验表明总体方差为1800000元。若置信度F（1.96）=95％，并要求估计值处在样本均值附近500元的范围内，则该广告公司应抽取多少商品作为样本？解：，，。该广告公司应抽取28个商店作为样本。 4.7 Excel在参数估计中的应用 4.7.1 总体均值的区间估计当总体方差未知且样本容量大于30，即样本为大样本时，采用正态分布来构造总体均值的置信区间。根据中心极限定理，从非正态总体中抽样时，只要能够抽取大样本，那么样本均值的抽样分布就会服从正态分布。因为总体方差未知，所以用样本方差来代替。这时，总体均值在的置信水平下的置信区间为（4.62）这里可用Excel提供的CONFIDENCE.NORM函数来构建总体均值的置信区间，需用样本方差代替总体方差。 4.7.2 实例应用 1. 实例的数据描述例4.17 某保险公司从投保人中随机抽取40人，每位投保人年龄如表4.6所示。已知投保人员年龄近似服从正态分布。试在95%的置信水平下对销售部门的日均销量进行区间估计。表4.6 某保险公司投保人员年龄样本数据单位：岁 43 34 49 39 36 53 45 32 23 31 42 38 34 44 40 28 36 35 33 46 54 39 44 36 39 48 39 42 48 45 24 43 34 28 50 27 36 47 45 35 2. 实例的操作步骤（1）新建Excel工作簿，命名为“保险公司投保人员年龄的区间估计”，将相关文字和数据输入工作表中，如图4.3所示。（2）设置单元格格式，因为年龄为离散型数据，因此需要将相应单元格格式设为整数。选中数据并右击，在弹出的快捷菜单中选择【设置单元格格式】命令，选择“数字”选项卡，在“分类”列表中选择“数值”选项，将“小数位数”设为0，表示要采取整数格式，最后单击【确定】按钮。（3）计算样本均值。单击单元格C3，输入式“=AVERAGE(A2:A41)”，按Enter键即可得到抽取的40个样本的平均年龄为39岁。（4）计算样本标准差。单击单元格C4，输入“=STDEV.S(A2:A41)”，按Enter键即可得到抽取的40个样本的年龄的标准差为7.66。（5）计算。该数值可采用“插入函数”法进行计算。单击单元格C6，输入“=”，依次选择的【公式】→【函数库】→【插入函数】命令，弹出【插入函数】对话框，在“或选择类别”下拉列表中选择“统计”，在“选择函数”列表中选择“CONFIDENCE.NORM”函数，然后单击【确定】按钮，如图4.4所示。将弹出【函数参数】对话框，在“Alpha”文本框中输入“1-C5”，在“Standard_dev”文本框中输入“C4”，在“Size”文本框中输入“C2”，如图4.5所示。单击【确定】按钮，会得到的计算结果为2.37。（6）计算置信上限与置信下限。单击单元格C8，输入“=C3+C6”，按Enter键后可得到置信上限为41.47；单击单元格C9，输入“=C3-C6”，按Enter键后可得到置信下限为36.73，计算结果如图4.6所示。图4.3 输入数据图4.4 选择函数图4.5 输入参数图4.6 计算结果 3. 实例的结果分析在该实例中，因为总体方差未知，所以首先通过计算样本方差以代替总体方差进行均值估计，然后通过CONFIDENCE.NORM函数得到了投保人员的平均年龄的区间范围。由计算结果可知，该保险公司有95%的把握可以认为投保人员的平均年龄为37~41岁。课程思政目标：统计推断就是利用样本数据来推断总体特征的方法，由点及面、由部分推断总体真假的过程。互联网技术带来了信息时代，纷繁复杂、良莠不齐的众多信息充斥着我们的生活，如何“借我一双慧眼”分辨信息真伪，统计推断方法为我们提供了有力的工具。在讲解统计分析方法的适用、基本原理和基本分析步骤时，可通过案例培养学生理性思维，对事物和现象具有高瞻远瞩的理性洞察力，而不是被事物的表面现象所迷惑，盲目跟从。问题与应用：由于对事物的研究通常通过选取样本而进行，所以，利用样本信息对总体指标进行推算，可了解总体均值和方差的相关数值。问题与应用：由于抽样存在随机性，由此导致每次抽样所计算的样本指标也不相同，通过计算抽样误差可控制抽样样本数目，达到最大的经济性。问题与应用：抽样调查是最常见的调查方式，对不同抽样调查方式的抽样误差进行计算有助于掌握抽样分析的精确度。问题与应用：抽样样本量的大小与抽样分析的精确度有密切关系，因此需要掌握样本数目的计算方法。１５

展开阅读全文