资源描述
第八章第八章 抽样推断抽样推断1第一节第一节 抽样推断概述抽样推断概述一、抽样推断的意义一、抽样推断的意义 抽样推断抽样推断是在是在抽样调查抽样调查的基础上的基础上,运用数运用数理统计方法,根据样本资料对总体作出具理统计方法,根据样本资料对总体作出具有一定可靠程度有一定可靠程度推断推断的一种统计方法。的一种统计方法。23特点:特点:1 1.由样本的已知资料去由样本的已知资料去估计估计未知的未知的总体总体数量数量特征特征。2 2.选取样本必须遵循选取样本必须遵循随机原则随机原则。3 3.抽样推断中产生的抽样推断中产生的误差误差可以事先可以事先控制控制。二、抽样推断的作用二、抽样推断的作用1.1.对不可能进行全面调查的现象总体进行推断。对不可能进行全面调查的现象总体进行推断。2.2.对于某些不必要进行全面调查的总体进行推断。对于某些不必要进行全面调查的总体进行推断。3.3.可以对全面调查的数据进行补充或修正。可以对全面调查的数据进行补充或修正。第三、四、五次全国人口普查差错率(第三、四、五次全国人口普查差错率()第三次第三次 0.150.15第四次第四次 6.006.00第五次第五次 18.1018.10454.用于大批量生产过程中产品的质量检验用于大批量生产过程中产品的质量检验和控制。和控制。5.对总体的假设进行检验,来判断这种假对总体的假设进行检验,来判断这种假设的真伪,以决定取舍。设的真伪,以决定取舍。6 三、抽样推断的几个基本概念三、抽样推断的几个基本概念(一)全及总体和抽样总体(一)全及总体和抽样总体 全及总体全及总体:包括调查对象所有单位的总体,简称总体。单位数用包括调查对象所有单位的总体,简称总体。单位数用 N N 表示表示 抽样总体抽样总体:从全及总体中随机抽选出来的单位所组成的小总体,从全及总体中随机抽选出来的单位所组成的小总体,简称样本,样本单位数用简称样本,样本单位数用 n n 表示。表示。7 大样本:大样本:,小样本:小样本:n n n时,常数时,常数1可以可以忽略不计。这样公式可简化为:忽略不计。这样公式可简化为:3233例例.有一个包括四个学生的全及总体,他们某次考试有一个包括四个学生的全及总体,他们某次考试的成绩分别为的成绩分别为4040、5050、7070、8080分。从四个人中抽选分。从四个人中抽选两人进行调查,计算平均分数的抽样误差。两人进行调查,计算平均分数的抽样误差。1.1.先计算先计算 (分)(分)2.然后计算总体方差然后计算总体方差343.根据重复抽样的抽样误差计算公式根据重复抽样的抽样误差计算公式如果是不重复抽样,其抽样误差计算公式为:如果是不重复抽样,其抽样误差计算公式为:35 在实际计算时,在实际计算时,(全及方差)的材料是无法(全及方差)的材料是无法知道的,可以采用以下几种知道的,可以采用以下几种方法方法:1.用样本方差用样本方差(S S2 2)或标准差(或标准差(S)代替)代替;2.用用过去同类问题全面调查或抽样调查的过去同类问题全面调查或抽样调查的经验数经验数据代替;据代替;3.在正式抽样调查之前,组织试验性抽样,用在正式抽样调查之前,组织试验性抽样,用试试验样本数据代替。验样本数据代替。362.2.成数不重复抽样误差的计算公式成数不重复抽样误差的计算公式总体方差总体方差P(1-P)也可按前面介绍的方法来代替计算也可按前面介绍的方法来代替计算。37例例.某工厂对一批产品进行质量检验,在某工厂对一批产品进行质量检验,在500个样本个样本中,有中,有95%是一级品,求一级品的抽样误差。是一级品,求一级品的抽样误差。解:一级品率解:一级品率p95%0.95,由于不知道总体方差,由于不知道总体方差,所以用样本方差代替所以用样本方差代替即一级品的抽样误差为即一级品的抽样误差为0.97%。38例例B.某工厂对一批产品进行质量检验,按某工厂对一批产品进行质量检验,按10的比的比例抽选了例抽选了500个样本,其中有个样本,其中有95%是一级品,求一级是一级品,求一级品的抽样误差。品的抽样误差。39三、抽样估计三、抽样估计即即利用所取得的样本资料,采用一定的估计方法,利用所取得的样本资料,采用一定的估计方法,对总体进行估计和推断。对总体进行估计和推断。(一)抽样估计的优良标准(一)抽样估计的优良标准1 1无偏性。无偏性。用样本指标估计总体指标时,所有可能样本用样本指标估计总体指标时,所有可能样本指标的平均数等于被估计的总体指标。指标的平均数等于被估计的总体指标。2 2一致性。一致性。用样本指标估计总体指标时,若样本容量充用样本指标估计总体指标时,若样本容量充分大,则样本指标充分靠近总体指标分大,则样本指标充分靠近总体指标。3 3有效性。有效性。要求样本指标估计总体指标时,作为无偏估要求样本指标估计总体指标时,作为无偏估计量的方差比其他估计量的方差小。计量的方差比其他估计量的方差小。40(二)抽样估计的方法(二)抽样估计的方法1点估计。点估计。即即用样本指标数值代替总体指标用样本指标数值代替总体指标数值的一种估计方法。数值的一种估计方法。2区间估计。区间估计。是根据样本指标和抽样平均误是根据样本指标和抽样平均误差估计总体指标的可能范围,并同时给出总差估计总体指标的可能范围,并同时给出总体指标落在该范围的可靠程度。体指标落在该范围的可靠程度。41区间估计:根据样本指标和抽样误差去推算区间估计:根据样本指标和抽样误差去推算总体指标的所在范围。总体指标的所在范围。例例1.1.样本中学生的平均体重是样本中学生的平均体重是58kg58kg,抽样误差为,抽样误差为1kg1kg,推断全体中学生的平均体重在,推断全体中学生的平均体重在57kg57kg59kg59kg之之间。间。例例2.2.抽选抽选300300个大学生调查的结果,戴眼镜的学生个大学生调查的结果,戴眼镜的学生占占50%50%,抽样误差为,抽样误差为3%3%,推断全体大学生戴眼镜的,推断全体大学生戴眼镜的比重为比重为47%47%53%53%之间。之间。42区间估计:区间估计:可以说明总体指标所在范围的把可以说明总体指标所在范围的把握程度,即说明总体指标所在范围的概率。握程度,即说明总体指标所在范围的概率。数理统计证明,数理统计证明,抽样误差的变化和其把握程度(概率)抽样误差的变化和其把握程度(概率)之间是有一定的数量关系的。之间是有一定的数量关系的。即概率是概率度的函数。即概率是概率度的函数。在正态分布的情况下,从总体中随机抽取一个样本观察,在正态分布的情况下,从总体中随机抽取一个样本观察,该样本抽样指标落在某一范围内的概率,是用占正态曲线面该样本抽样指标落在某一范围内的概率,是用占正态曲线面积的大小表示。积的大小表示。43图正态分布及其曲线下的面积图正态分布及其曲线下的面积图44概率F(t)(%)概率度 t概率F(t)(%)概率度 t68.271951.96801.2895.452901.6499.733常用的概率与概率度对应值表常用的概率与概率度对应值表45F(tF(t):概率或把握程度,是由概率或把握程度,是由t t决定的(决定的(F(tF(t)是是t t的的函数)函数)t t:概率度,是扩大或缩小的抽样误差的倍数:概率度,是扩大或缩小的抽样误差的倍数:允许误差或极限误差,:允许误差或极限误差,是是抽样指标与全及指标抽样指标与全及指标可能产生可能产生的的离差变动范围的最大绝对值离差变动范围的最大绝对值关系式:关系式:tt可以代入各种不同的抽样估计的公式。可以代入各种不同的抽样估计的公式。p15346进行区间估计的公式如下:进行区间估计的公式如下:1.1.平均数:平均数:47例,例,58kg,=1kg58kg,=1kg,要求以,要求以F(tF(t)=0.9545)=0.9545的把的把握程度作抽样推断。查表得握程度作抽样推断。查表得t=2t=2,推断如下:,推断如下:即全体中学生平均体重在即全体中学生平均体重在56kg56kg60kg60kg之间的概率之间的概率(把握程度)是(把握程度)是95.45%95.45%。48若提高把握程度,若提高把握程度,F(tF(t)=99.73%)=99.73%,t=3t=3,tt3kg3kg即全体中学生平均体重在即全体中学生平均体重在55kg55kg61kg61kg之间的之间的概率(把握程度)是概率(把握程度)是99.73%99.73%。49 p154 p154例例502.2.成数:成数:51例例.p p50%50%,p p=3%=3%,若要求,若要求F(tF(t)=0.9545)=0.9545,t=2t=2,则,则估计大学生中戴眼镜的比重在估计大学生中戴眼镜的比重在44%44%56%56%之间,其概之间,其概率(准确性)在率(准确性)在95.45%95.45%。若提高把握程度,若提高把握程度,F(tF(t)=99.73%)=99.73%,t=3t=3,则估计大学,则估计大学生中戴眼镜的比重在生中戴眼镜的比重在41%41%59%59%之间。之间。52区间估计小结:区间估计小结:1.1.计算计算 或或p;p;2.2.计算方差;计算方差;3.3.计算计算 或或 ;4.4.根据根据F(tF(t),),确定确定t t,计算,计算;5.5.确定全及指标确定全及指标 或或P P的区间。的区间。53第三节第三节 抽样的组织形式抽样的组织形式1.1.简单随机抽样,简单随机抽样,也称纯随机抽样。也称纯随机抽样。2.2.分类抽样,分类抽样,也称类型抽样、分层抽样也称类型抽样、分层抽样。3.3.机械抽样,机械抽样,也称等距抽样也称等距抽样。4.4.整群抽样,整群抽样,也称群体抽样。也称群体抽样。54一、简单随机抽样一、简单随机抽样也也称称纯随机抽样,指在进行抽样时,对全及总体不纯随机抽样,指在进行抽样时,对全及总体不作作处理,按照随机原则从总体中抽取样本单位的方处理,按照随机原则从总体中抽取样本单位的方式。式。方法简单,适用于对调查对象情况了解较少、或方法简单,适用于对调查对象情况了解较少、或者总体单位的排列没有秩序的情况。具体做法有:者总体单位的排列没有秩序的情况。具体做法有:1.1.抽签法。抽签法。2.2.随机数字表法。随机数字表法。55 理论上最符合随机原则,是其他抽样方式的理论上最符合随机原则,是其他抽样方式的基础,也是衡量其他抽样方式效果的标准。基础,也是衡量其他抽样方式效果的标准。当总体很大时,编号困难。当总体很大时,编号困难。总体差异很大时,不能保证样本的代表性。总体差异很大时,不能保证样本的代表性。抽样误差的计算公式即为基本公式抽样误差的计算公式即为基本公式。p15756(2 2)类型抽样)类型抽样1.1.概念:将总体单位按某种标志分组,然后在各组概念:将总体单位按某种标志分组,然后在各组中随机抽取样本。中随机抽取样本。将分组法和简单随机抽样相结合,适用于总体情将分组法和简单随机抽样相结合,适用于总体情况较复杂、各组标志值变动大而且总体单位数量多况较复杂、各组标志值变动大而且总体单位数量多的情况。的情况。代表性高,误差较小。代表性高,误差较小。2.分类 :A 等比例类型抽样也称类型比例抽样:也称类型比例抽样:不考虑方差,只按比例抽取各组样本不考虑方差,只按比例抽取各组样本 B 不等比例类型抽样 也称类型适宜抽样:也称类型适宜抽样:据方差大小确定各组样本数据方差大小确定各组样本数5758分类抽样误差和简单随机抽样误差的计算方法的分类抽样误差和简单随机抽样误差的计算方法的区别是:用平均组内方差代替总体方差:区别是:用平均组内方差代替总体方差:重复抽样:重复抽样:是平均组内方差是平均组内方差 (不重复抽样乘以修正系数)(不重复抽样乘以修正系数)59 在总体分组的情况下:在总体分组的情况下:总方差总方差=组间方差组间方差+组内方差的平均数组内方差的平均数例例.某公司某公司7个门市部的营业额:(单位:万元)个门市部的营业额:(单位:万元)88,90,96,98,110,140,200分为两组,计算可得:分为两组,计算可得:=17(万元)(万元)(万元)(万元)=609.71(万元)(万元)60=795.67(万元)(万元)=795.67+609.71=1405.38(万元)(万元)61分类抽样误差的计算:分类抽样误差的计算:例例.某厂有甲、乙两车间生产保温瓶胆,乙产量是甲的两倍,某厂有甲、乙两车间生产保温瓶胆,乙产量是甲的两倍,现按两车间产量比例共抽查现按两车间产量比例共抽查60支瓶胆,取得以下资料:支瓶胆,取得以下资料:1.1.求该厂生产的全部瓶胆的保温时间的抽样误差。求该厂生产的全部瓶胆的保温时间的抽样误差。2.要求以要求以F(t)=0.9545的把握程度对平均保温时间作区间估计。的把握程度对平均保温时间作区间估计。62已知:已知:k=2k=2组组,n=60,n=60支支,n n甲甲=20=20支支,n n乙乙=40=40支支,(小时)(小时),(小时)(小时),解:解:(由于不知道总体单位数,按重复抽样计算)(由于不知道总体单位数,按重复抽样计算)63成数抽样误差的计算成数抽样误差的计算例例.某地区有某地区有10,000户,按城镇和农民户比例,不重复抽样户,按城镇和农民户比例,不重复抽样1000户,调查电冰箱拥有量,取得资料如下:户,调查电冰箱拥有量,取得资料如下:计算计算电冰箱拥有量电冰箱拥有量的抽样误差。的抽样误差。已知:已知:N=10,000N=10,000户,户,n n1 1=300,n=300,n2 2=700,p=700,p1 1=80%,p=80%,p2 2=15%=15%=13.725%=13.725%6465(3 3)机械抽样)机械抽样(等距抽样)等距抽样)将总体单位按一定顺序排队,根据总体单位数和样本单将总体单位按一定顺序排队,根据总体单位数和样本单位数计算出抽选间隔位数计算出抽选间隔(距离距离),用,用k k表示,表示,k kN/nN/n,然后按照此距离抽选样本。,然后按照此距离抽选样本。例例.从从10,00010,000名职工中抽选名职工中抽选200200名(名(2%2%)职工进行调查,那么抽选间隔)职工进行调查,那么抽选间隔为为10,000/200=5010,000/200=50,即将全体职工按一定顺序排队以后,每,即将全体职工按一定顺序排队以后,每5050名职工抽名职工抽取取1 1个进行调查。个进行调查。最容易组织,并且其抽样误差小于纯随机抽样最容易组织,并且其抽样误差小于纯随机抽样,故在实故在实际工作中广泛采用。际工作中广泛采用。66排队法:排队法:1.1.无关标志排队法无关标志排队法-选择与调查项目没有关系的标选择与调查项目没有关系的标志排队。志排队。近似于简单随机抽样,可按不重复的简近似于简单随机抽样,可按不重复的简单随机抽样方法计算抽样误差。单随机抽样方法计算抽样误差。2.2.有关标志排队法有关标志排队法-选用与调查项目有关的标志排选用与调查项目有关的标志排队。队。是一种特殊的分类抽样,可按分类不重复是一种特殊的分类抽样,可按分类不重复抽样误差的公式来计算其抽样误差。抽样误差的公式来计算其抽样误差。67样本起点确定方式:样本起点确定方式:1.1.随机起点等距抽样随机起点等距抽样,样本单位的顺序,样本单位的顺序号为号为i i,i+k,i+2k,i+k,i+2k,,i i+(n-1)k(n-1)k。当当总体按有关标志排队时,随机起点等距抽样总体按有关标志排队时,随机起点等距抽样会产生系统性误差。会产生系统性误差。682.2.半距起点等距抽样半距起点等距抽样,样本单位都选在各组,样本单位都选在各组的中点的中点,依次为依次为k/2k/2,k+k/2k+k/2,2k+k/22k+k/2,(n-1)k+k/2(n-1)k+k/2。优点优点:简单易懂,容易操作,尤其当总体按有关标简单易懂,容易操作,尤其当总体按有关标志排队时,各样本单位都为各组的中位数,能保证志排队时,各样本单位都为各组的中位数,能保证样本有充分的代表性。样本有充分的代表性。缺点缺点:随机性不明显,不能进行样本轮换。随机性不明显,不能进行样本轮换。693.3.对称等距抽样对称等距抽样,样本单位依次为,样本单位依次为i i,2k-i2k-i,2k+i2k+i,4k-i4k-i,4k+i4k+i,6k-i6k-i,6k+i6k+i,既保既保留了半距起点等距抽样的优点,又具有随机留了半距起点等距抽样的优点,又具有随机性,样本可轮换,是一种较好的方法。性,样本可轮换,是一种较好的方法。70抽样平均误差计算抽样平均误差计算 如果总体按无关标志排队,如果总体按无关标志排队,其其抽样平均误差可抽样平均误差可采用简单随机不重复抽样公式近似计算;采用简单随机不重复抽样公式近似计算;如果总体按有关标志排队,则可用等比例类型如果总体按有关标志排队,则可用等比例类型抽样的公式近似计算。抽样的公式近似计算。71(4 4)整群抽样)整群抽样 将总体分为若干群或组,然后一群群地将总体分为若干群或组,然后一群群地 抽取,每一群包括若干样本单位。抽取,每一群包括若干样本单位。在群内是全面调查,都采用不重复抽样。在群内是全面调查,都采用不重复抽样。优点优点:编制名单和抽选工作较为集中、省:编制名单和抽选工作较为集中、省力、方便。力、方便。72影响整群抽样误差的因素:影响整群抽样误差的因素:1.1.抽取群数抽取群数r r的多少的多少 2.2.群间方差的大小群间方差的大小整群抽样的抽样误差计算公式:整群抽样的抽样误差计算公式:平均数:平均数:成数:成数:73其中群间方差其中群间方差也称组间方差,是各群(组)的也称组间方差,是各群(组)的平均数与总体平均数计算的方差:平均数与总体平均数计算的方差:或是各组成数与总体成数的方差:或是各组成数与总体成数的方差:74第四节第四节 样本容量的确定样本容量的确定75一、一、影响必要样本容量的因素:影响必要样本容量的因素:1.1.总体标志变动度的大小,即方差或标准总体标志变动度的大小,即方差或标准差的大小,成正比。差的大小,成正比。2.2.极限误差(允许误差)值的大小,与其极限误差(允许误差)值的大小,与其平方成反比。平方成反比。763.3.抽样推断的把握程度,即概率抽样推断的把握程度,即概率F(tF(t)值大,值大,要多抽;要多抽;F(tF(t)值小,可少抽。值小,可少抽。4.4.抽样方法:重复抽样要多抽,不重复抽样抽样方法:重复抽样要多抽,不重复抽样可少抽。可少抽。5.5.抽样组织方式:采用类型抽样或机械抽样抽样组织方式:采用类型抽样或机械抽样的样本容量要小于简单随机抽样。的样本容量要小于简单随机抽样。77(1 1)必要抽样数目的计算公式必要抽样数目的计算公式,可根据抽,可根据抽样误差与极限误差的基本关系式导出:样误差与极限误差的基本关系式导出:平均数平均数78例例.已知居民家庭平均每人每月医疗保健支出的标准已知居民家庭平均每人每月医疗保健支出的标准差为差为12.512.5元,求在元,求在0.950.95的把握程度,极限误差为的把握程度,极限误差为2 2元,元,需抽多少样本单位?需抽多少样本单位?已知:已知:12.512.5元,元,F(tF(t)0.950.95,查表得,查表得t=1.96t=1.96,=2=2元,代入公式:元,代入公式:即最少需抽即最少需抽151151个样本单位。个样本单位。79若将若将F(tF(t)降低至降低至0.86640.8664,则,则t=1.5t=1.5即当要求的概率(准确性)降低至即当要求的概率(准确性)降低至86.64%86.64%时,时,只需抽只需抽8888个样本个样本单位单位。8081如是不重复抽样,应乘以修正系数:如是不重复抽样,应乘以修正系数:平均数:平均数:82成数:成数:例例.已知某地区有已知某地区有600600户居民,居民家庭平均户居民,居民家庭平均每人每月医疗保健支出的标准差为每人每月医疗保健支出的标准差为12.512.5元,元,求在求在0.950.95的把握程度,极限误差为的把握程度,极限误差为2 2元,需元,需抽多少样本抽多少样本单位单位?已知:已知:N=600,N=600,12.512.5元,元,F(t)F(t)0.950.95,查查表得表得t=1.96t=1.96,=2=2元,元,83(户)户)8485(2 2)计算必要样本容量应注意:)计算必要样本容量应注意:1.1.公式中总体方差是未知的,可用公式中总体方差是未知的,可用样本数据、样本数据、经验数据、试验数据经验数据、试验数据代替,但在有几个数据代替,但在有几个数据可以选择时,应选择方差大的;可以选择时,应选择方差大的;2.2.成数方差在完全缺乏资料时,可以用成数成数方差在完全缺乏资料时,可以用成数方差的极大值代替;方差的极大值代替;863.3.如果进行一次抽样调查,同时对总体平均如果进行一次抽样调查,同时对总体平均数和成数进行估计,用两个样本容量公式计数和成数进行估计,用两个样本容量公式计算得出的数据不一样时,选择较大的一个;算得出的数据不一样时,选择较大的一个;4.4.以上计算公式是最低样本容量,是最起码以上计算公式是最低样本容量,是最起码的,如果带小数,即应进位。的,如果带小数,即应进位。87例例.某冷库对储藏的一批鸡蛋的变质率进行抽某冷库对储藏的一批鸡蛋的变质率进行抽样调查,根据以前资料,其储藏期变质率为样调查,根据以前资料,其储藏期变质率为53%53%,49%49%,48%48%,现在允许误差不超过,现在允许误差不超过5%5%,推,推断的概率保证程度为断的概率保证程度为95%95%,问至少要抽取多少,问至少要抽取多少鸡蛋进行检查?鸡蛋进行检查?88已知:已知:t t1.961.96,p p0.050.05,可有三个数值计算,可有三个数值计算方差方差0.530.530.47=0.24910.47=0.2491,0.490.490.51=0.24990.51=0.2499,0.480.480.52=0.24960.52=0.2496,选取方差大者,选取方差大者P P0.490.49应抽取应抽取385385只鸡蛋进行检查。只鸡蛋进行检查。89例例.美国民意测验机构对总统候选人美国民意测验机构对总统候选人A、B支持率的调查,要求把握程度为支持率的调查,要求把握程度为95,允许误差不超过允许误差不超过3,需抽多少样本,需抽多少样本单单位位?四、总量指标的推算四、总量指标的推算目的:用抽样指标去推断全及指标目的:用抽样指标去推断全及指标(一)直接(一)直接换换算法算法 直接换算法是用样本指标值或者总体指标(总体直接换算法是用样本指标值或者总体指标(总体平均数或者总体成数)的区间估计值乘以总体单位数平均数或者总体成数)的区间估计值乘以总体单位数来推算总量指标的方法。来推算总量指标的方法。90(二)修正系数法 修正系数法是先将抽样调查资料与全面调查资料对比计算差错修正系数法是先将抽样调查资料与全面调查资料对比计算差错比率,即修正系数,然后用差错比率修正全面调查结果。比率,即修正系数,然后用差错比率修正全面调查结果。步骤:步骤:1.1.计算差计算差错错比率比率 2.2.用差错比率修正全面调查结果用差错比率修正全面调查结果91本章完92
展开阅读全文