江西财经大学统计学第七章--区间估计.ppt

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,STAT,第七章区间估计,第七章区间估计,STAT,本章重点,1.参数估计的基本原理,选择什么样的估计量；,估计的误差范围多大,（精度与可靠度,两者又与,样本容量等相关,）,2.简单随机抽样形式下参数的区间估计,3.其他抽样形式下参数的区间估计,4.必要样本容量的确定,本章难点,1.区间估计的原理,第七章区间估计,STAT,第一节参数估计的基本原理,估计就是根据样本信息对现实世界或总体做出某种判断。,你可以根据一个人的衣着、言谈和举止判断其身份；你可,以根据一个人的脸色，猜出其心情和身体状况,。,统计中的估计也不例外，它是完全根据样本数据做出的。,如果我们想知道北京人认可某饮料的比例，人们只有在北,京人中进行抽样调查以得到样本，并用样本中认可该饮料的比,例来估计真实的比例。,不同的样本得到的结论也不完全一样。虽然真实的比例在,这种抽样过程中也许永远不知道，但可以知道,估计出来的比例,和真实的比例,大致差多少,。,“,统计加估计”？,第七章区间估计,STAT,一、估计量与估计值,用估计量估计总体参数，人们往往先假定某数据来自一个,特定的总体族（比如正态分布族）。而要确定是总体族的哪个,成员则需要知道总体参数值。,常见的总体参数包括,、,p,，,或,2,。,因此如果能够对这些参数进行估计，总体分布也就估计出来了。,待估参数,用于估计的样本统计量称为,估计量,。,样本统计量是随机变量，所以估计量也是随机变量，并有,其分布。,如果样本已经得到，把数据代入之后，估计量就有了一个,数值，称为该估计量的一个,估计值,。,第七章区间估计,STAT,二、估计量的优良标准,用什么样的估计量来估计参数呢？实际上没有硬性限制。任何统计量，只要人们觉得合适就可以当成估计量。,当然，统计学家想出了许多标准来衡量一个估计量的好坏。,每个标准一般都仅反映估计量的某个方面。这样就出现了按照这,些标准定义的各种名目的估计量（如无偏估计量等）。,最常用的,估计量就是样本均值、样本比例、样本标准差,。,另些估计量则,以,计算方式命名：最大似然估计和矩估计等,。,什么是好的估计量的标准呢？,第七章区间估计,STAT,1,.,无偏性,好的估计量的一个重要条件。,避免系统偏差！,若,样本统计量的期望值,等于所估计的总体参数，,则这个估计,量叫无偏估计量。,由于一般仅仅抽取一个样本，并且用这个样本的估计值来估,计对应的参数，人们并不知道这个估计值和要估计的参数差多,少。因此，无偏性仅仅是非常多次抽样时的一个渐近概念。,第七章区间估计,STAT,3.一致性,（大样本有益性）,减少抽样误差！,当样本容量n增大时，如果,估计量的值越来越接近总体参数的真值,，就称这个估计量为一致估计量。,即：,一致性是从,极限,意义上讲的，它适用于大样本的情况。如果一个估计量是一致估计量，则采用大样本更加可靠。,第七章区间估计,STAT,三、点估计,用估计值来近似相应的总体参数。,例,1000只灯泡的使用寿命及标准差均未知，今随机取得4只灯泡，测得寿命为1502,1453,1367,1650（小时），试估计总体平均使用寿命及其标准差。,第七章区间估计,STAT,点估计给出一个数字，用起来很方便；但太绝对。它假定误差为0。,案例,统计学家做得比间谍更漂亮,出于战略上的考虑，盟军希望知道二战期间德军一共制造了多少辆坦克。德国人在制造坦克时是墨守成规的，他们把坦克从1开始进行连续编号。,盟军假定：德国人将坦克随机地派往各个战场。,方法：将缴获或击毁的坦克编号查出，尔后计算其平均值，并乘以2。,第七章区间估计,STAT,四、区间估计的基本原理,（,）,实际中我们是如何描述一个人的年龄或体重的呢？,区间估计是包括估计量在内（有时是以估计量为中心）的,一个区间，该区间被认为,很可能,包含总体参数。,置信区间,1.构造置信,区间的基本思路：,抽样误差,抽样误差,抽样误差，,抽样误差,这里,关键是,计算,抽样误差,总体参数,是待估的，未知的，不能直接计算,抽样误差，需借助抽样分布解决。,2.对置信区间的理解,：,第七章区间估计,STAT,例,某保险公司自10万名投保人中随机抽取36人，得其平均年龄为39岁，已知投保人的年龄服从正态分布，标准差为7.2岁，求其平均年龄95%（1-，置信度）的置信区间。,为,显著性水平,第七章区间估计,STAT,-,+,例,某保险公司自10万名投保人中随机抽取36人，得其平均年龄为39岁，已知投保人的年龄服从正态分布，标准差为7.2岁，试求其平均年龄95%（1-，置信度）的置信区间。,-Z 0 Z,第七章区间估计,STAT,调查结果,表述,：,投保人的“平均年龄为39岁，误差是2.35,岁，置信度为95%”。这意味着：,平均年龄为39岁，即用样本均值作为总体均值的点估计,。,估计范围为392.35(2.35的误差)，即区间(36.65，,41.35)。,如用类似的方式，重复抽取大量（样本量相同的）样本,时，产生的大量类似区间中有些会覆盖真正的均值，而有些不,会；但其中大约有95%会覆盖真正的总体均值。,这样得到的区间被称为,总体均值的置信度,（1-）,为95%,的置信区间。,置信度又称置信水平或置信系数。显然，置信度的概念是,大量重复抽样时的一个渐近概念,。,第七章区间估计,STAT,置信区间的表述是由,区间,和,置信度,两部分组成。或者说，,由,点估计值,和描述估计准确度的,抽样极限误差,两部分组成。抽,样极限误差反映点估计值与总体参数值之间的最大误差范围。,抽样极限误差越大，估计的准确度越低；反之则反。,注意:,“区间（392.35）以0.95的概率包含,总体均值,”的说法是错误的。,这里的区间,（36.65，41.35）,是固定,的，而总体均值,也是固定的值。因此只有两种可能：要么该,区间包含总体均值，要么不包含，没有概率可言。,显然，与点估计相比，区间估计给出一个区间，说起来留,有余地；不像点估计那么绝对。它考虑了误差范围和,置信度,。,第七章区间估计,STAT,3.,置信区间的计算,步骤,（1）总体均值的区间估计（SRS样本）,设定置信区间：,计算样本均值：,计算抽样标准差：,根据给定的置信水平查标准正态分布表确定临界值,（学习过程中，记住几种常用的置信水平相对应的临界值,）,，,并计算抽样极限误差：,根据样本均值和抽样极限误差写出置信区间：,第七章区间估计,STAT,2.总体比例的区间估计（SRS样本）,步骤同上！,第七章区间估计,STAT,第二节参数的区间估计,一、单个总体的区间估计,（一）正态总体，,2,已知,例,已知一批零件的长度服从正态分布，从中随机抽取9件，测得其平均长度为21.44mm。已知总体标准差=0.15mm，,试建立这种零件平均长度的置信区间。给定置信水平0.95。,第七章区间估计,STAT,（二）,正态总体，,2,未知,例,假定吸烟者买烟的月支出近似服从正态分布。一机构随机抽取了容量为26的样本进行调查，得到样本平均数为80元，样本标准差为20元。试以95%的把握估计全部吸烟者月平均烟钱支出的置信区间。,第七章区间估计,STAT,（三）母体为非正态分布或未知,例,从某批产品中随机抽121件，测得其平均长度为21.44mm。已知样本标准差为0.15mm，,试建立这种零件平均长度的置信区间。给定置信水平0.95。,第七章区间估计,STAT,二、单个总体比率（成数）P的区间估计,例,某电视台希望了解每日“晚间新闻”的收视率，随机抽取400人调查，结果表明有71.2%的人观看此节目。试估计该栏目收视率的90%可靠性的置信区间。,置信区间：（0.6748，0.7492）,第七章区间估计,STAT,三、两个总体均值之差（,1,2,）的估计,(不讲),（一）两个正态总体，且方差已知,例,一袜厂之原料（尼龙）来自A、B两工厂，现从两厂各随机抽取25个样品，测其平均抗拉强度，结果分别为22、20kg，据过去记录，两厂产品拉力强度的,2,均为10，且均服从正态分布。试以0.9的把握对两厂产品拉力强度的差异作出判断。,第七章区间估计,STAT,（二）两个正态总体，方差未知却相等,例,某市欲估计A、B两区住户平均收入之差，其置信水平为0.95（假定两总体服从正态分布且方差相等）。,第七章区间估计,STAT,四、两个总体比例之差的区间估计,(不讲),例,为调查城市居民与近郊居民对政府制定的某项政策的态度差别，从城市中随机抽取5000人，其中有2400人赞成；从近郊随机抽取2000人，其中有1200人赞成。试求城市与近郊赞成此项政策人数之差异的90%的置信区间。,第七章区间估计,STAT,课外阅读材料：,关于置信区间应注意的问题,1.不要认为由某一样本数据得到总体参数的某一个95%置信区间，就以为该区间以0.95的概率覆盖总体参数。,置信度95%仅仅描述用来构造该区间上下界的统计量(是随机的)覆盖总体参数的概率；即,无穷次重复抽样所得到的所有区间中有95%包含参数。,但是把一个样本数据代入统计量的公式所得到的一个区间，只是这些区间中的一个。这个,非随机的区间,是否包含那个非随机的总体参数，谁也不可能知道。,非随机的数目之间没有概率可言。,第七章区间估计,STAT,2.置信区间的论述是由区间和置信度两部分组成。,有些新闻媒体报道一些调查结果只给出百分比和误差（即置信区间），并不说明置信度，也不给出被调查的人数，这是不负责的表现。,因为降低置信度可以使置信区间变窄（显得“精确”），有误导读者之嫌。在公布调查结果时给出被调查人数是负责任的表现。这样则可推算出置信度，反之亦然。,例：有10000个人回答的调查显示，同意某观点人的比例为70%（有7000人同意），可算出总体中同意该观点的比例的95%置信区间为（0.691，0.709）；,第七章区间估计,STAT,另一个调查声称有70%的比例反对该种观点，还说总体中反对该观点的置信区间也是（0.691，0.709）。,到底相信谁呢？实际上，第二个调查隐瞒了置信度。如果第二个调查仅仅调查了50个人，有35个人反对该观点。则其置信区间的置信度仅有11%。,第七章区间估计,STAT,第三节其他抽样方式下的区间估计,(不讲),一、类型（分层）抽样,（一）抽样方法,例10人年龄资料如下。N=10 n=3，推断总体平均年龄。,人：,A B C,D E F G,H I J,年龄：,5 8 12,40 42 46 48,70 72 76,简单随机抽样：,（,B,、,H、I,），（,C、,D,、,E,），（,F,、,G,、,I,）,分层抽样：,（,B,、,E,、I,），（,C、,D,、,H,），（,A,、,G,、,J,）,第七章区间估计,STAT,（二）抽样数目的分配,例10人年龄资料如下。N=10 n=3。,人：,A B C,D E F G,H I J,年龄：,5 8 12,40 42 46 48,70 72 76,分类：N,1,=3 N,2,=4 N,3,=3 N=10,1,=2.87 ,2,=3.16 ,3,=2.49 =8.52,n,1,=?n,2,=?n,3,=?n=3,第七章区间估计,STAT,1.,等额分配,：,n,1,=n,2,=n,3,=1,2.,等比例分配,：,n,1,/N,1,=n,2,/N,2,=n/N,n/N=0.3,n,1,/N,1,=0.3 n,1,=0.3N,1,=0.3 3=0.9,3.,最优分配,：,n,i,/N,i,=,i,/,1,/=2.87/8.52=0.34,n,1,/N,1,=0.34,n,1,=1.02,第七章区间估计,STAT,（三）样本标准差的计算,例10人年龄资料如下。N=10n=6，推断总体平均年龄。,人：,A B C,D E F G,H I J,年龄：,5 8 12,40 42 46 48,70 72 76,取样：（5，8）（42，46）（72，76）,误差产生原因：,1.总体各类,全面调查,2.类内单位抽样调查,第七章区间估计,STAT,人：,A B C,D E F G,H I J,年龄：,5 8 12,40 42 46 48,70 72 76,取样：（5，8）（42，46）（72，76）,第七章区间估计,STAT,（四）区间估计（与SRS样本的不同点）,1.的估计,2.P的估计,第七章区间估计,STAT,例,某厂有甲、乙两车间生产保温瓶，乙车间产量是甲车间的2倍。现按产量比例共抽查了60支，结果甲车间平均保温时间为25小时，标准差1.2小时；乙车间为28小时和0.8小时。试以95.45%的置信水平推断总体平均保温时间的可能范围。,第七章区间估计,STAT,例,某地有一万住户，按城乡比例不重复抽取一千户，进行彩电拥有量调查，结果城市抽取300户，拥有比重为80%；乡村700户，比重为15%。试以95.45%的置信水平推断该地彩电拥有户比率的范围。,第七章区间估计,STAT,二、整群抽样,（一）抽样方法,1.按某种标志或要求将总体区分为若干群,（R），,群内单位数,（M）,相等,；,2.采取,不重复抽样方式,从,R,群随机抽出,r,群，,尔后对样本群进行,全面调查,以推断总体。,例某连某班士兵的身高资料如下,168,171,172,174,；,165,170,174,178,；,173,176,178,172,分群：A群 B群 C群 R=3,取样：样本第一群样本第二群 r=2,调查：,全面调查,全面调查,M=4,第七章区间估计,STAT,（二）样本标准差的计算,168,171,172,174,165,170,174,178,；,173,176,178,172,分群：A群 B群 C群 R=3,取样：样本第一群样本第二群 r=2,第七章区间估计,STAT,168,171,172,174,165,170,174,178,；,173,176,178,172,分群：A群 B群 C群 R=3,取样：样本第一群样本第二群 r=2,第七章区间估计,STAT,例某连某班士兵的身高资料如下,168,171,172,174,165,170,174,178,173,176,178,172,分群：A群 B群 C群 R=3,取样：样本第一群样本第二群 r=2,第七章区间估计,STAT,（三）区间估计（与SRS样本的不同点）,1.估计,2.估计P,第七章区间估计,STAT,例,某乡播种某种农作物3000亩，分布在60块地段上，每块地段50亩。现抽取5块地，结果平均亩产为8.25、9.50、8.50、9.00和8.75百斤；受灾面积为2.0、1.6、1.4、1.9和2.1%。现要求以95%的置信水平估计其平均亩产及受灾面积的区间。,第七章区间估计,STAT,例,某乡播种某种农作物3000亩，分布在60块地段上，每块地段50亩。现抽取5块地，结果平均亩产为8.25、9.50、8.50、9.00和8.75百斤；受灾面积为2.0、1.6、1.4、1.9和2.1%。现要求以95%的置信水平估计其平均亩产及受灾面积的区间。,第七章区间估计,STAT,三、等距（机械、系统）抽样,（一）抽样方法,1.定义：先排序，然后等间隔抽样。,总体N 样本 n：,抽样间隔,K=N/n,例N=50 n=5，则 K=10,A,4,、A,14,、A,24,、A,34,、A,44,；,A,7,、A,17,、A,27,、A,37,、A,47,。,2.排队方式,（1）,按无关标志排队,A.职工工资调查：按职工的姓氏笔划排队；,B.产品质量调查：按产品入库顺序排队。,第七章区间估计,STAT,（2）,按有关标志排队,A.职工家庭生活水平调查：按职工的工资水平排队；,B.耕地农产量调查：按往年平均亩产的高低进行排队。,（二）区间估计：按SRS样本推断。,第七章区间估计,STAT,第四节必要样本容量的确定,一、必要样本容量,1.决定样本容量的因素,2.必要样本容量：在估计精度及费用限制的前提下，必须抽取的容量。,样本容量与精度的关系,第七章区间估计,STAT,二、根据容许误差（精度）确定样本容量,（一）简单随机抽样,1.估计时，n的确定,（1）重复抽样,注：影响样本容量的因素,第七章区间估计,STAT,（2）不重复抽样,第七章区间估计,STAT,2.估计P时，n的确定,（1）重复抽样,（2）不重复抽样,第七章区间估计,STAT,例,某冷库对一批鸡蛋的变质率进行抽样调查。据以往三次调查的结果，其变质率分别为27%、25%、24%。现在,允许误差,不超过5%，推断的概率保证程度为95%。问至少要抽取多少鸡蛋？,解：,Z=1.96，,p,=5%，P,1,=27%，P,2,=25%，P,3,=24%,第七章区间估计,STAT,例,某冷库对一批鸡蛋的变质率进行抽样调查，允许误差不超过5%，推断的F（t）为95%。问至少要抽取多少鸡蛋进行调查？,答：,令P=0.5，则P（1P）最大，得n=385只,例,某药厂为检查瓶装药片数量，随机抽取100瓶，结果平均每瓶101.5片，标准差为3片。试以99.73%的概率保证程度推断成品库该种药平均每瓶数量的区间。如果允许误差减少到原来的一半，其他条件不变，问需抽取多少瓶？,第七章区间估计,STAT,本章小结：,1.如何构造区间估计的估计量：,估计量的优良标准无偏性、有效性、一致性,2.区间估计的基本原理,（1）构造置信,区间的基本思路：,抽样误差,抽样误差,抽样误差，,抽样误差,这里,关键是,计算,抽样误差,总体参数,是待估的，未知的，不能直接计算抽样误差，需借助抽样分布解决。,第七章区间估计,STAT,（2）对置信区间的理解,：,置信区间的表述是由,区间,和,置信度,两部分组成。或者说，,由,点估计值,和描述估计准确度的,抽样极限误差,两部分组成。抽,样极限误差反映点估计值与总体参数值之间的最大误差范围。,抽样极限误差越大，估计的准确度越低；反之则反。,置信度又称置信水平。置信度的概念是,大量重复抽样时的一个渐近概念,。即：重复抽取大量（样本量相同）样本时，产生大量类似,的,区间中有些会覆盖真正的均值，而有些不会；但其中大约有置信度给出的数值那么多会覆盖真正的总体参数。,第七章区间估计,STAT,（3）,置信区间的计算,步骤,总体均值的区间估计（SRS样本）,设定置信区间：,计算样本均值：,计算抽样标准差：,根据给定的置信水平查标准正态分布表确定临界值，并计,算抽样极限误差：,根据样本均值和抽样极限误差写出置信区间：,第七章区间估计,STAT,总体比例的区间估计（SRS样本）,3.必要样本容量的确定：,由抽样极限误差的公式确，并由,公式理解,影响样本容量的因素,第七章区间估计,STAT,案例题1:,旷课率大于20%吗,纵然学生旷课有多种原因，但已成为当前高校普遍存在的最为严重的问题之一。某校督导组在最近的一次教学抽查中发现，学生的旷课率在20%以上。为查验之，该校教务处委托某调查所对该校学生的旷课问题进行调查分析，从该校所有学生中随机抽取了500名学生。结果显示，从未旷课的学生只有375人。,问题是：,（1）从取样情况看，该校的学生旷课率有多大；,（2）该校学生的旷课率在20%以上吗（=0.05）；,（3）若该校教务处希望估计该校学生旷课率的误差边际不超过5%，则应至少抽取多少学生进行调查？,（4）简述统计推断的基本内容。,第七章区间估计,STAT,(4)简述统计推断的基本内容,第七章区间估计,STAT,案例题2：,枪支暴力,哈里斯调查（Harris Poll）随机抽取了1000个成人组成的样本，询问他们哪些死因在将来会更普遍。调查结果显示，枪支暴力夺得冠军。样本中有850人认为枪击致死的事件会增加。,（1）本次调查的总体比例P是什么，请用文字说明。,（2）算出P的一个95%的置信区间。,（3）哈里斯宣布此次调查结果的误差界限是正负3个百分点。你在（2）中做出的结果和这个误差界限差别大不大？,（4）如果希望误差界限只有（2）中的一半大，需要用多大的样本。,第七章区间估计,STAT,课外作业：,1.,为调查江西财大某学院学生,的每月购书报支出水平，在全院1800名学生中，采用不重复简单随机抽样形式抽取33人。经调查，每个抽中学生2011年4月份的购书报支出金额如下表所示。要求：,(1)以95%的概率保证程度估计该学院学生该月平均购书报支出额。,(2)以同样的概率保证程度估计该学院学生该月购书报支出额超过70元的人数。,(3)在以95%的概率保证程度估计该学院学生该月购书报支出额超过70元的人数比例，要求抽样极限误差不超过10%时，计算所需的样本容量。,第七章区间估计,STAT,36名学生2011年4月份购书报支出金额的样本数据(单位：元),样本序号,支出额,样本序号,支出额,样本序号,支出额,1,2,3,4,5,6,7,8,9,10,11,85,62,42,15,50,39,83,65,32,46,93,12,13,14,15,16,17,18,19,20,21,22,20,75,34,41,58,63,95,120,19,57,10,23,24,25,26,27,28,28,30,31,32,33,49,45,95,36,25,45,128,45,29,84,63,第七章区间估计,STAT,2.,某保险公司欲对某地区家庭拥有私人小汽车的情况进行调查，该地区共有20万户家庭，现按重复简单随机抽样形式抽取70户家庭，调查后发现其中8户家庭拥有私人小汽车。要求：,(1)以95.45%的概率保证程度估计该地区拥有私人小汽车的家庭比例，并给出抽样标准误。,(2)在以95.45%的概率保证程度要求估计,的极限误差不超过5%时，计算所需的样本容量。,

展开阅读全文