收藏 分销(赏)

江西财经大学统计学第七章--区间估计.ppt

上传人:精*** 文档编号:12577047 上传时间:2025-11-04 格式:PPT 页数:61 大小:1.50MB 下载积分:14 金币
下载 相关 举报
江西财经大学统计学第七章--区间估计.ppt_第1页
第1页 / 共61页
江西财经大学统计学第七章--区间估计.ppt_第2页
第2页 / 共61页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,STAT,第七章区间估计,第七章区间估计,STAT,本章重点,1.参数估计的基本原理,选择什么样的估计量;,估计的误差范围多大,(精度与可靠度,两者又与,样本容量等相关,),2.简单随机抽样形式下参数的区间估计,3.其他抽样形式下参数的区间估计,4.必要样本容量的确定,本章难点,1.区间估计的原理,第七章区间估计,STAT,第一节 参数估计的基本原理,估计就是根据样本信息对现实世界或总体做出某种判断。,你可以根据一个人的衣着、言谈和举止判断其身份;你可,以根据一个人的脸色,猜出其心情和身体状况,。,统计中的估计也不例外,它是完全根据样本数据做出的。,如果我们想知道北京人认可某饮料的比例,人们只有在北,京人中进行抽样调查以得到样本,并用样本中认可该饮料的比,例来估计真实的比例。,不同的样本得到的结论也不完全一样。虽然真实的比例在,这种抽样过程中也许永远不知道,但可以知道,估计出来的比例,和真实的比例,大致差多少,。,“,统计加估计”?,第七章区间估计,STAT,一、估计量与估计值,用估计量估计总体参数,人们往往先假定某数据来自一个,特定的总体族(比如正态分布族)。而要确定是总体族的哪个,成员则需要知道总体参数值。,常见的总体参数包括,、,p,,,或,2,。,因此如果能够对这些参数进行估计,总体分布也就估计出来了。,待估参数,用于估计的样本统计量称为,估计量,。,样本统计量是随机变量,所以估计量也是随机变量,并有,其分布。,如果样本已经得到,把数据代入之后,估计量就有了一个,数值,称为该估计量的一个,估计值,。,第七章区间估计,STAT,二、估计量的优良标准,用什么样的估计量来估计参数呢?实际上没有硬性限制。任何统计量,只要人们觉得合适就可以当成估计量。,当然,统计学家想出了许多标准来衡量一个估计量的好坏。,每个标准一般都仅反映估计量的某个方面。这样就出现了按照这,些标准定义的各种名目的估计量(如无偏估计量等)。,最常用的,估计量就是样本均值、样本比例、样本标准差,。,另些估计量则,以,计算方式命名:最大似然估计和矩估计等,。,什么是好的估计量的标准呢?,第七章区间估计,STAT,1,.,无偏性,好的估计量的一个重要条件。,避免系统偏差!,若,样本统计量的期望值,等于所估计的总体参数,,则这个估计,量叫无偏估计量。,由于一般仅仅抽取一个样本,并且用这个样本的估计值来估,计对应的参数,人们并不知道这个估计值和要估计的参数差多,少。因此,无偏性仅仅是非常多次抽样时的一个渐近概念。,第七章区间估计,STAT,3.一致性,(大样本有益性),减少抽样误差!,当样本容量n增大时,如果,估计量的值越来越接近总体参数的真值,,就称这个估计量为一致估计量。,即:,一致性是从,极限,意义上讲的,它适用于大样本的情况。如果一个估计量是一致估计量,则采用大样本更加可靠。,第七章区间估计,STAT,三、点估计,用估计值来近似相应的总体参数。,例,1000只灯泡的使用寿命及标准差均未知,今随机取得4只灯泡,测得寿命为1502,1453,1367,1650(小时),试估计总体平均使用寿命及其标准差。,第七章区间估计,STAT,点估计给出一个数字,用起来很方便;但太绝对。它假定误差为0。,案例,统计学家做得比间谍更漂亮,出于战略上的考虑,盟军希望知道二战期间德军一共制造了多少辆坦克。德国人在制造坦克时是墨守成规的,他们把坦克从1开始进行连续编号。,盟军假定:德国人将坦克随机地派往各个战场。,方法:将缴获或击毁的坦克编号查出,尔后计算其平均值,并乘以2。,第七章区间估计,STAT,四、区间估计的基本原理,(,),实际中我们是如何描述一个人的年龄或体重的呢?,区间估计是包括估计量在内(有时是以估计量为中心)的,一个区间,该区间被认为,很可能,包含总体参数。,置信区间,1.构造置信,区间的基本思路:,抽样误差,抽样误差,抽样误差,,抽样误差,这里,关键是,计算,抽样误差,总体参数,是待估的,未知的,不能直接计算,抽样误差,需借助抽样分布解决。,2.对置信区间的理解,:,第七章区间估计,STAT,例,某保险公司自10万名投保人中随机抽取36人,得其平均年龄为39岁,已知投保人的年龄服从正态分布,标准差为7.2岁,求其平均年龄95%(1-,置信度)的置信区间。,为,显著性水平,第七章区间估计,STAT,-,+,例,某保险公司自10万名投保人中随机抽取36人,得其平均年龄为39岁,已知投保人的年龄服从正态分布,标准差为7.2岁,试求其平均年龄95%(1-,置信度)的置信区间。,-Z 0 Z,第七章区间估计,STAT,调查结果,表述,:,投保人的“平均年龄为39岁,误差是2.35,岁,置信度为95%”。这意味着:,平均年龄为39岁,即用样本均值作为总体均值的点估计,。,估计范围为392.35(2.35的误差),即区间(36.65,,41.35)。,如用类似的方式,重复抽取大量(样本量相同的)样本,时,产生的大量类似区间中有些会覆盖真正的均值,而有些不,会;但其中大约有95%会覆盖真正的总体均值。,这样得到的区间被称为,总体均值的置信度,(1-),为95%,的置信区间。,置信度又称置信水平或置信系数。显然,置信度的概念是,大量重复抽样时的一个渐近概念,。,第七章区间估计,STAT,置信区间的表述是由,区间,和,置信度,两部分组成。或者说,,由,点估计值,和描述估计准确度的,抽样极限误差,两部分组成。抽,样极限误差反映点估计值与总体参数值之间的最大误差范围。,抽样极限误差越大,估计的准确度越低;反之则反。,注意:,“区间(392.35)以0.95的概率包含,总体均值,”的说法是错误的。,这里的区间,(36.65,41.35),是固定,的,而总体均值,也是固定的值。因此只有两种可能:要么该,区间包含总体均值,要么不包含,没有概率可言。,显然,与点估计相比,区间估计给出一个区间,说起来留,有余地;不像点估计那么绝对。它考虑了误差范围和,置信度,。,第七章区间估计,STAT,3.,置信区间的计算,步骤,(1)总体均值的区间估计(SRS样本),设定置信区间:,计算样本均值:,计算抽样标准差:,根据给定的置信水平查标准正态分布表确定临界值,(学习过程中,记住几种常用的置信水平相对应的临界值,),,,并计算抽样极限误差:,根据样本均值和抽样极限误差写出置信区间:,第七章区间估计,STAT,2.总体比例的区间估计(SRS样本),步骤同上!,第七章区间估计,STAT,第二节 参数的区间估计,一、单个总体的区间估计,(一)正态总体,,2,已知,例,已知一批零件的长度服从正态分布,从中随机抽取9件,测得其平均长度为21.44mm。已知总体标准差=0.15mm,,试建立这种零件平均长度的置信区间。给定置信水平0.95。,第七章区间估计,STAT,(二),正态总体,,2,未知,例,假定吸烟者买烟的月支出近似服从正态分布。一机构随机抽取了容量为26的样本进行调查,得到样本平均数为80元,样本标准差为20元。试以95%的把握估计全部吸烟者月平均烟钱支出的置信区间。,第七章区间估计,STAT,(三)母体为非正态分布或未知,例,从某批产品中随机抽121件,测得其平均长度为21.44mm。已知样本标准差为0.15mm,,试建立这种零件平均长度的置信区间。给定置信水平0.95。,第七章区间估计,STAT,二、单个总体比率(成数)P的区间估计,例,某电视台希望了解每日“晚间新闻”的收视率,随机抽取400人调查,结果表明有71.2%的人观看此节目。试估计该栏目收视率的90%可靠性的置信区间。,置信区间:(0.6748,0.7492),第七章区间估计,STAT,三、两个总体均值之差(,1,2,)的估计,(不讲),(一)两个正态总体,且方差已知,例,一袜厂之原料(尼龙)来自A、B两工厂,现从两厂各随机抽取25个样品,测其平均抗拉强度,结果分别为22、20kg,据过去记录,两厂产品拉力强度的,2,均为10,且均服从正态分布。试以0.9的把握对两厂产品拉力强度的差异作出判断。,第七章区间估计,STAT,(二)两个正态总体,方差未知却相等,例,某市欲估计A、B两区住户平均收入之差,其置信水平为0.95(假定两总体服从正态分布且方差相等)。,第七章区间估计,STAT,四、两个总体比例之差的区间估计,(不讲),例,为调查城市居民与近郊居民对政府制定的某项政策的态度差别,从城市中随机抽取5000人,其中有2400人赞成;从近郊随机抽取2000人,其中有1200人赞成。试求城市与近郊赞成此项政策人数之差异的90%的置信区间。,第七章区间估计,STAT,课外阅读材料:,关于置信区间应注意的问题,1.不要认为由某一样本数据得到总体参数的某一个95%置信区间,就以为该区间以0.95的概率覆盖总体参数。,置信度95%仅仅描述用来构造该区间上下界的统计量(是随机的)覆盖总体参数的概率;即,无穷次重复抽样所得到的所有区间中有95%包含参数。,但是把一个样本数据代入统计量的公式所得到的一个区间,只是这些区间中的一个。这个,非随机的区间,是否包含那个非随机的总体参数,谁也不可能知道。,非随机的数目之间没有概率可言。,第七章区间估计,STAT,2.置信区间的论述是由区间和置信度两部分组成。,有些新闻媒体报道一些调查结果只给出百分比和误差(即置信区间),并不说明置信度,也不给出被调查的人数,这是不负责的表现。,因为降低置信度可以使置信区间变窄(显得“精确”),有误导读者之嫌。在公布调查结果时给出被调查人数是负责任的表现。这样则可推算出置信度,反之亦然。,例:有10000个人回答的调查显示,同意某观点人的比例为70%(有7000人同意),可算出总体中同意该观点的比例的95%置信区间为(0.691,0.709);,第七章区间估计,STAT,另一个调查声称有70%的比例反对该种观点,还说总体中反对该观点的置信区间也是(0.691,0.709)。,到底相信谁呢?实际上,第二个调查隐瞒了置信度。如果第二个调查仅仅调查了50个人,有35个人反对该观点。则其置信区间的置信度仅有11%。,第七章区间估计,STAT,第三节 其他抽样方式下的区间估计,(不讲),一、类型(分层)抽样,(一)抽样方法,例10人年龄资料如下。N=10 n=3,推断总体平均年龄。,人:,A B C,D E F G,H I J,年龄:,5 8 12,40 42 46 48,70 72 76,简单随机抽样:,(,B,、,H、I,),(,C、,D,、,E,),(,F,、,G,、,I,),分层抽样:,(,B,、,E,、I,),(,C、,D,、,H,),(,A,、,G,、,J,),第七章区间估计,STAT,(二)抽样数目的分配,例10人年龄资料如下。N=10 n=3。,人:,A B C,D E F G,H I J,年龄:,5 8 12,40 42 46 48,70 72 76,分类:N,1,=3 N,2,=4 N,3,=3 N=10,1,=2.87 ,2,=3.16 ,3,=2.49 =8.52,n,1,=?n,2,=?n,3,=?n=3,第七章区间估计,STAT,1.,等额分配,:,n,1,=n,2,=n,3,=1,2.,等比例分配,:,n,1,/N,1,=n,2,/N,2,=n/N,n/N=0.3,n,1,/N,1,=0.3 n,1,=0.3N,1,=0.3 3=0.9,3.,最优分配,:,n,i,/N,i,=,i,/,1,/=2.87/8.52=0.34,n,1,/N,1,=0.34,n,1,=1.02,第七章区间估计,STAT,(三)样本标准差的计算,例10人年龄资料如下。N=10n=6,推断总体平均年龄。,人:,A B C,D E F G,H I J,年龄:,5 8 12,40 42 46 48,70 72 76,取样:(5,8)(42,46)(72,76),误差产生原因:,1.总体各类,全面调查,2.类内单位抽样调查,第七章区间估计,STAT,人:,A B C,D E F G,H I J,年龄:,5 8 12,40 42 46 48,70 72 76,取样:(5,8)(42,46)(72,76),第七章区间估计,STAT,(四)区间估计(与SRS样本的不同点),1.的估计,2.P的估计,第七章区间估计,STAT,例,某厂有甲、乙两车间生产保温瓶,乙车间产量是甲车间的2倍。现按产量比例共抽查了60支,结果甲车间平均保温时间为25小时,标准差1.2小时;乙车间为28小时和0.8小时。试以95.45%的置信水平推断总体平均保温时间的可能范围。,第七章区间估计,STAT,例,某地有一万住户,按城乡比例不重复抽取一千户,进行彩电拥有量调查,结果城市抽取300户,拥有比重为80%;乡村700户,比重为15%。试以95.45%的置信水平推断该地彩电拥有户比率的范围。,第七章区间估计,STAT,二、整群抽样,(一)抽样方法,1.按某种标志或要求将总体区分为若干群,(R),,群内单位数,(M),相等,;,2.采取,不重复抽样方式,从,R,群随机抽出,r,群,,尔后对样本群进行,全面调查,以推断总体。,例某连某班士兵的身高资料如下,168,171,172,174,;,165,170,174,178,;,173,176,178,172,分群:A群 B群 C群 R=3,取样:样本第一群 样本第二群 r=2,调查:,全面调查,全面调查,M=4,第七章区间估计,STAT,(二)样本标准差的计算,168,171,172,174,165,170,174,178,;,173,176,178,172,分群:A群 B群 C群 R=3,取样:样本第一群 样本第二群 r=2,第七章区间估计,STAT,168,171,172,174,165,170,174,178,;,173,176,178,172,分群:A群 B群 C群 R=3,取样:样本第一群 样本第二群 r=2,第七章区间估计,STAT,例某连某班士兵的身高资料如下,168,171,172,174,165,170,174,178,173,176,178,172,分群:A群 B群 C群 R=3,取样:样本第一群 样本第二群 r=2,第七章区间估计,STAT,(三)区间估计(与SRS样本的不同点),1.估计,2.估计P,第七章区间估计,STAT,例,某乡播种某种农作物3000亩,分布在60块地段上,每块地段50亩。现抽取5块地,结果平均亩产为8.25、9.50、8.50、9.00和8.75百斤;受灾面积为2.0、1.6、1.4、1.9和2.1%。现要求以95%的置信水平估计其平均亩产及受灾面积的区间。,第七章区间估计,STAT,例,某乡播种某种农作物3000亩,分布在60块地段上,每块地段50亩。现抽取5块地,结果平均亩产为8.25、9.50、8.50、9.00和8.75百斤;受灾面积为2.0、1.6、1.4、1.9和2.1%。现要求以95%的置信水平估计其平均亩产及受灾面积的区间。,第七章区间估计,STAT,三、等距(机械、系统)抽样,(一)抽样方法,1.定义:先排序,然后等间隔抽样。,总体N 样本 n:,抽样间隔,K=N/n,例N=50 n=5,则 K=10,A,4,、A,14,、A,24,、A,34,、A,44,;,A,7,、A,17,、A,27,、A,37,、A,47,。,2.排队方式,(1),按无关标志排队,A.职工工资调查:按职工的姓氏笔划排队;,B.产品质量调查:按产品入库顺序排队。,第七章区间估计,STAT,(2),按有关标志排队,A.职工家庭生活水平调查:按职工的工资水平排队;,B.耕地农产量调查:按往年平均亩产的高低进行排队。,(二)区间估计:按SRS样本推断。,第七章区间估计,STAT,第四节 必要样本容量的确定,一、必要样本容量,1.决定样本容量的因素,2.必要样本容量:在估计精度及费用限制的前提下,必须抽取的容量。,样本容量与精度的关系,第七章区间估计,STAT,二、根据容许误差(精度)确定样本容量,(一)简单随机抽样,1.估计时,n的确定,(1)重复抽样,注:影响样本容量的因素,第七章区间估计,STAT,(2)不重复抽样,第七章区间估计,STAT,2.估计P时,n的确定,(1)重复抽样,(2)不重复抽样,第七章区间估计,STAT,例,某冷库对一批鸡蛋的变质率进行抽样调查。据以往三次调查的结果,其变质率分别为27%、25%、24%。现在,允许误差,不超过5%,推断的概率保证程度为95%。问至少要抽取多少鸡蛋?,解:,Z=1.96,,p,=5%,P,1,=27%,P,2,=25%,P,3,=24%,第七章区间估计,STAT,例,某冷库对一批鸡蛋的变质率进行抽样调查,允许误差不超过5%,推断的F(t)为95%。问至少要抽取多少鸡蛋进行调查?,答:,令P=0.5,则P(1P)最大,得n=385只,例,某药厂为检查瓶装药片数量,随机抽取100瓶,结果平均每瓶101.5片,标准差为3片。试以99.73%的概率保证程度推断成品库该种药平均每瓶数量的区间。如果允许误差减少到原来的一半,其他条件不变,问需抽取多少瓶?,第七章区间估计,STAT,本章小结:,1.如何构造区间估计的估计量:,估计量的优良标准无偏性、有效性、一致性,2.区间估计的基本原理,(1)构造置信,区间的基本思路:,抽样误差,抽样误差,抽样误差,,抽样误差,这里,关键是,计算,抽样误差,总体参数,是待估的,未知的,不能直接计算抽样误差,需借助抽样分布解决。,第七章区间估计,STAT,(2)对置信区间的理解,:,置信区间的表述是由,区间,和,置信度,两部分组成。或者说,,由,点估计值,和描述估计准确度的,抽样极限误差,两部分组成。抽,样极限误差反映点估计值与总体参数值之间的最大误差范围。,抽样极限误差越大,估计的准确度越低;反之则反。,置信度又称置信水平。置信度的概念是,大量重复抽样时的一个渐近概念,。即:重复抽取大量(样本量相同)样本时,产生大量类似,的,区间中有些会覆盖真正的均值,而有些不会;但其中大约有置信度给出的数值那么多会覆盖真正的总体参数。,第七章区间估计,STAT,(3),置信区间的计算,步骤,总体均值的区间估计(SRS样本),设定置信区间:,计算样本均值:,计算抽样标准差:,根据给定的置信水平查标准正态分布表确定临界值,并计,算抽样极限误差:,根据样本均值和抽样极限误差写出置信区间:,第七章区间估计,STAT,总体比例的区间估计(SRS样本),3.必要样本容量的确定:,由抽样极限误差的公式确,并由,公式理解,影响样本容量的因素,第七章区间估计,STAT,案例题1:,旷课率大于20%吗,纵然学生旷课有多种原因,但已成为当前高校普遍存在的最为严重的问题之一。某校督导组在最近的一次教学抽查中发现,学生的旷课率在20%以上。为查验之,该校教务处委托某调查所对该校学生的旷课问题进行调查分析,从该校所有学生中随机抽取了500名学生。结果显示,从未旷课的学生只有375人。,问题是:,(1)从取样情况看,该校的学生旷课率有多大;,(2)该校学生的旷课率在20%以上吗(=0.05);,(3)若该校教务处希望估计该校学生旷课率的误差边际不超过5%,则应至少抽取多少学生进行调查?,(4)简述统计推断的基本内容。,第七章区间估计,STAT,(4)简述统计推断的基本内容,第七章区间估计,STAT,案例题2:,枪支暴力,哈里斯调查(Harris Poll)随机抽取了1000个成人组成的样本,询问他们哪些死因在将来会更普遍。调查结果显示,枪支暴力夺得冠军。样本中有850人认为枪击致死的事件会增加。,(1)本次调查的总体比例P是什么,请用文字说明。,(2)算出P的一个95%的置信区间。,(3)哈里斯宣布此次调查结果的误差界限是正负3个百分点。你在(2)中做出的结果和这个误差界限差别大不大?,(4)如果希望误差界限只有(2)中的一半大,需要用多大的样本。,第七章区间估计,STAT,课外作业:,1.,为调查江西财大某学院学生,的每月购书报支出水平,在全院1800名学生中,采用不重复简单随机抽样形式抽取33人。经调查,每个抽中学生2011年4月份的购书报支出金额如下表所示。要求:,(1)以95%的概率保证程度估计该学院学生该月平均购书报支出额。,(2)以同样的概率保证程度估计该学院学生该月购书报支出额超过70元的人数。,(3)在以95%的概率保证程度估计该学院学生该月购书报支出额超过70元的人数比例,要求抽样极限误差不超过10%时,计算所需的样本容量。,第七章区间估计,STAT,36名学生2011年4月份购书报支出金额的样本数据(单位:元),样本序号,支出额,样本序号,支出额,样本序号,支出额,1,2,3,4,5,6,7,8,9,10,11,85,62,42,15,50,39,83,65,32,46,93,12,13,14,15,16,17,18,19,20,21,22,20,75,34,41,58,63,95,120,19,57,10,23,24,25,26,27,28,28,30,31,32,33,49,45,95,36,25,45,128,45,29,84,63,第七章区间估计,STAT,2.,某保险公司欲对某地区家庭拥有私人小汽车的情况进行调查,该地区共有20万户家庭,现按重复简单随机抽样形式抽取70户家庭,调查后发现其中8户家庭拥有私人小汽车。要求:,(1)以95.45%的概率保证程度估计该地区拥有私人小汽车的家庭比例,并给出抽样标准误。,(2)在以95.45%的概率保证程度要求估计,的极限误差不超过5%时,计算所需的样本容量。,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服