收藏 分销(赏)

第五章总体参数估计.doc

上传人:快乐****生活 文档编号:2627822 上传时间:2024-06-03 格式:DOC 页数:29 大小:619.54KB
下载 相关 举报
第五章总体参数估计.doc_第1页
第1页 / 共29页
第五章总体参数估计.doc_第2页
第2页 / 共29页
第五章总体参数估计.doc_第3页
第3页 / 共29页
第五章总体参数估计.doc_第4页
第4页 / 共29页
第五章总体参数估计.doc_第5页
第5页 / 共29页
点击查看更多>>
资源描述

1、第五章 参数估计一、单一总体的参数估计(一)估计的含义 估计:人人都做过。如: 上课时,你会估计一下老师提问你的概率有多大? 当你去公司应聘时,会估计你被录用的可能性是多少? 推销员年初时要估计今年超额完成任务的概率有多大?估计量:用来估计总体参数的样本统计量。如:算术平均数、中位数、标准差、方差等。估计的可能性与科学性:数理统计证明,一个“优良”的样本统计量应具备以下特征:(1)、无偏性。样本估计量的期望值应等于总体参数。无系统偏差。(2)、有效性。与离散度相联系。在多个无偏估计量中,方差最小的估计量最有效。(3)、一致性。随着样本容量的增加,可以使估计量越来越靠近总体参数。(4)、充分性。

2、估计量能够充分利用有关信息,中位数和众数不具备这一点.估计的类型包括 :1、 点估计:只有一个取值。如样本平均数 就是总体平均数的点估计值。2、区间估计:给出取值范围(值域).见PPT 两种估计类型哪一种更科学? 区间估计的优点在于:它在给出估计区间时,还可以给予一个“可信程度”.例如:销售经理想估计一下明年的出口总值,甲估计是53万美元,乙估计是5056万美元之间,并可以确切地说“有95%的把握”。显然后者的可信程度大于前者。那么,50-56万美元之间的范围是如何计算的?“有95%的把握”是什么意思?【引例】:某食品进出口公司向东南亚出口一批花生制品,管理人员从中抽取50包作为样本,计算其平

3、均数为250克。另外,合同规定总体标准差为6克。如果问这批花生制品的平均重量,可用样本平均数作为总体平均数的最佳估计量:250克。但这是远远不够的,在许多时候,管理人员还想了解“这个估计值的平均误差是多少?”“总体平均数可能落入样本平均数上、下多大范围内?”“ 这个估计值的可靠程度是多少?”1由于n=50,根据中心极限定理可作图: n=50,=62抽样平均误差:3若用250克这个估计值估计总体平均数,其平均误差为0.8487。 4若用区间表示估计的值域:这批花生制品的总体平均重量是2500。8487克之间。5总体平均数在2500。8487克之间的可信度为68.3%。总体平均数在25020。84

4、87克之间的可信度为95.5%。总体平均数在25030。8487克之间的可信度为99.7。(二)区间估计中几个常用概念1、置信度(置信系数):它是指与一个估计区间相联系的概率,它表示该区间将包括总体参数的可能程度.用1表示.置信度越大,估计区间内所包含总体参数的可信度越高。(68.3、95。45、99.7都是置信度)2、置信区间:与一个“置信度”相联系的估计值的取值范围。用表示(如2502)2502:表示有95。45%的样本平均数构造的区间将包含总体平均数。2503:表示有99.73%的样本平均数构造的区间将包含总体平均数。3、置信限:与置信区间相联系的界限,包括上限和下限。如上题中下限:25

5、0,上限:250+思考题:置信度与置信区间有何关系?(三)总体平均数的区间估计1、大样本条件下的区间估计(1)、总体标准差已知条件下,对总体平均数的区间估计案例1:在【引例】中:食品进出口公司出口一批花生制品,管理人员抽取50包为样本,其平均数为250克。合同规定总体标准差为6克。问:(1)如果置信区间为:2502、2501。96,总体参数这一范围的把握程度有多大?(2)若用90的置信系数,则该批食品平均重量是多少? 解:(1)a、25020.8487,与z=2对应的置信度是:0.47722=95。44;b、2501。960.8487,与z=1。96对应的置信度是:0。47502=95。(2)

6、 与90%对应的Z值是0。9/2=0。45,Z=(1.64+1。65)/2=1.645,置信区间:2501.6450.8487,即该批食品的平均重量在248。6-251。396克之间的把握程度是90%。案例2:某茶叶进出口公司,准备处理一批库存2年的茶叶,出库之前要进行一次检验。检验数据如下;样本容量为64包,样本平均数为每包2公斤,入库记录表明总体标准差为0。2公斤。经理要求在95%的可信度下,估计一下这批茶叶的平均重量在多大范围内?解:答:这批茶叶平均重量在1。9512。049公斤,其可信程度为95%。课堂练习教材P144,1、2(2)、总体标准差未知条件下的区间估计总体标准差未知条件下,

7、一般用样本标准差S代替总体标准差.案例:某项抽样调查中获得如下资料: N可以视为无限总体,n=81,样本平均数为500,样本标准差为90,求:总体平均数可信度为90的置信区间.解:答:此项调查中,总体平均数的可信度为90的置信区间是在483.55516.45之间。习题1:一次等级考试,因急于评估试题质量,教师先随机抽取36份试卷批改,平均分是72分,标准差13。2分,系主任要求在90的可信度下,对全体考生的平均成绩做一个区间估计。解:习题2:某土产畜产公司收购一批烟草,抽取30箱为样本,平均重量为20公斤,标准差为3公斤.求:(1)置信度为95%时,这批烟草的平均重量;(2)置信度为80%时,

8、这批烟草的平均重量。解:(1) (2) 课后作业:教材P145,32、小样本条件下的区间估计 使用t分布的条件:当样本容量n30,且总体标准差未知时,用样本标准差S代替总体标准差。样本标准差S计算公式:例1:从大学一年级学生中随机抽取12名学生,其阅读能力得分为28,32,36,22,34,30,33,25,31,33,29,26.试评估一下大学一年级学生阅读能力的总体平均分数。要求置信度分别是95%和99%。解:步骤:(1)计算样本平均数: (2)计算样本标准差: (3)计算平均误差:(4)确认自由度:df=121=11,误差概率:=10。95=0.05/2=0。025,查表,t=2.201

9、 (5)估计总体平均数置信区间:解释:有95的把握程度说大学一年级学生阅读能力平均分数在27。311-32。523分之间。当=1-0.99=0。01/2=0.005,查表,t=3。105829。917-3。10581.184=26。24;29。917+3。10581。184=33.59。习题2:一批出口商品出库之前从中抽取14箱,其平均重量为40。5公斤,标准差0。5公斤。主管人员要求在98%的置信系数下,对这批商品的平均重量做个区间估计.置信系数为98%时,这批商品的平均重量是40。146-40。584公斤。习题3:某公司共有技术开发和中层管理人员600名,公司十分关心他们的身体健康现状,责

10、成有关部门进行了一次睡眠状况抽样调查,获得资料如下表: (单位:小时)员工每周睡眠 员工 每周睡眠 员工 每周睡眠 员工 每周睡眠序号 时间 序号 时间 序号 时间 序号 时间1 50 6 48 11 54 16 502 40 7 47 12 56 17 51 3 30 8 45 13 50 18 474 38 9 43 14 48 19 485 42 10 47 15 48 20 54 试以95%的置信系数对600名技术开发和中层管理人员平均每周的睡眠状况作一个区间估计.解:课堂练习:教材P145,4、5 小样本比例的区间估计可参照平均数的区间估计。 不同条件下总体平均数的区间估(P140)

11、总体分布样本容量已知未知正态分布大样本(n30)小样本(n30) 非正态分布大样本(n30)(四)、总体比率的区间估计 中心极限定理证明:P不接近0或1,且n很大时,其抽样分布趋近于正态分布。比例抽样分布的平均误差为: 总体比率的估计区间:是总体比率;P是样本比率。若未知,可用P.案例1:为适应清理整顿要求,某地审计局要对本地公司进行查账,主管负责人估计查账对象中有40的人会响应这一要求,如果向一个包括45个单位的随机样本寄去要求查账的通知单,审计局希望通过这一样本估计一下置信度为95时,包含总体实际比例的区间有多大。解:习题1:某西部人才咨询部门收到大批申请去西部工作的信函,人力资源管理部门

12、想了解被录用的比例,从中抽取500人,发现只有76人被录用。现要求使用95的可信度,对总体比例做一个区间估计。解:习题2:某私营企业为提高业务人员的业务能力,在拟订一项培训计划之前,对一个由300名员工组成的随机样本进行测试,结果发现参加测试人员中只有75人达到要求。主管人员要求在置信度为99的条件下,作一个区间估计。解:习题3:为了研究我国真丝制品的销路,在纽约举办的我国纺织品展销会上,对1000名成人进行了抽样调查,其中有600人我国的喜欢真丝制品。试以95的置信系数确定纽约市民成人喜欢真丝制品的比率的置信区间。课堂练习:教材P145,6、7(1)二、两个总体的参数估计(一)什么是来自两个

13、总体的独立样本?案例:假定某零售集团公司有两个连锁超市:一个位于市中心闹市区,另一个位于市郊的居民小区。销售经理发现,在其中一个超市畅销的W商品在另一超市却可能滞销。销售经理认为出现这种情况的原因,主要在于这两个地区的消费者群体的自身差异。例如包括消费者群体的可支配收入差异、受教育程度差异、年龄差异、以及工作性质等方面的差异。因此,销售经理想估计一下两个超市的消费者群体的平均可支配收入差异有多大.设总体A:为位于市郊居民小区的消费者群体;设总体B:为位于市中心闹市区的消费者群体;A总体A的平均数(指市郊居民小区消费者群体的人均可支配收入)B总体B的平均数(指市中心闹市区消费者群体的人均可支配收

14、入)于是,这两个不同总体的平均数之差可以表示为:AB为了估计这两个不同总体的平均数之差AB,现在从总体A中抽取一个简单随机样本n1,从总体B中抽取另一个简单随机样本n2。由于这两个简单随机样本都是独立抽取的,因此我们称其为“独立简单随机样本”,简称“独立样本。由两个独立样本分别计算出两个样本平均数为:1:n1名市郊居民小区消费者群体的人均可支配收入2:n2名市中心闹市区消费者群体的人均可支配收入因为是A的点估计值,是B的点估计值,因此,两个总体平均数之差的点估计值表示为: 12 假定根据上述两个独立随机样本计算的有关数据如下表:连锁超市随机样本个数人均可支配收入样本标准差市郊居民小区A市中心闹

15、市区B648112100元21800元S1950元 S2780元将上述数据代入公式求得两个总体平均可支配收入之差的一个点估计值为:1221001800 = 300(元)(二)两个总体均值之差的估计:独立样本1、12抽样分布的性质与区间估计在上例中,两个总体平均可支配收入之差为300元是唯一的吗?显然不是,是随机的。因为两个样本都是随机的,正如所有的点估计值一样,300元之差也只是两个总体平均可支配收入之差的很多可能的点估计值中的其中之一。假如选择了另外一个由64位市中心闹市区消费者,和另外一个由81位市郊居民小区消费者构成的两个随机样本,这两个样本平均数之差就完全有可能不等于300元。由此可见

16、,12的抽样分布,其实就是两个样本所有可能的样本平均数之差的一个概率分布.数理统计理论证明,当两个总体均服从正态分布时,12也服从正态分布,即使两个总体不服从正态分布,只要被抽出的两个随机样本互相独立,并且样本容量足够大(n30),根据中心极限定理,样本平均数之差12的抽样分布同样逼近正态分布,12的抽样分布具有如下性质:12抽样分布的平均数:E(12)12 12抽样分布的标准差: (n30) 12 122、大样本且1和2已知条件下两个总体均值(12)的区间估计在大样本(n130,n230)条件下,并且1和2已知时,两个总体平均数之差的区间估计可用如下公式计算(置信度为1):(12)z/212

17、 或两个总体平均数之差的估计区间为:(12)z/2 案例:在本章的引例中,假定从以往资料中获知总体A的标准差为520元,总体B的标准差为430元,统计数据见下表:连 锁超 市随机样本个数人均可支配收入总体标准差市郊居民小区A市中心闹市区Bn1=64n2=8112100元21800元1520元 2430元以95的置信度建立两个总体平均数之差的估计区间。解:将表中有关数据代入公式,1=95(12)z a/2(n130,n230, z=1。96)=(21001800)1.96=3001.9680。67下限=300158。29 = 141。71(元)下限=300 + 158.29 = 458。11(元

18、)计算结果表明,有95的可信度认为两个总体平均数之差在141.71(元)到458.11(元)之间.3、大样本且1和2未知时下12的区间估计中心极限定理证明:无论总体呈现何种分布,只要样本容量足够大,其抽样分布的形态都趋近于正态分布。因此,当n130、n230,1和2未知时,可以用样本标准差代替总体标准差作为12的估计值。 两个总体平均数之差的估计区间为: (12)z a/2S12 连锁超市随机样本个数人均可支配收入样本标准差市郊居民小区A市中心闹市区B648112100元21800元S1950元 S2780元以前题为例,将上表数据分别代入公式(12)z a/2(z=1。96)=(2100180

19、0)1。96=3001。96147下限=300288。12 = 11。88(元)下限=300 + 288。12 = 588。12(元)计算结果表明,有95%的可信度认为两个总体平均数之差在11.88(元)到588.12(元)之间。习题:P145,9(1)(12)z a/2(z=1.96)(2523)1.9621。176 (0.8243。176)TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT(三)、小样本条件下12的区间估计两个总体小样本条件下的区间估计,需要作两个假设:(1)两个总体都服从正态分布.(2)两个总体方差相等(1222)。中心极限定理证明:12的期望值是

20、12。由于方差相等的假设,公式可修改如下:122已知如果总体方差2已知,可以用以上公式进行两个总体均值之差的区间估计。但是,通常情况下总体方差2是未知的,于是必须使用两个样本方差来对总体方差2进行估计.由于以上公式的假设前提是两个总体方差相等1222,因此,这里不必再分别估计12和22.在实际应用时,往往将来自两个总体的两个样本数据加以组合,从而得到2的最优估计值。在这里之所以将来自两个总体的两个样本数据合并,是因为单独使用两个样本数据的任何一个都不太合适。2的合并估计值是两个样本方差的加权平均,也叫共同方差,记做S2。共同方差的公式如下: S2 = 使用2的合并估计值S2,就可以将公式12修

21、改为公式:12= 依据前面理论,可以用t分布来推算两个总体平均数之差的区间估计.由于来自总体1的样本对应n11个自由度,来自总体2的样本对应n21个自由度,因而,此t分布对应的自由度为n1n22,当自由度为(n1n22),置信系数为1时,两个总体平均数之差的估计区间为: (12)ta/2 案例:某银行想了解下属两个支行的平均帐户余额之差的情况。抽样结果两个支行的客户帐户余额的独立随机样本资料如下:支行名称客户帐户数样本平均余额样本标准差NCBL121011000元2920元S1150元S2120元求出两个支行平均帐户余额之差的90的置信区间。假设两个支行的帐户余额都服从正态分布且方差相等.利用

22、以上公式得到总体方差的合并估计值为:S21885512的相应估计值为:S12t分布之自由度为n1n221210220.0.10 ta/2=t0。051.7247。于是可得区间估计为:12ta/2S121 0009201。724758.7980101。4 (21.4元,181。4元)在90的置信度下,两个支行平均帐户余额之差的区间估计为-21。4元至181。4元之间。该区间包含负值的事实意味着两个均值之差的实际值12可能是负的。因此2可能比1大,这意味着尽管抽样表明BL支行有较大的样本余额均值,NC支行的总体均值反而有可能更大些.置信区间包含0的事实可以这样解释:我们没有足够的证据得出两个支行的

23、总体平均帐户余额有差异的结论。本节介绍的样本方法中使用t分布是基于假设两个总体都服从正态概论分布且1222的.事实上,该方法是稳健的统计方法,就是说它对上假设相对不敏感.比如当1222时,该方法在n1和n2比较接近时也可以得到较好结果.习题1:P158,8;P158,9(2)、(4)P158,8.当1=90时,df=14+7-2=19;t/2=1.7291S298。4421S1212ta/2S12(53。243。4)1。72914.5939。87。9418 (1。858217.7418)当1=95%时,df=14+7-2=19;t/2=2.0939.82.0934.593 (0.186719。

24、4133)P158,9(2)23。986P158,9(4)23。587【】(三)、两个总体均值之差的估计:匹配样本(成对样本)匹配样本方案:假设某制造公司有两种方法供员工执行某生产任务务使用。以1记生产方法1的平均完成时间,2记生产方法2的平均完成时间。抽取工人的一个简单随机样本,每个工人先用一种方法,后用另一种方法,两种方法的次序是随机排列的.每个工人提供一对数据:一个是方法1的,一个是方法2的.在匹配样本方案中,两种生产法是在相似条件下被检验的(即由同一工人执行),所以该方案往往产生比独立样本方案更小的抽样误差.这主要是由于匹配样本方案中,作为抽样误差来源之一的工人个体之间的差别被去掉了。

25、案例:现有6个工人组成的随机样本.6个工人完成时间的数据见下表。每个工人提供一对数据。最后一列为样本中每个工人完成时间之差di.匹配样本方案的任务完成时间工人方法1的完成时间分钟方法2的完成时间分钟完成时间的差值(di)16。05.40.6234565。07。06。26.06。45。26。55。96.05。80.20。50。30.00。6表中6个差值的样本均值与样本标准差如下: Sd = 两总体的均值差的估计区间:df=n-1 ;1=95%,t0。05/2(5)=2。5706 0.3 ; 0.30.35于是两种生产方法均值差的95的置信区间估计为0.05到0。65分钟。特别提醒:本例子的样本容

26、量为6个工人,属于小样本情形。在假设检验与区间估计中都使用了t分布.如果样本容量较大(n30),统计推断可以使用标准正态概率分布的z值。练习1:下面为取自两总体的匹配样本数据:总 体个体121212022826318184202052624a、计算每对个体的差值.b、计算。c、计算标准差Sd。d、在0。05时, 估计区间是多少?练习2:下面为取自两总体的匹配样本数据.总 体个体1211182783964127513106151571514a计算每对个体的差值。b计算。c计算标准差Sd。d两总体均值差的点估计量是多少?e给出两总体均值差的95的置信区间。练习3:教材P145,10练习4:见提纲(

27、四)两个总体比率之差的区间估计1两个总体是独立的(独立样本)假定条件: 1两个总体服从二项分布1可以用正态分布来近似4两个总体比例之差P1P2在1a的置信水平下的置信区间为:绿色绿色健康饮品案例:【某饮料公司对其所做的电视广告在两个城市的效果进行了比较,它们从两个城市中分别随机地调查了1000个成年人,其中看过广告的比例分别为p1= 0.18和p2= 0。14.试求两城市成年人中看过广告的比例之差的95%的置信区间。】解:已知 p1=0.18,p2=0。14,1a=0.95,n1= n2=1000P1 P2置信度为95%的置信区间为:有95的把握估计两城市成年人中看过该广告的比例之差在0。79

28、 7。21之间习题1:P146,11;习题2:提纲P4(二)1。(五)样本容量的确定 在实际工作和理论研究中,我们总希望有一个比较恰当的样本容量,使之既可以取得足够的信息,又不至于在搜集过多样本时造成浪费和麻烦。1、已知条件下,n的确定:案例:某公司要对下一年职工医疗费情况作个预算,通常医疗费的为120元。现要求在95%的置信度下,保证所估计的总体平均数在加减40元范围内。应该取多大样本?解:依题意置信区间的表达方式有两种:即:=,:极限误差. 另外与95%的置信度对应Z值是1.96则:习题3:教研室主任要想知道大二年级英语统考的总体平均分数,并希望以95%的置信度,使估计的实际平均数在加减2

29、0分内,问抽取多大样本合适?(以往经验总体标准差为70分)解:习题4:某公司为了解市场需求,曾多次进行市场调查,调查方式是与消费者交谈。交谈时间的标准差一般是6分钟。假如公司希望平均访谈时间的极限误差为2分钟,则在98的置信度条件下,需要多大的样本?解:习题5:一家广告公想估计某类商店去年所花的平均广告费用有多少。经验表明,总体方差约为1800000元。如置信度取95%,并要使估计处在总体平均值附近500元的范围内,这家广告公司应抽多大的样本?解:已知2=1800000,a=0。05, Za/2=1。96,=500 2、未知条件下,n的确定:思考题:(1)未知条件下,可否用S代替?(2)当平均

30、数加减3个标准差时,包含正态曲线全面积%? 当数据变动比较均匀时,可以用“极差”近似的估计。若某公司下属50个分公司,上半年出口总值最多为150万美元,最少为30万美元,可以看成:6=15030,=20(万美元)其他问题与前边类似。 3、估计总体比例时,n的确定:例题:某品牌电脑公司,准备将电脑销售市场转入拉美地区,事先派出有关人员到该地区查询资料,以便估计一下该地区有电脑的家庭所占的比例。公司希望这一比例的估计允许误差不超过0。05,且置信度为95。问:要抽取多大容量的样本?(事先对总体一无所知)解: 问题1:上式中只要找到p,n就可以知道,p可以找到吗?办法1:比较常用和稳妥的方法是:无论

31、实际p多大,均把n选择的尽量大些。问题2:上式中如何能把n选择的尽量大些?办法2:只有pq充分大,n才能充分大.问题3:何时pq才能充分大?办法3:只有当P=0.5,q=0.5时,pq才能充分大。于是:(个)本题中,至少要取385个样本,才能满足要求。练习:为了解我国生产的某种女士皮鞋,在巴黎市场上的销路,轻工进出口公司委托外国某咨询公司机构调查,“巴黎妇女喜欢这种鞋的人数比例.要求置信度为95,估计误差在4%之内,应抽取多大样本?601个样本.P145,7(2)4、关于两个总体之差的样本容量n的确定参见教材P154155公式,并完成教材P159,15,16习题.(1)两个总体均值之差样本容量n的确定(2)两个总体比率之差样本容量n的确定

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服