1、应用统计学第五章第五章 参数估计参数估计2 目录页CONTENTS PAGE引导案例 某大学男女学生平均每月的生活费支出某大学为了解本校大学生日常生活费的支出及来源状况,于2016年8月开展了在校本科生的月生活费支出情况的抽样调查。本次问卷调查向在校本科生共发放了400份问卷,回收问卷378份,其中有效问卷363份。调查数据经整理后,得到全部363名学生和按性别划分的男女学生的生活费支出数据,如表5-1如示。3 目录页CONTENTS PAGE 根据抽样结果,使用95%的置信水平得到的估计结论是:全校本科生的月生活费平均水平在888.28941.47元之间;男生的月生活费平均水平在834.57
2、944.97元之间;女生的月生活费平均水平在886.59990.42元之间。调查还对生活费的来源和支出结构进行了分析。结果表明:生活费的主要来源集中在父母供给,其他来源依次是勤工俭学、助学贷款及其他;生活费的主要支出集中在伙食上,其他支出主要包括衣着、娱乐休闲、学习用品、日化用品等。引导案例4 目录页CONTENTS PAGE第一节参数估计的基本原理第三节两个总体参数的区间估计第二节一个总体参数的区间估计第四节样本量的确定5 目录页CONTENTS PAGE第一节参数估计的基本原理第三节两个总体参数的区间估计第二节一个总体参数的区间估计第四节样本量的确定6 第五章参数估计第一节 参数估计的基本
3、原理一、估计量与估计值在参数估计中,估计量是指用来估计总体参数的统计量,用符号 表示。样本均值、方差、比例等都可以是一个估计量。估计值是指根据一个具体的样本计算出来的估计量的数值。例如,要估计某城市300万名职工的月平均工资,从中随机抽取300名职工进行调查,根据样本计算出月平均工资为3 000元,该城市职工总体平均工资不知道,于是用样本均值3 000元估计总体均值,这个3 000元就是估计值。7 第五章参数估计第一节 参数估计的基本原理二、点估计与区间估计 点估计(一)点估计是指用样本估计量的某个取值直接作为总体参数的估计值。例如,用样本均值直接作为总体均值的估计,用两个样本均值之差直接作为
4、总体均值之差的估计等。虽然在重复抽样的情况下,点估计均值的期望等于总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值。一个点估计量的可靠性是用抽样标准误差来衡量的,但对于一个具体的点估计值,无法给出估计可靠性的度量。因此,不能完全依赖于一个点估计值,而应该围绕点估计值构造总体参数的一个区间。8 第五章参数估计第一节 参数估计的基本原理 区间估计(二)区间估计是指在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到。与点估计不同,进行区间估计时,根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。例如,某专
5、业其中一个班级统计学成绩的平均分数是80分,若估计误差是5分,那么我们可以推断该专业全体学生的统计学成绩是在7585分之间。9 第五章参数估计第一节 参数估计的基本原理在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间,其中,区间的最小值称为置信下限,最大值称为置信上限。总体参数的真值是固定的、未知的,而用样本构造的区间则是不固定的。样本不同,得到的区间也不同,所以置信区间是一个随机区间,用一个具体的样本构造的置信区间是否包含总体真值也是一个未知数,但结果有两种,要么包含、要么不包含,故不存在“以多大概率包含总体参数”这一说法。如果将构造置信区间的步骤重复多次,置信区间中包含总体
6、参数的次数所占的比例称为置信水平,也称为置信度或置信系数。例如抽取100个样本,根据每一个样本构造置信区间,这样可以构造100个总体参数的置信区间,如果有95个包含了总体真值,而有5个没包含,那么95%就是置信水平。三、置信区间与置信水平10 第五章参数估计第一节 参数估计的基本原理在构造置信区间时,可以用所希望的01之间的任意值作为置信水平。比较常用的置信水平是正态分布曲线下右侧面积为 (是显著性水平)时的z值(),如表5-2所示。11 第五章参数估计第一节 参数估计的基本原理 二项分布(一)二项分布是离散型随机变量概率分布的一种,它建立在贝努里试验的基础上。贝努里试验具有以下属性:(1)每
7、次试验只有两个可能的结果,即“成功”和“失败”。这里的“成功”是指感兴趣的某种特征。例如,产品分为“合格”和“不合格”,如果对“合格”感兴趣,那么“合格”就是“成功”,反之就是“失败”。(2)出现“成功”的概率p对每次试验结果是相同的,“失败”的概率q也相同,且。(3)试验是相互独立的,且可以重复进行n次。四、几种重要的随机变量分布12 第五章参数估计第一节 参数估计的基本原理 正态分布(二)正态分布最初是由高斯(C.F.Gauss)提出的,是一种常用的随机变量连续型分布。现实生活中,许多社会经济现象的分布都呈正态分布。其他一些分布(如二项分布)可以用正态分布进行近似计算,正态分布也可以推导出
8、其他一些重要的统计分布,如 分布、t分布、F分布等。若随机变量X服从正态分布,记为,其概率密度函数所对应的曲线如图5-1所示。常用的与正态分布相关的Excel函数有两个:NORMSDIST用于计算标准正态分布的函数值;NORMSINV用于计算标准正态分布的区间点。13 第五章参数估计第一节 参数估计的基本原理 分布(三)分布是由正态分布推导出的重要分布,是由阿贝(Abbe)于1863年首先提出的,后来由海尔墨特(Hermert)和卡皮尔逊(Karl Pearson)分别于1875年和1900年推导出来。在总体方差的估计和非参数检验中,会用到 分布。图5-2是不同容量样本的 分布,从图中可以看出
9、,分布的变量值始终为正,分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大而逐渐趋于对称。常用的与 分布相关的Excel函数有两个:CHIDIST用于计算给定 值和自由度的 分布概率;CHIINV用于计算给定概率和自由度时相应的 值。14 第五章参数估计第一节 参数估计的基本原理15 第五章参数估计第一节 参数估计的基本原理 t分布(四)t分布也是由正态分布推导出的,由威廉戈塞特(William Gosset)于1908年在一篇以“Student”为笔名的论文中首次提出,因此也称为学生分布。t分布是类似正态分布的一种对称分布,通常比正态分布平坦、分散。t分布是一个依赖
10、于自由度的特定分布,随着自由度的增大,t分布也逐渐趋于正态分布,如图5-3所示。常用的与t分布相关的Excel函数有两个:TDIST用于计算给定t值、自由度和尾数的分布概率;TINV用于计算给定自由度和双尾概率的t分布的区间点。16 第五章参数估计第一节 参数估计的基本原理 分布(五)F分布是由 分布推导出的重要分布,依赖于双重自由度的特定分布,是统计学家费希尔(R.A.Fisher)提出的,故以其姓氏的第一个字母来命名。F分布具有以下性质:它是一种非对称分布;它有两个自由度,即 和 ,相应的分布记为F(,),通常称为分子自由度,通常称为分母自由度;F分布是一个以自由度 和 为参数的分布族,不
11、同的自由度决定了F分布的不同形状,如图5-4所示。常用的与F分布相关的Excel函数有两个:FDIST用于计算给定F值和自由度时F分布的概率;FINV用于计算给定概率和自由度时的相应F值。17 第五章参数估计第一节 参数估计的基本原理18 目录页CONTENTS PAGE第一节参数估计的基本原理第三节两个总体参数的区间估计第二节一个总体参数的区间估计第四节样本量的确定19 第二节 一个总体参数的区间估计第五章参数估计一、总体均值的区间估计 使用 统计量进行置信区间估计(一)当总体服从正态分布且 已知时,或者总体不服从正态分布但为大样本时,样本均值 的抽样分布均为正态分布,其数学期望为总体均值,
12、方差为 。而样本均值经过标准化以后的随机变量则服从标准正态分布,即 (5-1)根据式(5-1)及正态分布的性质,可以得出总体均值在 置信水平下的置信区间为:(5-2)20 第二节 一个总体参数的区间估计第五章参数估计 使用 统计量进行置信区间估计(二)根据抽样分布理论,在小样本的情况下,要求总体服从正态分布,如果总体方差未知,样本均值经过标准化后的随机变量服从自由度为 的t分布,即 (5-4)根据t分布建立的总体均值 在 置信水平下的置信区间为:(5-5)21 第二节 一个总体参数的区间估计第五章参数估计22 第二节 一个总体参数的区间估计第五章参数估计二、总体比例的区间估计若总体比例 服从二
13、项分布,当样本量足够大时,比例p的抽样分布可用正态分布来近似,故这里只讨论大样本情况下总体比例的区间估计问题。与总体均值的区间估计类似,在样本比例p的基础上加减估计误差,即得到总体比例 在 置信水平下的置信区间为:(5-6)23 第二节 一个总体参数的区间估计第五章参数估计三、总体方差的区间估计若总体服从正态分布,根据样本方差的抽样分布可知,样本方差服从自由度为 的 分布,因此可用 分布构造总体方差的置信区间。若给定一个显著性水平 ,用 分布构造的总体方差 的置信区间可用图5-5表示。总体方差 在 置信水平下的置信区间为:(5-7)24 目录页CONTENTS PAGE第一节参数估计的基本原理
14、第三节两个总体参数的区间估计第二节一个总体参数的区间估计第四节样本量的确定25 第三节 两个总体参数的区间估计第五章参数估计一、两个总体均值之差的区间估计在两个总体方差已知的情况下,如果两个总体都是服从正态分布的小样本,或者两个总体不服从正态分布但两个样本都是大样本,根据抽样分布的知识可知,两个样本均值之差 的抽样分布服从期望值为 、方差为 的正态分布,而两个样本均值之差经过标准化后则服从标准正态分布,即 (5-8)两个总体均值之差的估计:独立样本(一)使用 统计量进行置信区间估计126 第三节 两个总体参数的区间估计第五章参数估计两个总体均值之差 在 置信水平下的置信区间为:(5-9)当两个
15、总体的方差 和 未知,抽取的是两个独立大样本时,可用两个样本方差 和 来代替,这时,两个总体均值之差 在 置信水平下的置信区间为:(5-10)27 第三节 两个总体参数的区间估计第五章参数估计(1)当两个总体的方差 和 未知但相等(即 =)时,需要用两个样本的方差 和 来估计。这时,需要将两个样本的数据组合在一起,以给出总体方差的合并估计量 ,其计算公式为:(5-11)这时,两个样本均值之差经标准化后服从自由度为 的 分布,即 (5-12)使用 t 统计量进行置信区间估计228 第三节 两个总体参数的区间估计第五章参数估计因此,两个总体均值之差 在 置信水平下的置信区间为:(5-13)29 第
16、三节 两个总体参数的区间估计第五章参数估计30 第三节 两个总体参数的区间估计第五章参数估计31 第三节 两个总体参数的区间估计第五章参数估计32 第三节 两个总体参数的区间估计第五章参数估计(2)当两个总体的方差 和 未知且不相等(即 )时,两个样本均值之差经标准化后近似服从自由度为 的 分布。自由度 的计算公式为:(5-14)33 第三节 两个总体参数的区间估计第五章参数估计两个总体均值之差 在 置信水平下的置信区间为:(5-15)34 第三节 两个总体参数的区间估计第五章参数估计例5-7中使用的是两个独立的小样本,在估计两个总体均值之差时存在着潜在的弊端。例如在对每种方法随机指派12个工
17、人时,可能会将技术比较好的12个工人指派给第一种方法,而将技术较差的12个工人指派给第二种方法,这种不公平的指派可能会掩盖两种组装方法所需时间的真正差异。为解决这一问题,可以采用匹配样本,即一个样本中的数据与另一个样本中的数据相对应。例如,先指定12个工人用第一种方法组装产品,然后再让这12个工人用第二种方法组装产品,这样得到的两种方法的组装时间数据就是匹配的。匹配样本可以消除由于样本指派的不公平而造成的两种方法组装时间的差异。两个总体均值之差的估计:匹配样本(二)35 第三节 两个总体参数的区间估计第五章参数估计使用匹配样本进行估计时,在大样本的条件下,两个总体均值之差 在 置信水平下的置信
18、区间为:(5-16)式中,表示两个匹配样本对应数据的差值;表示各差值的均值;表示各差值的标准差。在小样本的情况下,假定两个总体各观测值的配对差服从正态分布,则两个总体均值之差 在 置信水平下的置信区间为:(5-17)36 第三节 两个总体参数的区间估计第五章参数估计综上所述,不同情况下两个总体均值之差的区间估计方法如表5-13所示。37 第三节 两个总体参数的区间估计第五章参数估计二、两个总体比例之差的区间估计由样本比例的抽样分布可知,从两个二项总体(即由对立事件构成的总体)中抽出两个独立大样本,则两个样本比例之差的抽样分布服从正态分布。同样,两个样本的比例之差经标准化后服从标准分布。因此,根
19、据正态分布建立的两个总体比例之差 在 置信水平下的置信区间为:(5-18)38 第三节 两个总体参数的区间估计第五章参数估计三、两个总体方差之比的区间估计实践中经常会遇到比较两个总体方差的情况,如比较用两种不同方法生产的产品性能的稳定性。在构造两个总体方差之比的置信区间时,要求两个总体都服从正态分布,利用F分布(见图5-6),可得两个总体方差之比在 置信水平下的置信区间为:(5-19)39 目录页CONTENTS PAGE第一节参数估计的基本原理第三节两个总体参数的区间估计第二节一个总体参数的区间估计第四节样本量的确定40 第四节 样本量的确定第五章参数估计一、估计总体均值时样本量的确定总体均
20、值的置信区间是由样本均值 和估计误差两部分组成的。在重复抽样或无限总体抽样的条件下,估计误差为 。的值和样本量n共同确定了估计误差的大小。一旦确定了置信水平 ,的值就确定了。对于给定的 的值和总体标准差 ,就可以确定任一希望的估计误差所需要的样本量。令E代表所希望达到的估计误差,即 ,则可以推导出确定样本量的公式如下:(5-20)41 第四节 样本量的确定第五章参数估计式中,E值是使用者在给定的置信水平下可以接受的估计误差,的值可直接由区间估计所用到的置信水平确定。如果能求出 的具体值,就可以用式(5-20)计算所需的样本量。在实际应用中,是未知的,可以用以前相同或类似的样本的标准差来代替;也
21、可以用实验调查的方法选择一个初始样本,以该样本的标准差作为 的估计值。从式(5-20)可以看出,样本量与置信水平成正比,与总体方差成正比,与估计误差成反比。42 第四节 样本量的确定第五章参数估计43 第四节 样本量的确定第五章参数估计二、估计总体比例时样本量的确定与估计总体均值时样本量的确定方法类似,在重复抽样或无限总体抽样条件下,估计总体比例置信区间的估计误差为 ,值、总体比例 和样本量n共同确定了估计误差的大小。一旦确定了置信水平 ,的值就确定了。由于总体比例的值是固定的,所以估计误差由样本量来确定,样本量越大,估计误差就越小,估计精度就越高。因此,对于给定的 的值,就可以确定任一希望的估计误差所需要的样本量。令E代表所希望达到的估计误差,即 ,由此可以推导出确定样本量的公式如下:(5-21)44 第四节 样本量的确定第五章参数估计式中,估计误差E值必须是使用者事先确定的,大多数情况下,一般取小于0.1的数;的值可直接由区间估计所用到的置信水平确定。如果能求出 的具体值,就可以用式(5-21)计算所需的样本量。在实际应用中,如果 的值是未知的,可以用以前相同或类似的样本的比例来代替;也可以用实验调查的方法,选择一个初始样本,以该样本的比例作为 的估计值。当 的值无法获取 时,通常取 最大时的0.5。谢谢观看