收藏 分销(赏)

数理统计第四章.doc

上传人:xrp****65 文档编号:9432296 上传时间:2025-03-26 格式:DOC 页数:19 大小:500.50KB
下载 相关 举报
数理统计第四章.doc_第1页
第1页 / 共19页
数理统计第四章.doc_第2页
第2页 / 共19页
数理统计第四章.doc_第3页
第3页 / 共19页
数理统计第四章.doc_第4页
第4页 / 共19页
数理统计第四章.doc_第5页
第5页 / 共19页
点击查看更多>>
资源描述

1、 第4章 数据汇总这一章,我们介绍数据的描述和汇总方法.这些方法大部分以图形的方式展示数据,也可以用其揭示数据结构.在不使用随机模型的情况下,这些方法可以达到描述性分析的目的.如果考虑随机模型,那获得的数据,在一些情形下将它们视为独立同分布的个随机变量的实现.我们首先讨论经验累积分布函数等,这些方法可以用于展示数据值的分布。接着,我们讨论直方图和相关的图形,它们扮演着随机变量的概率密度的角色,从另一角度展示数据值的分布.我们还将介绍数据的简单汇总,比如用以代表数据中心的样本均值、中位数等,用以量化数据分散程度的样本标准差等,这些统计量比直方图等图形提供了更加浓缩的汇总信息.接着将介绍箱线图,它

2、通过一种简单的图形方式将中心值、散度和分布形状等信息汇总起来.最后介绍散点图,用以揭示变量相关性的信息.4.1 基于累积分布函数的方法经验累积分布函数设是一组数据,经验累积分布函数(empirical cumulative distribution function,ecdf)定义为 显然是阶梯形的右连续的函数.例4.1(见P261)如果要进一步讨论经验累积分布函数的统计性质,那必须置于随机模型下去讨论. 数据视为简单随机样本的实现,它们公共的分布函数为(一般假定是连续型分布).样本的经验累积分布函数定义为 对于任意给定的实数,是一个随机变量,并且,从而 ,.可见, 是的无偏估计,且时,从而知

3、 是的相合估计. 关于还有更强的结论:定理 (格里汶科)对于任意的自然数,设是来自总体分布函数的一个样本,为其经验分布函数,记,则有 该定理表明,经验分布函数会一致地强收敛于总体分布函数.这也说明用经验分布函数推断总体分布函数,用样本各阶矩(即的矩)去推断总体的矩等是合理的,是有理论依据的.生存函数随机变量的生存函数定义为 设随机变量的分布函数为,那么生存函数,两者给出的信息是等价的.在应用中,对于寿命数据(一般是非负的),通常分析生存函数而不是分布函数.若样本的经验分布函数为,那么经验生存函数为 例4.2(见P262) 生存函数与危险函数有联系.危险函数定义为 其中分别为的密度函数和分布函数

4、也即 为了看清危险函数的统计意义,我们考查元件在使用了时间还未失效的条件下,在接下来的时间段内失效的条件概率假设密度在处连续,那么有 因此 或 可见危险函数可以视为时刻还正常的元件的即时失效率,或时刻还存活的个体的即时死亡率.例如,考虑指数分布 即时失效率为常数.如果用指数分布来描述元件的寿命,那么元件的失效的概率不依赖于它的年龄,这是指数分布的“无记忆性”.另一种模型具有U型的危险函数,由于制造过程中的瑕疵很快凸显出来,新的元件具有较高的失效率;中间年龄段元件的失效率降低,接着,随着磨损的出现,旧元件的失效率开始增加. 设寿命样本值为.由于它们是连续随机变量,可以假定它们中没有相等的.该样

5、本排序为,那么,如果,则,.由于在上没有定义,通常将其定义为,. 考查经验对数生存函数的变异性是非常有用的.我们有 当值较大时,很小, 经验对数生存函数的变异性非常大,极端的不稳定.因此,在实用中常需要剔除最后几个数据点例4.3(见P265)分位数-分位数图,即Q-Q图Q-Q图可用来比较两个分布函数.这里假定分布函数是严格单调增加的连续型分布函数,这样可保证对于任意的,分位数是唯一的.分布的分位数是 设是控制组的观测,其分布函数为,是试验组的观测,其分布函数为.试验具有的最简单的效应是同幅度增加试验组中每个成员的响应值,比方说个单位,即两个分布函数具有如下关系: 两个分布的分位数具有如下的线性

6、关系: 其中是分布的分位数, 是分布的分位数,那么在一条斜率为1,截距为的直线上. 另一种效应可能是乘积的:响应(如寿命、强度)乘以一个常数,分布函数具有关系: ;那么分位数具有关系: .从而在一条斜率为,截距为的直线上. 当然,试验效应可能远比这两种简单模型复杂.例如,有些试验有利于弱者,但却损害强者.相对于正常的教学方案,将重点放在初等或基本技巧上面的教育方法预期具有这样的效应. 以上讨论的效应实际上是一种假设.实际中,我们需要具体的试验数据去检验,利用Q-Q图可以非正式地检验这些假设.设是控制组的试验结果,的样本分位数规定为(这样的规定不是唯一的,比如的样本分位数规定为).又设(为方便计

7、假定两样本的容量相等)是试验组的试验结果,并同样规定分位数.如果试验效应是第一种简单的模型,那么点,应大致在一条斜率为1的直线上.将这些点绘制在平面在直坐标系中,这样的图就叫做Q-Q图.通过观察Q-Q图对试验的效应作出大致的判断.例4.4(见P267)利用Q-Q图还可以非正式地评估拟合优度.比如用分布(一般分布中含有未知参数,需要先把参数的估计值求出来)拟合数据,分别取,求得分布的分位数,及样本分位数,然后将绘制在平面在直坐标系中,以此对拟合效果作出粗略的判断.直方图,密度曲线和茎叶图 直方图是历史悠久的显示方法.它展示数据分布形状的方式类似于概率密度函数显示概率的分布.将数据区域分成几个区

8、间(也叫频带)然后画出以落入每个频带的观测频数或频率或频率/组距为高,以频带为底的矩形.经常推荐的方法是以频率/组距为高,这样直方图下方的面积为1,类似于概率密度函数.各个频带的宽度即各个组数组距可以相同也可以不同,实用中常选组距相同的分组方式以便于进行比较. 图10.8(见P268)直方图的宽度大小对直方图是有影响的.带宽太小,在直方图会太粗糙;带宽太大,图形过于光滑,形状模糊不清.带宽的选择通常比较直观,需要在直方图过度粗糙和过度光滑之间寻求一种平衡.带宽的选择取决于分组数的选择.作为一般性原则,组数通常在5至20个,对容量较小的样本,通常将其分为5组或小于5组,容量为100左右的样本可为

9、7至10组, 容量为200左右的样本可为9至13组, 容量为300左右及以上的样本可为12至20组.在没有任何随机模型的假设下,直方图只是一种数据的显示,当然可以用它来计算样本分位数、中位数、众数甚至平均数.如果直方图是为数据建模而进行的探索性分析(即初步看出数据是来自什么样的分布),那么直方图可以视作概率密度的估计.但作为概率密度的估计,直方图是太不光滑,需要将其光滑化.光滑的概率密度估计可以通过如下方式构造.令是非负对称的加权函数,且.称为核函数.例如可以取为标准正态分布.函数是的校正版本.当趋于0时,在0点附近变得更加集中和尖峰.当趋于无穷时,变得越来越发散和扁平.如果是来自概率密度的样

10、本,那么的估计是 这个估计称为核概率密度估计.参数是估计函数的带宽,它控制着函数的光滑性,如果越小,估计越粗糙;反之越大,估计越光滑,的形状就会被抹掉得越多.见图10.9(P269) 茎叶图茎叶图在表示分布形状信息的同时保留原了始数据.通过一个例子来说明茎叶图.例P270 4.2 位置度量、散度变量上一节中,我们关注于累积分布函数和密度函数的数据形式及相关曲线,它们传递着数据分布形状的视觉信息.本节我们讨论数据的简单数值汇总,主要用于数据不足以构建直方图或分布函数,或需要更精确汇总的情形.位置度量 位置度量是一组数据中心的测量值.本小节讨论几个常见的位置度量及其优点.1. 算术平均最常用的位置

11、度量是算术平均 我们考虑Hampson和Walker(1961)做过的一个试验.他们测量了26次铂升华的温度(kcal/mol),数据如下 136.3 136.6 135.8 135.4 134.7 135.0 134.1 143.3 147.8 148.8 134.8 135.2 134.9 146.5 141.2 135.4 134.8 135.8 135.0 133.7 134.4 134.9 134.8 134.5 134.3 135.2这26次测量结果都试图度量“真实”的升华温度,我们看到它们相互之间有变异性,相比于任何单个的测量数据,这批数据的位置或中心度量更能精确地估计升华温度.

12、利用所得的观测数据,易算得算术平均是137.05.这个平均值是否准确地估计了升华温度呢?我们还不能急于下结论.再来分析这批数据,但盯着这批数据看会“眼花的”.我们利用图示的方式来看数据.这批观测数据是依试验顺序排列的.按照顺序画出它们的图形可以提供更多的信息,如图10.10所示.由图可以看出起初的几个观测值比较高.最引起我们注意的是5个极端值的出现,并且以三个和两个观测组的形式出现.偏离主体数据太远的观测值称为离群值(outlier).离群值经常出现,无论研究多么缜密.例如,此时的离群值可能由不合适的校准设备引起的,也可能是记录和抄写错误,或设备故障引起.探测离群值非常重要,因为它们可能对后继

13、计算产生不当影响.图形表示是探测离群值,我们还可以用茎叶图(小数点在冒号处)来显示这批数据,以探测离群值. 1 133:7 3 134:134 7 134:5788899 6 135:002244 2 135:88 1 136:3 1 136:6高:141.2 143.3 146.5 147.8 148.8在这个茎叶图上, 离群值被隔离出来,并标记为高.还可以利用后面介绍的箱线图来探测离群值.我们继续分析这批数据,假设这批数据是来自于某个总体(或某个分布)的样本,利用中心极限定理可以得到总体均值的近似95%的置信区间.把原始数据与此区间作对比,可发现有15个数据位于该区间的左侧,占总数据量一半

14、以上,有5个数据位于该区间的右侧,且偏离较远.这也可以看出用137.5度量中心位置是不言合理的.当探离到了离群值,该如何处理呢?我们也没有统一和标准的方法.一般来说,先仔细复查数据,分析并寻找产生离群值的原因.如果可以认为离群值是由失误(误记,仪器故障,环境的变化等)引起的,那可以考虑刪除离群值.如果上面的认定不成立,那么可以考虑改变统计方法,采用更稳健方法.从本例可以看出样本均值对离群值是很敏感的,盲目使用算术平均来度量“中心”位置,而不仔细考查数据,算术平均会产生误导的后果.基于此种原因,稳健(robust)的位置度量就显得非常重要.2. 中位数 如果样本量是奇数,中位数是数据按大小排序的

15、中间值; 如果样本量是偶数,中位数是数据按大小排序的中间两值的平均.很显然,移动极端值不会影响中位数,因此中位数十分稳健. 当数据是是来自于某个总体(或某个分布)的样本时,样本中位数可以视作总体中位数的估计.的简单置信区间可以构造出来,这个区间具有形式 这个区间覆盖的概率为 事件等于事件“次独立观察中,至多有次观察小于.即样本中至多有个样品小于”.又由于每次观察小于的概率都为,因此由二项分布律,可得 同样可得 从而区间覆盖的概率为 给定置信水平,及样本量后,就可以确定的值,从而确定置信水平为的置信区间.3.截尾均值 另一个简单和稳健的位置度量是截尾均值(trimmed mean).的截尾均值是

16、这样计算的:把数据从小到大排序,丢掉最小的和最大的观测数据,计算剩余数据的算术平均,一般建议选择的值在至之间.形式上截尾均值可表示为 例如,对于铂数据,丢掉最大和最小的5(个观测值,得到20%的截尾均值为,对于同样的这批数据,中位数为135.1,均值为137.05,而如果剔除5个离群值后的均值为134.9.4.M估计设是观测数据.样本平均数是如下函数 的最小化之解,即 样本中位数是如下函数 的最小化之解(当为奇数时,此解唯一,而为偶数时, 此解不唯一)即 由于算术平均不够稳健,而中位数又太过稳健.于是人们想在两者中取折中.Huber(1981)提出了一类估计M估计,它最小化不同的权函数会得到不

17、同的解.因此M估计是指一类估计.取,便得样本均值, 取,便得样本中位数.Huber讨论过如下权函数通常选择,实践中,必须使用的稳健估计. M估计的计算往往是非线性的,常需数值方法求解.对于铂数据,取上面的权函数,并取,可得M估计为135.38.5.位置估计的比较我们介绍了几个位置估计.哪个最好呢?对于这个问题,没有一个简单的答案.必须牢记利用位置估计估计了什么?这样做的目的是什么.如果总体的分布是对称的,截尾均值、样本均值、样本中位数和M估计都估计对称中心.然而如果总体分布不是对称的,4个统计量估计了4个不同的总体参数:总体均值、总体中位数、总体截尾均值和由权函数确定的总体分布的泛函.而且,没

18、有任何一个估计对所有的分布都是最好的.有人利用模拟方法比较了各种了各种分布的估计.Andrews等(1972)报告了对称分布的大量模拟的结果.他们的结果显示10%或20%截尾均值在整体上十分有效:它的方差从不大于普通的均值的方差(即使在高斯情形下也是如此,尽管此时的均值是最优的),尤其是总体分布相对于高斯分布是重尾时,其方差更是相对的小.尽管中位数十分稳健,但在高斯情形下,它比截尾均值具有更大的方差.截尾均值和中位数的简单性相当吸引人,易于解释给缺乏正式统计训练的非专业人士.M估计在Andrews等人的模拟研究中表现十分好,它们确实能够很自然地推广到其他问题中,比如曲线拟合,但是计算有点难度,

19、也缺乏即时的直觉魔力.为了简单汇总数据,通常计算多个位置度量,并比较他们的结果.6.自助法评估位置度量的变异性如果是来自总体的简单随机样本的样本值,即是具有相同分布的个独立随机变量的实现.设总体的位置参数用表示.利用样本值及估计方法可得到位置参数的估计值.那么这样的估计的变异性如何?为了讨论这个问题,我们必须要牢记:估计值是估计量的实现,而估计量是随机变量.估计的变异性取决于估计量的抽样分布.而抽样分布取决于和.但这里面临两个问题:(1)我们并不知道;(2)可能是的复杂函数,这样既使知道了也难以确定抽样分布.首先,我们来解决第二个问题.假设已知,既然的精确分布难以解决,我们就借助计算机来解决,

20、利用随机模拟来实现.我们由生成很多很多容量为的样本,比如产生了个样本,由每个样本计算出的估计值,这样可得到的估计值. 的经验分布是的近似分布. 的样本方差是的方差的近似.越大,近似效果越好,由于是利用计算机模拟来实现的,因此可取得任意大,这种接近可以任意精确.如果已知,所有的一切都好办,但实际中我们往往不知道,那么应该怎样办呢?我们用样本的经验分布函数替代上一段中已知的.由于是一个离散分布,赋予每个观察值的概率都是,从中抽取容量为的样本等同于从由组成的总体中有放回地抽取容量为的样本.这样产生的个样本得到个估计值,那么标准差的估计是散度度量 散度度量给出了一组数据“分散状态”的数值表示.最普通的

21、度量是样本方差,更常用的是样本标准差,它是样本方差的平方根, ,也有用度量散度.如果是来自方差为的某总体的样本.那么是总体的无偏估计,而不是总体的无偏估计,和都不是的无偏估计.若总体是正态分布,的均方误差小于的均方误差.当容量很大时,两者相差不大;而不大时两者的差距就不小了.实用中更多地还是用,原因大概有两个:是总体的无偏估计;很多时候,人们更愿意将方差估计大些.其他散度度量有1.样本平均绝对偏差 若总体服从正态分布,可以证明 是的无偏估计.在20世纪20年代,Fisher与Eddington曾有过一次争论,争论的问题是,在估计正态总体的标准差时,是用样本标准差,还是用样本平均绝对偏差为好,争

22、论的结果是Fisher取得胜利.Fisher指出,在正态分布假设为真时,比更有效(对的相对效约为0.876).1960年,稳健统计的奠基人之一Turkey将该问题重新提出来,从稳健性角度加以研究.计算结果表明,若样本来自污染分布,比稳健许多.2. 四分位差(IQR) 正态总体的标准差的估计可取为.3. MADMAD定义为数据的中位数,其中是原始数据的中位数.正态总体的标准差的估计可取为.箱线图(boxplot)箱线图由Tukey编制出来.它概括了5个数:最小值Min,下四分位数(又叫第一四分位数),中位数利(又叫第二四分位数),上四分位数(又叫第三四分位数),最大值.它以图形方式显示位置度量(

23、中位数),散度变量(四分位差)和可能出现的离群点,同时还表明分布的对称性或偏度状态. 箱线图的构造过程如下:1. 在上四分位数,中位数, 下四分位数处画三条水平线,两端增加垂直线,制成一个箱子.2. 从上四分位数向上画一条垂直线,直到偏离上四分位数1.5倍IQR距离内的最大极值点.同样, 从下四分位数向下画一条垂直线,直到偏离上四分位数1.5倍IQR距离内的最小极值点.在两垂线末端增加短的水平线.3. 用星号或点标识出超出垂线末端的每个数据点. 制作箱线图没有统一的标准化程序,比如箱线图可竖着放,也可横着放,还可加入一些额外的点缀.但基本步骤不会有大的变化. 图10.13是铂数据的箱线图,该图

24、清晰地显示出:5个离群点,分布不对称而且呈右偏分布. 箱线图特别适用于比较两个或多个数据集(或样本).为此,我们将几个数据集的箱线图画在同一坐标轴上. 例 图10.14(P278)取自Chambers等(1983).图示数据是Bayonne,N.J.自1969年10月至1972年10月二氧化硫日最大浓度.因此,有36值容量大约30的样本数据. 研究者论定: 箱线图显示多种数据性质的能力相当惊人.二氧化硫随时间推移普遍下降,这是由于该地区逐渐转用低硫燃料.最大分位数下降幅度最显著.同时,由于冬天使用加热油,这些月份的浓度比较高.另外,箱线图显示分布偏向较高的值(即右偏),当浓度一般水平较高时,分

25、布的散度也比较大. 4.3 利用散点图探索关系 在统计中,很多有兴趣的问题都涉及对变量间关系的理解.散点图是基于点集显示两变量实证关系的基本方法:只需在平面上画出这些点.例(见P279) 通常利用相关系数简单地量化变量间的关系强度.样本,的Pearson相关系数是 这个统计量度量线性关系的强度.脑重和睡眠时间的相关系数为,对数脑重和睡眠时间的相关系数为.它们的差别是由于我们利用了非线性变换,而相关系数仅仅度量线性关系的强度. Pearson相关系数的替身是秩相关系数(称为Spearman秩相关系数):脑重由其顺序秩)代替,睡眠时间亦是,然后,计算秩对的Pearson相关系数. 脑重和睡眠时间的

26、秩相关系数为.秩相关系数的一些优点有:它对离群值不敏感,具有单调变换不变性. 散布图矩阵在检验多于两个变量之间的关系时非常有用,通过下例解释如下.例P280 在统计中还有其他相关系数,:它们都是为特定目的而构造的.比如,复相关系数,偏相关系数,相关系数. 本章介绍了几个汇总数据的方法,其中的一些在本质上是图形的.在假设数据具有随机模型的情况下,讨论了这些汇总统计量抽样分布的一些性质.汇总在实践中是非常重要的,融智的数据汇总通常足以完成我们收集数据的目的.较正式的技术,比如说置信区间和假设检验,有时仅能有限度地增添研究者的理解力.有效的数据的汇总还能指出“坏”数据或意想不到的数据,如果盲目地利用计算机处理这些数据,上述的问题都可能被忽视.- 19 -

展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服