1、第第5章章 关于均值向量的推断关于均值向量的推断o一、一、0作为正态总体均值的似真性作为正态总体均值的似真性o二、霍特林二、霍特林T2与似然比检验与似然比检验o三、置信域和均值分量的联合比较三、置信域和均值分量的联合比较o四、总体均值向量的大样本推断四、总体均值向量的大样本推断o五、多元质量控制图五、多元质量控制图o六、观测值缺损时均值向量的推断六、观测值缺损时均值向量的推断o七、多元观察中由时间相依性造成的困难七、多元观察中由时间相依性造成的困难一、一、0作为正态总体均值的似真性作为正态总体均值的似真性本章将讨论关于总体均值向量及其分量的本章将讨论关于总体均值向量及其分量的统计推断问题。统计
2、推断问题。o判断判断0是否为总体均值的似真值?是否为总体均值的似真值?o一元统计中:一元统计中:t分布分布这个统计分布为自由度为这个统计分布为自由度为n-1的学生的学生t分布分布o学生学生t-分布分布(Students t-distribution)应用在当对呈)应用在当对呈正态分正态分布布的母群体的的母群体的均值均值进行进行估计估计。它是。它是对对两个样本均值差异两个样本均值差异进行显著性测进行显著性测试的学生试的学生t测定的基础。测定的基础。如果计算的如果计算的t的绝对值较大,则拒绝零假设的绝对值较大,则拒绝零假设上式也等同于当上式也等同于当t的平方较大时,拒绝零假设,的平方较大时,拒绝零
3、假设,即即0不是总体均值的似真值。不是总体均值的似真值。t2为样本均值到为样本均值到0的距离的平方的距离的平方o多元统计中多元统计中 p*1的的0向量是否为多元正态分布均值的似向量是否为多元正态分布均值的似真值?真值?从一元推广到多元平方距离:从一元推广到多元平方距离:其中其中T2为样本均值到为样本均值到0的距的距离的平方,如果距离太离的平方,如果距离太远,则拒绝零假设;远,则拒绝零假设;T2以研究者霍特林命名,以研究者霍特林命名,称为称为霍特林统计量霍特林统计量T2分布的性质:分布的性质:设设X1,Xn是来自均值为是来自均值为,协方差矩阵为,协方差矩阵为的联合分布的一个随机样本,服从的联合分
4、布的一个随机样本,服从Np(,)分布,分布,即即T2分布与(系数分布与(系数*F)同分布)同分布在一定概率水平下,如果下式成立则拒绝零假设在一定概率水平下,如果下式成立则拒绝零假设二、二、霍特林霍特林T2与似然比检验与似然比检验1.构造似然比构造似然比2.T2和和分布的关系分布的关系多元正态似然函数的最大值为:多元正态似然函数的最大值为:极大似然估计量:极大似然估计量:1.构造似然比构造似然比2.在零假设条件下在零假设条件下(=0),最大正态似然值为:,最大正态似然值为:其中其中将两种最大似然值进行比较得到将两种最大似然值进行比较得到的比值为的比值为似然比统计量:似然比统计量:似然比统计量似然
5、比统计量的计算如下式,当该值太小时,拒绝零假设的计算如下式,当该值太小时,拒绝零假设2.T2和和分布的关系分布的关系设设X1,Xn是来自均值为是来自均值为,协方差矩阵为,协方差矩阵为的联的联合分布的一个随机样本,服从合分布的一个随机样本,服从Np(,)分布有分布有小的小的或大的或大的T2,拒绝零假设。拒绝零假设。三、置信域和均值分量的联合比较三、置信域和均值分量的联合比较o假设假设是未知的是未知的总总体分布的参数向量,体分布的参数向量,是所有可能的是所有可能的的集合,的集合,置信域置信域是可能的是可能的组组成的集合,与一元的置信区成的集合,与一元的置信区间类间类似。似。o置信域置信域由样本数据
6、决定,用由样本数据决定,用R(X)表示,如表示,如果样本被抽取前有下式成立,则称区域果样本被抽取前有下式成立,则称区域R(X)为为 的的100(1-)%的置信域。的置信域。1.一元统计中一元统计中2.多元统计中多元统计中1.一元统计中一元统计中例如,给定一个样本:样本均值和方例如,给定一个样本:样本均值和方差分别为差分别为10和和2,样本大小为,样本大小为11(自由(自由度为度为10)。)。o则根据下式和查表则根据下式和查表2.多元统计中多元统计中p=2时置信域为一椭圆时置信域为一椭圆四、总体均值向量的大样本推断四、总体均值向量的大样本推断o当样本量很大时,不需要总体的当样本量很大时,不需要总
7、体的正态性假正态性假定定就可以构造均值的假设检验及置信域;就可以构造均值的假设检验及置信域;o当当n-p很大时,有下式成立:很大时,有下式成立:则在则在的置信水平下拒的置信水平下拒绝绝零假零假设设五、多元质量控制图五、多元质量控制图控制图的目的是为了识别是否出现了引控制图的目的是为了识别是否出现了引起变动的特殊原因,这些原因来自外部,起变动的特殊原因,这些原因来自外部,表明需要对数据进行修正或改进。表明需要对数据进行修正或改进。1.均值控制图(一元)均值控制图(一元)2.椭圆控制图(二元)椭圆控制图(二元)3.T2控制图(多元)控制图(多元)1.均值控制图(一元)均值控制图(一元)o按时间顺序
8、对各个观察值或样本均值作按时间顺序对各个观察值或样本均值作标绘标绘o画出所有观察值的样本均值的中心线画出所有观察值的样本均值的中心线o按照如下公式计算并画出控制限按照如下公式计算并画出控制限控制上限控制上限UCL:x+3*标准差标准差控制下限控制下限LCL:x-3*标准差标准差2.椭圆控制图(二元)椭圆控制图(二元)o按散布图进行标绘按散布图进行标绘o按照如下不等式计算按照如下不等式计算95%的置信椭圆,并的置信椭圆,并画出椭圆控制限(画出椭圆控制限(=0.05或或0.01,p=2).3.T2控制图(多元)控制图(多元)o对第对第j个点计算个点计算T2统计量统计量o把计算结果画在时间轴上,把计
9、算结果画在时间轴上,LCL为零,为零,UCL为为=0.05或或0.01的卡方值的卡方值.T299%限制限制95%限制限制学生学生t分布分布卡方分布卡方分布(2 distribution)F分布分布(F distribution,RA Fisher,1923)第第5章章 关于均值向量的推断关于均值向量的推断o一、一、0作为正态总体均值的似真性作为正态总体均值的似真性o二、霍特林二、霍特林T2与似然比检验与似然比检验o三、置信域和均值分量的联合比较三、置信域和均值分量的联合比较o四、总体均值向量的大样本推断四、总体均值向量的大样本推断o五、多元质量控制图五、多元质量控制图o六、观测值缺损时均值向量
10、的推断六、观测值缺损时均值向量的推断o七、多元观察中由时间相依性造成的困难七、多元观察中由时间相依性造成的困难六、观测值缺损时均值向量的推断六、观测值缺损时均值向量的推断o如何处理不完全观测值?如何处理不完全观测值?o登普斯特(登普斯特(Dempster)提出一种从不完提出一种从不完全数据出发,计算其极大似然估计的一全数据出发,计算其极大似然估计的一般方法,称为般方法,称为EM算法。算法。oEM算法:算法:1.预测预测,预测任何缺损值对,预测任何缺损值对充分统计量充分统计量的的贡献;贡献;2.估计估计,计算修正后的极大似然估计值。,计算修正后的极大似然估计值。oEM算法具体步骤:算法具体步骤:
11、1.利用不全数据利用不全数据X计算各个变量的均值,缺损计算各个变量的均值,缺损值不计入,用值不计入,用这些估计的均值代替缺损值这些估计的均值代替缺损值;2.利用估计的上述数据利用估计的上述数据估计协方差估计协方差;3.把有缺损的数据和正常数据进行把有缺损的数据和正常数据进行分块处理分块处理,按照公式估计缺损值、缺损值的平方、缺损按照公式估计缺损值、缺损值的平方、缺损值与其它观测值的乘积;值与其它观测值的乘积;4.计算充分统计量计算充分统计量T1和和T2的估计值;的估计值;5.利用利用T1和和T2估计均值和协方差估计均值和协方差;o再再重复预测与估计重复预测与估计,直到估计出的均值和协,直到估计
12、出的均值和协方差中的元素方差中的元素基本保持不变基本保持不变为止。为止。例题,用下面数据估计正态总体均例题,用下面数据估计正态总体均值与协方差矩阵,值与协方差矩阵,n=4,p=3,某些,某些值缺损。值缺损。1.对样本均值做初始估计:对样本均值做初始估计:2.用样本均值代替缺损值用样本均值代替缺损值3.估计协方差矩阵估计协方差矩阵4.利用初始的均值和协方差估计值利用初始的均值和协方差估计值预测预测缺缺损值对充分统计量损值对充分统计量T1和和T2的贡献的贡献同样估计缺损的另外两个数对统计量的影响,预测出同样估计缺损的另外两个数对统计量的影响,预测出T1和和T2:5.求出修正求出修正估计估计预测与估计一直迭代,直到估计值的元素基本不变化预测与估计一直迭代,直到估计值的元素基本不变化七、多元观察中由时间相依性造成七、多元观察中由时间相依性造成的困难的困难o当时间相依性可以由一阶多元自回归模型当时间相依性可以由一阶多元自回归模型(AR(1))来刻画时,有:)来刻画时,有:第第5章习题章习题o利用计算机程序实现利用计算机程序实现EM算法。算法。此课件下载可自行编辑修改,供参考!感谢您的支持,我们努力做得更好!
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100