资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,广义估计方程,主要内容,一、广义线性模型简介,1,)一般线性模型,2,)广义线性模型,二、广义估计方程,1,)纵向资料,2,)广义估计方程,3,)应用举例,一、广义线性模型简介,1,)一般线性模型,一般线性模型,(general linear model),,简称线性模型,(linear model),,是数理统计学中发展较早、理论丰富而且应用性很强的一个重要分支。,方差分析,一般线性模型,多元回归模型等,一般线性模型,应用:,用于研究某个指标,(,应变量,记为,Y,i,),与一组指标,(Xi1,,,Xi2,,,,,Xij),之间的线性关系。,表达式:,y,i,=,0,+,1,X,i1,+,2,X,i2,+,j,X,ij,+e,i,一般线性模型,一般线性模型对于残差分布的三个重要假设:,(1),独立,(2),符合正态分布,且均数为,0,(3),方差齐性,即,e,i,的方差相等,一般线性模型,局限性:,线性模型只能拟合应变量服从正态分布的资料,如果应变量是分类变量,或不服从正态分布的变量,线性模型则不能适用。,广义线性模型,2,)广义线性模型,概念:,很多非线性模型,如指数模型、,Logistic,回归模型,如对应变量作一定的变量变换可满足或近似满足线性模型分析的要求,能够借助线性模型的分析思路解决模型构造、参数估计和模型评价等一系列问题。这就是广义线性模型,(generalized linear model),广义线性模型,模型构造:,(1),应变量,相互独立,服从指数分布族,方差能够表达为均数的函数。应变量的期望值记为:,E(Y,i,)=,i,。,(2),线性部分,即自变量的线性组合,,为待求的参数向量。,i,=,0,+,1,X,i1,+,2,X,i2,+,j,X,ij,=X,i,广义线性模型,(3),联接函数,(link function),,将应变量的期望值和线性预测值,i,关联起来。,g,(,i,),=,i,=,0,+,1,X,i1,+,2,X,i2,+,j,X,ij,g(.,),是联接函数,联接函数的作用就是对应变量作变换使之符合正态分布,变量变换的类型依应变量的分布不同而不同。通过指定应变量的分布和联接函数,就可以拟合各种不同的模型。,广义线性模型,表,1,常见的概率分布和联接函数,分布 联接函数 数学表达式 模型,正态分布 恒等函数,=,多元线性回归模型,二项分布,Logit,函数,Logistic,回归模型,二项分布,Probit,函数,=,-1,(,),Probit,回归模型,Possion,分布 对数,=log(,),Possion,回归模型,广义线性模型,优点:,广义线性模型不仅可以用于拟合应变量服从正态分布的模型,还可以拟合应变量服从二项分布、,Poisson,分布、负二项分布等指数分布族的模型,通过指定不同的联接函数,把指数分布族的众多模型统一到一个模型框架中,具有极大的灵活性,其应用也日趋广泛。,纵向数据,概念:,纵向数据,(longitudinal data),是按照时间顺序对个体进行重复测量得到的资料。,比如儿童的生长监测资料,出生后每月测量其体重,(Y,变量,),以及影响体重的因素,(X,变量,如性别、喂养、疾病等,),,这样每个儿童的多次测量值称为纵向数据的一个串,(cluster),,是由一组,Y,变量,(,各次测定的体重,),和一组相对应的,X,变量组成。,纵向数据,纵向数据特点:,同一对象的多次观测之间呈相关倾向,因而,纵向数据与一般的多元应变量的资料不同,因为它的反应变量之间高度相关。也有别于时间序列数据,纵向数据是由每个个体的重复测量数据,按时间顺序组成较短的序列,并由大量这样的序列组成,而时间序列数据是很多各数据组成一个长的序列。,纵向数据,传统的统计方法一般都要求应变量是独立的,因而,由于应变量之间的相关,纵向数据不能用传统的方法来分析。因为如果忽略重复测量间的相关性,将损失数据中的信息,参数估计可能不准确。因此,,Liang,和,Zeger,等创立了广义估计方程,(generalized estimating equations),。,广义估计方程,2,)广义估计方程,应用:,广义估计方程是在广义线性模型的基础上发展起来的、专用于处理纵向数据的统计模型。广义估计方程可以对符合正态分布、二项分布等多种分布的应变量拟合相应的统计模型,解决了纵向数据中应变量相关的问题,得到稳健的参数估计值。,广义估计方程,一、模型的基本构成,假设,Y,ij,为第,i,个个体的第,j,次测量的变量,(i=1,k,j=1,t),,,Y,i,=(Y,i1,Y,i2,Y,ij,),,,X,ij,=(X,ij1,X,ijp,),,为对应于,Y,ij,的,p1,维解释变量向量。如果解释变量在各个观察时刻不变,(,比如性别,),,则,X,i1p,=X,i2p,=X,ijp,。如果,j,时刻没有观测值,则,Y,ij,和,X,ij,都缺失。,广义估计方程,模型构成如下:,(1),指定,Y,ij,的边际期望,(marginal expectation),是协变量,X,ij,线性组合的已知函数。,E(Y,ij,)=,ij,g(,ij,)=,0,+,1,X,ij1,+,2,X,ij2,+,p,X,ijp,式中:,g(.),称为联接函数;,=(,1,p,),为模型需要估计的参数向量。,广义估计方程,(2),指定,Y,ij,边际方差,(marginal variance),是边际期望的已知函数。,Var(Y,ij,)=V(,ij,),式中:,V(.),为已知函数;,为尺度参数,(scale parameter),,表示,Y,的方差不能被,V(,ij,),解释的部分。这个参数也是需要模型估计的,对二项分布和,Poisson,分布而言,,=1,。,广义估计方程,(3),指定,Y,ij,协方差是边际均数和参数,的函数。,Cov(Y,is,Y,it,)=c(,is,it,;),式中:,c(.),为已知函数;,又叫相关参数,(correlation parameter),;,s,和,t,分别表示第,s,次和第,t,次测量。,广义估计方程,构造如下广义估计方程为:,求解方程,Var(Y,ij,)=V(,ij,),可得到,的一致性估计。其中,V,i,表示作业协方差矩阵,(working covariance matrix),,并有,式中:,R,i,(),是,Y,ij,的作业相关矩阵,(working correlated matrix),;,A,i,是以,V(,ij,),为第,i,个元素的,t,维对角矩阵。,广义估计方程,二、作业相关矩阵,作业相关矩阵是广义估计方程中的一个重要概念,表示的是因变量的各次重复测量值两两之间相关性的大小,常用,R,i,(a),表示,是,tt,维对角阵,,t,是总测量次数。其第,s,行第,t,列的元素表示,Y,is,和,Y,it,的相关,尽管个体之间的相关性可能不尽相同,,R,i,(a),近似地表示个体之间平均的相关。,广义估计方程,作业相关矩阵的形式常有以下几种,其中,s,、,t,表示测量次数,,R,st,表示第,s,次和第,t,次测量之间的相关系数,如果,s=t,,则,R,st,=1,。,(1),独立,(independent),,即不相关,(uncorrelated),。,R,st,=0,,,st,就是假设应变量之间不相关。,广义估计方程,(2),等相关,或可交换的相关,(exchangeable correlation),。,R,st,=,,,st,假设任意两次观测之间的相关是相等的。这种假设常用于不依时间顺序的重复测量资料,比如说测量血压,间隔,5,分钟连续测,3,次,,3,次测量结果有相关,但与时间的先后顺序可能无关。,广义估计方程,(3),不确定型相关,(unstructured correlation),。,即不预先指定相关的形式,让模型根据资料的特征自己估计。,另外,还有两种不太常用的相关形式:稳态相关,(stationary correlation),和自回归过程,(autoregressive process),,此处不再作介绍。,广义估计方程,作业相关矩阵的使用:,作业相关矩阵的形式在拟合模型之前预先设定好,模型拟合完毕时会计算出具体的相关矩阵。假设等相关的情况下,计算的相关矩阵除了对角线上的元素外,其他的元素都相等,即任两次观测的相关是相同的。如果假设独立,则矩阵对角线以外元素都为,0,。,广义估计方程,广义估计方程的特性:,只要联接函数正确,总观测次数足够大,即使,R,i,(),指定不完全正确,,的可信区间和模型的其他统计量仍然渐近正确。因而作业相关矩阵的选择对参数估计的影响不大。,广义估计方程,三、模型求解过程,(1),假设重复测量值独立,按照广义线性模型计算出,,作为,的初始值,相当于普通最小二乘法估计。,(2),基于标准化残差,g,ij,和假设的相关结构,R,,计算作业相关矩阵和作业协方差阵。,(3),根据当前的作业协方差阵,修正,的估计。,(4),重复,(2),、,(3),过程直至收敛。,应用举例,为了解某抗癫痫药物的作用,对,58,名癫痫病人进行临床试验,对照组使用安慰剂。观察病人在连续,8,周内的发作次数,作为基线发作次数,(base),。然后给病人服药,记录服药后每,2,周的发作次数,(visitk1visit4),,一共观察了,8,周,所得资料如表,2,及表,3,。请分析该药物是否有抑制癫痫发作的作用。,应用举例,表,2,某药物抗癫痫的随机对照临床试验对照组每,2,周的发作次数,ID Base Visit1 Visit2 Visit3 Visit4,1 11 5 3 3 3,2 11 3 5 3 3,3 6 2 4 0 5,26 9 2 1 2 1,27 10 3 1 4 2,28 47 13 15 13 12,应用举例,表,3,某药物抗癫痫的随机对照临床试验试验组每,2,周的发作次数,ID Base Visit1 Visit2 Visit3 Visit4,29 76 11 14 9 8,30 38 8 7 9 4,31 19 0 4 3 0,56 25 2 3 0 1,57 13 0 0 0 0,58 12 1 4 3 2,应用举例,这种发作次数的资料也叫作计数资料,一般认为服从,Poisson,分布。不同病人可以认为是独立的,而同一个病人的各次发作次数是前后相关的。应而考虑以发作次数为应变量,指定应变量分布为,Poisson,分布,联接函数为对数,作业相关矩阵指定为等相关,拟合广义估计方程。,总结,广义估计方程是在广义线性模型基础上发展起来的,因而具有广义线性模型的优点,可接受多种分布的应变量,通过不同的联接函数拟合多种形式的广义估计方程。同时,广义估计方程很好的解决了纵向数据的相关性问题,因而广泛应用于具有多次重复测量的纵向数据分析。,总结,其特点归纳如下:,1),建模稳健。即使作业相关矩阵指定不正确,只要联接函数正确,仍然可以得到稳定的参数估计值。,2),充分利用资料信息。对多次重复测量的纵向数据,广义估计方程利用了每次测量的结果,较少损失资料的信息。,总结,3),应变量不是连续性变量时,考察应变量之间联合分布和协方差矩阵非常困难,常规的统计模型难以处理这个问题。利用广义估计方程不仅解决了这类资料的建模问题,还可得到相关矩阵以衡量重复测量之间相关性的大小,是一种较好的分析策略。,4),模型可以引入多种形式的自变量,考察分类、等级、连续的或其他形式的自变量对应变量影响的大小。,谢谢!,
展开阅读全文