多层统计分析模型(课堂PPT).ppt

资源描述

,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,多层统计分析模型,陶庄,中国,CDC,卫生统计研究室,1,绪论,2,青蛙与池塘（“,Frog-pond theory”,）,青蛙,学生个体；,池塘,学校环境；,学生的成绩好坏不仅受到个体本身的影响，也受到学校环境的影响！,3,多层数据,低一层（低水平）单位（个体）,的数据,嵌套（,nested,）,于,高一层（高水平）的单位（组群）,之中。,结局变量，个体解释变量，,场景变量（,contextual variables,）,4,组内观察相关,（,within-group observation dependence,）,同一组内的个体，较不同组的个体而言，在观念、行为等很多方面更为接近或相似；即便不是刻意分组，也是如此。,组内同质（,within-group homogeneity,），组间异质（,between-group heterogeneity,）,很小的相关将导致很大的,I,类错误。,5,多层数据的常见来源,复杂抽样；,多中心临床试验；,纵向研究（,longitudinal studies,）与重复测量（,repeated measures,）；,“高低搭配”；,Meta,分析；,6,多层统计模型的研究内容,哪些个体解释变量会影响结局变量；,哪些场景变量会影响结局变量；,个体解释变量对结局变量的影响是否会受到场景变量的影响。,7,多层统计模型出现前对多层数据进行分析的探索,8,探索（,1,）,分别估计,在个体水平和组群水平分别进行分析；,试图用单一的个体水平模型的分析结果来推论另一水平的统计结果。,9,探索（,2,）,传统回归,用传统的固定效应回归模型中一般的交互项理解多层数据中的跨层（,cross-level,）交互作用。,10,探索（,3,）,两步模型（,two-stage model,）,第一步模型，对各组分别进行同一回归模型估计，获得一系列的系数；,对这些系数的恒定性进行检验；,如果不恒定，则进行第二步模型，以组变量为因变量，系数为自变量进行回归。,11,探索（,3,）,两步模型的问题,无论哪一步均使用,OLS,，并不适用；,当组群过多，则十分麻烦；,某些组内样本量很少时，进行回归不稳定；,将每个组群认为是不相关的，忽略了其为从一大样本中抽取的事实。,12,多层统计模型的出现,研究的学者很多；,系统的主要为两；,研究的理论没有根本上的分歧；,双方研究成果的发布时间基本相同（上世纪,80,年代末,90,年代初）；,分别有各自分析的成熟的软件；,目前，大家基本上接受两组人分别独立开发出同一模型的结果。,13,S.Raudenbush,与,A.Bryk,模型称为：,hierarchical linear model,；,软件为：,HLM,14,H.Goldstein,模型称为：,multilevel models,；,软件为：,MLwiN,（早期版本称,ML3,，,MLn,）,15,多层统计模型的名称,multilevel models,hierarchical linear model,random-effect model,random coefficient model,various component model,mixed-effect model,empirical Bayes model,16,多层统计模型的优点,同时分析组效应和个体效应；,不需有独立性假设；,对稀疏（,sparse,）数据，即每组样本很少的数据，特别有效；,特别适合对发展模型（,GM,）的分析。,17,多层统计模型的局限性（,1,）,模型复杂，不够简约；,需较大样本以保证稳定性；,组群数量较少，会出现偏倚；,高水平单位并非严格抽样获得；,某些场景变量通常是各组个体的聚集性测量，而不是总体内个体的聚集性测量；,18,多层统计模型的局限性（,2,）,研究对象一般具有流动性，即受到群组影响的程度不同，虽可用出入时间进行控制，但此信息一般不可知；,依然存在自变量带有测量误差的问题，必需借助于结构方程模型（,SEM,）；,完全嵌套假设，即每一个低水平单位嵌套、且仅嵌套于一个高水平单位。,19,用于多层统计模型的软件,专门软件：,HLM,；,MLwiN,；,SuperMIX,；,aML,；,EGRET,；,LISREL,；,Mplus,等。,通用统计学软件：,SAS,；,SPSS,；,stata,；,S-plus/R,等。,20,线性多层统计模型,基础知识,21,组内相关系数,（,Intra-Class Correlation Coefficient,ICC,）,组间方差占总方差的比例。,可使用对“空模型”的拟合获得；,值域在,0,到,1,之间，越接近,1,，说明相关越明显；,对,ICC,的检验是是否选择多层模型的依据。,22,两水平模型的公式表达,23,空模型（又称截距模型）,24,两个水平,1,自变量、一个水平,2,自变量,25,一般模型,26,SAS,中的公式表达,27,模型假设,28,模型假设,SAS,的表达,29,固定和随机回归系数,30,模型估计方法,31,最大似然法（,ML,）,包括普通最大似然法（,ML,）和限制性最大似然法（,REML,）；,两者用于估计的残差基础不同，后者的残差包括所有的随机变异；,REML,是,SAS,的,MIXED,过程和,HLM,的默认算法；,REML,通常用于组数量较少的模型；,ML,可以用于模型比较，而,REML,不行；,REML,估计较优，而,ML,较快。,32,最小二乘法（,LS,）,包括迭代广义最小二乘法（,IGLS,）和限制性迭代广义最小二乘法（,RIGLS,）,都以普通最小二乘估计（,OLS,）为初始值进行迭代；,地位及相对关系大致等同于,ML,和,REML,；,是,MLwiN,使用的算法。,33,经验,Bayes,方法（,EB,）,“,收缩估计（,shrinkage estimator,）”,以可靠性权重确定最后的估计值；,对于某些样本量很小的组，则更多的使用总样本的信息，进行“借力（,borrow strength,）”,34,空模型的可靠性权重,35,对模型拟合的评价,SAS,给出：,-2LL,，,AIC,，,AICC,，,BIC,等统计量，其值越小越好；,但只在比较模型时有用；,模型收敛的速度可以说明拟合的好坏。,36,假设检验,全局检验：,F,检验；,局部检验：对方差,-,协方差估计使用,Wald Z,检验；对系数使用,t,检验；,单测检验，,P,值需除,2,；,其它可使用,LR,等。,37,模型比较,对于嵌套模型，使用,LR,检验；,对于非嵌套模型，使用,AIC,，,AICC,和,BIC,检验；,无论何种，均需使用,ML,进行估计。,38,对变异的解释程度（,RB,）,39,对变异的解释程度（,SB,）,40,示例与,SAS,实现,41,例,1,：对医生满意度调查,Patid,：病人编号；,Phys,：医生编号；,Age,：病人年龄；,Sat,：满意度分数；,Practice,：执业时间；,42,空模型,43,空模型,2,步迭代完成；,所有随机系数的检验均高于检验水准；,ICC=0.00292/,（,0.00292+1.291,）,=0.23%,不用进一步拟合多水平模型,44,例,2,：,SNA,角度测量值,id,：观察对象编号；,occa,：每次观察编号；,Age,：病人年龄；,SNA,：角度；,agg,：场景变量；,45,空模型,3,步迭代完成；,所有随机系数的检验部分低于检验水准；,ICC=0.4296/,（,0.4296+0.5629,）,=43.28%,应进一步拟合多水平模型,46,空模型加入场景变量,47,空模型加入场景变量,3,步迭代完成，随机截距有意义；,所有随机系数的检验部分低于检验水准；,该模型,-2LL=345.8,，空模型,-2LL=352.2,，则,LR,2,=6.4,，,p=0.0114,；,RB=1-0.3330/0.4296=0.2248;,48,加入水平,1,变量（固定效应）,49,加入水平,1,变量（固定效应）,3,步迭代完成，随机截距有意义；,所有随机系数的检验部分低于检验水准；,该模型,-2LL=199.1,，前模型,-2LL=345.8,，则,LR,2,=146.7,，,p=0.000,；,50,检验水平,1,的随机性,51,检验水平,1,的随机性,4,步迭代完成，,2,个随机系数均有意义；,所有随机系数的检验部分低于检验水准；,该模型,-2LL=185.6,，前模型,-2LL=199.1,，则,LR,2,=3.5,，,p=0.1738,；,52,跨层交互作用评估,53,跨层交互作用评估,5,步迭代完成，随机截距有意义，但交互项没意义；,-2LL,等都对前模型有所增加；,跨层交互作用不显著。,54,建模一般步骤,运行空模型以获得,ICC,，判断是否进行多层模型拟合；,加入水平,2,解释变量；,加入水平,1,解释变量；,检验水平,1,随机斜率；,检验跨水平交互作用（全模型）。,55,发展模型,56,传统纵向数据分析方法的局限性,重复测量的方差分析；,假设残差方差在各时间点上相等；,或，假设任何时点之间的残差方差的差异相等（即所谓“球面（,sphericity,）”假设或称“环形（,circularity,）”假设）；,要求完整均衡数据，即等时距，无缺失。,57,发展模型的优点,可处理缺失和不完整数据；,可处理不等时距问题；,不要求对象内独立即其它的限制性假设；,可以容易的加入时间依赖自变量。,58,发展模型与一般多层模型的区别,59,SAS,程序,proc mixed covtest ic;,class id,timec,;,model y=trt|time/s ddfm=KR notest;,random int time/subject=id G type=UN;,repeated timec/subject=id R type=AR(1);,run;,60,离散型结局变量的多层统计模型,61,广义线性模型,随机成分（,random components,）：指的是分布，一般为指数族分布；,系统成分（,systematic component,）：即传统回归模型形态；,链接函数（,link function,）,62,广义线性混合效应模型,对广义线性模型和多层统计模型的结合和扩展。,63,广义线性混合效应模型的估计方法,线性化法（,linearization methods,）,数值法积分近似法（,integral approximation with numerical methods,）,64,线性化法,使用泰勒展开式等技术来近似估计该积分似然函数；,不使用原始数据，而是按原始数据产生伪数据（,pseudo-data,）进行估计；,SAS,中的,GLMMIX,过程。,65,线性化法的优点和局限性,模型的联合分布难于确定，也可以胜任；,可拟合较多随机效应；,允许不同结构的,R,矩阵；,可以使用,REML,等；,由于使用伪数据进行拟合，不能使用,LR,进行模型比较；,SAS,提供的随机效应的标准误有偏，不能用于假设检验。,66,数值法积分近似法,使用原始数据估算边际积分似然函数的近似值；,默认的是适应性高斯求积法；,并可使用多种优化技术，默认的是二元准牛顿算法；,SAS,中的,NLMIXED,过程。,67,数值法积分近似法的优点和局限性,使用原始数据进行拟合，可以使用,LR,进行模型比较；,SAS,提供显著性检验；,非常耗时，且不易收敛；,不能随意设定,R,的结构；,只能使用,ML,。,68,各种离散型结局变量模型,多层,logistic,回归模型,多层累积,logistic,回归模型；,多层多项,logistic,回归模型；,多层,poisson,回归模型；,69,谢谢大家！,70,

展开阅读全文