收藏 分销(赏)

多层统计分析模型(课堂PPT).ppt

上传人:精**** 文档编号:10250606 上传时间:2025-04-29 格式:PPT 页数:70 大小:862.50KB 下载积分:16 金币
下载 相关 举报
多层统计分析模型(课堂PPT).ppt_第1页
第1页 / 共70页
多层统计分析模型(课堂PPT).ppt_第2页
第2页 / 共70页


点击查看更多>>
资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,多层统计分析模型,陶庄,中国,CDC,卫生统计研究室,1,绪论,2,青蛙与池塘(“,Frog-pond theory”,),青蛙,学生个体;,池塘,学校环境;,学生的成绩好坏不仅受到个体本身的影响,也受到学校环境的影响!,3,多层数据,低一层(低水平)单位(个体),的数据,嵌套(,nested,),于,高一层(高水平)的单位(组群),之中。,结局变量,个体解释变量,,场景变量(,contextual variables,),4,组内观察相关,(,within-group observation dependence,),同一组内的个体,较不同组的个体而言,在观念、行为等很多方面更为接近或相似;即便不是刻意分组,也是如此。,组内同质(,within-group homogeneity,),组间异质(,between-group heterogeneity,),很小的相关将导致很大的,I,类错误。,5,多层数据的常见来源,复杂抽样;,多中心临床试验;,纵向研究(,longitudinal studies,)与重复测量(,repeated measures,);,“高低搭配”;,Meta,分析;,6,多层统计模型的研究内容,哪些个体解释变量会影响结局变量;,哪些场景变量会影响结局变量;,个体解释变量对结局变量的影响是否会受到场景变量的影响。,7,多层统计模型出现前对多层数据进行分析的探索,8,探索(,1,),分别估计,在个体水平和组群水平分别进行分析;,试图用单一的个体水平模型的分析结果来推论另一水平的统计结果。,9,探索(,2,),传统回归,用传统的固定效应回归模型中一般的交互项理解多层数据中的跨层(,cross-level,)交互作用。,10,探索(,3,),两步模型(,two-stage model,),第一步模型,对各组分别进行同一回归模型估计,获得一系列的系数;,对这些系数的恒定性进行检验;,如果不恒定,则进行第二步模型,以组变量为因变量,系数为自变量进行回归。,11,探索(,3,),两步模型的问题,无论哪一步均使用,OLS,,并不适用;,当组群过多,则十分麻烦;,某些组内样本量很少时,进行回归不稳定;,将每个组群认为是不相关的,忽略了其为从一大样本中抽取的事实。,12,多层统计模型的出现,研究的学者很多;,系统的主要为两;,研究的理论没有根本上的分歧;,双方研究成果的发布时间基本相同(上世纪,80,年代末,90,年代初);,分别有各自分析的成熟的软件;,目前,大家基本上接受两组人分别独立开发出同一模型的结果。,13,S.Raudenbush,与,A.Bryk,模型称为:,hierarchical linear model,;,软件为:,HLM,14,H.Goldstein,模型称为:,multilevel models,;,软件为:,MLwiN,(早期版本称,ML3,,,MLn,),15,多层统计模型的名称,multilevel models,hierarchical linear model,random-effect model,random coefficient model,various component model,mixed-effect model,empirical Bayes model,16,多层统计模型的优点,同时分析组效应和个体效应;,不需有独立性假设;,对稀疏(,sparse,)数据,即每组样本很少的数据,特别有效;,特别适合对发展模型(,GM,)的分析。,17,多层统计模型的局限性(,1,),模型复杂,不够简约;,需较大样本以保证稳定性;,组群数量较少,会出现偏倚;,高水平单位并非严格抽样获得;,某些场景变量通常是各组个体的聚集性测量,而不是总体内个体的聚集性测量;,18,多层统计模型的局限性(,2,),研究对象一般具有流动性,即受到群组影响的程度不同,虽可用出入时间进行控制,但此信息一般不可知;,依然存在自变量带有测量误差的问题,必需借助于结构方程模型(,SEM,);,完全嵌套假设,即每一个低水平单位嵌套、且仅嵌套于一个高水平单位。,19,用于多层统计模型的软件,专门软件:,HLM,;,MLwiN,;,SuperMIX,;,aML,;,EGRET,;,LISREL,;,Mplus,等。,通用统计学软件:,SAS,;,SPSS,;,stata,;,S-plus/R,等。,20,线性多层统计模型,基础知识,21,组内相关系数,(,Intra-Class Correlation Coefficient,ICC,),组间方差占总方差的比例。,可使用对“空模型”的拟合获得;,值域在,0,到,1,之间,越接近,1,,说明相关越明显;,对,ICC,的检验是是否选择多层模型的依据。,22,两水平模型的公式表达,23,空模型(又称截距模型),24,两个水平,1,自变量、一个水平,2,自变量,25,一般模型,26,SAS,中的公式表达,27,模型假设,28,模型假设,SAS,的表达,29,固定和随机回归系数,30,模型估计方法,31,最大似然法(,ML,),包括普通最大似然法(,ML,)和限制性最大似然法(,REML,);,两者用于估计的残差基础不同,后者的残差包括所有的随机变异;,REML,是,SAS,的,MIXED,过程和,HLM,的默认算法;,REML,通常用于组数量较少的模型;,ML,可以用于模型比较,而,REML,不行;,REML,估计较优,而,ML,较快。,32,最小二乘法(,LS,),包括迭代广义最小二乘法(,IGLS,)和限制性迭代广义最小二乘法(,RIGLS,),都以普通最小二乘估计(,OLS,)为初始值进行迭代;,地位及相对关系大致等同于,ML,和,REML,;,是,MLwiN,使用的算法。,33,经验,Bayes,方法(,EB,),“,收缩估计(,shrinkage estimator,)”,以可靠性权重确定最后的估计值;,对于某些样本量很小的组,则更多的使用总样本的信息,进行“借力(,borrow strength,)”,34,空模型的可靠性权重,35,对模型拟合的评价,SAS,给出:,-2LL,,,AIC,,,AICC,,,BIC,等统计量,其值越小越好;,但只在比较模型时有用;,模型收敛的速度可以说明拟合的好坏。,36,假设检验,全局检验:,F,检验;,局部检验:对方差,-,协方差估计使用,Wald Z,检验;对系数使用,t,检验;,单测检验,,P,值需除,2,;,其它可使用,LR,等。,37,模型比较,对于嵌套模型,使用,LR,检验;,对于非嵌套模型,使用,AIC,,,AICC,和,BIC,检验;,无论何种,均需使用,ML,进行估计。,38,对变异的解释程度(,RB,),39,对变异的解释程度(,SB,),40,示例与,SAS,实现,41,例,1,:对医生满意度调查,Patid,:病人编号;,Phys,:医生编号;,Age,:病人年龄;,Sat,:满意度分数;,Practice,:执业时间;,42,空模型,43,空模型,2,步迭代完成;,所有随机系数的检验均高于检验水准;,ICC=0.00292/,(,0.00292+1.291,),=0.23%,不用进一步拟合多水平模型,44,例,2,:,SNA,角度测量值,id,:观察对象编号;,occa,:每次观察编号;,Age,:病人年龄;,SNA,:角度;,agg,:场景变量;,45,空模型,3,步迭代完成;,所有随机系数的检验部分低于检验水准;,ICC=0.4296/,(,0.4296+0.5629,),=43.28%,应进一步拟合多水平模型,46,空模型加入场景变量,47,空模型加入场景变量,3,步迭代完成,随机截距有意义;,所有随机系数的检验部分低于检验水准;,该模型,-2LL=345.8,,空模型,-2LL=352.2,,则,LR,2,=6.4,,,p=0.0114,;,RB=1-0.3330/0.4296=0.2248;,48,加入水平,1,变量(固定效应),49,加入水平,1,变量(固定效应),3,步迭代完成,随机截距有意义;,所有随机系数的检验部分低于检验水准;,该模型,-2LL=199.1,,前模型,-2LL=345.8,,则,LR,2,=146.7,,,p=0.000,;,50,检验水平,1,的随机性,51,检验水平,1,的随机性,4,步迭代完成,,2,个随机系数均有意义;,所有随机系数的检验部分低于检验水准;,该模型,-2LL=185.6,,前模型,-2LL=199.1,,则,LR,2,=3.5,,,p=0.1738,;,52,跨层交互作用评估,53,跨层交互作用评估,5,步迭代完成,随机截距有意义,但交互项没意义;,-2LL,等都对前模型有所增加;,跨层交互作用不显著。,54,建模一般步骤,运行空模型以获得,ICC,,判断是否进行多层模型拟合;,加入水平,2,解释变量;,加入水平,1,解释变量;,检验水平,1,随机斜率;,检验跨水平交互作用(全模型)。,55,发展模型,56,传统纵向数据分析方法的局限性,重复测量的方差分析;,假设残差方差在各时间点上相等;,或,假设任何时点之间的残差方差的差异相等(即所谓“球面(,sphericity,)”假设或称“环形(,circularity,)”假设);,要求完整均衡数据,即等时距,无缺失。,57,发展模型的优点,可处理缺失和不完整数据;,可处理不等时距问题;,不要求对象内独立即其它的限制性假设;,可以容易的加入时间依赖自变量。,58,发展模型与一般多层模型的区别,59,SAS,程序,proc mixed covtest ic;,class id,timec,;,model y=trt|time/s ddfm=KR notest;,random int time/subject=id G type=UN;,repeated timec/subject=id R type=AR(1);,run;,60,离散型结局变量的多层统计模型,61,广义线性模型,随机成分(,random components,):指的是分布,一般为指数族分布;,系统成分(,systematic component,):即传统回归模型形态;,链接函数(,link function,),62,广义线性混合效应模型,对广义线性模型和多层统计模型的结合和扩展。,63,广义线性混合效应模型的估计方法,线性化法(,linearization methods,),数值法积分近似法(,integral approximation with numerical methods,),64,线性化法,使用泰勒展开式等技术来近似估计该积分似然函数;,不使用原始数据,而是按原始数据产生伪数据(,pseudo-data,)进行估计;,SAS,中的,GLMMIX,过程。,65,线性化法的优点和局限性,模型的联合分布难于确定,也可以胜任;,可拟合较多随机效应;,允许不同结构的,R,矩阵;,可以使用,REML,等;,由于使用伪数据进行拟合,不能使用,LR,进行模型比较;,SAS,提供的随机效应的标准误有偏,不能用于假设检验。,66,数值法积分近似法,使用原始数据估算边际积分似然函数的近似值;,默认的是适应性高斯求积法;,并可使用多种优化技术,默认的是二元准牛顿算法;,SAS,中的,NLMIXED,过程。,67,数值法积分近似法的优点和局限性,使用原始数据进行拟合,可以使用,LR,进行模型比较;,SAS,提供显著性检验;,非常耗时,且不易收敛;,不能随意设定,R,的结构;,只能使用,ML,。,68,各种离散型结局变量模型,多层,logistic,回归模型,多层累积,logistic,回归模型;,多层多项,logistic,回归模型;,多层,poisson,回归模型;,69,谢谢大家!,70,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服