收藏 分销(赏)

广义线性模型课件.ppt

上传人:人****来 文档编号:5887211 上传时间:2024-11-22 格式:PPT 页数:42 大小:942.50KB 下载积分:12 金币
下载 相关 举报
广义线性模型课件.ppt_第1页
第1页 / 共42页
广义线性模型课件.ppt_第2页
第2页 / 共42页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Generalized Linear Models,广义线性模型,何平平,北大医学部流行病与卫生统计学系,Tel,:,82801619,1,广义线性模型的定义,该模型假定:,1.,Y,1,Y,n,是,n,个服从指数分布族的独立样本,i,=,E,(,Y,i,|,X,1,X,2,X,k,),,,i,1,,,,,n,;,2.,i,是,k,个解释变量的线性组合,i,=,0,+,1,X,i,1,+,k,X,ik,3.,存在一个连接函数(,Link function,),g,,使得,i,与,i,有下面的关系,i,=,g(,i,),2,常见分布及其联系函数,指数分布族常见的重要分布如正态分布、二项分布、,Poisson,分布、指数分布等。对非正态广义线性模型,经典的最小二乘法已不能用于这种模型的拟合,而是采用,最大似然估计方法,。,分布 联系函数,正态分布,=,普通线性模型,二项分布 或,多项分布,=log,对数线性模型,(Poisson,分布,),(,Poisson,回归,),=logP/(1-P),Logistic,回归模型,=logh(t)/h,0,(t),COX,回归模型,3,Logistic,回归分析,推荐书籍:,Hosmer,David W,.(2000).,Applied logistic regression,.John Wiley,New York.,何平平,北大医学部流行病与卫生统计学系,Tel,:,82801619,4,(一),Logistic,回归分析的任务,影响因素分析,logistic,回归常用于疾病的危险因素分析,,logistic,回归分析可以提供一个重要的指标:,OR,。,5,(二)经典,Logistic,回归分析的基本原理,1.,变量特点,因变量:,二分类变量,若令因变量为,y,,则常用,y,1,表示“发病”,,y,0,表示“不发病”(在病例对照研究中,分别表示病例组和对照组)。,自变量:,可以为分类变量,也可以为连续变量。,6,2.Logistic,模型,P,=,P,(,y,=1|,x,),,为发病概率;,1-,P,=,P,(,y,=0|,x,),,为不发病概率。,0,为常数项,,1,,,2,.,m,分别,为,m,个自变量的回归系数。,g,(,x,),是对,P,的变换,,,称为,logit,变换,:,可以得到:,7,模型估计方法:,最大似然法(,Maximum Likelihood Method,):,构造似然函数(,Likelihood function,),L,=,P,(,y,=1|,x,),P,(,y,=0|,x,),,通过迭代法估计一组参数(,0,,,1,,,2,.,m,)使,L,达到最大。,8,3.,模型及自变量的统计检验,模型检验,:,H,0,:,1,2,i,m,0,H,1,:至少有一个,i,0,采用似然比检验(,the likelihood ratio test,),当,P,0.05,时,拒绝,H,0,,认为模型有统计学意义,。,自变量,检验,:,H,0,:,i,0,H,1,:,i,0,采用,Wald,检验,,,当,P,0.05,时,拒绝,H,0,,认为,i,不为,0,。,9,4.,自变量的筛选,与多元线性回归分析类似,有,Forward,法(前进逐步法,)、,Backward,(后退逐步法,)法。,SPSS,中默认的选入标准为,0.05,,剔除标准为,0.10,。,注,:,不同自变量的筛选方法,当结果差别较大时,应该结合专业知识,用尽可能少的变量拟合一个最佳模型。有研究者认为,依据,Wald,统计量,(,Wald,),、似然比统计量,(,LR,),或者条件统计量,(,Conditional,),剔除变量时,,LR,是决定哪个变量应该被剔除的最好方法。,10,5.,模型拟合的优良性指标,(,1,)拟合分类表(,Classification Table,),根据,Logistic,回归模型,对样本重新判别分类,总符合率越接近,100%,,则模型拟合越好。,Logistic,回归用于判别分类很粗劣,尤其在很多情况下对于小样本的分类效果差。,(,2,),Hosmer-Lemeshow,拟合优度统计量,当检验的,P,值大于,0.1,时,则说明模型对样本的拟合是可以接受的。,11,6.,OR,与,RR,Logistic,回归模型中,,,OR,=exp(,),。,lnOR=,当某种疾病的发病率或死亡率很低时,,OR,RR,OR,的置信区间为:,12,例:,比较新疗法与旧疗法治疗某种疾病的疗效。现对,40,例患者随机分组,分别接受新疗法和旧疗法治疗。根据专业知识,患者的病情严重程度、年龄对疗效也有影响。如何评价新旧疗法的疗效(,见数据文件,logistic.sav,)?(注:作为举例,本例样本量仅为,40,例,由于样本量太小,,Logistic,回归的结论仅作为参考),13,变量说明:,Y,:治愈情况,,1=,治愈;,0=,未治愈;,X1,:病情严重程度,,0=,不严重,,1=,严重;,X2,:年龄。,X3,:治疗方法,,0=,新疗法,,1=,旧疗法。,14,二值,Logistic,回归,15,因变量,协变量,(,自变量,),注:此处将,X1,、,X3,看作为连续变量。,16,OR,的,95%,置信区间,17,对模型的检验,经统计学检验,模型,2,=13.951,,,P,=0.003,,,Logistic,回归模型有显著性。,模型拟合良好,18,符合率为,70.0%,拟合分类表,19,回归系数,标准误,Wald,值,P,值,OR,OR,置信区间,根据模型,,病情严重程度与治疗方法对患者的治愈情况有影响;其中病情严重组相对于不严重组,,OR,0.203,,,95%,置信区间为,(0.038,,,1.092),(,此区间包括,1,,缺乏实际意义,),;旧疗法组相对于新疗法组,,OR,0.103,,,95%,置信区间为,(0.019,,,0.553),20,另法:将,X1,、,X3,指定为分类变量。,21,与前述结果相比,,X1,与,X3,的回归系数符号发生了变化,结果解释有所不同:,病情不严重组相对于严重组,,OR,4.928,95%,置信区间为,(0.916,,,26.506),;新疗法组相对于旧疗法组,,OR,9.707,95%,置信区间为,(1.809,,,52.103),。,另法:将,X1,、,X3,指定为分类变量。,注:对于二分类变量,可以当作连续变量处理,也可以指定为分类变量,但要注意结果解释。,22,后退法筛选变量,23,每步的模型检验、,拟合分类表,24,不在模型中的变量,后退法筛选变量,25,前进法筛选变量,26,不在模型中的变量,前进法筛选变量,27,应用,Logistic,回归分析时的注意事项,Logistic,回归是乘法模型,这一点,在结果解释时需要慎重。,对于自变量(,X1,,,X2,),,OR,12,=exp(,1,+,2,)=,OR,1,OR,2,例:,某研究调查胃癌发病的危险因素,得到“有不良饮食习惯”相对于“无不良饮食习惯”的,OR,=2.6,,“喜吃卤食和盐渍食物”相对于“不吃卤食和盐渍食物”的,OR,=2.4,。那么根据,Logistic,回归,“有不良饮食习惯且喜吃卤食和盐渍食物”相对于“无不良饮食习惯且不吃卤食和盐渍食物”的,OR,=2.62.4=,6.24,,得出此结论时需要考虑从专业知识上是否合理。,28,以下实例摘自,Hosme and Lemeshow,(,2000,),.Applied Logistic Regression:Second Edition.John Wiley&Sons Inc.,研究目的是考察与婴儿低出生体重有关的可能危险因素(当体重低于,2500g,时,认为是低出生体重婴儿)。研究收集了,189,例妇女的数据,其中,59,例分娩低出生体重婴儿,,130,例分娩正常体重婴儿。,29,30,31,(三)条件,Logistic,回归分析的基本原理,条件,Logistic,回归是经典,Logistic,回归的重要拓展方法之一,它主要用于分层数据(,strata data,)的影响因素分析,通过分层来控制可能的混杂因素对结局变量的影响。分层变量可以包括一个变量或者几个变量。,1.,概述,32,2.,条件,Logistic,模型,logit,变换,:,令,y,k,为第,k,层的因变量,,y,k,=1,或,0,;,x,k1,,,x,k2,x,ki,x,km,为第,k,层的,m,个自变量。第,k,层的模型为:,k,为第,k,层的截距,反映了层的效应。,1,,,2,.,m,为回归系数,是未知参数。,33,模型估计方法:,条件最大似然法(,the Conditional Maximum Likelihood,)。,可以估计出回归系数,i,与,k,无关(在实际应用中,我们并不关心,k,)。,假定:,对于,k,层,自变量,x,ki,的回归系数相同,这表明对于所有的层,自变量对因变量的影响大小是相同的。,34,最常见的情况是流行病学中的匹配病例对照研究。,SPSS,中实现,Logistic,回归,_,借助,COX,回归模型:,(,1,)增加一个虚拟的生存时间变量,(,2,)令病例的生存时间比对照短,(,3,)在设置生存状态变量(,status,)时,令病例组为完全数据,对照组为删失数据,3.,应用,35,以下实例摘自,Hosme and Lemeshow,(,2000,),.Applied Logistic Regression:Second Edition.John Wiley&Sons Inc.,研究目的是考察与婴儿低出生体重有关的可能危险因素(当体重低于,2500g,时,认为是低出生体重婴儿)。此研究为,1:1,病例对照研究,包括,112,例(,56,例病例,,56,例对照)。对于每一例分娩低出生体重婴儿母亲,按照母亲的年龄进行匹配,选择一例分娩正常体重婴儿作为对照。,36,37,38,39,40,41,42,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服