收藏 分销(赏)

北京大学医学部医学统计学进阶1第3讲-logistic回归.ppt

上传人:精**** 文档编号:12685176 上传时间:2025-11-24 格式:PPT 页数:52 大小:625KB 下载积分:14 金币
下载 相关 举报
北京大学医学部医学统计学进阶1第3讲-logistic回归.ppt_第1页
第1页 / 共52页
北京大学医学部医学统计学进阶1第3讲-logistic回归.ppt_第2页
第2页 / 共52页


点击查看更多>>
资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,什么是适宜的统计方法?,1、与研究目的有关,2、与资料类型有关,当研究目的,为,建立,某病,发生概率,与,自变量,关系,的,统计模型时,,,是否,可用,线性,回归模型,?,为什么?,P 某事件发生的概率X 可能与该事件发生有关的因素 P=,+,1,X,1,+,2,X,2,+,3,X,3,+,m,X,m,一、,Logistic,回归模型,Logistic回归是描述一些自变量X和一个分类变量之间关系的数学模型。,应变量:,二分类变量,若令应变量为y,则常用y1表示“发病”,y0表示“不发病”(在病例对照研究中,分别表示病例组和对照组)。,自变量:,可以为分类变量,也可以为连续变量。,与线性回归分析的主要区别:,应变量为连续计量资料,Logistic,function,Z=,+,1,X,1,+,2,X,2,+,3,X,3,+,m,X,m,Logistic function,f(z,),取值,0-1,,可描述,/,预测概率,,Logistic,模型是概率模型,Logistic function,f(z,),呈,S-,形曲线,符合流行病学对危险因素与疾病风险关系的认识,Logistic,回归模型特点,Logit,变换(,也称对数单位转换),logit P,=,P,=,P,(,y,=1|,x,),为发病概率;,1-,P,=,P,(,y,=0|,x,),为不发病概率。,二、参数估计,最大似然估计法(,Maximum likehood estimate,),似然函数:,L=,P,(,y,=1|,x,),P,(,y,=0|,x,),对数似然函数:,lnL=(ln P)=ln P,1,+ln P,2,+ln P,n,非线性迭代方法,Newton-Raphson,法,通过迭代法估计一组参数(,0,,1,,,2,.,m,)使,L,达到最大。,三、回归系数的意义,单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即,i,表示,x,i,改变一个单位时,,logit P,的平均变化量。,流行病学一些概念:,设,P,表示暴露因素,X,时个体发病的概率,则发病的概率,P,与未发病的概率,1-P,之比为优势或比值,(odds),,,logit P,就是,odds,的对数值。,比值,Odds=P/(1-P),比值比,OR=P,/(1-P,)/P,0,/(1-P,0,),比值比 Odds Ratio,Odds=P/(1-P),暴露组,:P,1,=a/(a+b),1-P,1,=b/(a+b),Odds=a/b,非暴露组,:P,0,=c/(c+d),1-P,0,=d/(c+d),Odds=c/d,Odds Ratio(OR),患病人数,未患病人数,暴露组,a,b,非暴露组,c,d,相对危险度(relative risk):RR=P,1,/P,0,当一种病的死亡率(或发病率)较小,近似于零时,1-P,1,则有:,ORRR=P,1,/P,0,Logistic,回归中的常数项(,0,)表示,在不接触任何潜在危险保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。,Logistic,回归中的回归系数,(,i,),表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即,OR,的对数值。,Logistic,回归系数的意义,分析因素,x,i,为二分类变量时,,,暴露,x,i,,非暴露,x,i,,,则,Logistic,回归中,x,i,的系数,i,就是暴露与非暴露优势比的对数值,即,,OR=exp(,i,)=e,i,i,=0时,OR=1,,X,i,对疾病不起作用;,i,0时,OR1,,X,i,是疾病的危险因素;,i,0时,OR1,,X,i,是疾病的保护因素。,分析因素,x,i,为多分类无序变量时,,为方便起见,常用1,2,,k,分别表示,k,个不同的类别。进行,Logistic,回归分析前需将该变量转换成,k-1,个指示变量或哑变量,(design/dummy variable),,这样指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系数,其解释同前。,分析因素,x,i,为多分类有序(等级)变量时:,如果每个等级的作用相同,,可按计量资料处理:如以最小或最大等级作参考组,并按等级顺序依次取为0,1,2,。此时,,e,i,表示,x,i,增加一个等级时的优势比,,e,(k*,i),表示,x,i,增加,k,个等级时的优势比。,如果每个等级的作用不相同,,则按多分类无序资料处理。,分析因素xi为连续性变量时,,,e,i,表示,x,i,增加一个计量单位时的优势比。,多因素,Logistic,回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。,存在因素间交互作用时,Logistic 回归模型中各自变量与疾病关系的联合作用为乘法模型,回归系数的解释变得更为复杂,应特别慎重。,对于自变量(X1,X2),,OR,12,=,EXP,(,1,+,2,)=,OR,1,OR,2,例:某研究调查胃癌发病的危险因素,得到“有不良饮食习惯”相对于“无不良饮食习惯”的,OR,=2.6,“喜吃卤食和盐渍食物”相对于“不吃卤食和盐渍食物”的,OR,=2.4。那么根据Logistic回归,“有不良饮食习惯且喜吃卤食和盐渍食物”相对于“无不良饮食习惯且不吃卤食和盐渍食物”的,OR,=2.62.4=,6.24,,得出此结论时需要考虑:从专业知识上是否合理?,样本量较大时,,Logistic,回归系数,b,i,服从,u,分布。因此其可信区间为,进而,优势比OR(,e,bi,)的可信区间为,OR的可信区间,四、模型检验和评价,似然比检验,(,likehood ratio test,),通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数的变化来进行,其统计量为,G,(又称,Deviance,)。,G=-2(ln L,p,-ln L,k,),样本量较大时,G近似服从自由度为待检验因素个数的,分布。,Wald,检验,(,wald test,),即广义的,t,检验,统计量为,u,u,服从正态分布,S,bi,即为标准误。,同理,,Logistic,回归系数的区间估计,似然比检验,:,卡方检验,Wald检验,:,只能对单个b检验;,未考虑各因素间的综合作用,在因素间有共线性时结果不如前者可靠。,大样本时两种方法结果一致。,对模型拟合的优良性评价:,(1)拟合分类表(Classification Table),根据Logistic回归模型,对样本重新判别分类,符合率越高,模型拟合越好。注意:Logistic回归用于判别分类很粗劣,此法仅作参考。,(2)最大似然函数值L,SPSS报告:“-2LogLikelihood”,报告值越大,意味着回归方程的似然值越小(L,1),,标志模型的拟合程度越差;,很高的-2L值说明:,1)可能Logistic回归不合适;,2)可能影响因变量的主要因素未被考虑在内。,五、,变量筛选,基本思想同线性回归分析。,从所用的方法看,有强迫法、前进法、后退法和逐步法。在这些方法中,筛选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是线性回归分析中的,F,统计量,而是以上介绍的参数检验方法中的统计量之一。,为计算方便,通常向前选取变量用似然比检验,而向后剔除变量常用,Wald,检验。,六、条件,Logistic,回归,对配对调查资料,应该用条件,Logistic,回归分析。,假设自变量在各配对组中对结果变量的作用是相同的。,配对设计的,Logistic,回归模型,其中不含常数项。,此回归模型与非条件,Logistic,回归模型十分相似,只不过这里的参数估计是根据条件概率得到的,因此称为条件,Logistic,回归模型。,条件,Logistic,回归的回归系数检验与分析,和非条件,Logistic,回归完全相同。,七、其他Logistic 回归模型,1、无序多分类应变量,2、有序多分类应变量,八、,Logistic,回归的应用,危险/保护因素的筛选,并确定其作用大小。,预测:预测某种情况下或者某个病例,某特定事件发生的概率。,九、注意事项,应用条件,1.各观察对象间相互独立;,2.logit P与自变量呈线性关系。,变量的取值形式:变量采取不同的取值形式,参数的含义、量值及符号都可能发生变化。,二分类变量:0、1(连续性变量或哑变量),多分类无序变量:,哑变量,多分类有序(等级)变量:连续性变量或哑变量,连续性变量:转换为分类变量较易解释OR值的意义。,样本量:一般不小于200例,配对资料对子数n大于等于变量的20倍,,否则回归系数的估计是有偏性的。,不应单纯依赖程序筛选变量,要注意变量的医学意义。,多元线性回归分析与,Logistic,回归分析都是实际工作中常用的方法,用于影响因素分析时,多元线性回归的因变量是连续变量,而,Logistic,回归的因变量是分类变量;两种方法的自变量均可为连续变量或分类变量,当为多分类变量时,均需设相应的哑变量。,例:,比较新疗法与旧疗法治疗某种疾病的疗效。现对40例患者随机分组,分别接受新疗法和旧疗法治疗。根据专业知识,患者的病情严重程度、年龄对疗效也有影响。如何评价新旧疗法的疗效(,见数据文件logistic.sav,)?(注:作为举例,本例样本量仅为40例,由于样本量太小,Logistic回归的结论仅作为参考),十、,实例,变量说明:Y,:治愈情况,1=治愈;0=未治愈;,X1,:病情严重程度,0=不严重,1=严重;,X2,:年龄。,X3,:治疗方法,0=新疗法,1=旧疗法。,二值,Logistic回归,因变量,协变量(自变量),后退法筛选变量,OR,的95%置信区间,拟合分类表,对模型的检验,对模型拟合的优良性评价:-2Log likelihood有小幅上升,但差异不大。两种决定系数差异也不大。说明第二步结果的拟合程度没有改善,反而稍有下降。,拟合分类表,符合率为72.5%,本次分析最后一步的预测正确率为72.5%,稍嫌不足,而且与step 1差异不大。这与上表中的模型评价结论基本一致。,回归系数,标准误,Wald,值,P,值,OR,OR,置信区间,不在模型中的变量,分析结果的解释:,病情严重程度X1与治疗方法X3对患者的治愈情况有影响;其中病情严重组相对于不严重组,,OR,0.160(病情严重的患者,其治愈的概率是病情不严重的患者的0.160倍),95%置信区间为(0.031,0.821),;旧疗法组相对于新疗法组,,OR,0.118,(接受旧疗法的患者,其治愈的概率是接受新疗法的患者的0.118倍),95%置信区间为(0.024,0.589)。,Logistic回归模型为:,补充:Logistic回归分析的其他应用,假设检验的目的,推断多个,总体,率是否相等,当,P,0.05,,拒绝,H,0,时,,总的说,来各组有差别,,但并不意味着任何两组都有差别,:可能是任何两者间都有差别,也可能其中某两者间有差别,而其它组间无差别。目前尚无公认的进一步两两比较的方法(,可考虑采用Logistic回归,)。,结果解释,回顾:,分类变量的假设检验,完全随机设计的多个样本比较,例:,某省从3个水中氟含量不同的地区随机抽取1012岁儿童,进行第一恒齿患病率的调查(,见数据文件p231.sav,),问3个地区儿童第一恒齿患病率是否不同?,变量说明:,group,:组别,1=高氟区,2=干预区,3低氟区;,effect,:1=患龋,2=未患龋;,freq,:频数,。,经,2,检验,,2,=10.489,,P,=0.005,可以认为:总的来说三个地区患龋情况有差别。,Pearson,卡方值,P值,患龋率,如何进一步判断哪两个地区有差别?,二值Logistic回归,在进行Logistic回归分析之前,需要用freq变量进行加权,以低氟区为参照,其他两个地区与低氟区进行比较。,Categorical对话框,Options对话框,OR,的95%置信区间,对模型的检验,结论:,经统计学检验,,2,=11.852,,P,=0.003,Logistic模型有显著性。高氟区、干预区与低氟区相比,患病率均有差异(,P,0.05)。,谢谢!,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服