收藏 分销(赏)

统计学-logistic回归分析PPT参考课件.ppt

上传人:人****来 文档编号:10172834 上传时间:2025-04-24 格式:PPT 页数:59 大小:758.50KB
下载 相关 举报
统计学-logistic回归分析PPT参考课件.ppt_第1页
第1页 / 共59页
统计学-logistic回归分析PPT参考课件.ppt_第2页
第2页 / 共59页
统计学-logistic回归分析PPT参考课件.ppt_第3页
第3页 / 共59页
统计学-logistic回归分析PPT参考课件.ppt_第4页
第4页 / 共59页
统计学-logistic回归分析PPT参考课件.ppt_第5页
第5页 / 共59页
点击查看更多>>
资源描述

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第十六章,logistic,回归分析,logistic,回归为概率型非线性回归模型,是研究分类观察结果,(y),与一些影响因素,(x),之间关系的一种多变量分析方法,1,问题提出:,医学研究中常研究某因素存在条件下某结果是否发生?以及之间的关系如何?,因素(,X,)疾病结果(,Y,),x1,,,x2,,,x3X,K,发生,Y=1,不发生,Y=0,例:暴露因素 冠心病结果,高血压史,(x1),:有 或无 有 或 无,高血脂史,(x2),:有 或 无,吸烟,(x3),:有或无,2,研究问题可否用多元线性回归方法

2、1.,多元线性回归方法要求,Y,的取值为计量的连续性随机变量。,2.,多元线性回归方程要求,Y,与,X,间关系为线性关系。,3.,多元线性回归结果 不能回答“发生与否”,logistic,回归方法补充多元线性回归的不足,3,Logistic,回归方法,该法研究是,当,y,取某值(如,y=1,)发生的概率(,p,)与某暴露因素(,x,)的关系。,P,(概率)的取值波动,0,1,范围。,基本原理,:用一组观察数据拟合,Logistic,模型,揭示若干个,x,与一个因变量取值的关系,反映,y,对,x,的依存关系。,4,一、基本概念,1.,变量的取值,logistic,回归要求应变量(,Y,)取值

3、为分类变量(两分类或多个分类),自变量(,X,i,)称为危险因素或暴露因素,可为连续变量、等级变量、分类变量。,可有,m,个自变量,X,1,,,X,2,,,X,m,5,2.,两值因变量的,logistic,回归模型方程,一个自变量与,Y,关系的回归模型,如:,y,:发生,=1,未发生,=0 x,有,=1,无,=0,,,记为,p,(,y=1/x,)表示某暴露因素状态下,结果,y=1,的概率(,P,)模型。,或,模型描述了应变量,p,与,x,的关系,6,P,概率,1,0.5,Z,值,0,1,2,3,-1,-2,-3,图,16-1 Logistic,回归函数的几何图形,为正值,,x,越大,结果,y=

4、1,发生的可能性(,p,)越大。,7,几个,logistic,回归模型方程,8,logistic,回归模型方程的线性表达,对,logistic,回归模型的概率(,p,)做,logit,变换,,截距(常数),回归系数,Y,(,-,至,+,),线性关系,方程如下:,9,在有多个危险因素(,X,i,)时,多个变量,的,logistic,回归模型方程的线性表达:,或,10,2.,模型中参数的意义,0,(常数项),:暴露因素,X,i,=0,时,个体发病概率与不发病概率之比的自然对数比值。,11,的含义:,某危险因素,暴露水平变化时,即,X,i,=1,与,X,i,=0,相比,发生某结果(如发病)优势比的对

5、数值。,P,1,(,y=1/x=1,)的概率,P,0,(,y=1/x=0,)的概率,12,危险因素,Y x=1 x=0,发病,=1 30,(,a,),10,(,b,),不发病,=0 70,(,c,),90,(,d,),a+c b+d,危险因素,Y x=1 x=0,发病,=1 p,1,p,0,不发病,=0 1-p,1,1-p,0,有暴露因素人群中发病的比例,13,反映了在其他变量固定后,,X=1,与,x=0,相比发生,Y,事件的对数优势比。,回归系数,与,OR X,与,Y,的关联,=0,,,OR=1,,无关,0,,,OR,1,,有关,危险因素,0,,,OR,1,,有关,保护因子,事件发生率很小,

6、ORRR,。,多元回归模型的的 概念,14,二、,Logistic,回归模型,Logistic,回归的分类,二分类,多分类,条件,Logistic,回归,非条件,Logistic,回归,15,Logit,变换,也称对数单位转换,logit P,=,16,流行病学概念:,设,P,表示暴露因素,X,时个体发病的概率,则发病的概率,P,与未发病的概率,1-P,之比为优势,(,odds,),,,logit P,就是,odds,的对数值。,17,Logistic,回归模型,Logistic,回归的,logit,模型,Logistic,回归模型,18,三、参数估计,最大似然估计法,(,Maximum l

7、ikehood estimate,),似然函数:,L=,P,i,对数似然函数:,lnL=(ln P)=ln P,1,+ln P,2,+ln P,n,非线性迭代方法,Newton-Raphson,法,19,四、参数检验,似然比检验,(,likehood ratio test,),通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为,G,(又称,Deviance,)。,G=-2(ln L,p,-ln L,k,),样本量较大时,,G,近似服从自由度为待检验因素个数的,分布。,20,比分检验,(,score test,),以未包含某个或几个变量的模型为基础,保留

8、模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量,S,。,样本量较大时,,S,近似服从自由度为待检验因素个数的,分布。,21,Wald,检验,(,wald test,),即广义的,t,检验,统计量为,u,u,服从正态分布,即为标准正态离差。,Logistic,回归系数的区间估计,22,上述三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而,Wald,检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。,23,五、回归系数的意义,单纯从数学上讲,与多元线性回归分析中回归系

9、数的解释并无不同,亦即,b,i,表示,x,i,改变一个单位时,,logit P,的平均变化量。,24,流行病学中的一些基本概念:,相对危险度,(,relative risk,),:,RR=P,1,/P,2,比数,Odds=P/(1-P),比数比,OR=P,/(1-P,)/P,/(1-P,),在患病率较小情况下,,OR,RR,25,Logistic,回归中的常数项(,b,0,)表示,在不接触任何潜在危险保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。,Logistic,回归中的回归系数,(,b,i,),表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即,

10、OR,的对数值。,26,Logistic,回归系数的意义,分析因素,x,i,为二分类变量时,存在(暴露),x,i,,不存在(未暴露),x,i,,则,Logistic,回归中,x,i,的系数,b,i,就是暴露与非暴露优势比的对数值即,OR=exp(b,i,)=e,(bi),27,分析因素,x,i,为多分类变量时,为方便起见,常用,1,,,2,,,,,k,分别表示,k,个不同的类别。进行,Logistic,回归分析前需将该变量转换成,k-1,个指示变量或哑变量,(,design/dummy variable,),,这样指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系数,其解释同前

11、28,分析因素,x,i,为等级变量时,如果每个等级的作用相同,可按计量资料处理:如以最小或最大等级作参考组,并按等级顺序依次取为,0,,,1,,,2,,,。此时,,e,(bi),表示,x,i,增加一个等级时的优势比,,e,(k*bi),表示,x,i,增加,k,个等级时的优势比。如果每个等级的作用不相同,则应按多分类资料处理。,分析因素,x,i,为连续性变量时,,e,(bi),表示,x,i,增加一个计量单位时的优势比。,29,多因素,Logistic,回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时,,Logistic,回归系数的解释变得更为复杂,

12、应特别小心。,30,根据,Wald,检验,可知,Logistic,回归系数,b,i,服从,u,分布。因此其可信区间为,进而,优势比,e,(bi),的可信区间为,31,六、,Logistic,回归分析方法,基本思想同线性回归分析。,从所用的方法看,有强迫法、前进法、后退法和逐步法。在这些方法中,筛选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是线性回归分析中的,F,统计量,而是以上介绍的参数检验方法中的三种统计量之一。,32,为计算方便,通常向前选取变量用似然比或比分检验,而向后剔除变量常用,Wald,检验。,33,七、条件,Logistic,回归,对配对,/,比调查资料,应该用条

13、件,Logistic,回归分析。,对于配比资料,第,i,个配比组可以建立一个,Logistic,回归:,34,假设自变量在各配比组中对结果变量的作用是相同的,即自变量的回归系数与配比组无关。,配比设计的,Logistic,回归模型,其中不含常数项。,35,可以看出此回归模型与非条件,Logistic,回归模型十分相似,只不过这里的参数估计是根据条件概率得到的,因此称为条件,Logistic,回归模型。,条件,Logistic,回归的回归系数检验与分析,和非条件,Logistic,回归完全相同。,36,八、,logistic,回归的应用,1.,疾病(某结果)的危险因素分析和筛选,用回归模型中的回

14、归系数(,i,)和,OR,说明危险因素与疾病的关系。,适用的资料:,前瞻性研究设计、病例对照研究设计、横断面研究设计的资料。,三类研究计算的,logistic,回归模型的,意义是一致。仅常数项不同。(证明略),37,2.,校正混杂因素,对疗效做评价,在临床研究和疗效的评价,组间某些因素构成不一致干扰疗效分析,通过该法可控制非处理因素,正确评价疗效。,3.,预测与判别,预测个体在某因素存在条件下,发生某事件(发病)的概率,为进一步治疗提供依据。,38,输精管切除术与动脉粥样硬化疾病的研究,1,问题的描述,(,1,)输精管切除术是否与动脉粥样硬化疾病有关?,(,2,)如果存在联系,与其他已知的危险

15、因素相比,输精管切除术的相对重要性有多大?,(,3,)哪些男性亚群在输精管切除术以后发生动脉粥样硬化疾病的可能性特别大?,九、,logistic,回归的应用举例,39,研究目的,(,1,)一般目的 确定输精管切除术与其后因动脉粥样硬化疾病而住院之间是否有因果联系;如果有,则确定输精管切除术与患动脉粥样硬化性疾病的危险性是否因观察对象具有其他冠心病危险因素,如吸烟、高血压和高胆固醇等而增强。,40,(,2,)特殊目的,A,估计输精管切除术及其男性动脉粥样硬化性疾病危险因素的相对危险度(使用单变量分析方法);,B,估计输精管切除术对动脉粥样硬化性疾病独立的作用(利用条件,Logistic,回归模型

16、C,检测输精管切除术导致动脉粥样硬化性疾病的可能期限;,D,检测在输精管切除术、吸烟和高血压之间可能的协同作用。,41,研究变量,(,1,)按照世界卫生组织标准来诊断动脉粥样硬化性疾病;,(,2,)病人特征:年龄,出生日期,宗教,教育,职业,家庭史,婚姻状况。,(,3,)生育史:存活子女的数量与性别,妻子的生育情况。,(,4,)生活方式:吸烟习惯,饮酒量,饮食习惯,食盐量,喝咖啡量,体力活动。,(,5,)医学史:有无可能导致不育的疾病或手术、高血压、糖尿病或高胆固醇血症。,42,研究设计,抽样:以完全随机抽样方式确定样本。样本量大小的计算是基于事先确定显著性水平、把握度和打算测知的相对危

17、险度水平。假定样本量确定为病例组,500,例,对照组,1000,例。本设计力图避免或减少在病例一对照研究中常见的偏倚与误差。回忆偏倚、选择偏倚和输精管切除术报告偏倚对研究结果的真实性是极其重要的。,43,资料收集:病例组的选取:调查员审阅每日住院病人情况如果诊断适合研究的范围,将病例转给心脏病主任医师作评估由他做出病例诊断是否合格的决定调查人员核对病人背景资料是否合格如果病人满足诊断标椎和背景资料合格调查人员开始询问并填写调查表每完成,5,个病例和,10,个配对对照以后,请研究中心的工作人员对调查表进行评估重复以上步骤。,44,对照组的选取:调查人员评估入院单并选择符合配对标椎和入院诊断合适的

18、对照病例核对病人背景资料是否符合入院标准如对照组成员合格,则进行调查。,45,统计分析:,A,计算未校正的相对危险比(,OR,)与,95,可信限范围,以估计输精管切除术和其他危险因素的相对危险度。,B,利用配对的条件,Logistic,回归模型计算校正相对危险比,用此比来评价输精管切除术对动脉粥样硬化的独立影响。,C,利用动脉粥样硬化作为因变量,输精管切除术后间隔时间作为自变量,用条件,Logistic,回归模型来检验输精管切除术后时间长短对发生动脉粥样硬化的时间效应。,46,二、,Logistic,回归应用的注意事项,1.,模型中自变量的取值,自变量(,X,)可为计量数据、分类数据和等级数据

19、计量数据常重新划为有序组段,,OR,的实际意义较大。,例:年龄(岁,,x1,),十、,logistic,回归的注意事项,47,数据的几种赋值形式,1,)两分类变量,赋值为:有,=1,,无,=0,2,)有序变量,赋值;无,=0,,少,=1,,中,=2,,多,=3,例;年龄 ,45=1 45-54=2 55-64=3 65=4,3.,)多分类无序变量:,赋值为:哑变量(,dummy variable,)形式,见例:,注:变量取值不同,方程的系数和符号将发生变化。,48,冠心病可能的危险因素与赋值,因素,变量名,赋值说明,年龄,(,岁,),X,1,45=1,45,54=2,55,64=3,65,

20、4,高血压史,X,2,无,=0,有,=1,高血压家族史,X,3,无,=0,有,=1,吸烟,X,4,不吸,=0,吸,=1,49,年龄(,X,)化为哑变量的赋值,年龄(岁,),有序变量,哑变量(方法一),X,水平,D,1,D,2,D,3,40,1,0,0,0,40,2,1,0,0,50,3,0,1,0,60,4,0,0,1,方程,1,:有序变量方程,含义:,x,每增加,1,个单位(,10,岁),发病的,lnOR,平均增加,1,50,方程,2,:哑变量方程(哑变量个数,=,分类数,1,),方程系数的解释:,表示,40-,岁,/,40,岁相比的对数优势比,表示,50-,岁,/,40,岁相比的对数优势

21、比,表示,60-,岁,/,40,岁相比的对数优势比,51,哑变量的赋值方法,例,2,:研究某结果与血型的关系,血型,(,X,),哑变量,X1,X2,X3,A,0,0,0,B,1,0,0,O,0,1,0,AB,0,0,1,变量规定某个分类为对照,对照组在哑变量的赋值均为,0,式中回归系数表示各对比组与对照组(,A,型)相比的变化值。,52,变量,X4,的哑变量的赋值方法,规定治疗,11,周,=X4-1,,是,=1,,否,=0,规定治疗,21,周,=X4-2,,是,=1,,否,=0,规定治疗,1,周为对照组。,哑变量的赋值,周,X4-1 X4-2,1,0 0,11,1 0,21,0 1,53,2.

22、样本含量:,1,)病例和对照组的例数可相等或不等。,2,)样本例数的估计,原则:自变量个数越多,例数越多。各组样本例数(对照组和病例组)至少为自变量个数的,5-20,倍。,54,3.,模型的评价,对所建立的回归方程做拟合优度检验。检查模型估计与实际数据的符合情况。,统计量的概率值,P,0.05,,认为模型拟合较好。,55,4.,多分类的,Logistic,回归,Logistic,回归可处理:,1,),应变量(,Y,)为有序的多分类资料,如结果为:治愈、显效、好转、无效,2,),应变量(,Y,)为无序的多分类资料,例:研究阑尾炎类型与危险因素关系,阑尾炎类型有:卡他型、坏疽型、腹膜炎型,56,结果的表达,一般,logistic,回归分析报告内容:,1.,危险因素的回归系数及标准误、,p,值,2.,标准化的回归系数。,3.,危险因素对应的,OR,和可信区间,4.Logistic,回归方程,57,本节重点掌握内容,1.Logistic,回归与线性回归有什么不同?,2.Logistic,回归可解决哪些问题?,3.,自变量可以有哪些类型,应用时应如何赋值?,4.Logistic,回归中,的含义和方程的表达。,58,谢谢!,59,

展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服