1、,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第十六章Logistic回归分析,Logistic regression,1,复习多元线性回归,(multiple linear regression),在医学实践中,常会遇到一个应变量与多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关,而且可能与病床周转次数,床位数等有关;儿童的身高不仅与遗传有关还与生活质量,性别,地区,国别等有关;人的体表面积与体重、身高等有关。,2,表 多元线性回归分析的数据结构,实验
2、对象 y X,1,X,2,X,3,.X,P,1 y,1,a,11,a,12,a,13,a,1p,2 y,2,a,21,a,22,a,23,a,2p,3 y,3,a,31,a,32,a,33,a,3p,n y,n,a,n1,a,n2,a,n3,a,np,其中:y取值是服从正态分布,3,多元线性回归模型,通过实验测得含有p个自变量x1,x2,x3,xp及一个因变量y的n个观察对象值,利用最小二乘法原理,建立多元线性回归模型:,其中b,0,为截距,b1,b2 bp称为偏回归系数.bi表示当将其它p-1个变量的作用加以固定后,Xi改变1个单位时Y将改变bi个单位.,4,logistic regress
3、ion analysis,Logistic回归分析及其应用,5,(一)基本概念和原理,1.应用背景,Logistic,回归模型是一种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值,必须是二分的或多项分类,。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。,6,设资料中有一个因变量y、p个自变量x,1,x,2,x,p,,对每个实验对象共有n次观测结果,可将原始资料列成表2形式。,2、,Logistic,回归模型的数据结构,7,表2,Logistic,回归模型的数据结构,实验对象 y X,1,X,2,X,3,.X,P,1 y,1,a,11,a,12,a,13,a
4、,1p,2 y,2,a,21,a,22,a,23,a,2p,3 y,3,a,31,a,32,a,33,a,3p,n y,n,a,n1,a,n2,a,n3,a,np,其中:y取值是二值或多项分类,8,表3 肺癌与危险因素的调查分析,例号 是否患病 性别 吸烟 年龄 地区,1 1 1 0 30 0,2 1 0 1 46 1,3 0 0 0 35 1,30 0 0 0 26 1,注:是否患病中,0代表否,1代表是。性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟。地区中,1代表农村,0代表城市。,9,表4 配对资料(1:1),对子号 病例 对照,x1 x2 x3 x1 x2 x3,1 1 3
5、 0 1 0 1,2 0 3 1 1 3 0,3 0 1 2 0 2 0,10 2 2 2 0 0 0,注:X1蛋白质摄入量,取值:0,1,2,3,X2不良饮食习惯,取值:0,1,2,3,X3精神状况,取值:0,1,2,10,Logistic回归,-Logistic回归与,多重,线性回归联系与区别,联系:,用于分析多个自变量与一个因变量的关系,目的是矫正混杂因素、筛选自变量和更精确地对因变量作预测等。,区别:,线性模型中因变量为连续性随机变量,且要求呈正态分布.Logistic回归因变量的取值仅有两个,不满足正态分布。,11,3、,Logistic回归模型,令,:,y=1,发病(阳性、死亡、治
6、愈等),y=0,未发病(阴性、生存、未治愈等),将发病的概率记为,P,,,它与自变量,x,1,x,2,x,p,之间的,Logistic,回归模型为:,可知,不发病的概率为:,12,经数学变换得:,定义:,为Logistic变换,,即:,13,4、回归系数i的意义,流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比。,即X,i,的优势比为:,14,故对于样本资料OR=exp(),95%置信区间为:,可见 是影响因素X,i,增加一个单位所引起的对数优势的增量,反映了其对Y作用大小。,如果要比较不同因素对Y作用大小,需要消除变量量纲的影
7、响,为此计算标准化回归系数,15,5.假设检验,(1)回归方程的假设检验,H,0,:所有 H,1,:某个,计算统计量为:G=-2lnL,服从自由度等于n-p,的 分布,(2)回归系数的假设检验,H,0,:H,1,:,计算统计量为:Wald,,自由度等于1。,16,(二),Logistic回归类型及其实例分析,1、非条件Logistic回归,当研究设计为队列研究、横断面研究或成组病例对照研究时,可以用非条件Logistic回归。,17,实例1,某研讨究者调查了30名成年人,记录了同肺癌发病的有关因素情况,数据见表4。其中是否患病中,0代表否,1代表是;性别中 1代表男,0代表女;吸烟中 1代表吸
8、烟,0代表不吸烟;地区中,1代表农村,0代表城市。试分析各因素与肺癌间的关系。,18,表5 肺癌与危险因素的调查分析,例号 是否患病 性别 吸烟 年龄 地区,1 1 1 0 30 0,2 1 0 1 46 1,3 0 0 0 35 1,30 0 0 0 26 1,注:是否患病中,0代表否,1代表是。性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟。地区中,1代表农村,0代表城市。,19,SPSS操作步骤:,Analyze-Regression-Binary Logistic,-Dependent框(y)-Covariates框(x1,x2,)-ok,非条件Logistic回归SPSS操
9、作步骤:,20,21,22,结果表明,性别,吸烟,年龄三个因素都与肺癌有关.由于在对某一因素进行单因素分析时没有控制其它因素的干扰,因此结果不可靠.,单因素分析的结果,23,多因素分析的结果,24,25,由上最大似然估计分析知因素X2(吸烟),X3(年龄)对肺癌的发生有影响。所得的回归方程为:,Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4.,26,2.条件logistic回归分析,配对设计的类型:1:1、1:m、n:m,(可采用分层COX模型来拟合)。,例如:某市调查三种生活因素与胃癌的关系,资料见表5。,27,表6 配对资料(1:1
10、),对子号 病例 对照,x1 x2 x3 x1 x2 x3,1 1 3 0 1 0 1,2 0 3 1 1 3 0,3 0 1 2 0 2 0,10 2 2 2 0 0 0,注:X1蛋白质摄入量,取值:0,1,2,3,X2不良饮食习惯,取值:0,1,2,3,X3精神状况,取值:0,1,2,28,配对Logistic回归SPSS操作步骤:,Analyze-Survival-COX Regression-Time框(outcome)-Status框(Status),-Define Event:Single value 1:continue-Covariates框(x1、x2、x3)-Strata框
11、(id)-Options-at last step-ok,29,30,31,32,33,34,35,36,3、逐步Logistic回归分析,(1)向前法(forward selection),开始方程中没有变量,自变量由少到多一个一个引入回归方程。按自变量对因变量的贡献(P值的大小)由小到大依次挑选,变量入选的条件是其P值小于规定进入方程的P界值Enter,缺省值 P(0.05)。,37,(2)后退法(backward selection),开始变量都在方程中,然后按自变量因变量的贡献(P值的大小)由大到小依次剔除,变量剔除的条件是其P值小于规定的剔除标准Remove,缺省值 p(0.10)。
12、,38,(3)逐步回归法逐步引入-剔除法,(stepwise selection),前进,逐步引入-剔除法,是在前进法的思想下,考虑剔除变量,因此有两个p界值Enter,Remove。,39,无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:在 model后加选项:/selection=forward、backward或stepwise,再给出SLE,SLS的界值。,调试法:P从大到小取值0.5,0.1,0.05,一般实际用时,SLE,SLS应多次选取调整,40,解 释,设第i个因素的回归系数为b,i,,表示当有多个自变量存在时,其它自变量,固定不变
13、,的情况下,自变量X,i,每增加一个,单位时,所得到的优势比的自然对数。也就是其它自变量固定不变的情况下,,自变量X,i,每增加一个单位时,影响因变量Y=0发生的倍数,。,当b,i,0时,对应的优势比(odds ratio,记为O,R,i,):,OR,i,=exp(bi)1,说明该因素是,危险因素,;当b,i,0时,对应的优势比,OR,i,=exp(bi)1,说明该因素是,保护因素,。,41,在本例中不良饮食习惯X,2,,取值:0、1,2、3,b=1.2218,O,R,=3.393,表示不良饮食习惯是危险因素;精神状况X,3,,取值:0、1、2,b=2.2947,O,R,=9.922,表示精神
14、状况是危险因素。,42,SPSS,无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:,在 method后加选项:,Enter:所有变量一次全部进入方程。,Forward:逐步向前法,Backward:后退法,变量移出方程所采取的检验方法:,Conditional;LR;Ward(尽量不用),43,44,二分类Logistic回归,method,中文名称,剔除依据,Enter,全部进入,Forward:conditional,向前逐步,条件参数估计似然比,Forward:LR,向前逐步,最大偏似然估计似然比,Forward:Wald,向前逐步,Wald
15、统计量,Backward:conditional,向后逐步,条件参数估计似然比,Backward:LR,向后逐步,最大偏似然估计似然比,Backward:Wald,向后逐步,Wald统计量,45,SPSS 软件实现方法,File,Open,相应数据(已存在),Analyze,Regression,Binary Logistic,Dependent(y),Covariates (自变量),Mothod(逐步回归方法),Specify model(单因素或多因素),save(欲保存的内容),Options(输出选项),OK,46,调试法:P从大到小取值0.5,0.1,0.05,一般实际用时,Ent
16、er、Remove应多次选取调整,47,Block 1:Method=Forward Stepwise,(Likelihood Ratio),48,49,50,51,52,53,4.Logistic回归-Logistic回归种类,成组资料的非条件Logistic回归,配对资料的条件Logistic回归,两分类反应变量的Logistic回归,多分类有序反应变量Logistic回归,多分类无序反应变量Logistic回归,1:1配对资料的条件Logistic回归,1:m配对资料的条件Logistic回归,n:m配对资料的条件Logistic回归,Logistic回归分析,54,对于成组资料的非条件
17、Logistic回归,()两分类反应变量的Logistic回归,55,56,自变量分为以下情况:,定量资料时,直接计算;,二值时,化为与或与;,有序多分类:有线性规律时连续赋值,,.,无线性规律按无序多分类无序多分类:需要先转换成n-1个哑变量,以,哑变量进行分析。,57,58,59,60,61,二分类Logistic回归,多重比较的方法,Indicator,第一类或最后一类为参照类,每一类与,参照类比较,Simple-,除参照类外,每一类与参照类比较,Difference-,除第一类外,每一类与其前各类的平均,效应比较,有称反Helmert,Helmert-,除最后一类外,每一类与其后各类的
18、平均,Repeated,相邻两类比较,除第一类外,每类与其前一,比较,Polynominal,正交多名义分类比较,该法假设每一分类都,有相等的空间,仅适于数值变量,Deviation,除参照类外,每一类与总效应比较,62,63,64,()多分类无序反应变量Logistic回归,*,65,66,()多分类有序反应变量Logistic回归,*,67,68,练习,据报道目前全世界每年的自杀率为1010万,我国自杀率为2310万,我国高校自杀率则为210万。为了了解当代大学生综合素质现状、为了进行提高大学生综合素质的对策研究,利用中国现场统计研究会教育统计与管理专业学会设计的中国大学生综合素质调查问卷
19、,采用分层整群抽样,选择了不同年级、不同性别、不同专业以及不同生源的医学大学生554名的调查问卷,其中129人有过自杀的意念。应用 Logistic回归分析,探讨大学生有自杀意念的影响因素。,69,部队3所院校,1121份有效问卷、地方3所院校1874份有效问卷。,表8 各校有效问卷情况,单 位 有效问卷份数,军队:北京军医学院 554,海军工程大学 450,解放军信息工程大学 117,地方:同济医学院 778,中国科技大学 628,广西工学院 468,70,1.各项目的名称及量化方法,在中国大学生综合素质调查问卷中又增加的2个小题记为A01,A02。基本情况A共有21项,分别记为A1,A2,
20、A21。当有的项目中又分为2项时再分别赋予不同的名称,如A10父母亲文化程度分为:父亲文化程度A10.1、母亲文化程度A10.2。其它项目的名称以此类推。,71,利用EXCEL将调查问卷各项进行量化:有序的项目按照顺序赋值0,1,2,;两分类无序项目赋值0和1;多项无序和多选项目,根据例数多少进行合并成两项或引进哑变量。去掉了几项人数少或不容易量化的个别多选题:A9.1父亲职业、A9.2母亲职业、B16加入WTO后大学生最应具备的素质、B17在当代大学生中你认为普遍欠缺的东西、C10.1对学习吃力的再回答、C19.1决定考研者进一步需回答、C21.1-C21.3参与过科研或社会实践者进一步需回
21、答的问题。最终确定的变量个数是:A类有22个、B类有17个、C类有38个、D类有32个、E类有20个,总计129个变量。,72,大学生产生自杀念头的影响因素和程度按入选顺序依次是:,抚养人对其关爱是不关爱方向的0.326倍;,考试作弊严重的是不作弊方向的1.405倍;,当认定一个目标能够尽力去做并持之以恒,的是时做时不做方向的0.734倍;,认为同学中考试作弊人数多的是少方向的,1.295倍;,对自己心理素质的评价高的是低方向的,0.553倍;,73,对自己各方面的综合评价高的是低方向的,2.008倍;,做事常半途而废是能坚持方向的1.732倍;,家庭幸福度自我评定高的是低方向的0.699,倍
22、;,认为自己在学习上接受与理解能力强的是,不强方向的1.451倍;,身体健康状况较好是较差方向的0.688倍。,74,对自己心理素质评价低、身体健康状况差、做事常半途而废、认为同学中考试作弊人数多、认为考试作弊是严重的、抚养人对其不关爱、家庭不幸福、认为自己在学习上接受与理解能力强、身体健康状况差、当认定一个目标不能持之以恒者,容易产生自杀的念头。归纳起来主要是:个人,精神健康,问题、,生长环境,两大因素。,75,Logistic 回归的注意事项,1.变量的取值形式,在作危险性因素分析时,以定性资料的形式出现为好。,2.样本含量要足够大,一般地:病例与对照研究应至少各有30-50例,且变量越多例数也要增多;配对资料样本的匹配组数应为纳入方程中自变量个数的20倍以上。,3.大多数情况下模型的,常数项,没有多大的意义,所以不用对常数项作解释;,4.,条件Logistic回归不能用于预测.,76,