1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Logistic,回归分析,公共卫生学院,一、前言,应变量为分类指标的资料,线性回归分析:,应变量为连续计量资料,二、,Logistic,回归模型,Logistic,回归的分类,二分类,多分类,条件,Logistic,回归,非条件,Logistic,回归,Logit,变换,也称对数单位转换,logit,P,=,流行病学概念:,设,P,表示暴露因素,X,时个体发病的概率,则发病的概率,P,与未发病的概率,1,-,P,之比为优势,(,odds),,,logit,P,就是,odds,的对数值。,Logistic,
2、回归模型,Logistic,回归的,logit,模型,Logistic,回归模型,三、参数估计,最大似然估计法,(,Maximum,likehood,estimate,),似然函数:,L=,P,i,对数似然函数:,lnL,=(,ln,P)=,ln,P,1,+ln P,2,+,ln,P,n,非线性迭代方法,Newton-,Raphson,法,四、参数检验,似然比检验,(,likehood,ratio test,),通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为,G,(,又称,Deviance,)。,G=-2(ln,L,p,-,ln,L,k,),样本量
3、较大时,,G,近似服从自由度为待检验因素个数的,分布。,比分检验,(,score test,),以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量,S,。,样本量较大时,,S,近似服从自由度为待检验因素个数的,分布。,Wald,检验,(,wald,test,),即广义的,t,检验,统计量为,u,u,服从正态分布,即为标准正态离差。,Logistic,回归系数的区间估计,上述三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而,Wald,检验未考虑各因素
4、间的综合作用,在因素间有共线性时结果不如其它两者可靠。,五、回归系数的意义,单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即,b,i,表示,x,i,改变一个单位时,,logit,P,的平均变化量。,流行病学中的一些基本概念:,相对危险度,(,relative risk,):,RR=P,1,/P,2,比数,Odds=P/(1-P),比数比,OR=P,/(1-P,)/P,/(1-P,),在患病率较小情况下,,OR,RR,Logistic,回归中的常数项(,b,0,),表示,在不接触任何潜在危险保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。,Logistic,回归中的回
5、归系数,(,b,i,),表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即,OR,的对数值。,Logistic,回归系数的意义,分析因素,x,i,为二分类变量时,存在(暴露),x,i,,,不存在(未暴露),x,i,,,则,Logistic,回归中,x,i,的系数,b,i,就是暴露与非暴露优势比的对数值即,OR=exp(b,i,)=e,(bi),分析因素,x,i,为多分类变量时,为方便起见,常用,1,2,,k,分别表示,k,个不同的类别。进行,Logistic,回归分析前需将该变量转换成,k-1,个指示变量或哑变量,(,design/dummy variable,)
6、这样指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系数,其解释同前。,分析因素,x,i,为等级变量时,如果每个等级的作用相同,可按计量资料处理:如以最小或最大等级作参考组,并按等级顺序依次取为,0,1,2,,。此时,,e,(bi),表示,x,i,增加一个等级时的优势比,,e,(k*bi),表示,x,i,增加,k,个等级时的优势比。如果每个等级的作用不相同,则应按多分类资料处理。,分析因素,x,i,为连续性变量时,,e,(bi),表示,x,i,增加一个计量单位时的优势比。,多因素,Logistic,回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存
7、在因素间交互作用时,,Logistic,回归系数的解释变得更为复杂,应特别小心。,根据,Wald,检验,可知,Logistic,回归系数,b,i,服从,u,分布。因此其可信区间为,进而,优势比,e,(bi),的可信区间为,六、,Logistic,回归分析方法,基本思想同线性回归分析。,从所用的方法看,有强迫法、前进法、后退法和逐步法。在这些方法中,筛选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是线性回归分析中的,F,统计量,而是以上介绍的参数检验方法中的三种统计量之一。,为计算方便,通常向前选取变量用似然比或比分检验,而向后剔除变量常用,Wald,检验。,七、条件,Logist
8、ic,回归,对配对,/,比调查资料,应该用条件,Logistic,回归分析。,对于配比资料,第,i,个配比组可以建立一个,Logistic,回归:,假设自变量在各配比组中对结果变量的作用是相同的,即自变量的回归系数与配比组无关。,配比设计的,Logistic,回归模型,其中不含常数项。,可以看出此回归模型与非条件,Logistic,回归模型十分相似,只不过这里的参数估计是根据条件概率得到的,因此称为条件,Logistic,回归模型。,条件,Logistic,回归的回归系数检验与分析,和非条件,Logistic,回归完全相同。,八、,Logistic,回归的应用,危险,/,保健因素的筛选,并确定其作用大小。,预测:预测某种情况下或者某个病例,某特定事件发生的概率。,九、,Logistic,回归应用实例,十、注意事项,应用条件,1.,各观察对象间相互独立;,2.,logit,P,与自变量呈线性关系。,异常值,计量资料间的共线性问题,暴露率,样本量,谢谢!,