资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,二分类,logistic,回归模型,内容提要,非条件,logistic,回归,模型简介,简单分析实例,哑变量设置,自变量的筛选方法与逐步回归,模型拟合效果与拟合优度检验,模型的诊断与修正,条件,logistic,回归,对分类变量的分析,当考察的影响因素较少,且也为分类变量时,常用列联表(,Contingency Table,)进行整理,并用,2,检验或分层,2,检验进行分析,但存在以下局限性:,无法描述其作用大小和方向,更不能考察各因素间是否有交互作用;,当控制的分层因素较多时,将导致检验结果不可靠;,2,检验无法对连续性自变量进行分析,(致命缺陷),。,模型简介,logistic,回归模型适合于应变量为二项分类的资料,在医学研究领域中的应用广泛。如流行病病因学研究(包括队列研究、病例对照研究、横断面研究等)、临床疗效研究(如疗效与治疗方法、患病轻中重等因素关系)、卫生服务研究(如是否就诊与性别、年龄、文化程度的关系)等等。,模型简介,模型简介,logistic,回归模型:,反应变量为二分类变量或某事件的发生率;,自变量与,logit,(,P,)之间为线性关系;,残差合计为,0,,且服从二项分布;,各观测间相互独立。,模型简介,适用条件,logistic,回归模型应该使用最大似然法来解决方程的估计和检验问题,不应当使用以前的最小二乘法进行参数估计。,例,1,某医师希望研究病人的年龄,age,、性别,sex,(,0,为女性、,1,为男性)、心电图检验是否异常,ecg,(,ST,段压低、,0,为正常、,1,为轻度异常、,2,为重度异常)与冠心病,ca,是否有关,数据见,logistic_binary.sav,。,简单分析实例,简单分析实例,选入应变量,选入自变量,简单分析实例,简单分析实例,结果分析,此表为应变量取值水平编码,,SPSS,默认取值水平高的为阳性结果。,简单分析实例,结果分析,本表输出当前模型的,-2log,(似然值)和两个伪决定系数,但对于,logistic,回归而言,通常看见的伪决定系数不像线性回归模型中的决定系数那么大。,简单分析实例,结果分析,此表输出模型中的各自变量的偏回归系数及其标准误、,Wald,2,、自由度、,P,值、,OR,值(即,exp,(,B,)。,哑变量设置,在回归模型中,回归系数,b,表示其他自变量不变,,x,每改变一个单位时,所预测的,y,的平均变化量,当,x,为连续性变量时,这样解释没有问题,二分类变量由于只存在两个类别间的比较,也可以对系数得到很好的解释。但是当,x,为多分类变量时,仅拟合一个回归系数就不太合适了,此时需要使用,哑变量,(,dummy variable,)方式对模型进行定义。,例,2,Hosmer,和,Lemeshow,于,1989,年研究了低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重儿(变量名为,LOW,,,1,表示低出生体重儿,,0,表示非低出生体重儿),考虑的自变量有产妇妊娠前体重、产妇年龄、种族、是否吸烟、早产次数、是否患高血压等。(数据文件见:,logistic_step.sav,。),哑变量设置,哑变量设置,哑变量设置,选入无序多分类变量,设置参照水平,哑变量设置,哑变量设置,结果分析,哑变量(种族)的设置情况,哑变量设置,白人低出生体重的风险较低,而黑人风险较高。,结果分析,参照水平最好要有实际意义,不推荐使用其他作为参照;,参照水平组要有一定的频数作保证,应不少于,30,或,50,例;,对有序自变量的分析:,从专业出发确定;,分别以哑变量和连续性变量的方式引入模型进行比较后确定。,哑变量设置,哑变量设置应该注意的问题,Forward,:,Conditional,(最可靠),Forward,:,LR,Forward,:,Wald,(应当慎用),Backward,:,Conditional,(最可靠),Backward,:,LR,Backward,:,Wald,(应当慎用),6,种筛选自变量的方法,逐步回归,例,3,仍以例,2,的数据为例,演示如何在,SPSS,中实现逐步,logistic,回归分析。,逐步回归,选择其中一种逐步法,逐步回归,逐步回归,给出了模型拟合过程中每一步的,-2log,(,L,)及两个伪决定系数。,结果分析,逐步回归,结果分析,逐步回归,结果分析,输出了尚不在模型中的自变量是否能被引入的,Score,检验结果,这里只给出第一步的结果。,对数似然值与伪决定系数,模型预测正确率,ROC,曲线,模型拟合效果检验,拟合效果判断指标:,对数似然值与伪决定系数:,-2,倍对数似然值表示模型的拟合效果,其值越小,越接近于,0,,说明模型拟合效果越好。,但是,当自变量中存在缺失值时,因为一般统计软件在进行计算时会把含有缺失值的记录予以剔除,不参与统计分析,此时不能用,-2log likelihood,对不同模型的拟合效果进行比较。,模型拟合效果检验,模型预测正确率:,例,3,进行逐步回归的第三步(,step3,)输出以上结果,预测正确的记录占,71.4,。,模型拟合效果检验,ROC,曲线:,Save,子对话框,模型拟合效果检验,先保存研究对象的预测概率。,模型拟合效果检验,模型拟合效果检验,模型拟合效果检验,这就是,ROC,曲线,,预测效果最佳时,曲线应该从左下角垂直上升至顶,然后水平向右延伸到右上角。,结果分析,模型拟合效果检验,结果分析,本表是对,ROC,曲线下面积计算的结果,可见曲线下面积为,0.708,,,95,可信区间为,0.624,0.792,。,模型拟合优度检验(,Test of Goodness Fit,):,考察当前模型是否可以进一步改善,检验当前模型与饱和模型的预测效果之差是否有统计学意义。,拟合优度检验,Pearson,和,Deviance,拟合优度检验:,当自变量很多,或包含连续性自变量时,不可以用这两种方法。,似然比检验:,主要用于考察饱和模型是否可以进一步简化。,Hosmer,Lemeshow,检验,:,通常用于自变量很多,或包含连续性自变量的情况。,拟合优度检验,模型拟合优度检验的常用方法:,点击主对话框中的,options,按钮,出现如下所示的对话框:,拟合优度检验,拟合优度检验,结果分析,用,save,子对话框可以保存各种残差;,如果残差的绝对值大于,2,,提示该记录可能是异常点。,Save,子对话框,模型的诊断与修正,残差分析,多重共线性的对偏回归系数的影响与线性回归模型中的表现一致,如增加或删除一条记录,模型中偏回归系数值发生较大变化,专业上认为有意义的因素无统计学意义等等。,如果在进行,logistic,模型分析中,尤其是在向模型中引入交互作用项时出现了回归结果反常现象,则自变量之间的多重共线性是需要排除的一种可能。,模型的诊断与修正,多重共线性的识别:,目前,SPSS,的,logistic,过程中尚没有关于多重共线性诊断的结果输出,代替方法之一是运用相同的反应变量与自变量,拟合线性回归模型,并进行相应的共线性诊断。,模型的诊断与修正,多重共线性的识别:,匹配设计,(,matched design,)是在设计阶段控制混杂因素的一种方法。当得到一名研究病例后,选择一名或多名非病例作为对照,选择相应对照的条件是:某些需要控制的混杂因素与该病例之间相同或相似,从而形成一个匹配的对子。一个匹配的对子可以只有,1,个病例和,1,个对照,称,1,:,1,匹配;当病例很罕见时,常采用,1,个病例,多个对照,此时称为,1,:,m,匹配,常用的,m,一般小于等于,4,,不同的对子,,m,可以不同;还可设计,m,:,n,匹配,即不同对子的病例与对照个数均可不同,这样的设计增加了收集资料的灵活性。,条件,logistic,回归,简介,对于这类匹配设计资料,如果采用以上介绍的非条件,logistic,回归方法,将会降低检验效能。而应当采用条件,logistic,回归模型(,conditional logistic regression model,)又称配对,logistic,回归模型进行分析。,条件,logistic,回归,简介,用变量差值拟合:,只适用于,1,:,1,配对的情况,用,Multinomial logistic,过程实现;,用分层,Cox,模型拟合:适用范围非常广。,条件,logistic,回归,SPSS,中的拟合方法:,例,4,Mack,等人预考察服用雌激素与患子宫内膜癌的关系,对退休居住在社区的妇女进行病例对照研究。除服用雌激素以外,研究的自变量还包括肥胖、胆囊病史、服用其他非雌激素药物。数据见,1_1_logistic.sav,。,条件,logistic,回归,实例分析,compute case=case1-case2.,compute age=age1-age2.,compute est=est1-est2.,compute gall=gall1-gall2.,compute nonest=nonest1-nonest2.,execute.,由于本例是,1,:,1,配对,可以使用变量差值方式加以拟合。,首先运用,compute,过程产生配对,logistic,回归的分析变量,或用以下程序予以实现:,条件,logistic,回归,实例分析,条件,logistic,回归,实例分析,条件,logistic,回归,实例分析,把自变量全部选入,Covariate,框,不能选入,factor,框!,默认情况下该复选框选中,应该去除该复选框,条件,logistic,回归,实例分析,条件,logistic,回归,结果分析,这是系统给出的警告,说明由于反应变量只有一个水平,因此,SPSS,将拟合条件,logistic,回归模型。,结果分析,条件,logistic,回归,对模型中所有,偏回归系数是否均为,0,进行似然比检验,结果说明他们不全为,0,。,结果分析,条件,logistic,回归,输出了,三种伪决定系数,本例的伪决定系数还比较大。,结果分析,条件,logistic,回归,输出从模型中分别剔除每一自变量后拟合新的条件,logistic,回归模型的,-2,倍似然对数值,用于考察是否可以从当前模型中剔除该自变量,提示可以进一步采用逐步回归对当前模型中自变量进行筛选。,结果分析,条件,logistic,回归,可见,服用雌激素者患子宫内膜癌的概率是未服用雌激素者的,14.851,倍,有胆囊病史者患子宫内膜癌的概率是没有胆囊病史者的,6.270,倍,但,P,=0.042,,下结论要小心,可以扩大样本含量再对这一因素进行研究。,在,SPSS,中用,Multinomial Logistic,过程处理配对,logistic,回归模型时,,注意,:,数据库结构与运用,Cox,过程不同。数据库中每一条记录包括一个对子中的两个观察对象。,所拟合的模型不能包含常数项!,条件,logistic,回归,Bye,Bye,!,
展开阅读全文