1、如何用spss进行二元和多元logistic回归分析 作者: 日期:9 个人收集整理 勿做商业用途如何用spss17.0进展二元和多元gisic回归分析一、二元loisic回归分析二元oisic回归分析的前提为因变量是可以转化为、1的二分变量,如:死亡或者生存,男性或者女性,有或无,Yes或No,是或否的情况。下面以医学中不同类型脑堵塞与年龄和性别之间的相互关系来进展二元ogti回归分析。(一数据准备和PSS选项设置图 1-1第一步,原始数据的转化:如图所示,其中脑堵塞可以分为IA、EAS和CS三种,但现在我们仅考虑性别和年龄与ICAS的关系,因此将分组数据IC、A和CAS转化为1、0分类,是
2、IAS赋值为1,否赋值为0。年龄为数值变量,可直接输入到sps中,而性别需要转化为1、)分类变量输入到ps当中,假设男性为1,女性为,但在后续分析中系统会将1,0置换下面还会介绍),因此为方便期间我们这里先将男女赋值置换,即男性为“0,女性为“1。第二步:翻开“二值oistc 回归分析对话框:沿着主菜单的“分析(nlyze)回归Regresion二元logistic(BnayLogistic)的路径(图1-2)翻开二值Lgistic 回归分析选项框图1-3)。如图1-左侧对话框中有许多变量,但在单因素方差分析中与ICAS显著相关的为性别、年龄、有无高血压,有无糖尿病等P.05),因此我们这里选
3、择以性别和年龄为例进展分析。图13图1-3图1-2在图1-3中,因为我们要分析性别和年龄与CAS的相关程度,因此将ICS选入因变量(Dpendn)中,而将性别和年龄选入协变量Covariats)框中,在协变量下方的“方法(td一栏中,共有七个选项。采用第一种方法,即系统默认的强迫回归方法(进入“Eter)。接下来我们将对分类(Categoicl,保存Save),选项(Option按照如图-4、1-5、1-6中所示进展设置。在“分类对话框中,因为性别为二分类变量,因此将其选入分类协变量中,参考类别为在分析中是以最小数值“0第一个)作为参考,还是将最大数值“最后一个)作为参考,这里我们选择第一个“
4、0作为参考。在“存放选项框中是指将不将数据输出到编辑显示区中。在“选项对话框中要勾选如图几项,其中“expB)的CI(X)一定要勾选,这个就是输出的OR和CI值,后面的95为系统默认,不需要更改。图1-4 分类图1-5 保存图1-6 选项另外在“选项对话框中,“输出一栏中,系统默认为“在每个步骤中,这里更改为“在最后一个步骤中,即:输出结果将仅仅给出最终结果,而省略每一步的计算过程。由于我们采用强迫回归,逐步回归概率选项可以不管此外还有一个选项需要说明。一是分类临界值lsfcatincutoff,默认值为.5,即按四舍五入的原那么将概率预测值化为0 或者1。如果将数值改为0,那么大于等于0.6
5、 的概率值才表示为1,否那么为0。其情况余依此类推。二是最大迭代值Maimum Iten,规定系统运算的迭代次数,默认值为2 次,为平安起见,我们将迭代次数增加到50。原因是,有时迭代次数太少,计算结果不能真正收敛。三是模型中包括常数项ncud costant in del),即模型中保存截距。除了迭代次数之外,其余两个选项均采用系统默认值。完成后,点击各项中“继续(Contnue按钮。返回图1-3,单击“确定按钮。二结果解读其他结果参照文章?利用PSS进展Logistc回归分析?中解读,这里重点将两点:第一,分类变量编码图-7,由于这里包括性别分类变量,而我们对性别赋值为1和0,但在sps中
6、系统会默认把我们的数值进展置换,即参数编码0,0参数编码1,而最终输出结果是以1来计算的,而0为参考数据。所以这也就是为什么我么之前要对研究组男性的赋值进展置换了。如果男性为那么spss中最终输出的将是女性的分析结果。图1-7第二,最终输出数据图1-在该结果中,Exp)即为文献中提及的O值,而EXP(B)的9%.I.即为文献中提及的I值。其中Exp(B表示某因素自变量内该类别是其相应参考类别具有某种倾向性的倍数。而有的文献中提到的roe和AdstR那么分别为单因素优势率(Cd dd rtio和多因素优势率dj ods rto,即仅对性别单个变量的单因素分析或者对性别和年龄等多个变量进展多因素分
7、析后所得到的不同结果。那么为可信区间Cnfienc invl)。Sg.即我们常说的值,P0.0为不显著(无效假说成立,不具有统计学意义。图1-8二、多项(多元、多分类、Multinomial)ot回归分析前面讲的二元lgist回归分析仅适合因变量Y只有两种取值二分类)的情况,当Y具有两种以上的取值时,就要用多项loisti回归(uinmial Logistic Regrsi分析了。这种分析不仅可以用于医疗领域,也可以用于社会学、经济学、农业研究等多个领域。如不同阶段(初一、初二、初三)学生视力下降程度,不同龋齿情况轻度、中度、重度)下与刷牙、饮食、年龄的关系等。下面我们以图1-中,对ao1Ap
8、oAI项中数值做四分位数后,将病人的ApoB/AI的比值划分为低、较低、中、高四个分位后利用多项logstic回归分析其与ICA之间的相互关系。图2-1首先来做四分位数,很多人在做四分位数的时候都是自己算出来的,其实在SPSS里面给出了做四分位数的程度即分析Aanlye描述统计Descrptiv Stastics频率Freecies)。打如图2-1开频率对话框。将我们要分析的数值变量Aoba1选入到变量对话框中。选择统计量,按照图2-2中勾选四分位数选项,其他选项按照自己需要勾选,然后点击图中确实定按钮,开场运算。在图-3中可以读取我们的四分位数值。图中百分数表示的是对该变量做的四分位数的百分
9、比,25表示前2%的,0表示前0%的,75表示前5%的。每一项对应的后面数值即为相应的四分位数,图2-2图2-3如0.5904,即为前5%的个体与后5个体的分位数。 按照如上方法得出ApB/I的比率后我们可以把该比值划分为四个区间,即当ApB/AI的比率10886时为高。然后将这一划分如图1中“四分位数一项用分类数值表示即代表低,2代表较低,3代表中,4代表高。这里还要强调的是我们要研究其与IS之间的相互关系,那么我们需要将其设为二分类变量,即是ICA的情况为1,否那么为0,但多项ogisti回归分析也会将1,0置换,所以我们需要在这里将我们需要研究的情况置换为,然后将其他置换为。下面就可以进
10、展多项logisti回归分析了。如图-4翻开多项ogitc回归分析对话框图2-5。如图2所示,在因变量中选入刚刚我们输入的四分位数分类变量,在因子中输入分类变量CS(这里一定是分类变量,可以是一个也可以是多个),在“协变量中输入数值变量如年龄(这里一定是数值变量,可以是一个也可以是多个),但因本次没有对年龄进展分析,仅对A进展了单因素分析,所以我们把年龄移出协变量选项。在SS中对因变量的定义是,如果因变量有J个值即Y有类,以其中一个类别作为参考类别,其他类别都同他相比拟生成J1个冗余的Logi变换模型,而作为参考类别的其模型中所有系数均为0。在SPSS中可以对所选因变量的参考类别进展设置,如图
11、25在因变量对话框下有一“参考类别选项。点击后会弹出图2-对话框。在该对话框中我们选中设定,输入数值1,这代表我们以分类数值1所代表的类别作为参考类别,即最低数值作为参考类别。单击继续。当然也可以选择“第一类别和“最后类别,入选中分别表示以最低数值或最高数值作为参考类别。其他设置与二元Lgstc分析相似,将我们要输出的项勾选即可,点击图-5中确定,输出数据。图2-4图2-5图2-6输出数据根本与二元Logisti分析相似,我们重点讲下最后一项“参考估计,如图27所示,其中参考类别为ICAS1的分类情况,而其中的ICAS=0分为2、4三种,分别给出了CA=0时的数值。而其中Ep(B)即OR值表示某因素自变量内该类别是其相应参考类别具有某种倾向性的倍数。如ExpB)=235时,即表示在较轻这一类别下ICS患者数为其他类别(CS和NC的225倍。这里面的显著水平即为值。这里要强调的是,一些文献中在输出数据的时候经常会给出“eferen参考)项,这里的Reeren,即为我们这里所选的参考类别1,因为作为参考类别,所以其所有数值为0,即无数据输出。因此在文中需标注其为Refent。图2-7