1、logistic族回归流行病学与卫生统计学教研室曹明芹2logistic回归概述回归分析是医学研究中最常用的多元统计分析方法多重线性回归:应变量为连续型定量变量logistic族回归:应变量为分类变量二分类应变量:患病与未患病、生存与死亡、无序分类应变量:妊娠结局(顺产、剖宫产、助产)有序分类应变量:疗效(无效、好转、有效与治愈)3logistic回归概述分类资料的统计分析有哪些?(单因素分析)二分类变量:吸烟与肺癌的关系?四格表资料(独立样本、配对设计)卡方检验RC列联表资料卡方检验 民族与高血压患病的关联?多分类变量:流产史与宫颈病变关系?RC列联表资料卡方检验有序分类变量 糖尿病病史与肾
2、病的严重程度?秩和检验分层资料:吸烟和饮酒史对高血压患病影响?影响因素较多或存在连续型变量时,采用多重(多因素)回归分析4logistic回归概述logistic族回归为一类应变量为分类变量的回归模型按应变量的类型划分二分类logistic回归无序分类logistic回归有序分类logistic回归按设计时是否匹配混杂因素划分非条件logistic回归条件logistic回归:1:1 或者1:m5二分类logistic回归 数据的形式7二分类logistic回归8二分类logistic回归9(一)logistic回归模型的一般形式可用于估计或预测某事件的发生概率可用于估计或预测某事件的发生概率
3、 10举 例假设已经建立妇女使用雌激素(x:1=使用;0=不使用)与是否患子宫内膜癌(y:1=患病;0=未患病)的logistic回归模型使用雌激素患子宫内膜癌的概率11logistic回归与线性回归不同12(二)系数的解释医学研究中,logistic回归模型的回归系数的解释有其特殊含义,因而被广泛应用。例6.1 研究妇女使用雌激素与患子宫内膜癌的病例对照研究,试计算其OR值及95%置信区间。采用logistic回归分析雌激素对子宫内膜癌的影响作用,列出回归模型,比较回归系数与OR的关系。13(二)系数的解释14(二)系数的解释15(二)系数的解释16(二)系数的解释17(二)系数的解释log
4、istic模型的回归系数与优势比OR存在极为密切的关系,同时与暴露因素的量化(或编码方法)密切相关暴露因素为两水平 (未暴露x=0;暴露x=1)x的回归系数B:暴露相对于未暴露的OR值的自然对数值暴露因素为有序变量 (x取值顺序分别为0,1,2,3)x的回归系数:每增加一个等级得到的OR值的自然对数值exp(B):每增加 1 个等级的优势比exp(kB):每增加 k 个等级的优势比18(二)系数的解释暴露因素为连续性定量变量 x的回归系数B:x每增加一个计量单位OR值的自然对数值exp(B):每增加 1 个计量单位的优势比暴露因素为无序分类变量k个分类,产生k-1个哑变量(取值为0,1)其中参
5、照分类,k-1个哑变量均取值为0例如,血型与白血病的关系19(二)系数的解释血型与白血病的关系logit(P)=b0+b1X1+b2X2+b3X3;Odds=exp(b0+b1X1+b2X2+b3X3)参照血型:O型血 X1=X2=X3=0;Odds=exp(b0)A型血:X1=1;X2=X3=0;Odds=exp(b0+b11)ORA/O=exp(b1)同理:ORB/O=exp(b2)同理:ORAB/O=exp(b3)20(二)系数的解释21举 例(an1)为考察某药物的疗效,研究者随机抽取220例病人并分配至治疗组和对照组,治疗组采用治疗药物,对照组采用安慰剂,治疗一段时间后观察病人的疗效
6、,得到如下数据:年龄分组对疗效影响无统计学意义;治疗组相对于安慰剂,有效的优势比OR为3.464;治疗组的疗效优于安慰剂。24举 例(an2)为研究3种治疗方法对不同性别(1=男;0=女)病人的治疗效果,得到如下结果治疗方法一致时,男性相对女性治疗有效的治疗方法一致时,男性相对女性治疗有效的OROR值为值为0.3820.382,男性患者的,男性患者的疗效比女性患者差;疗效比女性患者差;性别一致时,性别一致时,A A相对相对C C法治疗有效的法治疗有效的OROR值为值为1.7951.795,A A法优于法优于C C;B B相对于相对于C C法治疗有效的法治疗有效的OROR值为值为4.7624.7
7、62,B B优于优于C C27举例(教材87页例6.2)28(三)变量的赋值logistic回归分析对自变量的要求并不严格,它可以是二分类变量、无序分类变量、有序分类变量或定量变量,但对自变量需进行合理赋值。对同一资料,变量采用不同的赋值方法,参数的估计值、符号及含义都可能发生变化。变量赋值合理与否,直接影响着logistic回归的效果。29自变量的赋值30自变量的赋值31自变量的赋值32举例 (教材241页6-3)3.自变量的赋值36应变量的赋值 应变量赋值同分类变量赋值方法一般“阳性反应”的赋值为1,“阴性反应”的赋值为0。如果应变量 赋值的顺序相反,则回归系数绝对值不变,但符号相反。39
8、(四)参数的估计与假设检验40(四)参数的估计与假设检验41(四)参数的估计与假设检验检验整个模型:似然比检验检验模型每个参数(回归系数)Wald 2检验似然比检验42似然比检验(教材241页6-3)43似然比检验(教材241页6-3)两个模型比较有统计学意义时,选取自变量多的模型无统计学意义时,选取自变量少的模型似然比检验即可对模型进行假设检验,也可对回归系数进行检验。44(五)建模策略对一数据集的建模过程远比拟合和检验复杂得多,成功的建模是根据科学原理,将专业知识、经验累积与统计方法相结合。在一个模型中是否纳入某一变量,随不同的学科,不同的问题而不同,统计学建模的传统方法是寻找能解释资料的
9、最简洁的模型。减少模型的变量个数的基本原则:使最终模型在数字上更稳定,并且更易被概括。45(五)建模策略(教材90页例6.3)建模过程应从详细的各变量的单因素分析开始对性质相同的一些自变量进行部分多因素分析,并探讨自变量纳入模型时的适宜尺度,及自变量间的必要的一些变量变换在单变量分析和相关自变量分析基础上,进行多因素的逐步筛选。在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项。不同的分析思维、不同的统计方法所得模型可能不一样,应该允许多个模型并存,只要他们真正较好地反映病因与疾病间的联系。46(六)模型的评价似然比检验Hosmer-Lemeshow拟合优度指标(存在连续型自变量)预测
10、的准确性47例 题 演 示3.为了不手术就弄清淋巴结转移情况,某研究者在术前检查了53例前列腺癌患者,分别记录其年龄(AGE)、酸性磷酸酯酶(ACID)两个连续型指标,X射线(X_rey)、癌组织病理分级(GRADE)、肿瘤大小,后三个指标均为0,1变量,赋值为1表示阳性或较严重情况,赋值为0表示为阴性或较轻情况。手术探查结果变量NODES(1为转移,0为未转移),试分析淋巴结转移的危险因素。4.为研究孕妇顺产与否的影响因素(1=顺产,0=其他),研究者收集1402名产妇的年龄(岁)、身高(cm)、体重(kg)、职业(1=工人农民体力劳动,2=知识分子脑力劳动,3=商人,4=其他)和文化程度(
11、0=文盲,1=小学,2=中学及高中,3=大学),试建立logistic回归模型。产生哑变量计算预测值49配比设计的条件logistic回归二分类logistic回归成组设计logistic回归:二分类非条件logistic回归配比设计logistic回归:二分类条件logistic回归配比的作用:使病例和对照在所控制的配比因素上均衡,提高优势比的估计精度配比的因素:混杂因素配比设计不能分析配比的混杂因素的作用50配对设计的条件logistic回归配比的混杂因素:分类资料或连续型资料性别、血型、职业、既往史相同年龄、血压 相近(临床上配比时允许有一定波动范围)配比1:1 配对的病例对照研究1:m
12、匹配的病例对照研究配比超过1:4,效率反而降低51条件logistic回归1:m 配比资料的数据格式(教材97页)配比编号:1,2,kY:病例-对照(0,1)变量危险因素:x1,x2,xp52条件logistic回归配比设计中,每个配比组代表混杂因素(配比因素)的一个层,分析时将其视为一个整体,不宜拆开分析,不能采用非条件logistic回归拟合模型。若以哑变量引入模型,模型将估计许多混杂因素参数,使研究因素效应(b)的估计发生偏差。条件logistic回归是在一定条件下估计研究因素的效应,不再估计a和混杂因素的b。模型假定各影响因素(自变量)在各配比组对结果变量的作用相同。适用于配比设计的资
13、料,也可用于有大量混杂因素分层的非配比设计资料。53条件logistic回归模型表达式 模型中不包含常数项a,常数项与每个特定的配比组有关。因此,条件logistic回归可以分析危险因素的作用,但不能进行发病的概率预测和估计。54条件logistic回归配对四格表的OR值与条件logistic回归系数的关系 例6.4 为探讨软组织肉瘤与接触苯氧乙酸的关系,进行一项1:1病例对照研究,数据见教材97页(频数表资料)。原始资料的数据形式?55条件logistic回归SPSS软件进行单因素条件logistic回归分析结果56条件logistic回归条件logistic回归模型中回归系数的解释、应变量
14、及自变量的编码与赋值、参数估计和假设检验、建模策略等与非条件logistic回归相同。例6.5 在子宫内膜癌是否与雌激素存在关联的研究中,采用1:4的病例对照研究,配比因素为年龄,共调查63对,315个研究对象,数据见教材98页,试列出回归模型并解释回归系数57条件logistic回归SPSS进行条件logistic回归分析 用变量差值拟合非条件logistic回归,只适用于1:1配对 借助分层Cox模型菜单分析 将配比组作为分层因素 结局变量为病例-对照(病例状态编码为1)人为设置 生存时间:对照组生存时间长于病例组 SPSS/Analyze/Survival/Cox Regression5
15、9无序多分类logistic回归(multinomial logit model)61多分类logistic回归63多分类logistic回归64多分类logistic回归 例6.6 产后大出血与妊高症关系研究中,将产后大出血分为两类即子宫因素(宫缩乏力性)和胎盘因素,对照出血量400ml,调查结果见102页65多分类logistic回归例6.7 教材103页 6667SPSS统计分析:Multinomail Logistic Regression产产生生哑哑变变量量68多分类logistic回归分析时注意的问题变量筛选:通过分别拟合二分类logistic模型的方法进行,将各自筛选出的变量合并
16、用于多分类logit模型建模,但最后结论应基于多分类logit模型。回归模型假设检验 检验各自变量对因变量的“整体”作用,检验的零假设为自变量对k-1个logit中的任何一个都没有作用。检验自变量对某一特定logit的影响,它用于确定哪一个logit会受到哪些自变量的影响。69多分类logistic回归分析时注意的问题拟合多分类logit模型时,需考虑每个自变量在不同的logit函数中是否有统计学意义,还需检验在不同的logit函数中,某变量的效应是否相同。常见的一个问题是,某变量在某logit函数中有统计学意义,而在另一个logit函数中无统计学意义。如以参数尽可能少的原则建模,可考虑限制l
17、ogit函数中无统计学意义的变量系数为0。70有序分类logistic回归(ordinal logistic regression)累积比数logistic回归模型 71累积比数logistic回归模型有序分类logistic回归(注意a的符号)72累积比数logistic回归模型73累积比数logistic回归模型74累积比数logistic回归模型例6.8 分析儿童智力等级与母亲文化程度的关系,数据见教材106页常数项常数项回归系数回归系数75累积比数logistic回归模型SPSS/Analyze/Regression/Ordinal Regression76Logistic 族回归的正
18、确应用医学应用分析影响因素,控制混杂因素预测和估计判别分析应用条件二分类logistic回归:独立性、残差服从二项分布、影响因素与logitP呈线性建模策略(111页)样本含量:自变量个数的20倍77非吸烟女性肺癌危险因素的多分类logistic 模型分析按5 岁一组的频数配对法,在市区全人群中随机抽取健康人群对照675 例研究对象为从某三级甲等医院近5 年的住院急性心肌梗塞(AMI)患者,共1 117.其中:治愈243例,占21.7%;有效792 例,占70.9%;未愈82 例,占7.3%.81小 结n二分类logistic回归模型一般形式、预测概率的估计、回归系数的解释、变量的赋值与编码、假设检验、建模策略、拟合效果评价n条件二分类logistic回归n无序多分类logistic回归n有序分类logistic回归