1、复复 习习LogisticLogistic回归模型是一种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类的。可用影响结果变量发生的因素为自变量与因变量建立回归方程。复复 习习1.Logistic回归分析的数据结构2.Logistic回归分析的模型3.筛选变量的常用方法4.Logistic回归分析的结果解释目的:目的:作出以多个自变量(影响因素)估计应变量(结果变量)的logistic回归方程资料:资料:1.应变量为反映某现象发生与不发生的二值变量;2.自变量(影响因素)可能是二值数据或等级资料或计量资料。分类变量要数量化用途:用途:研究某种疾病或现
2、象发生和多个危险因素(或保护因子)的数量关系1.Logistic1.Logistic回归模型的数据结构设资料中有一个因变量Y、p个自变量X1,X2,Xp,对每个实验对象共有n次观测结果,可将原始资料列成表1形式。表1.LogisticLogistic回归模型的数据结构实验对象 Y X1 X2 X3 .XP 1 Y1 a11 a12 a13 a1p 2 Y2 a21 a22 a23 a2p 3 Y3 a31 a32 a33 a3p n Yn an1 an2 an3 anp 其中:Y取值是二值或多项分类5 表2.肺癌与危险因素的调查分析例号 是否患病 性别 吸烟 年龄 地区 1 0 1 0 30
3、0 2 0 0 1 46 1 3 1 0 0 35 1 30 1 0 0 26 1 是否患病:1代表否,0代表是 性 别:1代表男,0代表女 吸 烟:1代表吸烟,0代表不吸烟 地 区:1代表农村,0代表城市 表3.配对资料(1:1)对子号 病例 对照 X1 X2 X3 X1 X2 X3 1 1 3 0 1 0 1 2 0 3 1 1 3 0 3 0 1 2 0 2 0 10 2 2 2 0 0 0注:X1蛋白质摄入量,取值:0,1,2,3 X2不良饮食习惯,取值:0,1,2,3 X3 精 神 状 况,取值:0,1,2 2 2、LogisticLogistic回归模型回归模型 令:Y=1 发病(
4、阳性、死亡、治愈等)Y=0 未发病(阴性、生存、未治愈等)将发病(Y=1)的概率记为P,它与自变量x1,x2,xp之间的Logistic回归模型为:定义:为Logistic变换,即:2.Logistic2.Logistic回归的模型回归的模型3.3.筛选变量的常用方法筛选变量的常用方法向前法(forward selection)后退法(backward selection)逐步回归法(stepwise selection)4.Logistic4.Logistic回归的结果解释回归的结果解释4.Logistic4.Logistic回归的结果解释回归的结果解释设第i个因素的回归系数为bi,表示当有
5、多个自变量存在时,其它自变量固定不变的情况下,自变量Xi每增加一个单位时,所得到的优势比的自然对数。也就是其它自变量固定不变的情况下,自变量Xi每增加一个单位时,影响因变量Y=0发生的倍数 设第i个因素的回归系数为bi当bi0时,对应的优势比ORi=exp(bi)1,说明该因素是危险因素;当bi0时,对应的优势比ORi=exp(bi)4)=P1=32/35=0.914286第二行的生存率S(T5)=P1P2=32/3530/32=0.8571437.计算各生存率的标准误。说明抽样误差的大小,式中n为样本含量,i为秩次,编秩编秩(1)生生存存月月数数(2)期期初初病病例数例数(3)死死亡亡例例数
6、数(4)死死亡亡概概率率(5)生生存存概概率率(6)生生 存存 率率(7)生生存存率率标标准误准误(8)1-343533/3532/350.9142860.0473184-553222/3230/320.059149683011/3029/300.8285710.0637057-992933/2926/290.7428570.07387610102611/2625/260.7142860.07636011112511/2524/250.6857140.07846912-14122433/2421/240.6000000.0828081512+2100/2121/210.6000000.0828
7、0816132011/2019/200.5700000.08392617141911/1918/190.5400000.08470118-19161822/1816/180.4800000.08525620171611/1615/160.4500000.085042表表8.Kaplan-meier法计算生存率法计算生存率0.857143如第二行和第九行如第二行和第九行 有截尾值时(有截尾值时(12+12+),计算),计算sp(T13)sp(T13)时不累计时不累计1/(n-1/(n-15)(n-15+1)15)(n-15+1)编秩编秩(1)生生存存月月数数(2)期期初初病病例数例数(3)死死亡
8、亡例例数数(4)死死亡亡概概率率(5)生生存存概概率率(6)生生 存存 率率(7)生生存存率率标标准误准误(8)1-343533/3532/350.9142860.0473184-553222/3230/320.059149683011/3029/300.8285710.0637057-992933/2926/290.7428570.07387610102611/2625/260.7142860.07636011112511/2524/250.6857140.07846912-14122433/2421/240.6000000.0828081512+2100/2121/210.6000000.
9、08280816132011/2019/200.5700000.08392617141911/1918/190.5400000.08470118-19161822/1816/180.4800000.08525620171611/1615/160.4500000.085042表表8.Kaplan-meier法计算生存率法计算生存率0.857143编编秩秩(1)(1)生生存存月月数数(2)(2)期期初初病病例例 数数(3)(3)死死亡亡例例数数(4)(4)死死 亡亡概概 率率(5)(5)生生存存概概率率(6)(6)生生 存存 率率(7)(7)生生 存存 率率标标 准准 误误(8)(8)212119
10、1915151 11/151/1514/1514/150.4200000.4200000.0844980.08449822-2322-23202014142 22/142/1412/1412/140.3600000.3600000.0823930.0823932424222212121 11/121/1211/1211/120.3300000.3300000.0808040.080804252523+23+11110 00/110/1111/1111/110.3300000.3300000.0808040.0808042626242410101 11/101/109/109/100.29700
11、00.2970000.0791760.079176272724+24+9 90 00/90/99/99/90.2970000.2970000.0791760.07917628-2928-2926268 82 22/82/86/86/80.2227500.2227500.0747900.074790303030+30+6 60 00/60/66/66/60.2227500.2227500.0747900.074790313132325 51 11/51/54/54/50.1782000.1782000.0718860.071886212136364 41 11/41/43/43/40.13365
12、00.1336500.0662970.06629733-3533-3536+36+3 30 00/30/33/33/30.1336500.1336500.0662970.066297小样本生存分析小样本生存分析 Kaplan-MeierKaplan-Meier方法在方法在SPSSSPSS中的实现中的实现生存状态:生存状态:1 1死亡,死亡,0 0截尾截尾SPSS SPSS 软件实现方法软件实现方法FileOpenFileOpen相应数据文件相应数据文件Analyze SurvivalKaplan-Meier Analyze SurvivalKaplan-Meier Time(Time(时间时间
13、)Status Define event)Status Define event single value(1)Continue OKsingle value(1)Continue OK63652.2.寿命表法寿命表法(Life table methodLife table method)简称LT法。基本思想:基本思想:随访时间划分成若干个时间区间,t时刻的生存率为t时刻前各时间区间生存概率的乘积。应用条件:应用条件:数据已总结成若干时段的频数表形式,或样本量较大。例1:某临床试验对20名第III或第IV期黑色素瘤的患者进行随访研究,截至研究期结束,记录的生存资料见下表,试计算100周的生存率
14、。(大样本)(大样本)2.2.寿命表法寿命表法(Life table methodLife table method)表表1.201.20名第名第IIIIII或第或第IVIV期黑色素瘤的患者的期黑色素瘤的患者的治疗后的生存时间(周)治疗后的生存时间(周)12.8077.2015.6082.4024.00+87.20+26.4094.40+29.2097.20+30.80+106.00+39.20114.80+42.00117.20+58.40+140.00+72.00+168.00+建立数据文件“生存分析.sav.sav”定义两个变量:反应变量,即生存时间变量,“timetime”分类变量,即
15、生存状态变量,“statusstatus”AnalyzeSurvivalLifeTables.71本例题的本例题的100100周周生存率为生存率为53%53%三、生存过程的比较(假设检验)三、生存过程的比较(假设检验)非参数方法非参数方法:对数秩检验对数秩检验(log-rank test)log-rank test)广义广义WilcoxonWilcoxon检验检验 似然比(似然比(Likelihood ratio)Likelihood ratio)检验检验 生存率组间比较实际上是对两条或多条生存曲线生存率组间比较实际上是对两条或多条生存曲线的分布情况比较(齐性检验)的分布情况比较(齐性检验)参数法要求生存时间已知服从于某种概率分布;非参数法对资料的分布没有要求,适用面比较广。例题:22例非小细胞肺癌患者在不同日期经随机化分配到放疗组和放化疗联合组,从缓解出院日开始随访,随访时间(月)见下表,试比较放疗和放化疗联合两种治疗方案的生存率曲线有无差别。甲(放疗组):1,2,3,5,6,9+,11,13,16,26,37+乙(放化疗联合组):10,11+,14,18,22,22,26,32,38,40+,42+选择检验方法选择检验方法Log-ranktest假设检验假设检验77
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100