1、卫生统计学卫生统计学统计学第十五章第十五章 多因素对某定性指标多因素对某定性指标 的影响分析的影响分析 第一节第一节 Logistic回归分析回归分析一、基本概念一、基本概念 应变量是分类变量应变量是分类变量 1 出现阳性结果出现阳性结果(发病、有效、死亡等)(发病、有效、死亡等)Y=0 出现阴性结果出现阴性结果(未发病、无效、存活等)(未发病、无效、存活等)P:Y=1的率P/(1-P)称优势(比数)0 :表示暴露剂量为:表示暴露剂量为0时个体发病与不时个体发病与不 发病概率之比的自然对数发病概率之比的自然对数 i:表示在其它自变量不变的条件下,表示在其它自变量不变的条件下,Xi改变一个单位时
2、改变一个单位时logit P=的改变量。的改变量。第第一一节节 L Lo og gi is st ti ic c回回归归分分析析 Logistic 回归的特点回归的特点1、Logistic 回归方程中,各自变量回归方程中,各自变量Xi变化范围可以从变化范围可以从-到到+,Xi 可以可以是定量指标、等级指标或定性指标是定量指标、等级指标或定性指标(需经数量化),而应变量(需经数量化),而应变量P的变化的变化范围为范围为0到到1。Z时,时,P值渐近于值渐近于1 Z-时,时,P值渐近于值渐近于02、Logistic 回归系数和流行病学中反回归系数和流行病学中反映各危险因素对疾病作用大小的优势映各危险
3、因素对疾病作用大小的优势比有直接的联系,并把单因素两水平比有直接的联系,并把单因素两水平下的优势比的定义扩展到多因素任意下的优势比的定义扩展到多因素任意取值。取值。第第一一节节 L Lo og gi is st ti ic c回回归归分分析析 设在一组自变量取值设在一组自变量取值X0 下,某下,某病发病的概率为病发病的概率为P0,而在另外一组取值,而在另外一组取值X1 下,某病发病的概率为下,某病发病的概率为P1 变量变量Xi 由由 改变为改变为 而固定其它自而固定其它自 变量取值时,有变量取值时,有ORi =exp i()ORi 1,高水平(数据大)率大高水平(数据大)率大 特别当特别当 =
4、1=1 时,时,(Xi=1为暴露,为暴露,Xi=0为非暴露)为非暴露)ORi=exp i 3、对于流行病学两类调查研究方法、对于流行病学两类调查研究方法 前瞻性的队列研究和回顾性的病例对前瞻性的队列研究和回顾性的病例对 照研究,所建立的照研究,所建立的Logistic 回归方回归方 程,除常数项不同外,其它各回归系程,除常数项不同外,其它各回归系 数均相同。数均相同。第第一一节节 L Lo og gi is st ti ic c回回归归分分析析 二、二、Logistic 回归模型的配合回归模型的配合1.应变量为二分类的应变量为二分类的Logistic 回归模型回归模型参数估计采用最大似然函数估
5、计法参数估计采用最大似然函数估计法(maximum likelihood estimate),),即根据即根据n例实际观测数据建立一个样本例实际观测数据建立一个样本的似然函数:的似然函数:第第一一节节 L Lo og gi is st ti ic c回回归归分分析析 P Pi i:i:i例暴露条件下阳性率,例暴露条件下阳性率,Y Yi i=1=1阳性,阳性,Y Yi i=0=0 阴性。若某对象阳性,阴性。若某对象阳性,用迭代方法使以下目标函数用迭代方法使以下目标函数达极大值达极大值,估计出估计出b bj j(1)AIC检验法检验法(Akaike Information Criterion)L是
6、最大似然函数,是最大似然函数,g为应变量分类变量的分为应变量分类变量的分类数,类数,k为模型中包含的自变量个数。为模型中包含的自变量个数。AIC值值越小,模型拟合越好。用于同一组数据下的不越小,模型拟合越好。用于同一组数据下的不同模型间的比较。同模型间的比较。H H0 0:H H1 1:不全为不全为0 0(含全不为(含全不为0 0)(2 2)SCSC检验法检验法(SchwarteSchwarte CriterionCriterion)式中,L是最大似然函数,g为应变量分类变量的分类数,k为模型中包含的自变量个数,n是样本例数。和AIC一样,SC值越小,模型拟合越好。用于比较同一组数据下的不同模
7、型间的比较。(3 3)似然比检验法似然比检验法 服从自由度为服从自由度为k-p的的2分布,分布,p和和k是两个模型中包含的自变量个数。是两个模型中包含的自变量个数。P,则有统计学意义。则有统计学意义。(4 4)计分检验法(计分检验法(Score)公式很复杂,它服从公式很复杂,它服从2分布,用于检验模分布,用于检验模型中全部自变量对应变量的联合作用。型中全部自变量对应变量的联合作用。(5 5)WaldWald检验法检验法H0:H1:Wald 似然比检验法最可靠。似然比检验法最可靠。Somers D、Gamma、Tau-a 和和C,越接,越接近于近于1 说明模型拟合得的越好。说明模型拟合得的越好。
8、选项选项“LACKFIT”对模型进行拟合优度检验对模型进行拟合优度检验(Goodness of fit statistics),P越大则说越大则说明模型拟合的越好。明模型拟合的越好。例例15-1.为研究病情为研究病情x1(0表示不严重,表示不严重,1表表示严重)、年龄示严重)、年龄x2(岁)及不同治疗方法(岁)及不同治疗方法x3(0表示传统疗法,表示传统疗法,1表示新疗法)对某病疗表示新疗法)对某病疗效的影响,某研究者随机抽取效的影响,某研究者随机抽取40名某病的患名某病的患者,其中有者,其中有20名患者采用传统疗法,另名患者采用传统疗法,另20名名患者采用新疗法,经过一段治疗后记录下康患者采
9、用新疗法,经过一段治疗后记录下康复的情况复的情况y(0表示未康复,表示未康复,1表示康复),作表示康复),作logistic回归分析。回归分析。data ex15_1;input y x1-x3;cards;1 0 20 0 1 0 23 0 1 0 32 0 1 0 38 0 1 1 25 0 1 0 20 1 1 0 24 1 1 0 28 11 0 30 1 1 0 32 1 1 0 38 1 1 1 26 1 1 1 29 1 1 1 34 1 1 1 33 1 1 1 38 11 1 40 1 0 0 22 0 0 0 26 0 0 0 29 0 0 0 34 0 0 0 30 0
10、0 0 38 0 0 0 37 00 1 24 0 0 1 25 0 0 1 29 0 0 1 32 0 0 1 34 0 0 1 37 0 0 1 40 0 0 1 40 00 0 33 1 0 0 36 1 0 1 24 1 0 1 34 1 0 1 32 1 0 1 36 1 0 1 38 1 0 0 39 1;proc logistic descending simple;model y=x1-x3/stb scale=none aggregate lackfit;units x2=10;run;Response Profile Ordered Total Value y Freque
11、ncy 1 1 17 2 0 23Deviance and Pearson Goodness-of-Fit StatisticsCriterion DF Value Value/DF Pr ChiSqDeviance 31 33.9290 1.0945 0.3281Pearson 31 27.2708 0.8797 0.6585 Testing Global Null Hypothesis:BETA=0Test Chi-Square DF Pr ChiSqLikelihood Ratio 9.5290 3 0.0230Score 8.5958 3 0.0352Wald 6.9431 3 0.0
12、737 Analysis of Maximum Likelihood Estimates Standard StandardizedParameter DF Estimate Error Chi-Square Pr ChiSq EstimateIntercept 1 2.3789 2.0279 1.3762 0.2407x1 1 -0.7767 0.7497 1.0731 0.3002 -0.2168x2 1 -0.1068 0.0677 2.4864 0.1148 -0.3517x3 1 1.9570 0.8036 5.9303 0.0149 0.5464 Odds Ratio Estima
13、tes Point 95%WaldEffect Estimate Confidence Limitsx1 0.460 0.106 1.999x2 0.899 0.787 1.026x3 7.078 1.465 34.198 Adjusted Odds Ratios Effect Unit Estimate x2 10.0000 0.344data ex15_1;input y x1-x3;cards;1 0 20 0 1 0 23 0 1 0 32 0 1 0 38 0 1 1 25 0 1 0 20 1 1 0 24 1 1 0 28 11 0 30 1 1 0 32 1 1 0 38 1
14、1 1 26 1 1 1 29 1 1 1 34 1 1 1 33 1 1 1 38 11 1 40 1 0 0 22 0 0 0 26 0 0 0 29 0 0 0 34 0 0 0 30 0 0 0 38 0 0 0 37 00 1 24 0 0 1 25 0 0 1 29 0 0 1 32 0 0 1 34 0 0 1 37 0 0 1 40 0 0 1 40 00 0 33 1 0 0 36 1 0 1 24 1 0 1 34 1 0 1 32 1 0 1 36 1 0 1 38 1 0 0 39 1;proc logistic descending simple;model y=x1
15、-x3/selection=stepwise sle=0.1 sls=0.1 stb scale=none aggregate lackfit;units x2=5;run;The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard StandardizedParameter DF Estimate Error Chi-Square Pr ChiSq EstimateIntercept 1 2.2718 1.9771 1.3204 0.2505x2 1 -0.1135 0.0663 2.9302 0.0869
16、 -0.3739x3 1 1.8346 0.7744 5.6126 0.0178 0.5122 Odds Ratio Estimates Point 95%WaldEffect Estimate Confidence Limitsx2 0.893 0.784 1.017x3 6.263 1.373 28.573Adjusted Odds RatiosEffect Unit Estimate x2 5.0000 0.567平均康复率大平均康复率大1 1岁是岁是小小1 1岁的岁的0.8930.893倍倍平均康复率新疗法平均康复率新疗法是旧疗法的是旧疗法的6.2636.263倍倍平均康复率大平均康复
17、率大5 5岁是岁是小小5 5岁的岁的0.5670.567倍倍2.应变量为有序分类变量的logistic回归模型医学研究中经常要用到的应变量为有序分类变量,例如治疗效果分为“无效、好转、有效、治愈”,疾病的严重程度分为“无、轻、中、重”与“I期、期、期”等,分析各种因素自变量对这种有序分类变量的应变量的影响时也可采用logistic回归模型。SAS软件中的logistic回归过程是以累积概率函数的形式提供的。设应变量y为k个等级的有序分类变量,不妨设y的k个取值按等级顺序为1、2、k。对y取值小于等于等级j(j=1、2、k)的概率即取前j个值的累积概率用来表示,则有:当j=1、2、k-1例如对例
18、如对k k=3=3时有时有:因而应变量因而应变量y y取等级取等级1 1、2 2、3 3的概率为:的概率为:例15-2.某医院外科采用两种不同绷带(x1=0为第一种绷带,x1=1为第二种绷带)和两种不同的包扎方式(x2=0为第一种包扎方式,x2=1为第二种包扎方式)进行腿部溃疡处理。治疗效果分为三个等级:不愈、有效、痊愈(y=0为不愈,y=1为有效、y=2为痊愈)。治疗结果如表15-3 所示。试分析不同的治疗方式对治疗效果的影响。data ex15_2;input y x1 x2 f;cards;00019 1 004200 2 0 109110 8 2 10600121 1 013201 2
19、 0 11 1011110 2 115;proc logistic descending;model y=x1 x2/stb scale=none aggregate lackfit;freq f;run;Analysis of Maximum Likelihood Estimates Standard StandardizedParameter DF Estimate Error Chi-Square Pr ChiSq EstimateIntercept 1 -2.6678 0.4656 32.8253 ChiSq Likelihood Ratio 4.5487 2 0.1029 Score
20、 4.3620 2 0.1129 Wald 4.0060 2 0.1349 Analysis of Maximum Likelihood Estimates Parameter Standard HazardVariable DF Estimate Error Chi-Square Pr ChiSq Ratio x1 1 0.97041 0.53073 3.3432 0.0675 2.639 x2 1 0.34807 0.37696 0.8526 0.3558 1.416 data li15_3;input i y x1-x2;t=2-y;cards;1 1 0 0 1 0 0 0 2 1 0
21、 0 2 0 0 0 3 1 0 1 3 0 0 1 4 1 0 0 4 0 1 0 5 1 1 0 5 0 0 1 6 1 0 1 6 0 0 0 7 1 1 0 7 0 0 0 8 1 1 1 8 0 0 1 9 1 0 0 9 0 0 0 10 1 0 0 10 0 0 0 11 1 1 0 11 0 0 0 12 1 0 0 12 0 0 1 ;proc phreg;model t*y(0)=x1-2/selection=stepwisesle=0.1 sls=0.1 ties=discrete;strata i;run;Analysis of Maximum Likelihood E
22、stimates Parameter Standard HazardVariable DF Estimate Error Chi-Square Pr ChiSq Ratiox1 1 0.95551 0.52623 3.2970 0.0694 2.600 Summary of Stepwise Selection Variable Number Score WaldStep Entered Removed In Chi-Square Chi-Square Pr ChiSq1 x1 1 3.5556 .0.0593子宫内膜癌发病率有胆囊病变子宫内膜癌发病率有胆囊病变平均是无胆囊病变的平均是无胆囊病
23、变的2.62.6倍倍 例例15-4 为研究肥胖为研究肥胖X1(X1=1为肥胖,为肥胖,X1=0为不肥胖)、口服避孕药雌激素为不肥胖)、口服避孕药雌激素X2(X2=1为为服用雌激素,服用雌激素,X2=0 未服用雌激素)与子宫内未服用雌激素)与子宫内膜癌的关系,随机选取膜癌的关系,随机选取20名患者。对于每名名患者。对于每名患者,再随机选取年龄相近的患者,再随机选取年龄相近的2名正常人作名正常人作为对照。为对照。data li15_4;input i x1-x2 y;t=2-y;cards;1 1 1 1 1 0 0 0 1 0 0 0 2 1 1 1 2 1 1 0 2 0 1 0 3 1 1
24、1 3 0 1 0 3 1 1 0 4 0 1 1 4 0 0 0 4 0 1 0 5 0 0 1 5 1 0 0 5 0 1 0 6 1 1 1 6 0 0 0 6 1 0 0 7 1 1 1 7 0 1 0 7 1 1 0 8 1 1 1 8 1 0 0 8 1 1 0 9 1 0 1 9 1 1 0 9 1 1 0 10 0 1 1 10 0 1 0 10 0 0 0 11 0 1 1 11 0 1 0 11 1 0 0 12 0 1 1 12 0 1 0 12 0 1 0 13 1 1 1 13 0 0 0 13 1 1 0 14 1 1 1 14 0 0 0 14 1 0 0 15
25、1 1 1 15 0 0 0 15 0 1 0 16 0 1 1 16 0 1 0 16 0 1 0 17 0 1 1 17 0 0 0 17 1 0 0 18 1 1 1 18 1 0 0 18 0 1 0 19 1 0 1 19 0 1 0 19 0 1 0 20 1 1 1 20 0 1 0 20 0 0 0;proc phreg;model t*y(0)=x1-x2/selection=stepwise sle=0.1 sls=0.1 ties=discrete;strata i;run;Testing Global Null Hypothesis:BETA=0Test Chi-Squ
26、are DF Pr ChiSqLikelihood Ratio 10.6377 2 0.0049Score 8.8725 2 0.0118Wald 5.9789 2 0.0503 Analysis of Maximum Likelihood Estimates Parameter Standard HazardVariable DF Estimate Error Chi-Square Pr ChiSq Ratiox1 1 1.82388 0.84948 4.6098 0.0318 6.196x2 1 1.58959 0.80897 3.8611 0.0494 4.902第三节第三节 Logis
27、ticLogistic 回归模型的回归模型的医学应用及其注意事项医学应用及其注意事项一、一、Logistic 回归模型在医学中的应用回归模型在医学中的应用 1、分析流行病学的研究中进行危险因子的筛选。、分析流行病学的研究中进行危险因子的筛选。2、校正混杂因子。把混杂因子当作自变量来对、校正混杂因子。把混杂因子当作自变量来对 待,利用待,利用Logistic 回归对其进行调正和分析。回归对其进行调正和分析。3、Logistic 曲线拟合可用于分析药物或毒物的曲线拟合可用于分析药物或毒物的 剂量反应。剂量反应。4、判别分析与预测。判别分析与预测。二、二、LogisticLogistic 回归模型应
28、用回归模型应用的注意事项的注意事项1.变量的取值形式变量的取值形式Y:两分类,多分类有序,多分类无序两分类,多分类有序,多分类无序X:连续变量(可转换成多分类有序变量)连续变量(可转换成多分类有序变量)多分类有序变量多分类有序变量多分类无序变量(转换成多分类无序变量(转换成k-1个哑变量)个哑变量)2 2、要有足够的样本含量要有足够的样本含量。n n大于自变量个数的大于自变量个数的 2020倍,配比组设计时,倍,配比组设计时,匹配组数匹配组数 20m20m。3 3、因素间的交互作用。因素间的交互作用。交互作用的自变量相交互作用的自变量相 乘产生一个新的自变量后参加计算分析过程乘产生一个新的自变量后参加计算分析过程