资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,多元统计分析方法,The Methods of Multivariate Statistical Analysis,1,多元,Logistic,回归分析,Multiple Logistic Regression Analysis,第七章,2,主要内容,Logistic,回归分析的基本概念,Logistic,回归分析的数学模型,Logistic,回归模型的建立和检验,Logistic,回归系数的解释,配对病例,-,对照数据的,logistic,回归分析,3,回归分析的分类,连续型因变量,(y)-,线性回归分析,多个因变量,(,y1,y2,yk,),分类型因变量,(y)-Logistic,回归分析,时间序列因变量,(,t)-,时间序列分析,生存时间因变量,(,t)-,生存风险回归分析,路径分析,结构方程模型分析,一个因变量,y,回忆:,4,医学研究中经常遇到分类型变量,二分类变量:,生存与死亡,有病与无病,有效与无效,感染与未感染,多分类有序变量:,疾病程度(轻度、中度、重度),治愈效果(治愈、显效、好转、无效),多分类无序变量:,手术方法(,A,、,B,、,C,),就诊医院(甲、乙、丙、丁),5,医学研究者经常关心的问题,哪些因素导致了人群中有的人患胃癌而有的人不患胃癌,?,哪些因素导致了手术后有的人感染,而有的人不感染?,哪些因素导致了某种治疗方法出现治愈、显效、好转、无效等不同的效果,?,是回归分析问题,:,Y=f(x),6,如何解决这样的问题?,y=f(x),y=1,0,x,任意,存在,且不唯一,不能直接分析,变量,y,与,x,的关系,p=p(y=1|x)=f(x),0p1,x,任意,Logistic,回归模型,y,取某个值的概率变量,p,与,x,的关系,不存在,7,1,、什么是,Logistic,回归分析?,研究因变量,y,取某个值的概率变量,p,与,自变量,x,的依存关系。,p=p(y=1|x)=f(x),第一节,Logistic,回归分析的概念,8,2,、,Logistic,回归分析的分类,按数据的类型:,非条件,logistic,回归分析(成组数据),条件,logistic,回归分析(配对病例,-,对照数据),按因变量取值个数:,二值,logistic,回归分析,多值,logistic,回归分析,按自变量个数:,一元,logistic,回归分析,多元,logistic,回归分析,Logistic,回归分析,9,第二节,Logistic,回归分析的数学模型,令,y,是,1,0,变量,,x,是任意变量,,p=p(y=1|x),,,那么,二值变量,y,关于变量,x,的一元,logistic,回归模型是:,其中,,和,是未知参数或待估计的回归系数。该模型描述了,y,取某个值(这里,y=1),的概率,p,与自变量,x,之间的关系。,(1),二值一元,logistic,回归模型,:,10,令,y,是,1,0,变量,,x1,x2,xk,是,任意,k,个变量;,p=p(y=1|x1,x2,xk,),,,那么,变量,y,关于变量,x1,x2,xk,的,k,元,logistic,回归模型是:,(2),二值多元,logistic,回归模型,:,注意:对于二值,Logistic,回归模型,,Y=0,的模型是:,p=p,(,y=,0,|x,1,x,k,),=,1,-p,(,y=,1,|x,1,x,k,),11,Logistic,回归模型的另外一种形式,它给出变量,z=,logit,(p),关于,x,的线性函数。,12,(3),多值,logistic,回归模型,:,例如,当,y,取值,1,2,3,时,,logistic,回归模型是:,P1=,P2=,P3=,p,(,y,3|,x,)=1-P2,P,1,=,p,(,y,=1)=P1,P,2,=,p,(,y,=2)=P2-P1,P,3,=,p,(,y,=3)=1-P2,累积概率模型,独立概率模型,13,1,、估计参数,-,最大似然法,2,、检验参数的显著性,H0:j=0,vs,H1:j0,3,、检验模型的显著性,H0:1=k=0,vs,H1:j0,4,、解释参数的实际意义,第三节,Logistic,回归分析方法步骤,14,例,1,、自变量是二值分类型变量,某医院为了研究导致手术切口感染的原因,收集了,295,例手术者情况,其中,手术时间小于或等于,5,小时的有,242,例,感染者,13,例;手术时间大于,5,小时的有,53,例,感染者,7,例。试建立手术切口感染,(,y),关于手术时间,(,x),的,logistic,回归模型。,46,53,0(,7 13,46 229,53 242,15,data eg7_1a;,input y x wt;,cards;,1 1 7,1 0 13,0 1 46,0 0 229,;,run;,proc logistic descending;,model y=x;,weight wt;,run;,SAS,程序,16,The LOGISTIC Procedure,Data Set:WORK.EG7_1A,Response Variable:Y,Response Levels:2,Number of Observations:4,Weight Variable:WT,Sum of Weights:295,Link Function:,Logit,Response Profile,Ordered Total,Value Y Count Weight,1,1,2 20.00000,2,0,2 275.00000,17,Model Fitting Information and Testing Global Null Hypothesis BETA=0,Intercept,Intercept and,Criterion Only Covariates Chi-Square for Covariates,AIC 148.262 146.686 .,SC 147.648 145.458 .,-2 LOG L 146.262 142.686,3.576 with 1 DF(p=0.0586),Score .4.224 with 1 DF(p=0.0399),Analysis of Maximum Likelihood Estimates,Parameter Standard,Wald,Pr Standardized Odds,Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio,INTERCPT 1,-2.8688,0.2851 101.2408,0.0001,.,X 1,0.9860,0.4959 3.9542,0.0468,2.069569,2.681,18,回归模型:,参数估计:,a=-2.869(p=0.0001),b=0.986(p=0.0468).,模型检验:,2=3.576,df,=1,p=0.0586,结果:,如何解释系数的实际意义?,19,第四节,Logistic,回归模型系数的解释,回忆流行病学研究中两个重要概念:,在,logistic,回归模型,令,x=0,和,x=1,,,得到,20,一元,logistic,回归模型系数,的意义解释:,(1)x=1,0,变量,如果,x=1,0,,,则,e b=OR,近似表示在,x=1,条件下的发病率与在,x=0,条件下发病率之比,(,相对危险度,),,或者说,,x=1,条件下的发病可能性比,x=1,条件下多或少,(OR-1)*100%,。,21,Logistic,回归模型:,从,b=0.986,得到,RR OR=,eb,=2.681,。,所以,手术时间大于,5,小时的感染率是手术时间小于或等于,5,小时的感染率的,2.681,倍,即感染的可能性增加了,186.1%,。,0(,7 13,46 229,53 242,例如,手术感染问题,22,一元,logistic,回归模型系数,的意义解释:,(2),如果,x,是连续变量,对于任意,x1,和,x2,x1 x2,如果,x,是连续变量,则,OR=,eb,近似表示在,x,的相邻两个单位上的相对危险度。即,x,每,增加一个单位,相对危险增加 或减少,(OR-1)*100%,。,23,例,2,、自变量是连续型数值变量,为了分析新生儿出生时体重,(,birthwt,),与支气管肺的发育不良病,(,BPD),的关系,调查了,223,名新生儿。调查的数据列在下表中。,24,data eg7_2,;,do,birthwt,=750,1150,1550,;,do bpd=1,0,;,input wt ,;,output,;,end,;,end,;,cards,;,49 19 18 62 9 66,run,;,proc logistic data=eg2 descending,;,model bpd=,birthwt,;,weight wt,;,run,;,SAS,程序,25,Response Profile,Ordered,Value BPD Count,1 1 76,2 0 147,Model Fitting Information and Testing Global Null Hypothesis BETA=0,Intercept,Intercept and,Criterion Only Covariates Chi-Square for Covariates,AIC 288.140 229.166 .,SC 291.547 235.980 .,-2 LOG L 286.140 225.166,60.974 with 1 DF(p=0.0001),Score .56.008 with 1 DF(p=0.0001),Analysis of Maximum Likelihood Estimates,Parameter Standard,Wald,Pr Standardized Odds,Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio,INTERCPT 1 3.7180 0.6387 33.8853 0.0001 .,BIRTHWT 1 -0.00397 0.000588 45.6092 0.0001 -0.702480,0.996,SAS,输出结果,26,1,、因变量,bpd,对自变量,birthwt,的,logistic,回归模型是:,2,、自变量,birthwt,的回归系数在统计意义上不等于,0,(,p=0.0001),,,因此,,OR=0.996,在统计意义上不等于,1,。,OR=0.996,说明新生儿出生体重每增加一个单位,(,g),,,患,BPD,病的机会就会减少大约,0.4%,。即患,bpd,病的概率,随新生儿出生体重的增加而下降。,3,、根据上述回归模型可以预测新生儿出生时可能患,BPD,病 的 概率,。,27,一元,logistic,回归模型系数,的意义解释:,(3),如果,x,是分类变量,如果,x,是分类型变量,特别是名义型变量,则需要将,x,转化为哑变量,再进行,Logistic,回归分析。,如果,x,是,g,个分类的分类型变量,则要将,x,的,g-1,个哑变量放入模型,每一个哑变量的,OR,值表示该组与参照组的相对危险度。,28,什么是哑变量?,一个含有,g,个类的分类型变量可以构造,g,个哑变量。,29,如何用,SAS,程序构造哑变量?,data d2;set d1;,array a3 student teacher worker;,do i=1 to 3;ai=(x 1=i);end;,run;,data d2;set d1;,array a3 student teacher worker;,do i=1 to 3;,if x1=i then ai=1;else ai=0;,end;,run;,30,如何对哑变量进行分析?,(,1,)将,g-1,个哑变量放入模型进行分析,留一个哑变 量作为参照变量;,(,2,)每一个哑变量的,OR,值表示该哑变量组与参照变量组的相对危险度。,31,例,3,、自变量是分类型变量,为了了解冠心病与种族的关系,某研究所调查了,100,个样本,数据列在下表中。试估计各种族间患冠心病的相对危险度。,设,y=1,表示患冠心病,,y=0,表示未患冠心病。令,x=1,表示黑人,,x=2,表示白人,,x=3,表示其它种族。将变量,x,转化为哑变量,变量名是:,black,、,white,和,other,。,32,data eg7_3,;,do y=1,0,;,do x=1 to 3,;,input wt,;,output,;,end,;,end,;,cards,;,20 5 25 10 20 20,run,;,data eg7_3,;,set eg7_3,;,array a3 black white other,;,do i=1 to 3,;,ai=(x=i),;,end,;,run,;,proc logistic descending,;,model y=black other,;,weight wt,;,run,;,White,作为参照组,33,The LOGISTIC Procedure,Response Profile,Ordered Total,Value Y Count Weight,1 1 3 50.000000,2 0 3 50.000000,Model Fitting Information and Testing Global Null Hypothesis BETA=0,Without With,Criterion Covariates Covariates Chi-Square for Covariates,AIC 138.629 131.038 .,SC 138.629 130.413 .,-2 LOG L 138.629 125.038,13.592 with 3 DF(p=0.0035),Score .12.889 with 3 DF(p=0.0049),Analysis of Maximum Likelihood Estimates,Parameter Standard,Wald,Pr Standardized Odds,Variable DF Estimate Error Chi-Square Chi-Square,Estimate Ratio,INTERCPT 1 -1.3863 0.5000 7.6874 0.0056 .,.,BLACK 1 2.0794 0.6325 10.8103 0.0010 2.349536,8.000,OTHER 1 1.6094 0.5831 7.6186 0.0058 1.974184,5.000,34,模型总体检验结果说明该模型具有统计意义,(,p=0.0035),。,参数检验说明,黑人与白人患冠心病的相对危险度是:,OR=8,(,p=0.0010),,,说明黑人患冠心病的几率大约是白人的,8,倍。,参数检验说明,其他种族人与白人患冠心病的相对危险度是:,OR=5,(,p=0.0058),,,说明其他种族人患冠心病的几率大约是白人的,5,倍。,结论,35,一元,logistic,回归模型系数,的意义解释:,如果,x,是,分类型变量,(,g,个分类,),,,则要将,x,的,g-1,个哑变量放入模型,每一个哑变量的,OR,值表示该组与参照组的相对危险度。,如果,x=1,0,,,则,e b=OR,近似表示在,x=1,条件下的发病率与在,x=0,条件下发病率之比,(,相对危险度,),,或者说,,x=1,条件下的发病可能性比,x=1,条件下多或少,(,OR-1)*100%,。,如果,x,是连续型变量,,则,OR=,eb,近似表示在,x,的相邻两个单位上的相对危险度。即,x,每,增加一个单位,相对危险增加 或减少,(,OR-1)*100%,。,36,b),多元,logistic,回归模型系数的解释,假设,y,在二值变量,x 1,和,x 2,上的二元,logistic,回归模型是:,可以证明:,e1,表示消去了,x 2,的影响后或在,x 2,不变的情况下,,x 1,相邻两个单位患病率之比(相对危险度);,e2,表示消去了,x 1,的影响后或在,x 1,不变的情况下,,x 2,相邻两个单位患病率之比(相对危险度)。,37,例,4,、无交互影响的多元,logistic,回归模型,某市调查饮酒对食道癌的影响,共收集了,200,例食道癌患者作为病例组,(,y=1),,,774,例非食道癌患者作为对照组,(,y=0),。,询问了他们的年龄和饮酒情况。数据列在下表中。试分析饮酒对食道癌的影响,将年龄作为混杂因素。,38,data eg4,;,do y=1,0,;,do age=1 to 3,;,do drink=1,0,;,input wt,;,output,;,end,;,end,;,end,;,cards,;,5,5 67,55 24,44,35 270 56 276 18 119,run,;,proc logistic descending,;,model y=drink age,;,weight wt,;,run,;,39,SAS,输出结果,The LOGISTIC Procedure,Response Profile,Ordered Total,Value Y Count Weight,1 1 6 200.00000,2 0 6 774.00000,Model Fitting Information and Testing Global Null Hypothesis BETA=0,-2 LOG L 989.029 816.466,172.563 with 2 DF(p=0.0001),Analysis of Maximum Likelihood Estimates,Parameter Standard,Wald,Pr Standardized Odds,Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio,INTERCPT 1 -4.1249 0.3226 163.4795 0.0001 .,DRINK 1 1.7788 0.1865 91.0078 0.0001 3.761888,5.923,AGE 1 1.0971 0.1338 67.2705 0.0001 4.108738,2.995,40,结论,模型的总体检验说明模型具有统计意义,(,p=0.0001),。,参数检验结果显示所有回归系数都具有显著性意义,(,p=0.0001),。,OR(drink)=5.923,说明除去年龄这个混杂因子的影响后,饮酒者比不饮酒者大约多,492.3%,的可能性患食道癌,(,p=0.0001),,,或者说饮酒者患食道癌的可能性大约是不饮酒者的,5.923,倍,(,p=0.0001),41,例,5,、有交互影响的多元,logistic,回归模型,在回顾性研究中,随机抽查了某地区,818,个人的吸烟饮酒等生活方式以及各种慢性疾病的患病情况。表,7-5,中列出的是一部分调查结果。试分析吸烟、饮酒危险因素对患胃病的影响程度以及它们的交互影响程度。,表,7-5,生活方式与胃病的调查数据,42,y=,1,和,0,,分别表示患胃病和未患胃病;,x 1=,1,和,0,,分别表示吸烟和不吸烟;,x 2=,1,和,0,,分别表示饮酒和不饮酒。,建立四个哑变量分别代表四种不同的生活方式,即,x 11=1,表示既吸烟又饮酒,,0,表示其他;,x 10=1,表示吸烟但不饮酒,,0,表示其他;,x 01=1,表示不吸烟但饮酒,,0,表示其他;,x 00=1,表示既不吸烟又不饮酒,,0,表示其他。,将前三个哑变量放进模型,则可以得前三种生活方式相对于最后一种生活方式患胃病的相对危险度。,43,data eg7_5;do y=1,0;do x1=1,0;do x2=1,0;,input wt ;output;end;end;end;cards;,39 25 35 16 101 126 253 223,run;,data eg7_5;set eg7_5;,if x1=1&x2=1 then x11=1;else x11=0;,if x1=1&x2=0 then x10=1;else x10=0;,if x1=0&x2=1 then x01=1;else x01=0;,if x1=0&x2=0 then x00=1;else x00=0;,run;,proc logistic descending;,model y=x11 x10 x01;,weight wt;,run;,44,The LOGISTIC Procedure,Model Fitting Information and Testing Global Null Hypothesis BETA=0,-2 LOG L 664.261 631.703 32.557 with 3 DF(p=0.0001),Analysis of Maximum Likelihood Estimates,Parameter Standard,Wald,Pr Standardized Odds,Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio,INTERCPT 1 -2.6346 0.2588 103.6217 0.0001 .,X11 1 1.6830 0.3202 27.6277 0.0001 3.777933 5.382,X10 1 1.0172 0.3390 9.0031 0.0027 2.351977 2.765,X01 1 0.6565 0.3154 4.3318 0.0374 1.868880 1.928,45,结论:,1,)模型具有统计意义,(,p=0.0001),;,三个参数均有显著性意义,(,p=0.0027,、,p=0.0374,和,p=0.0374),。,2,)因为四个哑变量中,x00,作为参照变量,因此,,OR(x11)=5.382,表示既吸烟又饮酒者患胃病的几率是不吸烟又不饮酒者的,5.382,倍;,OR(x10)=2.765,表示吸烟但不饮酒者患胃病的几率是不吸烟又不饮酒者的,2.765,倍;,OR(x01)=1.928,表示不吸烟但饮酒者患胃病的几率是不吸烟又不饮酒者的,1.928,倍。,46,6,、多值变量的,logistic,回归模型系数的解释,:,某大学医院外科采用两种不同的绷带和两种不同的包扎方式进行腿溃疡的治疗处理。治疗的结果分三种:不愈、有效和痊愈。治疗方式和治疗效果列在表,7-6,中。试分析治疗方法对治疗效果的影响。,设因变量,y,表示治疗效果,,0=,不愈、,1=,有效、,2=,痊愈。设因变量,x 1,表示绷带种类,自变量,x 2,表示包扎方式,。,47,腿溃疡治疗方式与效果数据资料,48,【SAS,程序,】,data eg7_6,;,input y x1 x2 wt ,;,cards,;,0 0 0 19 2 1 1 5,run,;,proc logistic descending,;,model y=x1 x2,;,weight wt,;,run,;,49,【SAS,输出结果,】,The LOGISTIC Procedure,Response Profile,Ordered Total,Value Y Count Weight,1 2 4 15.000000,2 1 4 25.000000,3 0 4 59.000000,Score Test for the Proportional Odds Assumption,Chi-Square=0.7505 with 2 DF(p=0.6871),Model Fitting Information and Testing Global Null Hypothesis BETA=0,Intercept,Intercept and,Criterion Only Covariates Chi-Square for Covariates,AIC 190.499 178.977 .,SC 191.469 180.916 .,-2 LOG L 186.499 170.977,15.522 with 2 DF(p=0.0004),Score .14.849 with 2 DF(p=0.0006),平行性检验,50,Analysis of Maximum Likelihood Estimates,Parameter Standard,Wald,Pr Standardized Odds,Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio,INTERCP1 1 -2.6680 0.4657 32.8270 0.0001 .,INTERCP2 1 -1.1711 0.3930 8.8820 0.0029 .,X1 1 1.6433 0.4380 14.0736 0.0002 1.358335 5.172,X2 1 -0.1903 0.4189 0.2063 0.6496 -0.157280 0.827,51,对于多值因变量模型,平行性假设决定了每个自变量的,OR,值对于前,g-1,个模型是相同的。例如,变量,x1,的,OR=5.172,,,它表示使用第一种绷带治愈腿溃疡的可能性是使用第二种绷带的,5.172,倍;它也表示使用第一种绷带至少有效的可能性是使用第二种绷带的,5.172,倍。,52,医学中经常需要作配对病例,-,对照研究。所谓的配对病例,-,对照研究指的是在病例,-,对照研究中,对每一个病例配以性别、年龄或其它条件相似的一个,(1:1),或几个,(1:,M),对照,然后分析比较病例组与对照组以往暴露于致病因素的经历。,分析配对病例,-,对照研究资料的统计分析方法一般采用条件,logistic,回归分析。,条件,logistic,回归分析的数学模型以及分析原理方法均和 非条件,logistic,回归分析类似。因为参数的估计公式涉及到条件概率理论,所以称为条件,logistic,回归分析。,第五节 条件,logistic,回归分析,53,配对数据,:对按一定条件配成对的,n,对研究对象分别使用两种不同的处理方法,或者对,n,个研究对象在两个时间点上使用两种不同的处理方法所得到的观察数据。,B,+-,A,+a b,-c d,配对四格表,A B#pairs,+a,+-b,-+c,-,-,d,Total n,频数分布表,Id A B,1 +,2 +-,j,-,+,n,-,-,原始数据,例如,两个医生分别检查,n,个病人,检验的结果如下:,54,例,7,、配对病例,-,对照数据:,某医院为了研究孕期照过,X,射线对儿童患白血病的影响,收集了配对病例,-,对照资料如下表所示,其中,D,和,D,分别表示儿童患和未患白血病,,E,和,E,分别表示母亲孕期照和未照过,X,线照射。,55,data eg7_7,;,input id y x wt ,;,censor=1-y,;,cards,;,1 1 1 3 1 0 1 3,2 1 0 14 2 0 1 14,3 1 1 5,3 0 0 5,4 1 0 62,4 0 0 62,run,;,proc,phreg,;,model y*censor(0)=x,;,freq wt,;,strata id,;,run,;,56,Stepwise regression analysis:excluding X6,The PHREG Procedure,Data Set:WORK.EG7_7,Dependent Variable:Y,Censoring Variable:CENSOR,Censoring Value(s):0,Frequency Variable:WT,Ties Handling:BRESLOW,Testing Global Null Hypothesis:BETA=0,Without With,Criterion Covariates Covariates Model Chi-Square,-2 LOG L 724.793 720.354,4.439 with 1 DF(p=0.0351),Score .4.263 with 1 DF(p=0.0389),Wald,.3.906 with 1 DF(p=0.0481),Analysis of Maximum Likelihood Estimates,Parameter Standard,Wald,Pr Risk,Variable DF Estimate Error Chi-Square Chi-Square Ratio,X 1 1.029619 0.52099 3.90569 0.0481,2.800,57,结论:,OR(x)=2.8RR=p(y=1|x=1)/p(y=1|x=0),,,结果说明母亲孕期有过,X,线照射的儿童患白血病的几率大约是母亲孕期未有过,X,线照射的儿童的,2.8,倍,(,p=0.0481,),。,58,例,8,、,1:1,配对病例,-,对照数据,为了研究生活方式和胃癌的关系,某研究所按,1:1,比例配对收集了一批病人和对照组的有关资料(本例仅用,10,对样本和,3,个危险因子进行分析,用以说明分析方法)。数据列在下表中。其中,,x1,表示蛋白质摄入量,取值为,0,1,2,3,;,x2,表示不良饮食习惯,取值为,0,1,2,3,;,x3,表示精神状态,取值为,0,1,2,。,59,data eg7_8,;,input id y x1 x2 x3,;,y=1-y,;,cards,;,1 1 1 3 0 1 0 1 0 1,2 1 0 3 1 2 0 1 3 0,9 1 3 3 2 9 0 2 2 0,10 1 2 2 2 10 0 0 0 0,run,;,proc,phreg,;,model y=x1-x3,;,strata id,;,run,;,SAS,程序,60,The PHREG Procedure,Testing Global Null Hypothesis:BETA=0,Without With,Criterion Covariates Covariates Model Chi-Square,-2 LOG L 13.863 3.886 9.977 with 3 DF(p=0.0188),Score .6.913 with 3 DF(p=0.0747),Wald,.2.590 with 3 DF(p=0.4592),Analysis of Maximum Likelihood Estimates,Parameter Standard,Wald,Pr Risk,Variable DF Estimate Error Chi-Square Chi-Square Ratio,X1 1,-0.479042 2.95483 0.02628 0.8712 0.619,X2 1,1.231790 0.83476 2.17748 0.1400 3.427,X3 1 2.289851 1.76807 1.67731 0.1953 9.873,61,例,9,、,1:2,配对病例,-,对照数据,为了研究生活方式和胃癌的关系,某研究所按,1:2,比例配对收集了一批病人和对照组的有关资料(本例仅用,10,对样本和,3,个危险因子进行分析,用以说明分析方法)。数据列在下表中。其中,,x1,表示蛋白质摄入量,取值为,0,1,2,3,;,x2,表示不良饮食习惯,取值为,0,1,2,3,;,x3,表示精神状态,取值为,0,1,2,。,62,data eg7_9,;,do id=1 to 0,;,do y=1,0,0;,input x1 x2 x3,;,output;end;end;y=1-y,;,cards,;,1 1 3 0 1 0 1 0 0 1,2 0 3 1 1 3 0 1 2 1,9 3 3 2 2 2 0 1 2 0,10 2 2 2 0 0 0 0 0 1,run,;,proc,phreg,;,model y=x1-x3,;,strata id,;,run,;,63,The PHREG Procedure,Testing Global Null Hypothesis:BETA=0,-2 LOG L 49.698 36.143 13.555 with 3 DF(p=0.0036),Analysis of Maximum Likelihood Estimates,Parameter Standard,Wald,Pr Risk,Variable DF Estimate Error Chi-Square Chi-Square Ratio,X1 1 0.177149 0.62839 0.07947 0.7780 1.194,X2 1 1.120438 0.50148 4.99191 0.0255 3.066,X3 1 1.348371 0.65593 4.22570 0.0398 3.851,64,【,结果解释,】,添加一个对照组后,蛋白质摄入量,(,x1),对发生胃癌仍没有显著性影响,不良生活习惯,(,x2),对胃癌发生有显著性影响,(,p=0.0255),,,精神状态,(,x3),对胃癌发生也有显著性影响,(,p=0.0398),。,65,Logistic,回归分析和线性回归分析的异同点,相同点:,都可以利用模型来筛选危险因子;,都可以校正混杂因子的影响;,都可以用来做预测。,不同点:,前者对因变量无分布要求,后者要求因变量是正态分布变量;,前者要求因变量必须是分类型变量,后者要求因变量必须是连续型数值变量。,前者不要求自变量和因变量呈线性关系,后者要求自变量和因变量呈线性关系;,前者是分析因变量取某个值的概率与自变量的关系,后者是直接分析因变量与自变量的关系。,66,Logistic,回归分析和线性回归分析的异同点是什么?,Logistic,回归分析的数学模型是什么?,如何解释一元,logistic,回归模型的系数的意义?,如何解释无交互影响多元,Logistic,回归模型的系数?,条件,logistic,回归分析和非条件,logistic,回归分析的模型各适合用来处理何种数据?,总 结,67,结 束,68,
展开阅读全文