资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Cox回归分析医疗讲义,随访资料的特点,分布类型不易确定。一般不服从正态分布,少数情况下近似服从指数分布、,Weibull,分布、,Gompertz,分布等,多数情况下往往是不服从任何规则的分布类型。,影响因素多而复杂且不易控制。,根据研究对象的结局,生存时间数据可分为两种类型:,完全数据,(complete data),截尾数据,(,截尾值、删失数据,,censored data),生存分析的研究内容,生存分析的研究内容主要包括以下三个方面:,对生存时间进行统计描述;,寻找影响生存时间长短的“危险因素”(包括正危险因素和负危险因素);,估计生存率和生存时间长短,进行预后评价。,生存分析常用的分析方法,非参数法:,主要用于描述性分析,(,估计生存率,),和单因素分析,如寿命表法、乘积极限法、时序检验等。,参数法:,一般用作多因素预后分析,也可计算生存率和半数生存期,如指数模型、,Weibull,模型、,Gompertz,模型等。,半参数法:,即,Cox,回归模型,兼有非参数法和参数法的优点,既不依赖于生存时间的分布类型,又可以用作多因素分析,是生存分析中最重要的分析方法。,影响因素分析,生存分析中一个很重要的内容是探索影响生存时间或生存率的危险因素,这些危险因素通过影响,各时刻的死亡风险(即危险率),而影响生存率,不同特征的人群在不同时刻的危险率函数不同。,通常将,危险率函数,表达为基准危险率函数与相应协变量函数的乘积,即 。,对于协变量函数,f,(,X,),最常用的是对数线性模型,即,一、危险率函数,(hazard function),1、定义:,指,t,时刻尚存活的研究对象死于,t,时刻之后一瞬间的概率。为条件概率,即活到了,t,时刻的条件下在,t,t,+,t,这一微小时段内死亡的概率,用,h,(,t,)表示。,式中,,T,为观察对象的生存时间,,n,(,t,)为,t,时刻的生存人数,,n,(,t,+,t,)为,t,+,t,时刻的生存人数。,危险率函数也称为死亡力(force of mortality)、瞬时死亡率(instantaneous failure rate)等。,h,1,(,t,),是一种上升的曲线,表示危险率随时间变化而增加,如急性白血病患者治疗无效其危险率随时间呈增加趋势;,h,2,(,t,),的曲线为下降趋势,表示危险率逐渐减小,如意外事故造成的外伤经有效治疗后死亡的危险性逐渐减小;,h,3,(,t,),为一种稳定的危险率函数,如某些慢性病患者在稳定期,其危险率基本不变。,图16-1 三种不同形式的危险率函数曲线,2、危险率函数与生存函数的关系:,危险率函数是生存分析的基本函数,它反映研究对象在某时点的死亡风险大小。生存函数与危险率函数的关系可表示为:,不同人群的危险率模型不同,危险率函数可以表现为递增、递减、恒定或其它波动形式。,风险函数与生存函数的关系,h,0,(,t,)已知时,当基准危险率函数,h,0,(,t,)已知时,为参数模型,如:,h,0,(,t,)=,时,为指数回归模型;,h,0,(,t,)=,t,r,-1,时,为Weibull回归模型;,h,0,(,t,)=,e,t,时,为Gompertz模型。,h,0,(,t,)未知时,1972年英国生物统计学家D.R.Cox 提出在基准危险率函数未知的情况下估计模型参数的方法,后人将这一模型称为,Cox比例风险回归模型,(Coxs proportional hazard regression model)。由于该模型的参数估计不依赖于基准危险率的分布类型,故属于一种,半参数模型,。,二、Cox比例风险回归模型,生存分析的主要目的在于研究协变量,X,与观察结果即生存函数之间的关系,当,S,(,t,)受到协变量的影响时,传统的方法是考虑回归分析,即各协变量对,S,(,t,)的影响,由于生存分析研究的数据中包含有截尾数据,用一般的方法难以解决上述问题。,看下面的例子,如果分析x1-x6这6个因素对生存时间,t,的影响,能否用线性回归分析建立时间,t,与影响因素间的线性回归方程?或建立生存函数,S,(,t,)与影响因素间的线性回归方程?,t,=,b,0,+,b,1,x,1,+,b,2,x,2,+,b,6,x,6,?,S(t),=,b,0,+,b,1,x,1,+,b,2,x,2,+,b,6,x,6,?,1.生存时间,t,一般不服从正态分布,2.生存时间,t,中含有截尾数据,利用生存率函数,S,(,t,X,)与风险函数,h,(,t,X,)的关系可导出,较好地解决截尾值的问题,反映了协变量,X,与生存函数的关系,Cox模型的基本形式,所有危险因素为0时的基础风险率,它是未知的,但假定它与,h,(,t,X,)是呈比例的。,右侧可分为两部分:,h,0,(,t,)没有明确的定义,分布无明确的假定,参数无法估计,为非参数部分;另一部分是参数部分,其参数可以通过样本的实际观察值来估计的,正因为Cox模型有非参数和参数两部分组成,故又称为半参数模型,。,若,i,0,则,RR,1,该因素为危险因素;,若,i,0,则,RR,0,说明该个体死亡风险高于平均水平;,若,PL,j,ChiSq,Likelihood Ratio 14.3038 1 0.0002,Score 13.0399 1 0.0003,Wald 10.2634 1 0.0014,逐步回归法筛选变量,Step 2.Variable x5 is entered.,The model contains the following explanatory variables:x4 x5,Convergence Status,Convergence criterion(GCONV=1E-8)satisfied.,Model Fit Statistics,Without With,Criterion Covariates Covariates,-2 LOG L 201.994 182.777,AIC 201.994 186.777,SBC 201.994 189.293,Testing Global Null Hypothesis:BETA=0,Test Chi-Square DF Pr ChiSq,Likelihood Ratio 19.2168 2 ChiSq Ratio Confidence Limits,x4 1,1.76128,0.54785 10.3356 0.0013,5.820,1.989 17.031,x5 1,0.93133,0.44455 4.3890 0.0362,2.538,1.062 6.066,Summary of Stepwise Selection,Variable Number Score Wald,Step Entered Removed In Chi-Square Chi-Square Pr ChiSq,1 x4 1 13.0399 .0.0003,2 x5 2 4.7039 .0.0301,最大似然估计结果,筛选过程总结,实例与SAS程序,例2,某医师对一所医院1988年收治的16例鼻腔淋巴瘤患者随访了13年,数据见表2,试作Cox模型分析。,data,a;,input,num sex age stage blood xray chmthrp censor day;,cards,;,114522011 578,2036220111549,315722101 938,4045201004717,5042201114111,6039210111245,7138211114435,8145221013750,9130201013958,10045210112581,11045310113572,12157211012938,13057220111932,14149221113205,15133210113451,16051221012363,;,PROC,PHREG,;,Model,day*censor(,0,)=sex age stage blood xray chmthrp/,risklimits,;,RUN,;,SAS程序,SAS程序输出结果,The SAS System 16:31 Saturday,December 4,2005 6,The PHREG Procedure,Analysis of Maximum Likelihood Estimates,Parameter Standard Hazard 95%Hazard Ratio,Variable DF Estimate Error Chi-Square PrChiSq Ratio Confidence Limits,sex 1 0.26175 0.89551 0.0854 0.7701 1.299 0.225 7.515,age 1 0.05274 0.05286 0.9955 0.3184 1.054 0.950 1.169,stage 1 -1.27386 1.26111 1.0203 0.3124 0.280 0.024 3.313,blood 1 1.10626 0.61835 3.2007 0.0736 3.023 0.900 10.158,xray 1 -2.58712 1.11364 5.3969 0.0202 0.075 0.008 0.667,chmthrp 1 -0.54082 0.84818 0.4066 0.5237 0.582 0.110 3.070,回归系数及其解释,回归模型及回归系数的假设检验,Model Fit Statistics,Without With,Criterion Covariates Covariates,-2 LOG L 61.344 45.145,AIC 61.344 57.145,SBC 61.344 61.393,Testing Global Null Hypothesis:BETA=0,Test Chi-Square DF Pr ChiSq,Likelihood Ratio 16.1987 6 0.0127,Score 14.7833 6 0.0220,Wald 11.4066 6 0.0766,回归模型及回归系数的假设检验,The SAS System 16:31 Saturday,December 4,2005 6,The PHREG Procedure,Analysis of Maximum Likelihood Estimates,Parameter Standard Hazard 95%Hazard Ratio,Variable DF Estimate Error Chi-Square PrChiSq Ratio Confidence Limits,sex 1 0.26175 0.89551,0.0854 0.7701,1.299 0.225 7.515,age 1 0.05274 0.05286,0.9955 0.3184,1.054 0.950 1.169,stage 1 -1.27386 1.26111,1.0203 0.3124,0.280 0.024 3.313,blood 1 1.10626 0.61835,3.2007 0.0736,3.023 0.900 10.158,xray 1 -2.58712 1.11364,5.3969 0.0202,0.075 0.008 0.667,chmthrp 1 -0.54082 0.84818,0.4066 0.5237,0.582 0.110 3.070,模型的筛选及有关问题,(1)剔去缺失数据较多,或变异程度几乎为0 的因子 (如表19-1的“分期”)。,(2)单变量分析(表19-2),(3)采用软件进行逐步筛选,模型的筛选及有关问题(,单变量分析,),模型的筛选及有关问题(,逐步回归分析,),PROC,PHREG,data,=a2;,Model,day*censor(,0,)=sex age stage blood xray chmthrp,/,risklimits,selection,=stepwise,sle,=,0.05,sls,=,0.05,;,RUN,;,Analysis of Maximum Likelihood Estimates,Parameter Standard Hazard 95%Hazard Ratio,Variable DF Estimate Error Chi-Square PrChiSq Ratio Confidence Limits,blood 1 1.06957 0.41019 6.7992 0.0091 2.914 1.304 6.511,xray 1 -0.81419 0.35633 5.2209 0.0223 0.443 0.220 0.891,SAS求基线生存率的程序,PROC,PHREG,data,=a;,Model,day*censor(,0,)=blood xray/,risklimits,;,baseline,out,=phout,survival,=s_t,stderr,=stderr/,method,=ch;,symbol1,i,=stepj,v,=none,l,=,1,;,symbol2,i,=stepj,v,=none,l,=,3,;,strata,xray;,proc,gplot,data,=phout;,plot,s_t*day=xray;,run,;,proc,print,data,=phout;,RUN,;,BASELINE,;,The BASELINE statement creates a new SAS data set that contains the survivor function estimates at the event times of each stratum for every pattern of explanatory variable values(,x,)given in the COVARIATES=data set.By default,the data set also contains the survivor function estimates corresponding to the means of the explanatory variables()for each stratum.If you want only these estimates,you can omit the COVARIATES=option.,No BASELINE data set is created if the counting process style of input is used or if the model contains a time-dependent variable.,METHOD=,method,specifies the method used to compute the survivor function estimates.The two available methods are,CH|EMP,specifies that the empirical cumulative hazard function estimate of the survivor function is to be computed;that is,the survivor function is estimated by exponentiating the negative empirical cumulative hazard function.,PL,specifies that the product-limit estimate of the survivor function is to be computed.The default is METHOD=PL.,SAS求基线生存率的结果,Obs blood xray xray2 day s_t stderr,1 1.42857 0 0 0 1.00000 .,2 1.42857 0 0 578 0.88994 0.10515,3 1.42857 0 0 1245 0.76275 0.15017,4 1.42857 0 0 1549 0.64400 0.17032,5 1.42857 0 0 1932 0.49557 0.18608,6 1.42857 0 0 2581 0.27749 0.19103,7 1.42857 0 0 3451 0.11627 0.13221,8 1.42857 0 0 3572 0.02041 0.04420,9 1.11111 1 1 0 1.00000 .,10 1.11111 1 1 938 0.93576 0.06618,11 1.11111 1 1 2363 0.86037 0.10263,12 1.11111 1 1 2938 0.76749 0.13678,13 1.11111 1 1 3205 0.67610 0.16068,14 1.11111 1 1 3750 0.54734 0.18550,15 1.11111 1 1 3958 0.29068 0.20267,16 1.11111 1 1 4111 0.13799 0.14366,17 1.11111 1 1 4435 0.05579 0.07881,SAS求基线生存率的结果,四、Cox模型的适用范围及注意事项,1.适用范围,Cox模型适用于生存资料的统计分析,属半参数模型,对资料没有特殊的要求,也可以估计各因素的参数,并能做多因素的统计分析。该模型的主要优点在于能从众多的影响因素中排除混杂因素的影响,找出影响生存时间的因素,根据各因素的参数估计出个体的生存率。,另外,Cox模型能分析具有截尾数值的生存时间。,Cox模型可以分析多种因素对疾病预后的影响,使其更适合于临床的随访研究。Cox模型使临床观察的定性指标又加上定量指标进行分析,提高了分析的效率。,2.注意事项,(1)设计阶段应注意的问题,样本的代表性要好。,样本的含量为观察协变量的5-20倍。,所有危险因素要在设计时考虑全面,避免漏掉重要因素和加入无关因素。,生存时间的定义要明确。起始事件和终点事件要有明确规定,时间尽可能精确测量。,研究的协变量在研究对象中的分布要适中,否则会给参数的估计带来困难。,在设计时要注意影响时间的效应因素。,如研究吸烟对肺癌患者生存率的影响,若本来吸烟的人因患肺癌而戒烟,则一般模型不易分析吸烟的作用,需考虑吸烟量随时间变化的趋势。如果研究的因素随时间而发生变化,必要时可以采用伴时协变量的Cox模型进行分析。,注意事项,(2)模型拟合时应注意的问题,多重共线性问题:医学研究中的许多变量间并不是独立的,但通常不会影响分析的结果,如果变量间存在高度的相关,则会影响Cox模型的参数估计,此时可采用主成分分析法或R型聚类分析法消除多元共线性的影响。,应注意Cox模型要求病人的风险函数与基础风险函数呈比例,如果这一假定不成立,则不能用Cox模型进行分析,。,注意事项,(3)模型应用时应注意的问题,结果的解释应结合专业知识。Cox模型与其他回归分析一样,当进入模型中的因素有统计学意义时,该因素与生存时间不一定有因果关系,其中有一部分因素与生存时间的关系为伴随关系。,Cox回归的生存率一般不宜用于不同资料之间的比较,因为基准危险率函数只在同一份资料内保持相同,不同资料的基准危险率往往不同;而且在多因素分析的情况下,协变量组合也很难一致,可比性难以保证。,3.Cox模型的局限性,Cox模型估计参数时,首先要假定偏似然函数具有最大似然的性质,这个问题在理论上尚不完善。,Cox模型对异常值较为敏感,所以在进行模型配合时要注意Cox模型拟合优度的检验。,Cox模型估计参数时,不是利用精确的生存时间,而是利用生存时间的顺序统计量,这损失了一定的样本信息。当引进的协变量随时间的变化剧烈时,偏似然函数损失的信息也增多。,3.Cox模型的局限性,如果得到的生存时间重复较多,用偏似然函数估计偏回归系数有一定的困难,学者们提出了一些解决的办法,但仍需进一步完善。,尽管如此,Cox模型仍不失为一种有效的多元统计分析方法。,五、扩展的Cox回归模型,伴时协变量,Cox,回归模型,分层,Cox,回归模型,分组数据的,Cox,回归模型,多状态,Cox,回归模型,Cox模型不直接考察生存函数,S,(,t,)与协变量的关系,而是用风险率函数,h,(,t,)作为因变量,并假定:,利用生存率函数,S,(,t,X,),与风险函数,h,(,t,X,)的关系,Cox模型基本形式,反映了协变量,X,与生存函数的关系,LIFETEST,-Produces life tables and Kaplan-Meier survival curves.Is primarily for,univariate analysis,of the timing of events.,LIFEREG,Estimates regression models with censored,continuous-time data under several alternative distributional assumptions.Does not allow for time-dependent covariates.,PHREG,Uses Coxs partial likelihood method to estimate regression models with censored data.Handles both continuous-time and discrete-time data and allows for time-dependent covariables,SAS处理生存资料的过程步,
展开阅读全文