1、中国疾病预防控制中心中国疾病预防控制中心生存分析生存分析2016051820160518中国疾病预防控制中心中国疾病预防控制中心讲授内容一、生存分析概述二、描述生存过程三、生存曲线的比较四、Cox比例风险模型五、小结中国疾病预防控制中心中国疾病预防控制中心一、生存分析概述p生存分析就是根据试验或调查得到的数据,对生物或人的生存时间进行分析和统计推断。对癌症病人的生存时间研究,白血病病人从治疗到复发的时间进行研究;对电子设备(如灯泡)寿命的研究;第一次婚姻维持时间的分析等(社会学)。中国疾病预防控制中心中国疾病预防控制中心生存时间:生存时间:p狭义的理解,生存时间是指从发病到死亡所经历的事件跨度
2、。p从广义的角度讲,是从某种起始事件到达某种终点事件所经历的时间跨度。中国疾病预防控制中心中国疾病预防控制中心起始事件起始事件 失效事件失效事件疾病确诊死亡治疗开始痊愈出院时间疾病复发接触危险因素发病电灯泡开始使用时间电灯泡报废时间新产品上市时间新产品被使用时间 中国疾病预防控制中心中国疾病预防控制中心p完全数据:观察到了病人的预期终点(失效事件发生),该病人所提供的关于生存时间的信息是完整的。p截尾数据(censored data):由于失访、死于其它疾病或研究工作结束时事件尚未发生,未能达到预期的终点,提供的只是不完整的数据信息。中国疾病预防控制中心中国疾病预防控制中心p病人开始随访时间:
3、诊断、治疗、手术、出院;p病人截止随访的时间;p截止随访的原因:p有关影响预后因素,如年龄、文化程度以及职业、病程、病型、术前健康状况等,以分析各因素对生存率的影响。中国疾病预防控制中心中国疾病预防控制中心p生存时间存在不完全数据,不能按照以往的处理缺失值的方法处理生存数据。p生存时间通常不服从正态分布(一般为正偏态分布),因此常用的t检验、F检验等不适用于对生存资料的分析。中国疾病预防控制中心中国疾病预防控制中心几个概念:中国疾病预防控制中心中国疾病预防控制中心死亡概率表示年初人口在往后一年中死亡机会的大小。死亡概率表示年初人口在往后一年中死亡机会的大小。中国疾病预防控制中心中国疾病预防控制
4、中心中国疾病预防控制中心中国疾病预防控制中心p生存率(survival rate)或生存函数(survival function):病人经过t个时段后仍存活的可能性。生存率通常随时间 t 的变化而变化,是时间 t 的函数,故又称为生存函数,记为S(t),0S(t)1。如资料中无删失数据,直接法计算生存率的公式:p若有删失数据,须分段计算生存概率。假定观察对象在各个时段的生存事件独立,应用概率乘法定理将分段生存概率相乘得到生存率。中国疾病预防控制中心中国疾病预防控制中心 p生存概率和生存率的区别:生存概率和生存率的区别:前者为单位时段上存活的条件概率;后者为从t0开始连续若干时段上存活的概率。中
5、国疾病预防控制中心中国疾病预防控制中心描述生存过程:描述生存过程:p研究生存时间的分布特点,估计生存率;p获得生存率曲线,了解生存率随时间的变化趋势;p计算平均/中位生存时间。1.Kaplan-Meier法由Kaplan和Meier于1958年提出,又称乘积极限法(product-limit method)。二、描述生存过程 中国疾病预防控制中心中国疾病预防控制中心pKM法原理:建立在条件概率和概率乘法原理基础上。p生存率与条件概率S(2)2年生存率S(1)1年生存率。S(2|1)生存1年条件下,再能生存一年的概率。S(2)=S(1)*S(2|1)中国疾病预防控制中心中国疾病预防控制中心例题
6、1:某种治疗方案治疗肺癌患者11例,随访时间(月)记录如下:1,2,3,5,6,9,11,13,16,26,37 试估计各时点生存率及标准误。中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心生存率的标准误和总体生存率95%可信区间:从样本资料计算的生存率是总体生存率的点估计,可据此进行总体生存率的区间估计。中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中位生存时间(median survival time)p表示恰有50的个体还存活的时间。从意义上讲,这是一种百分数,但因有删失数据,不是寿命的真值,所以不能采用普通的百分位数的公
7、式计算。p生存函数S(t)0.5时,对应的时间即中位生存时间。中国疾病预防控制中心中国疾病预防控制中心p 图示法:结果不一定准确。生存率为0.5的曲线正好与x轴平行,那中位生存期不止一个;若曲线上生存率全大于0.5,中位生存时间无法估计。p 线性内插法:中国疾病预防控制中心中国疾病预防控制中心平均生存时间(mean survival time)p平均生存时间即生存曲线与 x及y轴围成的面积。中国疾病预防控制中心中国疾病预防控制中心2.寿命表法n例题2:某肿瘤医院总结随访了15年来曾在该医院住院手术的乳腺癌病人607例,结果见表2。拟分析该院乳腺癌病人手术后的生存率。中国疾病预防控制中心中国疾病
8、预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心三、生存曲线的比较 log-rank检验 n基本思想是:实际死亡数与期望死亡数之间的比较。它是对各组生存率作整体的比较;适用于两组及多组生存率的比较。n生存过程的比较:获得生存率与标准误后,进行两组或多组研究样本的生存率的比较。中国疾病预防控制中心中国疾病预防控制中心对数秩检验步骤1.将两组资料混合后统一从小到大排序;2.计算各组在时间 ti上的期望死亡数;3.分组对期望死亡数求和;4.计算卡方统计量。中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中
9、国疾病预防控制中心p例 3:22例期非小细胞肺癌患者在不同日期经随机化分配到放疗组和放化疗联合组,从缓解出院日开始随访,随访时间(月)如下,试比较放疗和放化疗联合两种治疗方案的生存曲线有无差别。p 第一组:放疗组 1,2,3,5,6,9,11,13,16,26,37p 第二组:放化疗联合组 10,11,14,18,22,22,26,32,38,40,42 中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心SAS程序pProc lifetest options;pTime variabl
10、e*censor(删失值);pStrata variable;pFreq 变量;pRun;中国疾病预防控制中心中国疾病预防控制中心选择项pMethod=PL /LT KM LIFE缺省为PL法p在LT法中,可规定 Intervals=一组数字 规定时间段的起点 Intervals=(o to n by n2)Width=value 寿命表计算时的区间宽度pPlots=(s,ls,lls,h)中国疾病预防控制中心中国疾病预防控制中心生存曲线的比较总结:生存曲线的比较总结:plog-rank检验检验p将两组非删失时间混合从小到大排序,得多个四格表,将两组非删失时间混合从小到大排序,得多个四格表,a
11、j和和ej分别为第分别为第j个四格表中某组死亡数的实际频数和理论频数,个四格表中某组死亡数的实际频数和理论频数,vj为为aj的方差。的方差。Group1Group2EventNoEventa bcd中国疾病预防控制中心中国疾病预防控制中心pWilcoxon检验检验(SPSS中称中称为为Breslow检验检验)paj和和ej分别为第分别为第j个四格表中某组死亡数的实际频数和个四格表中某组死亡数的实际频数和理论频数,理论频数,vj为为aj的方差。的方差。Nj为为第第j个四格表的例数。个四格表的例数。plog-rank检验检验与与Wilcoxon检验检验的公式相似,但的公式相似,但log-rank检
12、验权检验权重重为为1,而,而Wilcoxon检验检验的的权权重重为为Nj。中国疾病预防控制中心中国疾病预防控制中心pLog-rank检验和检验和Wilcoxon检验统计量的一检验统计量的一般形式:般形式:检验统计量检验统计量权重权重wjlog-rank检验检验1Wilcoxon检验检验中国疾病预防控制中心中国疾病预防控制中心p似然比似然比检验检验p其中其中N Nj j是第是第j j组的结局例数,组的结局例数,T Tj j是第是第j j组的总时间。组的总时间。p似然比检验与似然比检验与log-ranklog-rank检验、检验、WilcoxonWilcoxon检验不同,检验不同,通常用于服从指数
13、分布的数据。通常用于服从指数分布的数据。中国疾病预防控制中心中国疾病预防控制中心三种三种检验检验方法的方法的选择选择:p大大样样本情况下,三种方法的本情况下,三种方法的结结果是一致果是一致的;的;p文献中最常文献中最常报报道的是道的是log-rank检验检验;p三种三种检验结检验结果不一致果不一致时时,需,需结结合生存曲合生存曲线线、对对数生存曲数生存曲线线、二次、二次对对数生存曲数生存曲线线等来判断。等来判断。中国疾病预防控制中心中国疾病预防控制中心p生存曲线生存曲线(S)图:图:以生存率估以生存率估计值为纵计值为纵坐坐标标,时间为时间为横坐横坐标标。p对对数生存曲数生存曲线线(LS)图图:
14、以生存率估以生存率估计值计值的的对对数数为纵为纵坐坐标标,以,以时间为时间为横坐横坐标标。p二次二次对对数生存曲数生存曲线线(LLS)图图:以生存率估以生存率估计值计值的的对对数的数的对对数数为纵为纵坐坐标标,以,以时间时间的的对对数数为为横坐横坐标标。中国疾病预防控制中心中国疾病预防控制中心三种三种检验检验方法方法结结果不同果不同时选时选哪个?哪个?p似然比似然比检验检验:通常只用于:通常只用于LS图图近似近似为为直直线线,也就是服从指数分布的情形,其它情况下效也就是服从指数分布的情形,其它情况下效率率较较低。低。pLog-rank检验检验:当:当LLS图图中曲中曲线线近似近似为为直直线线时
15、时,或,或S图图的两条曲的两条曲线线大致平行大致平行时时,效率,效率较较高。高。pWilcoxon检验检验:当:当S图图中的曲中的曲线线有交叉有交叉时时,Wilcoxon检验检验的效率高于的效率高于log-rank检验检验和似和似然比然比检验检验。中国疾病预防控制中心中国疾病预防控制中心Logrank检验检验与与Wilcoxon检验检验比比较较:pWilcoxonWilcoxon检验对生存时间较短的个体赋予较大权重,检验对生存时间较短的个体赋予较大权重,更容易检验出早期的差异。更容易检验出早期的差异。pLogrankLogrank检验对所有死亡时间赋予相等的权重,对后期检验对所有死亡时间赋予相
16、等的权重,对后期曲线差别的检验更为敏感。曲线差别的检验更为敏感。p如果如果log-ranklog-rank检验有意义而检验有意义而WilcoxonWilcoxon检验无意义,表明检验无意义,表明远期的生存差异较大,近期生存差别不大。远期的生存差异较大,近期生存差别不大。p如果如果log-ranklog-rank检验无意义而检验无意义而WilcoxonWilcoxon检验有意义,表明检验有意义,表明近期生存差别较大,远期生存差异不大。近期生存差别较大,远期生存差异不大。p如果两种检验都有意义,则表明近期和远期的差异均如果两种检验都有意义,则表明近期和远期的差异均较大。较大。中国疾病预防控制中心中
17、国疾病预防控制中心四、Cox比例风险模型预后因素:p生存时间不仅与治疗措施有关,而且还与病人的年龄、体质、病情的轻重等有关,这类因素统称为预后因素或伴随变量或协变量。p预后因素可以是连续变量、离散型变量、Categorical,也可以是两个变量的交互项。中国疾病预防控制中心中国疾病预防控制中心(一)问题的提出p生存资料的特点;n存在删失数据n生存时间分布常常不服从正态分布p多重线性回归模型假设生存时间服从正态分布;plogistic须把生存时间分为二分类,损失信息;p拟合其它生存分布模型,必须预先知道生存时间的分布。中国疾病预防控制中心中国疾病预防控制中心(二)Cox比例风险模型1972年,由
18、英国的生物统计学家D.R.Cox提出比例风险模型。中国疾病预防控制中心中国疾病预防控制中心风险函数风险函数(hazard function)p描述生存时间分布的一个重要函数。如终点事件为死亡,风险函数表示t时刻仍存活的病人在t时刻的瞬间死亡率。称瞬时死亡率或条件死亡速率。中国疾病预防控制中心中国疾病预防控制中心p假设总共观察了n例病人。第i例病人的生存时间为ti,同时该病人具有Xi1、Xi2、Xip的伴随变量值。pCox提出的比例风险模型是:第i名病人生存到时间t的风险函数(hazard function)是基础风险函数与自变量的函数的乘积。中国疾病预防控制中心中国疾病预防控制中心中国疾病预防
19、控制中心中国疾病预防控制中心Cox比例风险模型ph0(t)称为基础风险函数。即当所有的伴随变量都为0时的风险函数。Cox模型是一个风险比对数的线性模型。中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心(三)的意义p相对风险度的自然对数;pj实际意义是:当伴随变量Xj每改变一个单位时所引起的相对风险度的自然对数的改变量;p不仅反映出协变量的作用强度,而且反映它的作用方向。中国疾病预防控制中心中国疾病预防控制中心(四)Cox模型比例风险的含义p假定所有预后因素的作用强度在所有时间上都保持一致;即具有某预后因素的病人的死亡风险和不具有该因素的病人的死亡风险在所有的时间
20、上都保持一个恒定的比例。p任两个个体(i,j)风险函数之比,即风险比(risk ratio或hazard ratio,HR)与 无关,也与时间t无关,即模型中的自变量效应不随时间而改变,称为比例风险假定(PH假定)。中国疾病预防控制中心中国疾病预防控制中心(五)验证等比例的方法p绘制协变量不同水平时的Kaplan-Meier曲线,如果曲线相交,则等比例风险不成立;p绘制协变量不同水平时log(log(生存率)与logT的趋势图,如几条线是平行的,则等比例成立;中国疾病预防控制中心中国疾病预防控制中心p在模型中增加协变量与时间的交互作用项,考察该交互作用项是否有统计学意义,如无统计学意义,则等比
21、例成立。pSchoenfeld残差法:如果Schoenfeld残差与时间t无明显的变化趋势,即残差与时间t无关,则提示符合等比例风险假设。pProc phreg;Proc GPLOT;pModel time*status(0)=group;Plot sch*time;pStrata age;Run;pOutput out=res ressch=sch;中国疾病预防控制中心中国疾病预防控制中心(六)Cox模型参数估计p采用部分最大似然估计(Partial Maximum Likelihood,PML)p通常的似然函数是基于结果变量的分布,而Cox模型没有假定任何分布,因此无法建立基于分布的似然函
22、数。pCox模型采用的是基于事件发生顺序而不是联合分布建立的函数,称为部分似然函数。中国疾病预防控制中心中国疾病预防控制中心部分最大似然估部分最大似然估计计(PML)思想:)思想:p考虑如下数据:考虑如下数据:p构建构建部分部分似然函数:似然函数:IDtimestatussmokingHazard甲211h0(t)exp(1)乙310h0(t)exp(0)丙500h0(t)exp(0)丁811h0(t)exp(1)中国疾病预防控制中心中国疾病预防控制中心p部分部分似然函数的推广:似然函数的推广:p假定有k个发生事件的时间,令Lj表示相应于第j个发生事件时间的似然值,则Cox回归的似然就是这k项
23、的乘积,即p令L达到最大的参数值,即为求回归参数的过程,通过对L取对数,对每个参数求偏导数,并令等于0,解方程组即可。中国疾病预防控制中心中国疾病预防控制中心(七)Cox模型参数检验p假设检验方法类似于logistic回归,有似然比检验和Wald检验。两种检验统计量均服从卡方分布,自由度等于模型中参数的个数。(1)Wald检验:检验:中国疾病预防控制中心中国疾病预防控制中心(2)似然比检验)似然比检验p大样本情况下,两种方法结果一致,样本较小时不一大样本情况下,两种方法结果一致,样本较小时不一致,通常似然比检验更加稳定。致,通常似然比检验更加稳定。中国疾病预防控制中心中国疾病预防控制中心p等比
24、例等比例Cox回回归归模型:模型:p非等比例非等比例Cox回回归归模型:模型:(八)非等比例Cox回归模型n参数估计方法,同等比例的Cox回归模型。n参数估计值的检验方法,同等比例的Cox回归模型。中国疾病预防控制中心中国疾病预防控制中心p如何处理非等比例:如何处理非等比例:(1)分层:将非等比例的变量分层,但作为分层的变量将无法估计其效应。因此一般只用于协变量。(2)分段估计:从交叉点处划分成多个区间,在每个区间内是等比例的,分别对每个区间估计。(3)在模型中加入非等比例变量与时间的交互项。中国疾病预防控制中心中国疾病预防控制中心例题p为探讨某恶性肿瘤的预后,收集了63例病人的生存时间、结局
25、及影响因素。影响因素包括病人的治疗方式、肿瘤的浸润程度、组织学类型、是否有淋巴结转移及病人的性别、年龄,生存时间以月计算,试用Cox模型进行分析。中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心SAS程序pProc phreg 选择项;pModel response*censor(删失值)=变量/选择项;pRun;中国疾病预防控制中心中国疾病预防控制中心Model语句选择项pSelection=method backward forward stepwisepDetails 详细输出每一步过程pInclude=n 模型中必
26、须包括前n个变量pSlentry=p1 slstay=p2 p1p2 pAlpha=置信水平pRisklimits 危险比的可信区间 中国疾病预防控制中心中国疾病预防控制中心pproc phreg data=ex17_5;pmodel t*y(1)=x1-x6/rl;prun;中国疾病预防控制中心中国疾病预防控制中心pproc phreg data=ex17_5;pmodel t*y(1)=x1-x6/rl;prun;中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心(九)应用Cox模型注意事项p对资料的分布类型没有要求;p样本量不宜过小,一般在40例以上,变量多
27、时,要求是变量个数的1015倍的阳性结局事件数;p要求因素的效应不随时间变化;p统计学上有关的因子,不一定有因果关系,可能有伴随关系;中国疾病预防控制中心中国疾病预防控制中心p因子之间可能存在相关性,因此结合专业知识和统计分析综合权衡;pCox回归的生存率不同资料间不宜相互比较,因为基础风险函数只在同一份资料中保持相同;中国疾病预防控制中心中国疾病预防控制中心p生存曲线不能任意延长,也不能轻易用于预测;pCox模型与logistic回归模型的关系 两者都可以估计相应因素的相对危险度;但logistic回归只考虑了事件的结果且作为二分类变量,而没有考虑生存时间的长短。中国疾病预防控制中心中国疾病预防控制中心Cox回归模型的分析步骤:p模型的选取,包括确定自变量;pPH假定条件验证;p单因素分析;p多因素分析;p模型诊断(模型拟合优度、残差分析、相关性);p统计结论。五、小结中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心中国疾病预防控制中心