资源描述
第十九章第十九章 生存分析生存分析Survival Analysis公共卫生与管理学院公共卫生与管理学院叶晓蕾叶晓蕾2一、生存分析的意义一、生存分析的意义 生存分析不仅仅是字面上的生存分析不仅仅是字面上的生存分析不仅仅是字面上的生存分析不仅仅是字面上的“生存分析生存分析生存分析生存分析”,它,它,它,它代表了一种基本的分析思想。代表了一种基本的分析思想。代表了一种基本的分析思想。代表了一种基本的分析思想。原义:原义:原义:原义:生存分析原先是用来分析特定人群的生命过程生存分析原先是用来分析特定人群的生命过程生存分析原先是用来分析特定人群的生命过程生存分析原先是用来分析特定人群的生命过程或死亡过程的统计方法。该人群出生后,按照一定或死亡过程的统计方法。该人群出生后,按照一定或死亡过程的统计方法。该人群出生后,按照一定或死亡过程的统计方法。该人群出生后,按照一定的年龄组死亡率先后死去,直到全部死亡为止,用的年龄组死亡率先后死去,直到全部死亡为止,用的年龄组死亡率先后死去,直到全部死亡为止,用的年龄组死亡率先后死去,直到全部死亡为止,用统计学方法推算出该人群在不同年龄组的统计学方法推算出该人群在不同年龄组的统计学方法推算出该人群在不同年龄组的统计学方法推算出该人群在不同年龄组的“生存概生存概生存概生存概率率率率”、“预期寿命预期寿命预期寿命预期寿命”等指标。等指标。等指标。等指标。3 原理及方法在其他领域的应用原理及方法在其他领域的应用 利用生存分析的原理和方法,利用生存分析的原理和方法,利用生存分析的原理和方法,利用生存分析的原理和方法,把把把把“出生出生出生出生”、“死亡死亡死亡死亡”的涵义稍加变通的涵义稍加变通的涵义稍加变通的涵义稍加变通,在医学研究中可以有广泛的应,在医学研究中可以有广泛的应,在医学研究中可以有广泛的应,在医学研究中可以有广泛的应用。用。用。用。4应用举例:应用举例:应用举例:应用举例:观察某观察某“手术或化疗手术或化疗”对恶性肿瘤病人的疗效,可将对恶性肿瘤病人的疗效,可将“手术或化疗手术或化疗”代替代替“出生出生”,用生存分析来分析接,用生存分析来分析接受该处理患者的生存时间以及活过某时点的概率。受该处理患者的生存时间以及活过某时点的概率。以第一次心肌梗死代替以第一次心肌梗死代替“出生出生”,以第二次心肌梗死,以第二次心肌梗死代替代替“死亡死亡”,用生存分析可以预计在多少年或月内,用生存分析可以预计在多少年或月内发生第二次心肌梗死的概率。发生第二次心肌梗死的概率。一般而言,能够明确划分一般而言,能够明确划分起止点起止点起止点起止点的现象,即凡的现象,即凡涉及事物寿命现象的问题,均可以用生存分析的原涉及事物寿命现象的问题,均可以用生存分析的原理和方法来进行研究。理和方法来进行研究。5二、生存分析的基本概念二、生存分析的基本概念(一)(一)(一)(一)生存分析的基本术语生存分析的基本术语生存分析的基本术语生存分析的基本术语(二)(二)(二)(二)随访内容随访内容随访内容随访内容(三)(三)(三)(三)随访方式随访方式随访方式随访方式(四)(四)(四)(四)生存分析的主要内容生存分析的主要内容生存分析的主要内容生存分析的主要内容6(一)生存分析的基本术语(一)生存分析的基本术语1、“死亡死亡”事件或称失败事件事件或称失败事件(failure event)2、截尾值、截尾值(censored value)3、生存时间、生存时间(survival time)4、生存率、生存率(survival rate)71 1 1 1、“死亡死亡死亡死亡”事件或称失败事件事件或称失败事件事件或称失败事件事件或称失败事件(failure event)(failure event)(failure event)(failure event):表示观察到随访对象出现了我们所规定的结局,是表示观察到随访对象出现了我们所规定的结局,是表示观察到随访对象出现了我们所规定的结局,是表示观察到随访对象出现了我们所规定的结局,是反映处理因素失败或失效的特征。如乳腺癌病人手反映处理因素失败或失效的特征。如乳腺癌病人手反映处理因素失败或失效的特征。如乳腺癌病人手反映处理因素失败或失效的特征。如乳腺癌病人手术后复发、肾移植病人肾功能衰竭、白血病患者化术后复发、肾移植病人肾功能衰竭、白血病患者化术后复发、肾移植病人肾功能衰竭、白血病患者化术后复发、肾移植病人肾功能衰竭、白血病患者化疗后的复发等。疗后的复发等。疗后的复发等。疗后的复发等。失败事件的认定是生存分析的基石,必须绝对准确。失败事件的认定是生存分析的基石,必须绝对准确。失败事件的认定是生存分析的基石,必须绝对准确。失败事件的认定是生存分析的基石,必须绝对准确。注意:注意:注意:注意:失效事件应当由研究目的而定,并非一定是失效事件应当由研究目的而定,并非一定是失效事件应当由研究目的而定,并非一定是失效事件应当由研究目的而定,并非一定是死亡,而死亡也并非一定是失败事件。死亡,而死亡也并非一定是失败事件。死亡,而死亡也并非一定是失败事件。死亡,而死亡也并非一定是失败事件。82、截尾值、截尾值(censored value):删失值。:删失值。有的观察对象终止随访不是由于失败事件发生,有的观察对象终止随访不是由于失败事件发生,而是由于而是由于中途失访、死于其它原因、随访截止中途失访、死于其它原因、随访截止。由由于不知道这些观察对象发生失败事件的时间,他们于不知道这些观察对象发生失败事件的时间,他们的资料不能提供完全的信息,这些对象的观察值称的资料不能提供完全的信息,这些对象的观察值称为截尾值,常用符号为截尾值,常用符号“+”表示。如表示。如140+天。天。93、生存时间、生存时间(survival time)即随访观察持续的实足时间,按失败事件发生或即随访观察持续的实足时间,按失败事件发生或失访前最后一次的随访时间记录。按天、周、月、失访前最后一次的随访时间记录。按天、周、月、年等时间单位记录,常用符号年等时间单位记录,常用符号t表示。表示。一般情况下较细的时间单位准确性较高,应尽量一般情况下较细的时间单位准确性较高,应尽量以个体为单位采用较细的时间单位来记录。但在许以个体为单位采用较细的时间单位来记录。但在许多大型的随访中,不可能做到按个体记录,常见的多大型的随访中,不可能做到按个体记录,常见的是按固定时间段(如一月一次等)记录有多少人失是按固定时间段(如一月一次等)记录有多少人失访及多少人发生失败事件,此为分组生存资料。访及多少人发生失败事件,此为分组生存资料。10l如某病人如某病人1990年年2月月1日进入随访,日进入随访,1992年年4月间发生月间发生失败事件,他的生存时间为失败事件,他的生存时间为t=26月;月;l 又如某白血病患者化疗又如某白血病患者化疗3月后失去联系,他的随访月后失去联系,他的随访结果为一截尾值,生存时间记为结果为一截尾值,生存时间记为t=3+月;月;l 安放心脏起搏器患者术后安放心脏起搏器患者术后2年因意外事故死亡,他年因意外事故死亡,他的随访结果也为一截尾值,生存时间记为的随访结果也为一截尾值,生存时间记为t=2+年。年。l某医院对某医院对100100例原发性肝癌例原发性肝癌生存情况随访结果生存情况随访结果114、生存率、生存率(survival rate)实际应当是生存概率,指某个观察对象活过实际应当是生存概率,指某个观察对象活过t时时刻的概率,常用刻的概率,常用P(Xt)表示。如表示。如P(X10)表示某对表示某对象活过象活过10天天(或或10月、月、10年年)的概率。的概率。根据不同随访资料的失败事件,生存率可以是根据不同随访资料的失败事件,生存率可以是缓解率、有效率等。缓解率、有效率等。12(二)随访内容(二)随访内容1、每个观察对象有明确的开始随访时间、每个观察对象有明确的开始随访时间2、随访结局和终止随访时间、随访结局和终止随访时间3、记录影响生存的有关因素、记录影响生存的有关因素13随访结局和终止随访时间随访结局和终止随访时间(1)“死亡死亡”:即处理失败,终止随访时间为:即处理失败,终止随访时间为“死死亡亡”时间。时间。(2)中途失访:如失去联系、中途退出等,终止随)中途失访:如失去联系、中途退出等,终止随访时间为最后一次访问时间为准。访时间为最后一次访问时间为准。(3)死于其它与研究疾病无关的原因,终止随访时)死于其它与研究疾病无关的原因,终止随访时间为死亡时间。间为死亡时间。(4)随访截止:随访研究结束时观察对象仍存活,)随访截止:随访研究结束时观察对象仍存活,终止随访时间为研究结束时间。终止随访时间为研究结束时间。14记录影响生存的有关因素记录影响生存的有关因素 如病人年龄、病程、健康状况、经济、文化、如病人年龄、病程、健康状况、经济、文化、职业等因素,以便分析这些因素对生存率的影响。职业等因素,以便分析这些因素对生存率的影响。15随访资料数据的特点:随访资料数据的特点:(1)应变量有两个,即生存时间(天数)和结局(死亡与否)。)应变量有两个,即生存时间(天数)和结局(死亡与否)。(2)生存时间存在观察不完全的数据。)生存时间存在观察不完全的数据。18(四)生存分析的主要内容和基本方法(四)生存分析的主要内容和基本方法1、描述生存过程、描述生存过程 研究人群生存状态的规律,如生存时间的分布特研究人群生存状态的规律,如生存时间的分布特点,计算某个时点的生存率、生存率曲线的变动趋势点,计算某个时点的生存率、生存率曲线的变动趋势等。等。例如根据白血病化疗后的缓解年数资料,可以估例如根据白血病化疗后的缓解年数资料,可以估计不同年数的缓解率计不同年数的缓解率P(Xt),如,如P(X3)、P(X5)等,等,也可以获得这些病人的缓解率曲线。也可以获得这些病人的缓解率曲线。常用方法:常用方法:乘积极限法乘积极限法乘积极限法乘积极限法和和寿命表法寿命表法寿命表法寿命表法。192、比较生存过程、比较生存过程 两组或多组生存曲线比较。两组或多组生存曲线比较。常用方法:常用方法:对数秩检验对数秩检验、Gehan比分检验、比分检验、Breslow检验。检验。203、生存过程的影响因素分析、生存过程的影响因素分析 比较不同亚人群的生存状况,进行两组或多组生比较不同亚人群的生存状况,进行两组或多组生存率比较,以了解哪些因素会影响目标人群的生存过存率比较,以了解哪些因素会影响目标人群的生存过程,这是生存分析方法最重要的研究内容,在临床医程,这是生存分析方法最重要的研究内容,在临床医学中应用非常广泛。学中应用非常广泛。例如分析影响乳腺癌病人手术后预后的因素,可例如分析影响乳腺癌病人手术后预后的因素,可以是病人的年龄、病程、术前健康状况、有无淋巴结以是病人的年龄、病程、术前健康状况、有无淋巴结转移、术后有无感染、辅助治疗措施、营养等。转移、术后有无感染、辅助治疗措施、营养等。CoxCoxCoxCox比例风险回归模型比例风险回归模型比例风险回归模型比例风险回归模型。21三、生存资料的统计描述和生存三、生存资料的统计描述和生存率的区间估计率的区间估计(一)未分组资料的生存分析(一)未分组资料的生存分析(一)未分组资料的生存分析(一)未分组资料的生存分析(小样本小样本小样本小样本,原始数据形式原始数据形式原始数据形式原始数据形式)用乘积极限法用乘积极限法用乘积极限法用乘积极限法(product-limited estimates)(product-limited estimates);又称又称又称又称Kaplan-MeierKaplan-Meier法,是一种非参数方法,主要适用于法,是一种非参数方法,主要适用于法,是一种非参数方法,主要适用于法,是一种非参数方法,主要适用于观察例数不多时。观察例数不多时。观察例数不多时。观察例数不多时。例:某种治疗方案治疗例:某种治疗方案治疗期肺癌患者期肺癌患者11例,随访时间例,随访时间(月月)记记录如下:录如下:l,2,3,5,6,9+,11,13,16,26,37+试估计各时点生存率及其标准误。试估计各时点生存率及其标准误。221、生存率的计算、生存率的计算2324252、生存率曲线、生存率曲线 未分组资料的生存率曲线也称未分组资料的生存率曲线也称未分组资料的生存率曲线也称未分组资料的生存率曲线也称KaplanKaplanKaplanKaplanMeierMeierMeierMeier曲线,曲线,曲线,曲线,它是以时间它是以时间它是以时间它是以时间t t t t为横轴,生存率为横轴,生存率为横轴,生存率为横轴,生存率P(Xt)P(Xt)P(Xt)P(Xt)为纵轴,水平横为纵轴,水平横为纵轴,水平横为纵轴,水平横线的长短代表一个线的长短代表一个线的长短代表一个线的长短代表一个t t t t时点到下一个时点到下一个时点到下一个时点到下一个t t时点的距离,从而时点的距离,从而时点的距离,从而时点的距离,从而表示时间与生存率关系的曲线。表示时间与生存率关系的曲线。表示时间与生存率关系的曲线。表示时间与生存率关系的曲线。26生存率曲线阶梯曲线生存率曲线阶梯曲线(Kaplan-Meier曲线)曲线)27 由图可直观地比较各样本的生存率曲线,由图可直观地比较各样本的生存率曲线,也可对某一病例任意时刻的生存率作出估计,也可对某一病例任意时刻的生存率作出估计,反之亦可由任意生存率估计生存时间。反之亦可由任意生存率估计生存时间。本例本例中位生存时间中位生存时间为为1111个月。个月。中位生存时间常用于比较随访资料。中位生存时间常用于比较随访资料。283、总体生存率可信区间的估计、总体生存率可信区间的估计 用正态近似原理估计某时点总体生存率的可信区用正态近似原理估计某时点总体生存率的可信区用正态近似原理估计某时点总体生存率的可信区用正态近似原理估计某时点总体生存率的可信区间。间。间。间。如本例如本例如本例如本例6 6个月生存率的个月生存率的个月生存率的个月生存率的95%95%可信区间为:可信区间为:可信区间为:可信区间为:29(二)分组资料的生存分析(二)分组资料的生存分析(二)分组资料的生存分析(二)分组资料的生存分析1 1 1 1、当当当当随随随随访访访访资资资资料料料料的的的的例例例例数数数数较较较较多多多多(如如如如n50)n50)n50)n50)时时时时,可可可可先先先先将将将将原原原原始始始始资资资资料料料料分分分分组组组组再进行分析。再进行分析。再进行分析。再进行分析。2 2 2 2、很很很很多多多多随随随随访访访访研研研研究究究究设设设设计计计计的的的的随随随随访访访访时时时时间间间间是是是是一一一一年年年年或或或或一一一一个个个个月月月月一一一一次次次次,随随随随访访访访结结结结果果果果只只只只有有有有该该该该年年年年或或或或该该该该月月月月期期期期间间间间的的的的若若若若干干干干观观观观察察察察人人人人数数数数、发发发发生生生生失失失失败败败败事事事事件件件件人人人人数数数数和和和和截截截截尾尾尾尾人人人人数数数数,没没没没有有有有各各各各个个个个病病病病例例例例的的的的确确确确切切切切观观观观察察察察时时时时间间间间,所所所所获获获获得得得得的的的的资资资资料料料料只只只只能视为分组资料能视为分组资料能视为分组资料能视为分组资料。应用:应用:应用:应用:30 分分分分组组组组资资资资料料料料的的的的生生生生存存存存率率率率估估估估计计计计使使使使用用用用寿寿寿寿命命命命表表表表(life(life(life(life table)table)table)table)法,这也是一种非参数统计方法。法,这也是一种非参数统计方法。法,这也是一种非参数统计方法。法,这也是一种非参数统计方法。方法:方法:方法:方法:31例某医院对例某医院对100100例原发性肝癌患者确诊后进行随例原发性肝癌患者确诊后进行随访,得资料见下表,根据此资料进行分组资料生存率访,得资料见下表,根据此资料进行分组资料生存率和标准误的计算。和标准误的计算。323334生存率曲线生存率曲线与未分组资料的生存率与未分组资料的生存率曲线的不同之处是:曲线的不同之处是:生存率的各点在各生存率的各点在各组段的上限处,用折线组段的上限处,用折线连接各点。连接各点。35总体生存率可信区间的估计总体生存率可信区间的估计用正态近似原理估计某时点总体生存率的可信区用正态近似原理估计某时点总体生存率的可信区间。间。如本例如本例3个月时生存率的个月时生存率的95%可信区间为:可信区间为:36四、两样本生存率曲线的比较四、两样本生存率曲线的比较1 1 1 1、两时点生存率的比较、两时点生存率的比较、两时点生存率的比较、两时点生存率的比较 对于大样本资料,根据正态近似原理,可用对于大样本资料,根据正态近似原理,可用对于大样本资料,根据正态近似原理,可用对于大样本资料,根据正态近似原理,可用u u u u检验。检验。检验。检验。该该该该法法法法是是是是正正正正态态态态近近近近似似似似法法法法,当当当当样样样样本本本本的的的的生生生生存存存存率率率率很很很很小小小小或或或或很很很很大大大大,如如如如小小小小于于于于0.050.050.050.05,或或或或大大大大于于于于0.990.990.990.99,或或或或各各各各组组组组死死死死亡亡亡亡人人人人数数数数、生生生生存人数少于存人数少于存人数少于存人数少于5 5 5 5时,该方法误差较大;时,该方法误差较大;时,该方法误差较大;时,该方法误差较大;由于该法只检验某时点两样本生存率的差别有无由于该法只检验某时点两样本生存率的差别有无由于该法只检验某时点两样本生存率的差别有无由于该法只检验某时点两样本生存率的差别有无统计学意义,而不能对整个生存期作出评价。统计学意义,而不能对整个生存期作出评价。统计学意义,而不能对整个生存期作出评价。统计学意义,而不能对整个生存期作出评价。37两样本生存曲线比较两样本生存曲线比较两样本生存曲线比较两样本生存曲线比较对数秩检验对数秩检验对数秩检验对数秩检验(log-rank(log-rank(log-rank(log-rank test)test)test)test)其基本思想是如果无效假设成立,即两总体生存其基本思想是如果无效假设成立,即两总体生存其基本思想是如果无效假设成立,即两总体生存其基本思想是如果无效假设成立,即两总体生存曲线无差别时,则两种处理在各个时期的实际死亡数曲线无差别时,则两种处理在各个时期的实际死亡数曲线无差别时,则两种处理在各个时期的实际死亡数曲线无差别时,则两种处理在各个时期的实际死亡数与理论死亡数不会相差太大,否则应认为无效假设不与理论死亡数不会相差太大,否则应认为无效假设不与理论死亡数不会相差太大,否则应认为无效假设不与理论死亡数不会相差太大,否则应认为无效假设不可能成立,两条生存率曲线差异有统计学意义。可能成立,两条生存率曲线差异有统计学意义。可能成立,两条生存率曲线差异有统计学意义。可能成立,两条生存率曲线差异有统计学意义。四、两样本生存率曲线的比较四、两样本生存率曲线的比较38对数秩检验对数秩检验(log-rank test)公式:公式:当有当有当有当有 T T5 5 时,用校正公式。时,用校正公式。时,用校正公式。时,用校正公式。39 例例例例 22222222例例例例期期期期非非非非小小小小细细细细胞胞胞胞肺肺肺肺癌癌癌癌患患患患者者者者在在在在不不不不同同同同日日日日期期期期经经经经随随随随机机机机化化化化分分分分配配配配到到到到放放放放疗疗疗疗组组组组和和和和放放放放化化化化疗疗疗疗联联联联合合合合组组组组,从从从从缓缓缓缓解解解解出出出出院院院院日日日日开开开开始始始始随随随随访访访访,随随随随访访访访时时时时间间间间(月月月月)如如如如下下下下,试试试试比比比比较较较较放放放放疗疗疗疗和和和和放放放放化化化化疗疗疗疗联联联联合合合合两两两两种治疗方案的生存率曲线有无差别。种治疗方案的生存率曲线有无差别。种治疗方案的生存率曲线有无差别。种治疗方案的生存率曲线有无差别。放疗组放疗组放疗组放疗组 1 1 1 1,2 2 2 2,3 3 3 3,5 5 5 5,6 6 6 6,9 9 9 9+,11111111,13131313,16161616,26262626,37373737+放放放放化化化化疗疗疗疗联联联联合合合合组组组组 10101010,11111111+,14141414,18181818,22222222,22222222,26262626,32323232,38383838,40404040+,42424242+40两组生存率曲线的比较两组生存率曲线的比较41H H0 0:单放疗组与放化疗组的生存率曲线分布相同:单放疗组与放化疗组的生存率曲线分布相同H H1 1:单放疗组与放化疗组的生存率曲线分布不同:单放疗组与放化疗组的生存率曲线分布不同 =0.05=0.05计算检验统计量:计算检验统计量:X X2 2=4.65=4.65,得得 P=0.03P=0.03按按 =0.05=0.05水准,拒绝水准,拒绝H H0 0 ,接受,接受H H1 1 ,故认为,故认为单放单放疗组与放化疗组的生存率曲线分布不同疗组与放化疗组的生存率曲线分布不同。Cox风险比例回归风险比例回归(Cox regression)47一一.Cox.Cox回归简介回归简介v用途:用途:专门用于生存时间的多变量分析法。专门用于生存时间的多变量分析法。v模型结构:模型结构:设共有设共有n例病人,第例病人,第i(i=1,2,n)例病人的生存例病人的生存时间为时间为ti,并且有并且有p个预后因素个预后因素Xi1,Xi2,Xip。该病人生存到时间该病人生存到时间ti时死亡风险函数(时死亡风险函数(hazard function)hi(t)是基准风险函数是基准风险函数h0(t)与预后因素)与预后因素函数函数f(jX)的乘积,而预后因素函数为:的乘积,而预后因素函数为:f(jX)=exp(1Xi1+2Xi2+pXip)48vCox回归假定病人的风险函数为:回归假定病人的风险函数为:hi(t)=h0(t)exp(1Xi1+2Xi2+pXip)式中:式中:hi(t)风险函数,又称风险率或瞬间死亡率风险函数,又称风险率或瞬间死亡率(instantaneous failure rate)H0(t)基准风险函数,是当所有预后因素都处于基准风险函数,是当所有预后因素都处于0(或标准)状态下的风险函数(或标准)状态下的风险函数X观察变量观察变量j回归系数(回归系数(j=1,2,p)49对上式进行变换,可得:对上式进行变换,可得:由此可知,由此可知,j的临床意义是:的临床意义是:在其它预后因素固定不变的情况下,预后因素在其它预后因素固定不变的情况下,预后因素Xj每改变一每改变一个观察单位时所引起的相对风险度改变量的自然对数值。个观察单位时所引起的相对风险度改变量的自然对数值。当当j0时,时,Xj增加使相对风险度增加,是危险因素;增加使相对风险度增加,是危险因素;当当j0时,时,Xj增加使相对风险度减少,是保护因素。增加使相对风险度减少,是保护因素。50v例:例:某医药公司与中山医科大学协作,研究天花粉注射治疗某医药公司与中山医科大学协作,研究天花粉注射治疗绒癌的疗效问题。将绒癌的疗效问题。将16只体表接种绒癌成功只体表接种绒癌成功 的裸鼠分为的裸鼠分为4组,组,其中一组作空白对照,其余三组分别注射天花粉、甲药和乙其中一组作空白对照,其余三组分别注射天花粉、甲药和乙药,实验记录和整理数据如表,试作药,实验记录和整理数据如表,试作Cox回归分析。回归分析。SPSS过程过程5152vCox回归变量筛选回归变量筛选当变量数目较多或质量较差时,在建立多因素当变量数目较多或质量较差时,在建立多因素模型之前,必须对变量作初步的筛选。模型之前,必须对变量作初步的筛选。1.一般方法:剔去缺失数据较多,或变异程度一般方法:剔去缺失数据较多,或变异程度几乎为几乎为0的变量(如的变量(如X6)。)。532.单变量模型方法:可用单变量模型方法:可用Cox回归前进法筛选变量,回归前进法筛选变量,取变量筛选第取变量筛选第0步的步的Score检验结果,作为单变量检验结果,作为单变量Cox回归分析结果。回归分析结果。其中其中X4的的P=0.924,可将其剔除。,可将其剔除。54v变量的危险比(变量的危险比(risk ratio)risk ratio)RR=EXP(B)RR=EXP(B)表示协变量增加一个单位,危险度改变多少倍。表示协变量增加一个单位,危险度改变多少倍。55
展开阅读全文