资源描述
生存分析生存分析Survival AnalysisTo be or not to be is only a part of the question.The question also includes how long to be.o生存分析生存分析是将结局(是将结局(outcome)或终点)或终点事件(事件(terminal event)和出现这一结局)和出现这一结局所经历的时间结合起来分析的一种统计所经历的时间结合起来分析的一种统计分析方法。分析方法。生存分析不同于其它多因素分析的主要生存分析不同于其它多因素分析的主要区别点就是生存分析考虑了每个观测出区别点就是生存分析考虑了每个观测出现某一结局的时间长短。现某一结局的时间长短。第一节第一节 概述概述生存分析的历史生存分析的历史o17、18世纪:寿命表世纪:寿命表o1926年:年:Greenwood公式公式o1958年:年:Kaplan-Meier法法o1960年代中叶:年代中叶:广义广义Wilcoxon检验(检验(Gehan,1965年)年)log-rank test(Mantel,1966年)年)o1970年:参数模型年:参数模型o1972年年:半参数模型(半参数模型(Cox比例风险模型)比例风险模型)基本概念基本概念p失效事件(失效事件(failure event)“死亡死亡”事件或失败事件,表示观察到随事件或失败事件,表示观察到随访对象出现了我们所规定的结局。如乳访对象出现了我们所规定的结局。如乳腺癌病人手术后复发、白血病患者化疗腺癌病人手术后复发、白血病患者化疗后的复发等。后的复发等。基本概念基本概念p截尾值(截尾值(censored value)有的观察对象终止随访不是由于失效事件有的观察对象终止随访不是由于失效事件发生,而是无法具体随访下去。发生,而是无法具体随访下去。原因包括:原因包括:生存但中途失访:拒绝访问、失去联系、退出试验;生存但中途失访:拒绝访问、失去联系、退出试验;死于其他与研究无关的原因,如自杀或因车祸死亡,死于其他与研究无关的原因,如自杀或因车祸死亡,终止随访时间为死亡时间;终止随访时间为死亡时间;随访截止:随访研究结束时观察对象仍存活。随访截止:随访研究结束时观察对象仍存活。由于不知道这些观察对象发生失效事件的时间,由于不知道这些观察对象发生失效事件的时间,他们的资料不能提供完全的信息,这些对象的他们的资料不能提供完全的信息,这些对象的观察值称为截尾值(或删失),用观察值称为截尾值(或删失),用“+”表示。表示。基本概念基本概念o生存时间生存时间-t(survival time,failure time)终点事件终点事件与与起始事件起始事件之间的时间间隔。之间的时间间隔。终点事件指研究者所关心的特定结局。终点事件指研究者所关心的特定结局。起始事件是反映研究对象生存过程的起起始事件是反映研究对象生存过程的起 始特征的事件。始特征的事件。生存时间生存时间例例1:大肠癌患者从:大肠癌患者从手术切除手术切除开始到开始到死死 亡亡的时间。的时间。例例2:毒理学实验从小白鼠被:毒理学实验从小白鼠被染毒染毒开始开始 到由于中毒而到由于中毒而死亡死亡的时间。的时间。例例3:药物临床试验病人从:药物临床试验病人从服药服药开始到开始到 痊愈痊愈的时间。的时间。例例4:劳动卫生学铅作业工人:劳动卫生学铅作业工人职业性铅职业性铅 接触接触开始到出现开始到出现重症铅中毒重症铅中毒症状症状 的时间。的时间。o终点事件和起始事件是相对而言的,终点事件和起始事件是相对而言的,它们都由研究目的决定,须在设计时它们都由研究目的决定,须在设计时明确规定,并在研究期间严格遵守,明确规定,并在研究期间严格遵守,不能随意改变。不能随意改变。生存时间的类型生存时间的类型1.完全数据完全数据(complete data)从起点至死亡(死于所研究疾病)所经历从起点至死亡(死于所研究疾病)所经历的时间。的时间。2.删失数据删失数据(censored data)从起点至删失点所经历的时间。从起点至删失点所经历的时间。随访研究随访研究(follow-up study)示意图示意图合格的合格的研究对象研究对象出现结果出现结果尚未出现结果尚未出现结果 失访、脱落失访、脱落试验组试验组对照组对照组伴随因素干扰因素 随访研究中的完全数据与截尾数据随访研究中的完全数据与截尾数据观察起点观察起点观察终点观察终点5 6123 4 起点事件 终点事件 失访某医院泌尿外科医师选择某医院泌尿外科医师选择1996-2000年间经手年间经手术治疗的膀胱肿瘤患者,对可能影响膀胱术治疗的膀胱肿瘤患者,对可能影响膀胱肿瘤术后生存的因素进行了调查,研究者肿瘤术后生存的因素进行了调查,研究者不仅要看是否出现了感兴趣的终点事件或不仅要看是否出现了感兴趣的终点事件或结局(死亡),还关心出现该结局所经历结局(死亡),还关心出现该结局所经历的时间长短。随访截止日期为的时间长短。随访截止日期为2000年年12月月30日。研究因素及分组见表日。研究因素及分组见表1。随访记录见随访记录见表表2 2。表1 膀胱肿瘤患者生存资料变量赋值表变量 因素 分组及赋值age 年龄 岁grade 肿瘤分级 I级:1;II级:2;III级:3size 肿瘤大小(cm)3.0:0;3.0:1relapse 是否复发 未复发:0;复发:1start 手术日期 月/日/年end 终止观察日期 月/日/年t 生存时间 月status 生存结局 删失:0;死亡:1 表2 膀胱肿瘤患者生存资料原始记录表id age grade size relapse start end t status 结局1 62 1 0 0 02/10/1996 12/30/2000 59 0 存活2 64 1 0 0 03/05/1996 08/12/2000 54 1 死亡3 52 2 0 1 04/09/1996 12/03/1999 44 0 失访4 60 1 0 0 06/06/1996 10/27/2000 53 0死于其它5 59 2 1 0 07/20/1996 06/21/1998 23 1 死亡6 59 1 1 1 08/19/1996 09/10/1999 37 1 死亡o生存时间的度量单位可以是年、月、生存时间的度量单位可以是年、月、日、小时等。常用符号日、小时等。常用符号t表示,删失数据在表示,删失数据在其右上角标记其右上角标记“+”。o生存资料的主要特点:生存资料的主要特点:n含有删失数据,常见右删失。含有删失数据,常见右删失。n生存时间的分布一般不呈正态分布。生存时间的分布一般不呈正态分布。o死亡概率死亡概率(probability of death)某时段开始时存活的个体,在该时段内死亡的可能性。p生存概率生存概率(probability of survival)表示某时段开始时存活的个体,到该时段结束时仍存活的可能性。o生存率(生存函数)生存率(生存函数)-生存概率:生存概率:(survival rate,survival function)指观察对象经历指观察对象经历t个单位时段后仍存活的个单位时段后仍存活的可能性。可能性。无删失数据生存率实质上是累积生存概率(生存率实质上是累积生存概率(cumulative probability of survival),是多个时段的累),是多个时段的累积结果。积结果。删失数据 分段计算生存概率。假定观察对象在各个时段的生分段计算生存概率。假定观察对象在各个时段的生存事件独立,应用概率乘法定理将分时段的生存概存事件独立,应用概率乘法定理将分时段的生存概率相乘得到生存率率相乘得到生存率。生存率实质上是累积生存概率(生存率实质上是累积生存概率(cumulative probability of survival),是多个时段的累),是多个时段的累积结果。积结果。如:如:3年生存率是第年生存率是第1年存活,第年存活,第2年也存活,年也存活,第第3年还存活的可能性。年还存活的可能性。生存率生存率的区间估计的区间估计标准误标准误生存率近似服从正态分布生存率近似服从正态分布o风险函数(风险函数(hazard function)n生存时间已达生存时间已达t的人的瞬时失效率,的人的瞬时失效率,h(t).n风险函数和生存函数的关系为:风险函数和生存函数的关系为:h(t)=dS(t)/dto生存曲线(生存曲线(survival curve)n以观察(随访)时间为横轴,以生存率以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。连接在一起的曲线图。n生存曲线是一条下降的曲线,分析时应生存曲线是一条下降的曲线,分析时应注意曲线的高度和下降的坡度。平缓的注意曲线的高度和下降的坡度。平缓的生存曲线表示高生存率或较长生存期,生存曲线表示高生存率或较长生存期,陡峭的生存曲线表示低生存率或较短生陡峭的生存曲线表示低生存率或较短生存期。存期。o中位生存期(中位生存期(median survival time)n又称半数生存期,表示恰好有又称半数生存期,表示恰好有50的个体的个体尚存活的时间。尚存活的时间。n中位生存期越长,表示疾病的预后越好;中位生存期越长,表示疾病的预后越好;中位生存期越短,预后越差。中位生存期越短,预后越差。n估计中位生存期常用图解法或线性内插法。估计中位生存期常用图解法或线性内插法。生存资料统计学处理方法生存资料统计学处理方法o估估计计:根根据据样样本本生生存存资资料料估估计计总总体体生生存存率率及及其其它有关指标。它有关指标。-寿命表法,寿命表法,Kaplan-Meier法法o比较比较:对不同处理组生存率进行比较。:对不同处理组生存率进行比较。-log-rank检验检验n影影响响因因素素分分析析:研研究究某某个个或或某某些些因因素素对对生生存存率率的影响。的影响。-Cox回归模型回归模型n预测预测:个体生存预测:个体生存预测-Cox回归模型回归模型生存资料基本要求生存资料基本要求o样本由随机抽样方法获得,要有一定的数量。样本由随机抽样方法获得,要有一定的数量。o死亡例数不能太少。死亡例数不能太少。o删失比例不能太大。删失比例不能太大。o生生存存时时间间尽尽可可能能准准确确。因因为为常常用用的的生生存存分分析析方方法法都都在在生生存存时时间间排排序序的的基基础础上上作作统统计计处处理理,即即使使是是小小小小的的舍舍入入误误差差,也也可可能能改改变变生生存存时时间顺序而影响结果。间顺序而影响结果。o缺项应尽量补齐。缺项应尽量补齐。第二节第二节 生存率的估计与生存曲线生存率的估计与生存曲线一、大样本资料的生存率估计一、大样本资料的生存率估计o生存率的计算生存率的计算 寿命表法(寿命表法(life table method)o生存曲线生存曲线o举例举例p以生存时间为横轴,生存率为纵轴,将各个时以生存时间为横轴,生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图称为间点所对应的生存率连接在一起的曲线图称为生存曲线(生存曲线(survival curve),呈折线形呈折线形 某恶性肿瘤生存曲线(寿命表法)某恶性肿瘤生存曲线(寿命表法)p该恶性肿瘤患者确诊后该恶性肿瘤患者确诊后5年内生存率下降较快,年内生存率下降较快,5年后生存率下降较平缓,说明确诊后年后生存率下降较平缓,说明确诊后5年内该年内该恶性肿瘤对患者的死亡威胁较大。恶性肿瘤对患者的死亡威胁较大。二、小样本资料的生存率估计二、小样本资料的生存率估计oKaplan-Meier法(法(K-M法)法)Kaplan-Meier法由法由Kaplan和和Meier于于1958年提年提出,直接用概率乘法定理估计生存率,故称出,直接用概率乘法定理估计生存率,故称乘积限法(乘积限法(product-limit method),是一种),是一种非参数法,适用于小样本和大样本。非参数法,适用于小样本和大样本。o生存曲线生存曲线o举例举例例肿瘤肿瘤3.0cm组和肿瘤组和肿瘤3.0cm组生存曲线组生存曲线第三节第三节 生存曲线的生存曲线的log-rank检验检验log-rank检验(对数秩检验、时序检验)检验(对数秩检验、时序检验)第三节第三节 生存曲线的生存曲线的log-rank检验检验log-rank检验(对数秩检验、时序检验)检验(对数秩检验、时序检验)o该该检检验验属属非非参参数数检检验验,用用于于比比较较两两组组或或多多组组生存曲线是否相同。生存曲线是否相同。o检验统计量为卡方。检验统计量为卡方。o自由度自由度=组数组数-1。oP0.05,两组或多组生存曲线不同。,两组或多组生存曲线不同。P0.05,两两组组或或多多组组生生存存曲曲线线差差别别无无统统计计学学意义。意义。o举例举例注意事项o此此检检验验比比较较两两组组或或多多组组生生存存曲曲线线,实实为为一一单单因因素分析。素分析。o要要求求各各组组生生存存曲曲线线不不能能交交叉叉,如如交交叉叉提提示示存存在在混混杂杂因因素素,应应采采用用分分层层分分析析方方法法或或多多因因素素方方法法来校正混杂因素。来校正混杂因素。o当当假假设设检检验验有有统统计计意意义义时时,可可从从以以下下几几方方面面来来评评价价各各组组效效应应大大小小:生生存存曲曲线线图图目目测测判判断断、中中位生存期比较、计算位生存期比较、计算RR等。等。olog-rank检验用于整条生存曲线的比较,若检验用于整条生存曲线的比较,若比较两组某时间点处的生存率,则按下式比较两组某时间点处的生存率,则按下式计算:计算:o如比较多个时间点处生存率,检验水准应如比较多个时间点处生存率,检验水准应取取Bonferroni校正,即校正,即 ,其中,其中k为为比较的次数,以保证总的比较的次数,以保证总的I型错误概率不超型错误概率不超过过 。第四节第四节 Cox比例风险回归模型比例风险回归模型oCox比比例例风风险险回回归归模模型型(Coxs proportional hazards regression model),简简称称Cox回回归归模型。模型。o 该该模模型型由由英英国国统统计计学学家家D.R.Cox于于1972年年提提出出,主主要要用用于于肿肿瘤瘤和和其其它它慢慢性性病病的的预预后后分分析析,也可用于队列研究的病因探索。其优点:也可用于队列研究的病因探索。其优点:n多因素分析方法多因素分析方法n不考虑生存时间分布不考虑生存时间分布n利用删失数据利用删失数据p生存资料同时考虑生存结局和生存时间,生存时间生存资料同时考虑生存结局和生存时间,生存时间不服从正态分布,且可能含有删失不服从正态分布,且可能含有删失。pLogistic回归以生存结局为因变量,仅考虑结局的回归以生存结局为因变量,仅考虑结局的好坏(死亡或生存),而未考虑出现该结局的时间好坏(死亡或生存),而未考虑出现该结局的时间长短,无论死亡发生在随访早期或晚期,对他们的长短,无论死亡发生在随访早期或晚期,对他们的处理均相同处理均相同;p多重线性回归以生存时间为因变量,虽能考虑生存多重线性回归以生存时间为因变量,虽能考虑生存时间,但生存时间一般不呈正态分布,而且传统线时间,但生存时间一般不呈正态分布,而且传统线性回归不能有效利用删失时间。剔除删失数据只适性回归不能有效利用删失时间。剔除删失数据只适用于删失比例较小的情况,如删失比例较大时,剔用于删失比例较小的情况,如删失比例较大时,剔除会导致较大的偏差。另外,如将除会导致较大的偏差。另外,如将1年未死亡者的年未死亡者的生存时间假定为生存时间假定为1年的话,会明显低估生存时间,年的话,会明显低估生存时间,同样会造成大的偏差同样会造成大的偏差。一、一、Cox模型的基本形式模型的基本形式一、一、Cox模型的基本形式模型的基本形式h(t,X)t时刻风险函数、风险率或瞬时死亡时刻风险函数、风险率或瞬时死亡 率。率。h0(t)基基准准风风险险函函数数,即即所所有有变变量量都都取取0时时t时时刻刻风风险险函数。函数。X1、X2、Xp协变量、影响因素、预后协变量、影响因素、预后 因素。因素。1、2、p回归系数。回归系数。一、一、Cox模型的基本形式模型的基本形式此此模模型型假假定定个个体体在在 时时刻刻的的风风险险函函数数为为两两个个因因子子的的乘乘积积,第第一一个个因因子子为为基基准准风风险险函函数数;第第二二个个因因子子为为以以 个个自自变变量量的的线线性性组组合合为为指指数数的的指指数数函函数数,其其中中回回归归系数反映自变量的效应。系数反映自变量的效应。Cox模模型型对对第第一一个个因因子子的的内内容容不不作作任任何何设设定定,第第二二个个因因子子却却具具有有参参数数模模型型的的形形式式,所所以以Cox模模型型实实为为半半参参数数模模型型(semi-parametric model),这这使使得得它它在解决问题时具有很大的灵活性。在解决问题时具有很大的灵活性。参数解释参数解释:o0,HR(RR)1,说说明明变变量量X增增加加时时,风险率增加,即风险率增加,即X是危险因素。是危险因素。o0,HR(RR)1,说说明明变变量量X增增加加时时,风险率下降,即风险率下降,即X是保护因素。是保护因素。o=0,HR(RR)=1,说说明明变变量量X增增加加时时,风险率不变,即风险率不变,即X是危险无关因素。是危险无关因素。o预后指数(预后指数(prognostic index,PI)=预后指数越小,预后越好;预后指数越小,预后越好;预后指数越大,预后越差。预后指数越大,预后越差。二、参数估计与假设检验二、参数估计与假设检验(一)参数估计(一)参数估计 最大似然法最大似然法(二)假设检验(二)假设检验n似然比检验(似然比检验(likelihood ratio test)n得分检验(得分检验(score test)nWald检验(检验(Wald test)最优模型的建立最优模型的建立o变量筛选方法变量筛选方法n向前引入法(前进法)向前引入法(前进法)Forwardn向后剔除法(后退法)向后剔除法(后退法)Backwardn逐步引入逐步引入-剔除法(逐步法)剔除法(逐步法)Stepwiseo检验水准检验水准n初初步步的的、探探索索性性的的研研究究,或或变变量量数数较较少少时时,可取可取0.10。n设设计计严严谨谨的的、证证实实性性的的研研究究,或或变变量量数数较较多时,可取多时,可取0.05或或0.01。n检检验验水水准准包包括括引引入入的的检检验验水水准准和和剔剔除除的的检检验水准。一般地,剔除验水准。一般地,剔除引入引入。三、三、Cox模型的统计描述模型的统计描述1.回归系数回归系数2.风险比风险比HR(相对危险度(相对危险度RR)3.个体预后指数个体预后指数四、四、应用实例应用实例p个体的预后指数及预后分组:个体的预后指数及预后分组:n预后指数预后指数PI越小,预后越好;越小,预后越好;预后指数越大,预后越差。预后指数越大,预后越差。n据据PI的的大大小小可可将将病病人人分分为为不不同同的的危危险险组组,常常见见分分三三组组(即即低低危危组组、中中危危组组、高高危危组组)或或五五组组。绘绘制制分分组组的的生生存存曲曲线线,直直观观比比较较各各危危险险组组的的生生存存情情况况,如如中中位位生生存存期期、t年年生生存存率等。率等。五、五、Cox模型的注意事项及应用范围模型的注意事项及应用范围(一)注意事项(一)注意事项o设计阶段应注意的问题设计阶段应注意的问题o模型配合时应注意的问题模型配合时应注意的问题应应用用条条件件:除除生生存存资资料料的的基基本本要要求求外外,还还要要求求因因素素对对生生存存时时间间的的作作用用不不随随时时间间变变化化(比比例例风险假定)。风险假定)。n检检查查可可能能的的交交互互作作用用项项是是否否显显著著(方方法法:一一次次引引入入一一个个交交互互作作用用项项,看看其其对对应应的的回回归系数是否为归系数是否为0)。)。n模模型型拟拟合合优优度度考考察察:据据预预后后指指数数PI分分组组,比比较较各各组组基基于于Cox模模型型的的生生存存曲曲线线与与基基于于kaplan-Meier法法估估计计的的生生存存曲曲线线,如如两两组组曲线吻合较好,表明曲线吻合较好,表明Cox模型拟合较好。模型拟合较好。n生生存存率率分分析析:生生存存曲曲线线不不能能随随意意延延长长,也也不不能能轻轻易易用用于于预预测测预预报报,经经过过大大量量研研究究所所得的生存曲线才有可能推广应用。得的生存曲线才有可能推广应用。(二)适用范围(二)适用范围o因素分析因素分析logistic回归模型可以作多因素分析,并可进行回归模型可以作多因素分析,并可进行相对危险度估计,但不考虑生存时间的长短,相对危险度估计,但不考虑生存时间的长短,不能处理随访中常见的删失数据。不能处理随访中常见的删失数据。Cox比例风比例风险回归模型具有险回归模型具有logistic回归模型的所有优点;回归模型的所有优点;同时考虑生存结局和生存时间的长短,可处理同时考虑生存结局和生存时间的长短,可处理删失数据;且不考虑基准风险的分布。删失数据;且不考虑基准风险的分布。o校正混杂因素后的组间比较校正混杂因素后的组间比较o生存预测生存预测结果报告Cox回归与多元线性回归、回归与多元线性回归、logistic回归的比较回归的比较多元线性回归多元线性回归logisticlogistic回归回归Cox回归数据类型数据类型Y Y数值变量数值变量Y Y分类变量分类变量Y Y二分类变量二分类变量+时间时间 X X数值变量、分类变量、等级变量数值变量、分类变量、等级变量模型结构模型结构变量筛选变量筛选前进法;后退法;逐步法前进法;后退法;逐步法参数估计参数估计最小二乘法最小二乘法最大似然法最大似然法最大似然法最大似然法参数检验参数检验F-testF-testt-testt-test似然比检验似然比检验WaldWald检验检验 scorescore检验检验似然比检验似然比检验WaldWald检验检验 scorescore检验检验参数解释参数解释回归系数回归系数b b优势比优势比ORORRR样本含量样本含量至少变量数的至少变量数的1010倍倍至少变量数的至少变量数的2020倍倍非截尾例数至少变量至少变量数的数的1010倍倍应用应用因素分析因素分析预测预报预测预报 Y Y因素分析因素分析预测、判别预测、判别P(YP(Y1)1)因素分析因素分析生存预测生存预测 S(t)S(t)
展开阅读全文