1、生存分析生存分析吴静吴静公共卫生学院流行病与卫生统计学系公共卫生学院流行病与卫生统计学系Survival Analysiso生存分析(生存分析(survival analysis)是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计分析方法o生存分析是队列研究和临床试验的重要分析方法之一o生存分析不同于其它多因素分析的主要区别点就是生存分析考虑了每个观测出现某一结局的时间长短前前 言言本章内容本章内容o生存分析中的基本概念o生存率的估计与生存曲线o生存率的比较oCox比例风险回归模型第一节第一节 生存分析中的基本概念生存分析中的基本概念生存分析中的基本概念生存分析中的基本概念一、生存
2、时间(一、生存时间(survival time)o也称失效时间(failure time),是从起始事件到终点事件之间所经历的时间跨度,常用符号t 表示o终点事件(terminal event),又称失效事件(failure event),是研究者所关心的研究对象的特定结局o起始事件(initial event)是反映研究对象生存过程的起始特征的事件生存时间举例生存时间举例 起始事件起始事件 终点事件终点事件 确诊确诊 死亡死亡 治疗治疗 死亡死亡 治疗治疗 痊愈痊愈 化疗化疗 缓解缓解 缓解缓解 复发复发 接触危险物接触危险物 出现反应出现反应广义的“生存时间”也可为从住院到出院之间所花费的
3、医疗费用(元)、从购买到失效之间某医疗设备的使用次数、从购买到第一次维修某车辆行驶的总里程(公里)等o终点事件和起始事件是相对而言的,它们都由研究目的决定,须在设计时明确规定,并在研究期间严格遵守,而且不能随意改变。o生存时间的度量单位可以是小时、日、月、年等,应在研究设计阶段明确定义;一般情况下较细的时间单位准确性较高随访(随访(follow-up)资料的记录)资料的记录o生存资料一般通过随访收集,记录的项目:n随访事件(起始与终止)n生存时间(开始观察日期与终止观察日期)(年、月、天、小时、分、秒等)n分组变量(处理方法)n其他协变量(性别、年龄、职业、文化程度等)某肿瘤医院调查了1991
4、-1995年间经手术治疗的大肠癌患者150例,对可能影响大肠癌术后生存时间的因素进行了调查,如性别、年龄、组织学分类、肿瘤大小、Durers分期等。随访截止日期为2000年12月30日,随访记录见下表。生存时间资料实例生存时间资料实例 大肠癌患者的随访记录大肠癌患者的随访记录 编号编号 性别性别 年龄年龄 手术日期手术日期 随访终止日期随访终止日期 随访结局随访结局 生存时间生存时间(天天)1 男男 45 1991.05.20 1995.06.04 死亡死亡 1476 2 男男 50 1992.01.12 1998.08.25 死亡死亡 2417 3 女女 36 1991.10.24 1994
5、.03.18 失访失访 876+4 男男 52 1994.11.02 2000.12.30 存活存活 2250+5 女女 56 1994.06.25 1995.03.17 死亡死亡 265 6 女女 60 1993.12.05 1996.08.16 死于其它死于其它 985+生存时间的类型生存时间的类型o完全数据(complete data)是指从观察的起始事件一直达到观察的终点事件,即观察对象完整的生存时间,是生存分析最重要的资料。o不完全数据(incomplete data)在随访研究中,由于某种原因未能观察到随访对象发生事先定义的终点事件(为其他终点事件或生存结局),无法得知随访对象的确
6、切生存时间,这种现象称为删失(censoring),也称截尾或终检。包含删失的数据即为不完全数据,它所提供关于生存时间的信息是不完全的。生存时间的类型生存时间的类型o产生删失的原因n随访对象失访或中途退出n随访结束时对象仍存活(终点事件仍未出现)n死于“其他事件”o删失的类型n左删失(left censored)n区间删失(interval censored)n右删失(right censored)最常见,随访对象的生存期超过了研究的终止期,右删失数据在其右上角标记“+”生存时间资料的特点生存时间资料的特点o同时考虑生存时间和生存结局(2个效应变量)o通常含有删失数据o生存时间的分布通常不服从
7、正态分布生存时间资料的基本要求生存时间资料的基本要求o死亡例数和比例不宜太少o删失数据比例不宜太大,且删失原因无偏性(随机)o生存时间尽可能记录准确o1994 1995 1996 1997 1998 19991995 年份XXXO生存时间图示生存时间图示XXX indicates event0 indicates loss to follow-upo 0 12 24 36 48 60 72 生存时间(月)XXXX生存时间图示生存时间图示XX indicates event0 indicates loss to follow-up二、生存概率、死亡概率、生存率二、生存概率、死亡概率、生存率o生存
8、概率(probability of survival)记为p,表示某单位时段开始时存活的个体,到该时段结束时仍存活的可能性。若有删失数据,则分母用校正例数。如以年为单位时间,则年生存概率表示年初尚存人口存活满1年的可能性:死亡概率死亡概率o死亡概率(probability of death)记为q,表示某单位时段开始时存活的个体,在该时段内死亡的可能性。若有删失数据,则分母用校正例数。年死亡概率表示年初尚存人口在今后1年内死亡的可能性:生存率生存率o生存率(survival rate):记为S(tk),是指观察对象经历tk个时间单位后仍存活的概率。o若有删失数据,则须分时段计算不同单位时间的生
9、存概率pi(i=1,2,t),应用概率乘法原理将各时段的生存概率pi相乘得到t时刻生存率:生存率与生存概率的关系o生存概率是针对单位时间而言的,生存率是针对某个时间段的(有单位时间组成的时间段),它是生存概率的累积结果第二节第二节 生存率的估计与生存曲线生存率的估计与生存曲线生存率的估计生存率的估计o小样本未分组资料 乘积限法(product-limit method)或称Kaplan-Meier法o大样本分组资料(频数表资料)寿命表法(life table method)Kaplan-Meier法法oKaplan-Meier法直接采用概率乘法原理估计生存率,是一种非参数法,主要针对小样本未分
10、组资料,也可用于大样本o基本思想:将生存时间由小到大依次排列,在每个死亡点上,计算其期初人数、死亡人数、死亡概率、生存概率和生存率Kaplan-Meier法法o例17-1 某医师收集了用甲、乙两疗法治疗20例脑瘤患者的生存时间(周)资料,见表17-1。试估计两种疗法的生存率及绘制生存曲线。表17-1 20例脑瘤患者两种疗法的生存时间(周)计算步骤1.将生存时间由小到大排序,遇到相同时间点只排一个;遇到数值相同的完全数据与删失数据时,将删失数据排在完全数据之后2.列出ti时刻的死亡例数di,删失数据对应的死亡例数为03.列出ti时刻的期初观察例数ni4.计算各时间段生存概率pi,pi=(ni-d
11、i)/di5.计算ti时刻的生存率S(ti)6.计算ti时刻生存率的标准误SE(S(ti)生存率的标准误计算公式:甲疗法组的生存率及其标准误o生存率的标准误生存率的标准误:o总体生存率的(总体生存率的(1-)置信区间:置信区间:o靠近生存时间两端点处的生存率近似正态性不是很好,按照正态分布原理计算出的置信区间可能会超出0-1范围,造成结果解释上的困难o解决办法是计算对数变换后的生存率及其标准误,对变换后的生存率利用近似正态分布原理求出置信区间,最后再进行置信区间的反变换o以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图称为Kaplan-Meier生存曲线,
12、简称K-M曲线。o生存曲线是一条下降的曲线,分析时应注意曲线的高度和下降的坡度。平缓的生存曲线表示高生存率或较长生存期,陡峭的生存曲线表示低生存率或较短生存期。生存曲线(生存曲线(survival curve)脑瘤患者甲、乙两疗法组生存曲线脑瘤患者甲、乙两疗法组生存曲线 甲疗法组甲疗法组乙疗法组乙疗法组生存曲线生存曲线o每一级阶梯代表一个死亡时间点(在截尾时间点无阶梯);如果最大时间点是截尾则生存曲线不与曲线相交,否则与横轴相交DeathCensored中位生存期(中位生存期(median survival time)o中位生存期又称半数生存期,表示恰好有50%的个体尚存活的时间,即生存率为5
13、0%时对应的生存时间o中位生存期越长,表示疾病的预后越好;中位生存期越短,预后越差o估计中位生存期常用图解法或线性内插法脑瘤患者甲、乙两疗法组生存曲线脑瘤患者甲、乙两疗法组生存曲线 甲疗法组甲疗法组乙疗法组乙疗法组中位生存期中位生存期o图解法o线性内插法 找到与生存率50%相邻的上下两个生存率及其生存时间,使得S(ti-1)0.5,S(ti)0.5,利用线性比例关系求解中位生存期 解得:中位生存期tm=30.3(周)Source:SEER 1992-2000,from Patel et al,Gynecologic Oncology.May 2005;97(2):550-558.56%(A-A
14、)68%(Non-H)71%(H)5-year Survival生存曲线生存曲线寿命表法寿命表法o列出序号o整理数据o计算期初例数o校正期初例数o计算死亡概率o计算生存概率o计算生存率及其标准误寿命表法生存曲线寿命表法生存曲线(折线折线)及其半数生存期(及其半数生存期(MdMd=1.7=1.7年)年)寿命表法只估计时段右端点的生存率右端点的生存率,省略了时段内的生存率估计 第三节第三节 生存率的比较生存率的比较log-rank检验检验olog-rank检验又称对数秩检验或时序检验,属于非参数检验,用于比较两组或多组生存曲线或生存时间是否相同o该法并不指定生存时间服从某种特定的分布,所比较的是整
15、个生存时间的分布,而不是仅仅比较某个特定时间点的生存率o是以生存时间的对数为基础推导出来的,其基本思想是实际死亡数与期望死亡数之间的比较统计检验的基本步骤统计检验的基本步骤 o将两组资料混合后统一排序 o计算在每个生存时间上各组的期望死亡数 o分别对期望死亡人数求和 o计算卡方值 比较甲乙两疗法组脑瘤患者的生存率有无差别?比较甲乙两疗法组脑瘤患者的生存率有无差别?注意注意o以上介绍的是log-rank检验的近似法,计算简便,但其结果较精确法(一般统计软件中输出精确法计算结果)保守 近似法:精确法:olog-rank检验用于整条生存曲线的比较,若比较两组某时间点处的生存率,则按下式计算:o如比较
16、多个时间点处生存率,检验水准应取Bonferroni校正,即 ,其中k为比较的次数,以保证总的I型错误概率不超过 注意注意o此检验比较两组或多组生存曲线,实为一单因素分析o要求各组生存曲线不能交叉,如交叉提示存在混杂因素,应采用分层分析方法或多因素方法来校正混杂因素o当假设检验有统计意义时,可从以下几方面来评价各组效应大小:生存曲线图目测判断、中位生存期比较等注意注意第四节第四节 Cox比例风险回归模型比例风险回归模型Cox比例风险回归模型比例风险回归模型oCox比例风险回归模型(Coxs proportional hazards regression model),简称Cox回归模型,是一种
17、允许资料有删失数据存在的,可以同时分析众多因素对生存时间影响的多变量生存分析方法,是一种半参数方法oCox比例风险回归模型主要用于生存资料的影响因素分析、多变量生存预测和调整其它影响因素后的组间生存比较o该模型主要用于肿瘤和其它慢性病的预后分析,也可用于队列研究的病因探索,其优点:n多因素分析方法n不考虑生存时间分布n利用截尾数据生存分析方法生存分析方法o参数法:生存时间的分布符合某一特定类型,如对数正态分布、Weibull分布、指数分布、Gamma分布等,则可用特定的分布函数分析,称为参数法(SAS的LifeReg过程步)o非参数法:用Kaplan-Meier法或寿命表法求生存率,作生存曲线
18、;用log rank检验或Breslow检验比较两组或几组生存率差异有无统计学意义(SAS的LifeTest过程步)o半参数法:Cox 比例风险模型(SAS的PHReg过程步)一、一、Cox模型的基本形式模型的基本形式ph(t,X)具有协变量X的个体在t时刻的风险函数,表示生存时间已达t的个体在t时刻的瞬时风险率(hazard function)或死亡率ph0(t)基准风险函数,即所有协变量取值为0时的个体在t时刻的瞬时风险率pX1,X2,Xp协变量、影响因素、预后因素,在整个观察期间内不随时间变化而变化p1,2,p回归系数,最大似然估计值bipp 风险风险指瞬间风险(指瞬间风险(instan
19、taneous hazard),或或 force of mortality(死亡力)死亡力),用 h(t)表示,是在时间点t尚存个体在短暂时期(t)内发生死亡的危险程度。即指生存到时间t的病人,从t到(t+t)这一非常小时间区间内的瞬间死亡概率。p 如Kaplan-Meier法计算的死亡概率qi就是h(t)的估计值。风险函数(Hazard function)二、参数估计与假设检验二、参数估计与假设检验p参数估计 最大似然法p假设检验n似然比检验(likelihood ratio test)n得分检验(score test)nWald检验(Wald test)三、参数的意义及其解释三、参数的意义
20、及其解释o0,RR1,说明变量X增加时,危险率增加,即X是危险因素o0,RR1,说明变量X增加时,危险率下降,即X是保护因素o=0,RR=1,说明变量X增加时,危险率不变,即X是危险无关因素风险比风险比风险指数风险指数四、因素筛选与最优模型的建立四、因素筛选与最优模型的建立o当协变量较多时,可先进行Cox回归模型单变量分析;单变量分析筛选出的有统计学意义变量,可继续进行多元Cox回归模型分析o变量筛选方法n向前引入法(前进法)Forwardn向后剔除法(后退法)Backwardn逐步引入-剔除法(逐步法)Stepwiseo检验水准n初步的、探索性的研究,或变量数较少时,可取0.10n设计严谨的
21、、证实性的研究,或变量数较多时,可取0.05或0.01 n检验水准包括引入的检验水准和剔除的检验水准;一般剔除引入五、分析结果(结果解释)五、分析结果(结果解释)o与生存相关的因素o因素作用大小及方向:保护因素还是危险因素、相对危险度的大。o因素作用大小排序:标准化回归系数的绝对值分析结果(结果解释)分析结果(结果解释)p个体的预后指数及预后分组:预后指数(prognostic index,PI)=预后指数越小,预后越好;预后指数越大,预后越差。分析结果(结果解释)分析结果(结果解释)n例如:传统治疗方式,淋巴结转移,PI2.6929 传统治疗方式,淋巴结无转移,PI1.7616 新治疗方式,
22、淋巴结转移,PI0.9313 新治疗方式,淋巴结无转移,PI0n据PI的大小可将病人分为不同的危险组,常见分三组(即低危组、中危组、高危组)或五组。绘制分组的生存曲线,直观比较各危险组的生存情况,如中位生存期、t年生存率等。Cox回归实例回归实例 o某医师收集了1992年1月1日到2001年12月31日10年间共346例手术后的大肠癌患者,以了解患者术后生存情况及其可能的影响因素。为简单说明问题,从中抽取30例数据见表23-8。其中术后生存时间time以月为单位,status表示随访结局(其值为0表示相应的术后生存时间为删失值)。三个协变量分别为:性别sex(其值为0表示女性,1表示男性),年
23、龄age(岁),确诊到进行手术治疗的时间dtime(月)。试对此数据作Cox回归分析。将原始数据录入计算软件,首先对每个备选的自变量作单因素Cox回归模型,得到表23-9所示结果。由表23-9可见,在水准上,有统计学意义的因素为年龄和确诊到手术时间。o设计阶段应注意的问题o模型配合时应注意的问题o因素分析时应注意的问题Cox回归应用中的注意事项回归应用中的注意事项 设计阶段应注意的问题设计阶段应注意的问题oCox回归分析结论的正确性要以科学的设计、有代表性的抽样为前提。如果样本例数过少(多因素分析中死亡例数一般应在自变量个数的10倍以上),或者抽样不随机而使得某些变量在其各个水平上分布极偏,很
24、难得到真正的结果。有时回归分析得到的相对危险度与专业知识相悖,并非是什么专业上的新发现,而是设计上的缺陷造成。另外,虽然它可以利用删失数据的信息,但过多的删失很可能会带来分析结果的偏倚。模型配合时应注意的问题模型配合时应注意的问题o数据的编码可能会严重地影响结论的可解释性。对于某些数值型协变量,根据专业上的考虑转换为等级编码更恰当一些,否则会得到譬如红细胞每减小一个,患者的死亡风险会增加若干倍的夸大解释;对于无序的多分类协变量,应设置哑变量进入模型。o应用条件:本章介绍的Cox回归除生存资料的基本要求外,还要求必须满足PH假定(比例风险假定),即因素对生存时间的作用不随时间变化。如观察年限超过
25、10年时,癌症手术后放疗的治疗作用可能逐渐消失,从而不满足这一要求。如果某个协变量不同水平的Kaplan-Meier曲线有明显交叉,或者协变量与时间的交互作用项在Cox回归模型中有统计学意义,则不能使用本章介绍的比例风险模型,可考虑拟合各种扩展Cox模型,如分层Cox模型或含时协变量的Cox模型等。因素分析时应注意的问题因素分析时应注意的问题o筛选变量时,考虑该指标是否容易收集、是否费用较高等临床因素。o对连续变量,看其分布,如服从偏态分布,一般进行数据变换后参与计算。o自变量的筛选是一个复杂的建模过程,除了考虑以上问题,需要指出的是各种逐步方法只是一个计算手段,并不能保证总是得到最好的模型。
26、变量筛选时首先要进行专业上的充分考虑,很重要的自变量不能遗漏,专业上无关的变量不参与计算。待选变量较多时可以首先进行单因素分析,将具有统计学意义的变量再进行逐步筛选,以避免总的样本例数不够多而使结果不稳定。必要时可以更换筛选变量的方法并调整检验水准,多数情况下总在方程中的变量可能是有意义的,最终备选的模型一定要结合专业知识来判断,有时甚至可提供1、2个模型备选。o选入模型的变量是统计学上的有关变量,不一定都与生存时间有因果关系。其中某些变量可能只是伴随关系而已,未选入模型的变量不一定全是无关变量,要考虑是否模型内的某些变量代替了它的作用,或因例数不够,或试验中对该变量进行了控制而引起。o检查可
27、能的交互作用项是否显著(方法:一次引入一个交互作用项,看其对应的回归系数是否为0)。o模型拟合优度考察:据预后指数PI分组,比较各组基于Cox模型的生存曲线与基于Kaplan-Meier法估计的生存曲线,如两组曲线吻合较好,表明Cox模型拟合较好。o生存率分析:生存曲线不能随意延长,也不能轻易用于预测预报,经过大量研究所得的生存曲线才有可能推广应用。因素分析时应注意的问题因素分析时应注意的问题小结(论文报告中应写明)小结(论文报告中应写明)1材料与方法材料与方法o病例来源、起始事件、终点事件、观察终止时间、截尾情况、随访结果的获得方法,样本含量、截尾例数及百分比(%)o建立数据库方法o统计学处
28、理方法 Kaplan-Meier法估计生存率 log-rank检验进行组间生存率比较 Cox模型进行多因素分析 2结果结果o估计:Kaplan-Meier生存率及生存曲线o比较:log-rank检验卡方值及其P值o因素分析及预测:n变量赋值(数量化方法)表n变量统计描述:各组病例数和构成比(分类变量)均数和标准差(数值变量)n变量筛选方法及检验水准nCox回归结果及统计解释Cox回归与多元线性回归、回归与多元线性回归、logistic回归的比较回归的比较多元线性回归多元线性回归logistic回归回归Cox回归回归数据类型数据类型Y连续变量,正态分布连续变量,正态分布Y分类变量,二项分布分类变
29、量,二项分布Y二分类变量二分类变量+生存时间,生存时间,无特定要求无特定要求 X连续变量、无序分类变量、有序分类变量连续变量、无序分类变量、有序分类变量删失删失不允许不允许允许模型结构模型结构变量筛选变量筛选前进法;后退法;逐步法前进法;后退法;逐步法参数估计参数估计最小二乘法最小二乘法最大似然法最大似然法最大似然法最大似然法参数检验参数检验F-test;t-test似然比检验;似然比检验;Wald检验检验 score检验检验似然比检验;似然比检验;Wald检验检验 score检验检验参数解释参数解释回归系数回归系数b优势比优势比OR风险比风险比RR样本含量样本含量至少至少5-10倍的自变量个
30、倍的自变量个数数至少至少15-20倍自变量个数倍自变量个数至少至少15-20倍自变量个数倍自变量个数(非(非截尾例数截尾例数至少变量至少变量数的数的10倍)倍)应用应用因素分析因素分析预测预报预测预报 Y(-,)因素分析因素分析预测、判别预测、判别P(Y1)0,1因素分析因素分析生存预测生存预测 S(t)0,1案例分析案例分析某研究者观察了确诊后采取同样方案进行化疗的26例急性混合型白血病患者,欲了解某种不良染色体是否会影响患者病情的缓解,将治疗后120天内症状是否缓解作为结果变量(缓解0;未缓解1),有无不良染色体作为研究因素。整理资料见下表。有无不良染色体与缓解的关系不良染色体 缓解 未缓
31、解 合计 缓解率()有 5 13 18 27.8 无 3 5 8 37.5 合 计 8 18 26 30.8o考虑到例数较小,采用Fisher确切概率法,得到P0.667,尚不能认为不良染色体影响病情的缓解。o这种情况下的结果并不可靠,原因是两个比较组之间其它影响患者病情缓解的因素不一定均衡,因而需要考虑平衡其它可能的影响因素如年龄(岁)、骨髓原幼细胞分组(501;500)、CD34表达(阳性1;阴性0)、性别(男1;女0)的作用。多因素多因素logistic回归分析结果回归分析结果 因素 回归系数 Wald卡方 P OR染色体 1.457 1.161 0.281 4.29骨髓原幼 2.961
32、 4.778 0.029 19.2细胞分组o采用多因素logistic回归分析,经逐步法按0.10水准,平衡骨髓原幼细胞分组后,有无不良染色体不影响患者的缓解(P0.281)o有一位临床医生指出,仅考虑是否缓解还不够,如果进一步利用缓解时间的长短来进行分析,信息利用得更充分。o费了很大辛苦,幸好查到了所有患者的缓解时间,于是采用log-rank检验比较有无不良染色体两组病人的生存曲线,得卡方1.28,P0.2579,仍然显示患者的缓解时间与不良染色体无关。o生存时间的比较仍然需要考虑组间的可比性,经多因素Cox回归分析,当检验水准0.10时的结果如下:因素 回归系数 卡方 P RR染色体 1.838 3.709 0.054 6.29CD34 1.877 8.904 0.003 6.54骨髓原幼 3.205 8.838 0.003 24.4细胞分组