1、复旦学报(医学版)Fudan Univ J Med Sci2023 Mar.,50(2)限制性立方样条 Cox比例风险模型在肿瘤预后分析中的应用张彭燕1,2 刘振球1,2 樊虹1,2 索晨1,2 陈兴栋1,2,3 张铁军1,2,4(1复旦大学公共卫生学院流行病学教研室 上海 200032;2复旦大学泰州健康科学研究院 泰州 225300;3复旦大学人类表型组研究院 上海 200433;4复旦大学义乌研究院 义乌 322000)【摘要】目的探讨限制性立方样条 Cox比例风险模型在肿瘤预后分析中的应用。方法应用限制性立方样条Cox比例风险模型分析 686 名原发性乳腺癌患者预后情况,比较限制性立方
2、样条 Cox比例风险模型与传统 Cox比例风险模型的一致性指数(concordance index,C-index)、净重分类改善指标(net reclassification improvement,NRI)、综合判别指数(integrated discrimination improvement,IDI)以及校准度(calibration)。结果初次手术年龄、阳性淋巴结数、孕激素受体及雌激素受体与乳腺癌复发之间存在非线性关联。当预测时间小于 511天时,传统 Cox比例风险模型的 C-index优于限制性立方样条 Cox比例风险模型;当预测时间大于 511天时,限制性立方样条 Cox比例风
3、险模型的 C-index优于传统 Cox比例风险模型。限制性立方样条 Cox比例风险模型在 NR、IDI以及校准度均优于传统 Cox比例风险模型,且未出现过度拟合现象,在原发性乳腺癌患者的预后分析中具有较好的预测价值。结论尽管限制性立方样条受到样条函数节点个数及位置的影响,且高次项的存在会影响模型的可解释性,但当随访数据不满足传统 Cox比例风险模型的对数线性假定时,限制性立方样条 Cox比例风险模型拟合自变量的非线性关系在肿瘤预后分析中仍表现出优势。【关键词】限制性立方样条;Cox比例风险模型;肿瘤;预后分析【中图分类号】C812,R737.9 【文献标志码】A doi:10.3969/j.
4、issn.1672-8467.2023.02.019Application of restricted cubic spline Cox proportional hazards model in the tumor prognosis analysisZHANG Peng-yan1,2,LIU Zhen-qiu1,2,FAN Hong1,2,SUO chen1,2,CHEN Xing-dong1,2,3,ZHANG Tie-jun1,2,4(1Department of Epidemiology,School of Public Health,Fudan University,Shangha
5、i 200032,China;2Fudan University Taizhou Institute of Health Sciences,Taizhou 225300,Jiangsu Province,China;3Human Phenome Institute,Fudan University,Shanghai 200433,China;4Yiwu Research Institute,Fudan University,Yiwu 322000,Zhejiang Province,China)【Abstract】Objective To investigate the application
6、 of restricted cubic spline Cox proportional hazards model in tumor prognosis analysis.MethodsThe prognosis of 686 patients with primary breast cancer was analyzed by using the restricted cubic spline Cox proportional hazards model.Concordance index(C-index),net reclassification improvement(NRI),int
7、egrated discrimination improvement(IDI)and calibration between restricted cubic spline Cox proportional hazards model and the traditional Cox proportional hazards model were compared.Results Age at first surgery,number of positive lymph nodes,progesterone receptor and estrogen receptor were nonlinea
8、rly associated with breast cancer 科技部科技基础资源调查专项(2019FY101103);国家自然科学基金(81772170)Corresponding author E-mail: 网络首发时间:2022-12-27 10 19 22 网络首发地址:https:/ Cox比例风险模型在肿瘤预后分析中的应用recurrence.The C-index of traditional Cox proportional risk model was better than that of restricted cubic spline Cox proportiona
9、l risk model when the prediction time was less than 511 days,while the C-index of restricted cubic spline Cox proportional risk model was superior to traditional Cox proportional risk model when the prediction time was greater than 511 days.The NRI,IDI and calibration of restricted cubic spline Cox
10、proportional hazards model were better than that of traditional Cox proportional hazards model without overfitting phenomenon,which had a good predictive value in the prognosis analysis of patients with primary breast cancer.Conclusion Although restricted cubic spline is affected by the number and p
11、osition of the spline function nodes,and the presence of high subterms affects the interpretability of the model,restricted cubic spline Cox proportional hazards model fitting the nonlinear relationship of the independent variables still showed advantages in tumor prognosis analysis when the follow-
12、up data did not satisfy the log-linear assumption of traditional Cox proportional risk model.【Key words】restricted cubic spline;Cox proportional hazards model;tumor;prognosis analysis This work was supported by Special Foundation for Science and Technology Basic Research Program,Ministry of Science
13、and Technology(2019FY101103)and the National Natural Science Foundation of China(81772170).Cox 比例风险模型是由英国统计学家 Cox1于1972 年提出的一种半参数模型。该模型用风险函数反映协变量对生存期的影响,能够解决截尾数据的问题,并且可以同时分析多因素对生存期的影响,在疾病预后分析中得到了广泛的应用2-3。应用Cox 比例风险模型要求资料满足两个前提假设,一是个体间的风险比(hazard ratio,HR)恒定,即模型中协变量的效应不随时间改变而改变;二是对数风险或对数累积风险与协变量间的关系为
14、线性。在实际研究中,传统Cox比例风险模型的两个前提假设很难同时满足。当不满足线性关系时,研究者常对连续型变量进行分段转化为分类变量,但分类变量的类别数目以及节点位置的选择一般会带有主观性并且会损失部分信息4。此外,研究者也可以通过构建多项式回归或样条回归来直接拟合自变量和因变量之间的非线性关系。然而,多项式回归使每个段的内部效应被强制统一,在节点位置跳跃,“瞬时变化”不合理,存在过度拟合和共线性的问题。样条回归本质上也是多项式回归,但一般要求在每个节点上连续且二阶可导5,以保证曲线的平滑性。限制性立方样条(restricted cubic spline,RCS)6是在样条回归的基础上再加一个
15、约束条件,即样条函数在自变量数据范围两端的两个区间内为线性函数,使得两端的预测更为准确。当连续型变量无法满足传统 Cox 比例风险模型的线性假设时,限制性立方样条 Cox比例风险模型是分析非线性关系最常见的方法之一。既往许多研究探讨了限制性立方样条在非线性回归中的应用2-3,但鲜少进行模型评估。本研究将从基本原理、前提假设等方面介绍限制性立方样条 Cox 比例风险模型与传统 Cox 比例风险模型,并结合乳腺癌预后实例评估其预测效果,探讨限制性立方样条Cox比例风险模型在肿瘤预后分析中的应用。材 料 和 方 法基本原理 假定有n个观测,每个观测i有 3 个观测值,分别是ti、xi、ci,其中ti
16、为生存时间,xi为预测变量,ci为截尾指示变量(非截尾观测:ci=1;截尾观测:ci=0)。Cox比例风险模型的一般形式为:h()t,xi=h0()t exp()xi式中:h(t,xi)是指在危险因素x的影响下,t时刻的风险函数(hazard function),h0(t)是指当所有自变量xi都为 0 时,t时刻的基准风险函数,它是与时间有关的任意函数,函数形式无任何限定,是回归系数。在应用 Cox比例风险模型进行统计推断和预测前,必须考察生存资料是否满足两个基本假定:(1)比例风险假定:任意两个风险函数之比不随时间的改变而改变,在协变量不同状态下,个体的风险 比 在 不 同 时 间 点 为
17、常 数,即 为“等 比 例 风 险(proportional hazards)”。其中任意两个风险函数之比为相对危险度 RR或风险比(hazard ratio,HR):HR=hi(t,xi)hj(t,xj)=h0()t exp(1xi1+2xi2+pxip)h0()t exp(1xj1+2xj2+pxjp)281复旦学报(医学版)2023年 3月,50(2)(2)对数线性假定:对数风险比应与模型中的连续型协变量呈线性关系:loghi(t)-logh0(t)=xi,i=1,2,n样条函数是由具有某些连续性条件的子空间上的分段多项式构成,一般要求每个分段点上连续且二阶可导,以保证曲线的平滑性。假如
18、给定n+1个点t0,t1,tn满足t0 t1 0,则为正改善,说明新模型比旧模型的预测能力有所 改 善。综 合 判 别 指 数(integrated discrimination improvement,IDI)反映的是两种模型预测概率差距上的变化,是基于疾病模型对每个个体的预测概率计算所得,可用来反映模型的整体改善状况;若 IDI指数0,提示新模型比旧模型的预测能力有所改善。校准度(calibration)10指模型预测的事件发生概率与观察到的事件发生概率的一致程度,反映了模型正确估计绝对风险的程度。实例分析 乳腺癌数据资料来源于 Royston等11用于验证模型的 GBSG 数据,包括 6
19、86 名德国原发性淋巴结阳性乳腺癌患者的预后变量信息。数据集为 R4.0.2 中内置数据集 gbsg,包括的变量有:初次手术年龄(age,岁),绝经状态(meno,1=绝经后,0=绝经前),肿瘤大小(size,mm),肿瘤分级(grade,3=级,2=级,1=级),阳性淋巴结数(nodes),孕 激 素 受 体(pgr,fmol/L),雌 激 素 受 体(er,fmol/L),荷尔蒙疗法(hormon,1=有,0=无),无复发生存时间(rfstime,天),生存状态(status,1=存活且无复发,0=复发或死亡)。利用 R4.0.2 中的282张彭燕,等.限制性立方样条 Cox比例风险模型在
20、肿瘤预后分析中的应用survival包拟合传统 Cox比例风险模型;利用 R4.0.2中的 rms 包拟合限制性立方样条 Cox 比例风险模型;利用 R4.0.2 中的 pec 包对比两种模型的 C-index与校准度。利用 R4.0.2 中的 survIDINRI 包对比两种 模 型 的 NRI 与 IDI。P0.05),故纳入初次手术年龄、肿瘤大小、肿瘤分级、阳性淋巴结数,孕激素受体、雌激素受体、荷尔蒙疗法构建传统多因素 Cox 比例风险模型,回归分析结果见表 1。限 制 性 立 方 样 条 Cox 比 例 风 险 模 型 根 据martingale residuals 判断满足非线性关系
21、的变量有初次手术年龄、阳性淋巴结数、孕激素受体与雌激素受体。R2与 Dxy 值越大,则拟合的模型越优。表 2 列出了不同节点数的拟合效果,根据 R2与 Dxy判断初次手术年龄和孕激素受体最佳节点数为 4,阳性淋巴结数和雌激素受体最佳节点数为 5。纳入初次手术年龄、肿瘤大小、肿瘤分级等因素构建限制性立方样条 Cox 比例风险模型,多因素回归分析结果见表 3。模 型 评 估 采 用 Bootstrap 重 抽 样 法 评 估 C-index(图 1),预测时间小于 511 天时,传统 Cox 比例风险模型的区分度优于限制性立方样条 Cox比例风险模型;当预测时间大于 511天时,限制性立方样条Co
22、x比例风险模型的区分度优于传统 Cox比例风险模型。进一步比较模型的 NRI 为 0.179(95%CI:0.0650.320),IDI为 0.041(95%CI:0.0180.083),表明限制性立方样条 Cox比例风险模型比传统 Cox比例风险模型的预测能力有所改善。采用 bootstrap重抽样法评估校准度,绘制校准曲线直观展示预测风险值与实际风险值的关系。限制性立方样条 Cox比例风险模型的校准度优于传统 Cox比例风险模型(图 2)。传统 Cox比例风险模型训练集与验证集的C-index分别为 0.70和 0.71,限制性立方样条 Cox比例风险模型分别为 0.71 和 0.74,两
23、种模型均未出现过度拟合现象。表 2不同节点数的拟合效果Tab 2Fitting effect of different number of knotsFactorAgeNodesPGRERKnots345345345345R20.0100.0310.0330.1020.1090.1110.0710.0750.0750.0230.0320.036Dxy0.0470.1350.1250.2900.2900.3020.2730.2730.2730.1950.1920.200PGR:Progesterone receptor;ER:Estrogen receptor.表 1传统 Cox比例风险模型的多
24、因素回归分析Tab 1Multivariate regression analysis of traditional Cox proportional hazards modelFactorAge(y)21-4546-5253-6061GradeHormonNoYesSize(mm)3-1920-2925-3435PGR(fmol/L)0-6.97.0-32.432.5-131.7131.8ER(fmol/L)0.0-0.78.0-35.036.0-113.0114.0Nodes1-23-67HR(95%CI)10.74(0.49-1.11)0.95(0.63-1.43)0.94(0.63-1
25、.40)11.63(0.91-2.94)1.42(0.74-2.73)10.68(0.51-0.92)11.92(1.17-3.16)1.60(0.98-2.60)1.94(1.19-3.16)11.01(0.68-1.49)0.69(0.44-1.09)0.48(0.29-0.79)10.66(0.43-1.01)0.97(0.62-1.52)0.85(0.51-1.43)11.30(0.91-1.85)2.56(1.85-3.55)P0.1460.8080.7540.1000.2860.0120.0100.0610.0070.9730.1080.0040.0570.8870.5460.14
26、30.001PGR:Progesterone receptor;ER:Estrogen receptor.283复旦学报(医学版)2023年 3月,50(2)讨 论本研究采用限制性立方样条 Cox比例风险模型分析了初次手术年龄、阳性淋巴结数、孕激素受体及雌激素受体与乳腺癌复发之间的非线性关联,进一步使用 C-index、NRI、IDI以及校准度对限制性立方样条 Cox比例风险模型与传统 Cox比例风险模型进行评估,证明了限制性立方样条进行肿瘤预后分析的应用价值。由于乳腺癌预后资料缺少淋巴管浸润、肿瘤分期以及 HER2表达数据,预后模型不包括以上 3 项必要的预测参数,可能会影响预后模型本身的预
27、测效力。建立模型时,如何处理模型中的连续型预测因子将影响模型的区分度与校准度。通常对连续型预测因子的处理方法有:(1)使用一个或多个切入点对连续型预测因子进行二分类或多分类;(2)假定预测因子与结果呈线性关系,对连续型预测因子直接进行建模;(3)预测因子保持连续,使用分数多项式或限制性立方样条对非线性关系进行建模。Collins等12曾比较上述 3种方法对预测模型性能的影响。结果表明,分数多项式或限制性立方样条模型的区分度和校准度明显优于其他方法;而对连续型预测因子进行分类会损失大量的方差信息,同时节点附近的跳跃使模型拟合变差,预测性能明显降低。Nieboer等13的研究亦表明,当连续型预测因
28、子与结局为非线性关系时,使用限制性立方样条可以更准确地描述其与结局发生的关系。既往研究基于限制性立方样条 Cox 比例风险模型分析 BMI 与图 1传统 Cox比例风险模型与限制性立方样条 Cox比例风险模型的一致性指数Fig 1Concordance index between traditional Cox proportional hazards model and restricted cubic spline Cox proportional hazards model图 2传统 Cox比例风险模型与限制性立方样条 Cox比例风险模型的校准曲线Fig 2Calibration cur
29、ves of traditional Cox proportional hazards model and restricted cubic spline Cox proportional hazards model表 3限制性立方样条 Cox比例风险模型的多因素回归分析Tab 3Multivariate regression analysis of restricted cubic spline Cox proportional hazards modelFactorAgeS1(age)S2(age)S3(age)GradeHormonNoYesSize(mm)3-1920-2425-343
30、5-MaxPGRS1(pgr)S2(pgr)S3(pgr)ERS1(er)S2(er)S3(er)S4(er)NodesS1(nodes)S2(nodes)S3(nodes)S4(nodes)HR(95%CI)0.94(0.90-0.99)1.17(1.03-1.31)0.60(0.38-0.94)11.63(0.90-2.93)1.42(0.74-2.73)10.65(0.48-0.88)12.02(1.23-3.32)1.53(0.94-2.50)1.91(1.17-3.13)0.98(0.95-1.01)9.04E+04(7.87E-05-1.04E+14)6.95E-06(2.55E-
31、15-1.89E+04)0.93(0.87-1.00)4.44E+50(2.48E+01-7.95E+99)2.17E-56(1.82E-110-2.59E-02)1.50E+05(1.60E+00-1.40E+10)0.96(0.52-1.79)2.38E+03(5.24E-14-1.08E+20)2.28E-07(5.70E-45-9.13E+30)1.20E+03(3.07E-20-4.70E+25)P0.0100.0120.0250.1040.2940.0050.0050.0880.0100.2050.2840.2840.0600.0440.0440.0410.9050.6910.72
32、90.789284张彭燕,等.限制性立方样条 Cox比例风险模型在肿瘤预后分析中的应用全因死亡风险之间的非线性关联3,弥补了传统Cox 比例风险模型对变量的暴露-效应曲线应用条件限制。在本研究中,我们采用限制性立方样条同时探讨多个存在非线性关联的自变量,也取得了较理想的预测效果。应用限制性立方样条拟合非线性关系时,需要设置样条函数的节点个数及位置进行分段回归。Stone等7研究发现,大多数情况下节点的位置对限制性立方样条的拟合效果影响较小,而节点的个数会决定拟合曲线的形状。当节点个数等于样本量时,相当于将各个点用线段相连,得到的是完全拟合但不平滑的折线。由于节点个数的选择和自由度有关,所以当样
33、本量较大时可以取较多的节点,但存在的问题是节点越多,自由度越大,模型越复杂,结果越难解释5,且样条估计量的方差和过度拟合的风险会增加。限制性立方样条 Cox比例风险模型中防止过度拟合的常见方法:通过增加训练数据更好地识别信号,避免噪声;基于交叉验证生成多个训练集,测试划分并调整模型;根据样本量控制节点个数,降低模型的复杂性。对于大部分数据集,4个节点可使模型较好拟合,既可以兼顾曲线的平滑程度,又可避免过度拟合造成的精确度降低。如果样本量较小,则建议使用 3个节点,以便节点之间有足够的观测值能够拟合每个多项式。当样本量较大时,5个节点是更好的选择。本研究中,限制性立方样条 Cox比例风险模型使用
34、的最佳节点数为4 和 5,取得了较好的模型预测效果,且未出现过度拟合现象。综上所述,限制性立方样条应用多样的平滑且合理的剂量-效应曲线来表达连续性暴露与结果之间的关联,可以解决非对数线性问题,拟合资料具有更大的灵活性。但限制性立方样条也存在一定的限制性:首先,限制性立方样条对节点的数量敏感,无法结合高次项参数背景进行解释5;其次,全变量模型中协变量较多,选择变量的最佳拟合形式工作量很大,在统计软件中编程也较为复杂,容易引起结果偏差。所以当随访数据不满足传统 Cox比例风险模型的对数线性假定且影响因素较少时,应用限制性立方样条方法进行肿瘤预后分析更加高效。作者贡献声明张彭燕文献检索,统计分析,论
35、文构思、撰写和修订。刘振球,樊虹,索晨,陈兴栋结果解释,论文修改。张铁军论文构思、指导和修订。利益冲突声明所有作者均声明不存在利益冲突。参 考 文 献1 COX DR.Regression models and life tables(with discussion)J.J R Stat,1972,34(2):187-200.2 董英,余金明,胡大一.样条 Cox 回归在随访资料分析中的应用 J.中华流行病学杂志,2012,33(9):969-972.3 魏源,周锦辉,张振伟,等.限制性立方样条在 Cox比例风险回归模型中的应用 J.中华预防医学杂志,2020,54(10):1169-1173
36、.4 BRENNER H,BLETTNER M.Controlling for continuous confounders in epidemiologic researchJ.Epidemiology,1997,8(4):429-434.5 罗剑锋,金欢,李宝月,等.限制性立方样条在非线性回归中的应用研究 J.中国卫生统计,2010,27(3):229-232.6 DURRLEMAN S,SIMON R.Flexible regression models with cubic splines J.Stat Med,1989,8(5):551-561.7 STONE C.Generaliz
37、ed additive models:comment J.Stat Sci,1986,1(3):312-314.8 余红梅,徐勇勇,何大卫.利用三次样条函数考察 Cox 模型比例风险假定 J.中国卫生统计,2002,19(1):20-22.9 HARRELL FE JR,LEE KL,MARK DB.Multivariable prognostic models:issues in developing models,evaluating assumptions and adequacy,and measuring and reducing errors J.Stat Med,1996,15(
38、4):361-387.10 ALBA AC,AGORITSAS T,WALSH M,et al.Discrimination and calibration of clinical prediction models:users guides to the medical literature J.JAMA,2017,318(14):1377-1384.11 ROYSTON P,ALTMAN DG.External validation of a Cox prognostic model:principles and methodsJ.BMC Med Res Methodol,2013,13(
39、1):33.12 COLLINS GS,OGUNDIMU EO,COOK JA,et al.Quantifying the impact of different approaches for handling continuous predictors on the performance of a prognostic model J.Stat Med,2016,35(23):4124-4135.13 NIEBOER D,VERGOUWE Y,ROOBOL MJ,et al.Nonlinear modeling was applied thoughtfully for risk prediction:the Prostate Biopsy Collaborative GroupJ.J Clin Epidemiol,2015,68(4):426-434.(收稿日期:2022-03-06;编辑:张秀峰)285