资源描述
COX 回归模型的样本含量的计算方法及软件
实现
【摘要】 目前生存分析中 COX 回归模型到底需要多少样本量
往往靠经验法来估计。旨在介绍并推广生存分析中 COX 回归模型所需
样本量的计算公式及其目前可以实现该计算方法的软件,并通过实例
说明了该公式的应用,以期提高今后研究工作的效率。
【关键词】 生存分析; COX 回归模型; 样本量; 统计软件
COX 回归模型在生存分析中应用非常广泛,然而,关于应用
该模型到底需要多少样本含量的问题一直未得到很好地解决。主要原
因就是生存分析中往往涉及到数据删失的问题, 如果不考虑删失数据,
则可以利用率的比较所需样本量的计算公式。但是,简单的忽略这部
分数据,往往会造成信息的损失。如果考虑删失数据,则样本量的计
算又变得非常复杂,因此,直到今天,这个问题依然是国内外统计学
者研究的热点之一。本研究仅介绍其中一种较为成熟的计算方法及其
相应的实现软件,并通过实例说明该公式应该逐渐被研究者们广泛应
用,从而达到提高研究效率的目的。
1 公式介绍
以往,对于 COX 回归模型所需的样本量往往凭经验去估计,
1
即至少需要相当于协变量个数 10~15 倍的阳性结局事件。1983 年,
Schoenfeld 在 Biometrics 杂志上撰文,提出了一个计算比例风险模
型样本含量的公式[1,2] :
D=(Z1-a+Zb)2[P(1-P)logD)2]-1
这里,D 是指发生阳性结局的总人数,P 是指分配到第一治疗
组人数所占的比例。logD是指风险比的对数。该公式主要是用来计算
随机化分组研究的设计所需的样本量,适用于二分类自变量。同时,
当考虑其他协变量对生存时间的影响时,则要求主要感兴趣的研究变
量与其他变量间相互独立。
然而,在实际的工作当中,变量之间有时并不能满足独立性。
因此,2000 年,Hsieh 和 Lavori 在 Controlled Clinical Trials 上
将 Schoenfeld 的计算公式进行了扩展[3] 介绍如下: ,现
N=(Z1-a/2+Z1-b)2P(1-R2)s2B2
等号左边,N 表示所需要的样本含量。
等号右边 Z1-a/2,Zb表示给定检验水准和检验功效时的 z
界值; 表示整个研究期间阳性结局事件的发生率; 表示对数风险比,
P B
2
即 logD;s2 表示感兴趣的研究因素 X1 的方差,这里假定 X1 服从正
态分布,对于非正态分布的 X1, 如二项分布, 可通过 p(1-p)进行估计,
这里,p 表示 X1 取"0"或"1"的比例。与 Schoenfeld 的计算公式
不同的是,该公式引入了"方差膨胀因子" VIF)
( ,即 1/(1-R2) R2 。
表示 X1 对其他协变量作回归分析时的确定系数,取值范围 0~1,当
取值为"0"时,一般表示只考虑一个自变量 X1 的情形。亦即当变量
间不满足独立性时,需要通过 VIF 来增加参数估计值的方差。
上述各指标可通过查阅相关文献或进行预试验确定。
2 软件实现
目前, 有许多统计软件可以用来计算生存分析所需的样本量,
但是大部分软件都是针对 log rank 检验的, 或是要求生存时间服从
指数分布,比如 S plus、PS、NQuery Advisor、STATA、PASS 等。
然而,逐渐地也有不少软件开始引入针对 COX 回归分析所需样本量的
计算程序,比如 STATA 和 PASS。现介绍如下:
2.1 STATA 软件的应用
程序如下:stpower COX [coef] [, options]
3
展开阅读全文