收藏 分销(赏)

SAS的生存分析(正式).ppt

上传人:w****g 文档编号:5871018 上传时间:2024-11-22 格式:PPT 页数:48 大小:414KB 下载积分:12 金币
下载 相关 举报
SAS的生存分析(正式).ppt_第1页
第1页 / 共48页
SAS的生存分析(正式).ppt_第2页
第2页 / 共48页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,华中科技大学公卫学院,流行病与卫生统计系,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,学习目标,了解生存分析的应用范围和数据特点;,熟悉常见的生存时间分布规律的函数;,掌握生存率的两种估计方法:乘积极限法和寿命表法;,掌握估计和比较生存函数的,SAS,程序;,Cox,回归的形式、数据格式、应用和,SAS,程序。,1,生存分析简介,在医学研究中,常常用随访的方式来研究事物发展的规律。例如,了解某药物的疗效,了解某仪器设备的使用寿命,了解手术后的存活时间等等。这种研究的特点是追踪研究的现象都要经过一段时间,统计学上将这段时间称为生存时间。生存分析就是用来研究生存时间的分布规律以及生存时间和相关因素之间关系的一种统计分析方法。,生存分析在医学科学研究中具有广泛而重要的应用价值,它对人群寿命的研究,各种慢性疾病的现场追踪研究,临床疗效试验和动物试验等研究中随访资料的处理起着举足轻重的作用。,2,生存数据,生存数据,指的是生存时间以及与生存时间有关联的一组独立变量。这里主要解释与生存时间有关的几个概念。,在生存分析中将生存时间定义为从某起始事件起到某终止事件为止所经历的时间跨度。例如,在临床研究中,冠心病患者在两次发作之间的时间间隔;在流行病学研究中,从开始接触危险因素到发病所经历的时间;在动物研究中,从开始给药到发生死亡所经历的时间。所以,生存时间也称为失效时间。,3,生存数据,生存时间资料与多元线性回归资料很相似,只不过因变量通常为观测对象生存的时间,常用来表示。当然,生存时间是广义的,可以指在通常意义下生物体的生存时间、也可以指所关心的某现象(如疾病治愈后、合格品使用后)持续的时间。若生存时间是准确观测到的,则称为完全数据,它提供的关于生存时间的信息是完整确切的,也就是说它准确地度量了观察对象实际生存时间。但是生存资料的一个明显特点是:所收集的资料中常常包含不完全数据,也称为截尾数据、删失数据。包括删失数据的资料,称为删失资料(或截尾数据)。它提供的关于生存时间的信息是不完整不确切的,也就是说它没有准确地度量观察对象实际生存的时间。,4,生存数据,导致数据删失有很多原因,较常见的为失访和研究截止。由随机因素引起的,称为随机删失;若事先就定了截止日期,则称为定时删失;若事先就定了观察完多少例就截止研究,则称为定数删失。在表达删失数据时,常在其右上角放一个“”号;而用,SAS,软件分析时,常在其前放一个“”号或产生个指示变量(例如,,=,表示删失数据、,=,表示完全数据),便于计算时区别对待。为了使数据的表达与计算在形式上统一起来,本章一律用负数表示删失数据,因生存时间不可能为负值,故不会产生混淆。,5,生存数据,一般地,截尾数据可分为右截尾、左截尾、区间截尾等不同类型。右截尾数据表示观察对象至少存活到时刻,t,,即生存时间的上界是未知的。右截尾数据一般出现在随访过程中某些观察对象失访或死于其它原因,或在规定的研究过程结束时观察对象的终止事件还未发生。左截尾数据表示观察对象至多存活到时刻,t,,即生存时间的上界是已知的,但确切的生存时间是未知的。区间截尾数据表示观察对象至少存活到,t1,时刻且至多存活到,t2,时刻。,6,生存数据,对于截尾数据,既不能简单地弃之,需要采取一些技术处理。专门处理这种资料的统计方法,称为,生存分析,。应为抛弃截尾数据不仅损失了样本量,最重要的是在这些截尾数据中,特别是右截尾数据大部分是生存时间较长者的数据,损失掉这一部分观察对象的信息,分析结果一定是片面或不稳定的。,截尾数据的存在是生存数据与普通数据的根本区别。处理截尾数据是生存分析的一个重要特点,本章介绍的生存分析主要处理右截尾数据。,7,生存时间函数,描述生存时间分布规律的函数统称为生存时间函数。常用的有生存函数、死亡函数、死亡密度函数和风险函数。,8,生存函数,生存函数也称为生存,概率,或累积生存率,它表示观察对象生存时间,T,大于某时刻,t,的,概率,常用,S(t),表示:,在具体问题中,该函数在时刻的取值可用下式来估计,S(t),生存时间长于的观察对象人数观察对象总数,显然,,S(t),是一个随时间增加而下降的函数,它表示观察对象随访到,t,时刻的累积生存率。,9,死亡函数,观察对象的生存时间,T,不大于某时刻,t,的概率称为死亡函数,又称为死亡,概率,函数简称为死亡,概率,,它表示一个体从开始观察起到时刻为止的死亡,概率,,常用,F(t),表示:,显然,,F(t),是一个随时间增加而上升的函数,它表示观察对象随访到,t,时刻的累积死亡率。,10,死亡,密度,函数,死亡,密度函数简称为密度函数,观察对象在某时刻,t,的瞬时死亡率,常用,f(t),表示:,该函数表示观察对象死于,(t,,,t+t),小区间内的,概率,的极限。在具体问题中,该函数在时刻的取值可用下式来估计,f(t)t,时刻开始的区间内,(t,,,t+t),的死亡人数,(,观察总人数,区间宽度,),11,风险函数,它表示已存活到时刻,t,的观察对象在时刻,t,的瞬时死亡率,又称危险函数,常用,h(t),表示:,该函数表示一个已存活到时刻,t,的观察对象死于,(t,t+t),小区间内的,概率,的极限,它实际上是一个条件瞬时死亡率。在具体问题中,该函数在时刻的取值可用下式来估计:,12,均数、中位数和半数生存期,除了上述的生存时间函数外,均数、中位数、半数生存期等也反映一组生存时间平均水平常用的统计指标。由于生存资料多呈正偏态分布,更适宜选用百分位数,包括中位数指标。,半数生存期,指寿命的中位数,表示有且只有,50%,的观察对象可以活这么长时间。由于截尾数据的存在,半数生存期的计算不同于普通的中位数,它可应用生存函数曲线图或生存函数公式,令生存率等于,50%,,然后推算生存时间。,13,均数、中位数和半数生存期,总之,生存分析主要包括四个方面的内容:描述生存过程,即研究生存时间的分布规律;比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较;分析危险因素,即研究危险因素对生存过程的影响;建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。,14,生存分析的基本方法,统计描述,非参数检验,半参数模型回归分析,参数模型回归分析,15,统计描述,包括求生存时间的分位数、中数生存期、平,均数,、生存函数的估计、判断生存时间的图示法,不对所分析的数据作出任何统计推断结论。,用描述法进行生存分析的基本方法是根据样本观察值提供的信息,直接用上述给出的估计公式计算出在每一时间点或每一个时间区间上的生存函数、死亡函数、风险函数以及计算出生存时间的百分位数、平均数、半数生存期等,并采用列表或绘图的形式显示生存时间的分布规律。,16,统计描述,用描述法估计生存时间分布规律的优点是方法简单且对数据的分布无要求,但它的缺点是不能比较两组或多组生存时间分布函数的区别;不能分析危险因素对生存时间的影响;不能建立生存时间与危险因素之间的数量依存关系模型。,17,非参数检验,检验分组变量各水平所对应的生存曲线是否一致,对生存时间的分布没有要求,并且检验危险因素对生存时间的影响。,非常数法可以用来完成:估计生存函数;比较两组或多组生存函数;分析危险因素对生存时间的影响。缺点是不能建立生存时间与危险因素之间的数量依存关系的数学模型。常用的方法有乘积极限法(,PL,法)和寿命表法(,LT,法)。,18,半参数模型回归分析,在特定的假设之下,建立生存时间随多个危险因素变化的回归方程。,半常数法不需要对生存时间的分布作出假定,但却可以通过一个模型来分析生存时间的分布规律,以及危险因素对生存时间的影响。这种方法的代表是,Cox,比例风险回归分析法,它兼有非常数法和参数法的优点,是生存分析中最重要的模型分析法。它在表达形式上与参数模型相似,但在对模型中各参数进行估计时又不依赖于特定分布的假设,所以又称其为半参数模型。,19,参数模型回归分析,已知生存时间服从特定的参数模型时,拟合相应的参数模型,更准确地分析确定变量之间的变化规律。,用参数法进行生存分析的基本方法是根据样本观察值来估计假定的分布模型中的参数,获得生存时间的概率分布模型。用参数法进行生存分析需要事先知道生存时间的分布,但它的优点是:比较两组或多组生存时间分布函数;分析危险因素对生存时间的影响;建立生存时间与危险因素之间依存关系的模型。,生存时间经常服从的分布有指数分布、,Weibull,分布、对数正态分布、对数,Logistic,回归和,Gamma,分布。,20,非参数分析方法 SAS程序,SAS,系统中,,LIFETEST,过程提供非参数分析方法,用乘积极限法和寿命表法估计生存率和中位生存时间等;用对数秩检验,(Log-rank test),、,Wilcoxon,检验和似然比检验等做分组比较。该过程主要用于估计生存率及进行单因素分析。,LIFETEST,过程的语法格式如下:,PROC LIFETEST;,TIME,生存时间变量*截尾指示变量(数字),;,TEST;,STRATA;,FREQ;,BY;,Run;,21,非参数分析方法 SAS程序,DATA,数据集:规定,PROC FREQ,语句使用的数据集;,METHOD=,方法:指定估计生存率所用的方法;,PL,,要求用乘积极限法,(,即,Kaplam-Meier,法,),估计生存率并计算中位生存时间等,为缺省方法。,LT,,要求用寿命表法估计生存率等。,INTERVALS=(,初值,TO,终值,BY,步长,),只能在指定分析方法为寿命表法时使用。用寿命表法分析时,程序会自动给定生存时间的区间。如果人为规定生存时间的分组区间,则需用该选项指定。步长的缺省值为,1,。,22,非参数分析方法 SAS程序,WIDTH=,宽度:指定用,LT,法的生存时间区间的宽度。,PLOTS=,绘图类型:要求输出生存分析图。可供输出的图形有:,S,,对生存函数,S(t),做图,横、纵坐标分别为,t,、,S(t),。,LS,:对,-LOGS(t),做图,横、纵坐标分别为,t,、,-LOGS(t),。,LLS,:对,LOG,(,-LOGS(t),做图,横、纵坐标分别为,LOG(t),、,LOG,(,-LOGS(t),。,H,:对风险函数做图,横、纵坐标分别为,t,、,H(t),。,23,非参数分析方法 SAS程序,NOTABLE,:指令不输出生存函数估计结果,只输出生存时间的截尾数据和完全数据的个数以及散点图和检验结果。,TIME,语句用于定义生存时间和截尾指示变量。对截尾指示变量可以指定发生失效事件的数值,默认失效事件用,0,来表示,截尾事件用,1,来表示。,24,非参数分析方法 SAS程序,STRATA,语句定义生存率比较的分组变量,,TEST,语句定义生存率比较的分组变量或协变量。,STRATA,语句在这里的作用和,BY,语句类似,都是要求按分组变量名列进行分析,在计算生存率时各组分开计算。,TEST,语句定义需检验的变量,即生存时间与该变量是否有关,如果它后面定义的变量为数值变量,则把该变量当作协变量检验与生存时间的关系。如果它定义的为分组变量,则分组比较生存时间有无差别。,25,例题1生存率计算,为了比较不同手术方法治疗肾上腺肿瘤的疗效,某研究者随机将,43,例病人分成两组,甲组,23,例、乙组,20,例的生存时间(月)如下所示:,甲组:,1,,,3,,,5,(,3,),,6,(,3,),,7,,,8,,,10,(,2,),,14,+,,,17,,,19,+,,,20,+,,,22,+,,,26,+,,,31,+,,,34,,,34,+,,,44,,,59,乙组:,1,(,2,),,2,,,3,(,2,),,4,(,3,),,6,(,2,),,8,,,9,(,2,),,10,,,11,,,12,,,13,,,15,,,17,,,18,其中有“,+,”者是删失数据,表示病人仍生存或失访,括号内为重复死亡数。试计算甲组的生存率与标准误。,26,例题2寿命表法,某研究者随访收集了某地男性心绞痛患者,2418,例,试计算该地男性心绞痛患者的生存率及其标准误。,27,例题3log-rank检验,试比较甲、乙两种手术方式的生存率有无差别?,28,Cox模型,像通常的回归分析一样,人们也希望能建立起生存时间(因变量或反应变量)随危险因素(自变量或协变量)变化的回归方程,以便对危险因素的作用大小有一个全面的了解和掌握、并根据危险因素的不同取值对生存,概率,进行预测。由于很难获得准确的生存时间,前述目的较难直接实现。,1972,年,Cox,提出了比例危险模型,简称为,Cox,模型。由于此模型在表达形式上与参数模型相似,但在对模型中各参数进行估计时却不依赖于特定的假设,所以又称为半参数模型。,29,Cox模型,Cox,模型是目前生存分析多因素预后评价中较好的统计分析方法,医学上经常遇到“时间,-,反应”类型资料。如生命现象生存期、疾病潜伏期、药物试验的生效时间等。这种类型的资料可以用各种参数或非参数方法进行分析,但都有一定的局限性。,Cox,模型以半参数方式出现,适用于许多分布未知的资料和多因素分析,可以在众多预后因素共存的情况下,排除混杂因子的影响,提高预后分析质量,并能处理截尾数据。此模型的适用面很宽,在,生存分析,中占有特殊的地位。,30,Cox模型,设是影响生存时间,t,的,k,个危险因素。设,hi(t),为第,i,名受试者在时刻,t,的风险率,即,t,时刻外后一瞬间的死亡速率。又设,h0(t),表示不受危险因素,x,的影响下,在时刻,t,的风险率,又称为基准风险率或基准函数。其模型的具体形式为:,hi(t)=h0(t)exp(1xi1+2xi2+mxim),式中,hi(t),为第,i,名受试者生存到,t,时刻的危险率函数,,h0(t),是当所有危险因素,(,即,xij=0),不存在时的基础危险率函数,,X=(xi1,xi2,xim),是可能与生存时间有关的个危险因素所构成的向量。,31,Cox模型,lnhi(t)/h0(t)=,1xi1+,2xi2+,mxim,此式表明:各危险因素与回归系数的线性组合就是第名受试者的相对危险率函数的自然对数值。再设有,i,、,j,两个受试者,其危险因素向量分别为,X1,与,X2,,不难得出他们的相对危险率的自然对数为:,lnhi(t)/h0(t)=,1(xi1-xj1)+,2(xi2-xj2),即利用,“具有某预后因素向量的受试者的死亡风险与不具有该预后因素向量的受试者的死亡风险在所有时间上都保持一个恒定比例”的假设,巧妙地获得了各时间点上个受试者相对危险率函数的估计值。,32,Cox模型,然而,当资料不满足上述假设时,即有些危险因素作用的强度是随时间而变化的,个受试者的危险率函数之比,(,相对危险,),随时间而改变,就应改用时变协变量模型,也称为非比例危险模型。当只有一个危险因素时,其模型的具体形式为:,hi(t)=h0(t)expxi+(xiti),式中,ti,为第,i,个受试者的生存时间。,上述各式中的回归系数需用最大似然法进行估计,一旦有了危险率函数的估计值,再利用生存时间函数之间的相互关系,可获得其他生存时间函数的估计值。,33,Cox模型中参数意义的解释,对于一元,Cox,模型,如果因素,x,的取值为,1,和,0,,那么,受,x,影响与不受,x,影响的相对风险是:,对于一元,Cox,模型,如果因素,x,是连续变量,那么,表示相邻水平的风险率之比。,多余多元,Cox,模型,表示其它因素不变的情况下,因素,xi,相邻水平的风险率之比(相对风险率)。,34,Cox模型中参数意义的解释,例如,高血压(,x1,)和高血脂(,x2,)对冠心病的发病风险率的,Cox,模型是:,其中,,h0(t),表示既没有高血压(,x1=0,)也没有高血脂(,x2=0,)的研究对象在时刻,t,的发病风险率。,35,Cox模型中参数意义的解释,由此可以估计出:,有高血压但没有高血脂者(,x1=1,,,x2=0,)相对于既没有高血压也没有高血脂者发病的风险率之比为:,有高血脂但没有高血压者(,x1=0,,,x2=1,)相对于既没有高血压也没有高血脂者发病的风险率之比为:,有高血压又有高血脂者(,x1=1,,,x2=1,)相对于既没有高血压也没有高血脂者发病的风险率之比为:,36,Cox模型的应用,Cox,模型由于以下特点具有广泛的应用价值:,与参数法相比,它不需要考虑资料的分布,即任何分布的生存研究资料都可以利用,Cox,模型进行数据分析。,它是一种多元统计分析方法,可以用来分析多种因素对生存时间的影响。而流行病学研究的重要目标之一就是分析各种因子与发病之间的关系,,Cox,模型回归分析模型可以用来分析各因子对发病的影响,使得生存分析更适合于流行病学研究。,37,Cox模型的应用,它与其它一般回归分析方法类似,可用于比较和预测,多元,Cox,模型回归分析可以校正其它因素的影响,用于某一因素不同水平的比较;并可以在研究对象的各因素已知时,预测研究对象在某时刻的生存概率。,它与,Logistic,回归分析类似,在得到回归系数的估计值后,则可以估计,t,时刻的相对危险度:。,38,Cox回归的SAS程序,SAS,系统中利用,PHREG,过程对生存数据进行回归分析,结局变量(因变量)为生存时间,可以处理有截尾数据的生存时间。,PHREG,过程的语法格式如下:,PROC PRREG DATA=,选项,;,MODEL=/,选项,;,STRATA;,FREQ;,BY;,RUN;,39,Cox回归的SAS程序,MODEL,语句为必需的,定义生存时间和截尾指示变量和说明变量:,NOPRINT,,不打印输出;,NOSUMMARY,,不打印输出事件和截尾数值;,SIMPLE,输出,MODEL,语句中每一个说明变量的简单的描述统计量。,TIES=,方法,指定估计生存率所用的方法:,BRESLOW,使用,Breslow,的近似似然估计,为默认的选项;,DISCRETE,,用离散,Logistic,模型替代比例风险模型,多用于,m:n,的,Logistic,回归;,EFRON,使用,Efron,的近似似然。,40,Cox回归的SAS程序,EXACT,,计算在比例危险假定下所有失效事件发生在具有相同值的删失时间或较大值时间之前的精确条件概率。,ENTRYTIME=,变量名,规定一个替代左截断时间的变量名。,41,Cox回归的SAS程序,SELECTION=method,,方法可以选择以下几种:,FORWARD(,或,F),,按照规定的,P,值,SLE,从无到有依次选一个变量进入模型;,BACKWARD,,按照规定的,P,值,SLS,从含有全部变量的模型开始,依次剔除一个变量;,STEPWISE,,按照,SLE,的标准依次选入变量,同时对模型中现有的变量按,SLS,的标准剔除不显著的变量;,SCORE,,采用最优子集选择法。其中,,SLE,选择项用于指定协变量进入模型的显著水平,,SLS,选择项用于指定协变量停留在模型中的显著水平,缺省值皆为,0.05,。,42,Cox回归的SAS程序,STRATA,语句:比例风险的假定可能不会对所有的层都成立,此时需要作分层分析。,STRATA,语句要求按照分层变量名列的水平数拟合一个多层的,Cox,模型。与,BY,语句不同,后者是要求按分组变量名列分别估计模型及参数。,PHREG,过程中还可以加入编程语句用以创建模型中的新的自变量,但不能用以修改应变量,截尾变量,组变量或分层变量的值。当省略所有的选项,并且只有一个分类自变量(分组变量)时,模型的检验相当于生存曲线的比较。,43,例题COX回归,为探讨某恶性肿瘤的预后,某研究者收集了,63,例患者的生存时间、生存结局及影响因素。影响因素包括病人年龄、性别、组织学类型、治疗方式、淋巴结转移、肿瘤浸润程度,生存时间,以月计算。试用,Cox,回归模型进行分析。,44,本章小节,在医学研究中,常常用随访的方式来研究事物发展的规律。例如,了解某药物的疗效,了解某仪器设备的使用寿命,了解手术后的存活时间等等。这种研究的特点是追踪研究的现象都要经过一段时间,统计学上将这段时间称为生存时间。生存分析就是用来研究生存时间的分布规律以及生存时间和相关因素之间关系的一种统计分析方法。,45,本章小节,生存数据,指的是生存时间以及与生存时间有关联的一组独立变量。这里主要解释与生存时间有关的几个概念。在生存分析中将生存时间定义为从某起始事件起到某终止事件为止所经历的时间跨度。所以,生存时间也称为失效时间。,描述生存时间分布规律的函数统称为生存时间函数。常用的有生存函数、死亡函数、死亡密度函数和风险函数。进行生存分析有四种基本方法:统计描述、非参数检验、半参数模型回归分析、参数模型回归分析。,46,本章小节,本章介绍了生存率的两种估计方法:乘积极限法和寿命表法,以及结合实例介绍了进行生存率估计两种方法的,SAS,程序。最后,重点介绍了,Cox,模型、,Cox,模型的参数估计、,Cox,模型的参数检验、,Cox,模型的意义解释、,Cox,模型的应用和,Cox,模型的,SAS,分析实例(,PHREG,过程)。我们需要重点掌握乘积极限法和寿命表法、,Cox,模型的意义和应用,尤其是,Cox,模型的意义和应用(,PHREG,过程)。,47,48,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服