1、统计学的基本概念-样本量与检验效能 1重温统计学的基本概念(针对连续性变量)-点估计-而准误和可信区间-假设检验,P值,显著性水平和效能2例子随机对照临床试验-一种降压药与安慰剂的比较-主要指标:随机分配后一个月时病人收缩压与之前基础水平的差值-随机分配病人到每个组,每组n=100(总数为:N=200)结果-使用安慰剂后血压改变的均值:-使用降压药后血压改变的均值:今观察到的降压药效果:=-0.8 mmHg x2=-5.4 mmHg 又2-乂=-4.6 mmHg-个值偏离平均值的距离的平均数(标准差):o=10 mmHg我们可以从中学到什么?3观测效应是否反映了真实的总体效应?7 4统计学的一
2、些基本问题 对真实的(总体)疗效最可靠的估计是怎样的?3估计 从中得出的总体疗效在什么范围内是可信的?分可信区间 治疗是否有效?也就是说,我们是否能得出真实疗效不等于。的结论?个假设检验5在同样的目标人群中50个随机对照临床试验的观测值True(population)effect-12-10-8-6-4-2 0Observed treatment effect6参数估计与不确定性最可靠的真实疗效的参数估计:X2二x1三-4.6 mm Hg我们如何量化这种评估方法的不确定性?-标准误-可信区间7标准误 量化估计疗效的准确性 定义为:当随机对照试验重复很多次时估计疗效的标准差 公式:弓一吊 A(t
3、rue effect,S.E.2)仅根据一次随机对照试验就可以得出:数学公式:SE=o8观察到的疗效分布图9可信区间(Cl)量化试验结果中可信真实疗效的准确范围通常采用95%CI-我们有95%的把握认为,真实的疗效在95%的可信区 间内。-如果进行多次随机对照试验,则95%CI会包含95%的 试验的真实疗效。1050次随机对照试验中观察到的药物疗效(95%CI)True(population)effect-12-10-8-6-4-2 0Observed treatment effect11计算Cl几个类似的公式90%CI:另一兄1.64-S.95%CI:/一吊 L96S.E99%CI:元2/2
4、.58SE12适用于我们的例子的SE.和Cl公式SE=b,杉离。14195%CI:x2-x11.96-5.E.=-4.61.96-1.41 Interval-7.4,-1.899%CI:%2-2.58 S.E.=-4.6 2.58-1.41Interval-8.2,-1.013假设检验的步骤I1.建立无疗效的零假设-H。:干预与对照效果一样(“无差异,真实疗效=0)-Ha:干预有效果,真实疗效W0(对立的假设,双侧)2.进行随机对照试验和收集数据-在H。假设(即“无差异”)的前提下,比较实际疗效与预期疗效14假设检验步骤II3.计算试验观察到的样本数据符合“零假设成立”的可能性(P值)-如果零
5、假设成立,那么元2 吊N(true effect=O.S.E.2)比如说,如果观察到的疗效值比1.96SE.大,那么意味着 p0.05-p=0.003 9如果零假设成立,那就出现了 1000人中只有3人有疗 效的极端情况=概率很低15假设检验步骤III4.简要判断以P值与事先设定的显著性水平。作比较(通常a=5%)a)p C a(通常p a(通常:p 0.05)今“无统计意义”今零假设成立”但是,并不说明两组一样!-有可能是因为:-两组间确实无差别-无法测出存在的差别-差别很小-样本量不够16统计检验和可信区之间的对偶性 95%CI包括0p0.05 95%Cl不包括0p0.0517假设检验中的
6、第一类和第二类错误 第一类:零假设(a)为真,拒绝零假设,也就是说,错误地 认为有差别.-提前设定的一类错误的概率-通常a=5%(显著性水平)第二类:零假设(B)不真,接受零假设,也就是说,无法 测出真实的差别。-犯二类错误的可能性(即0),取决于效应的大小和样 本量检验效能=1-018显著性检验的选择选择接受Ho拒绝Ho结果Ho成立 Ha成立止确接受错误接受(第二类错误,6)错误拒绝(第一类错误,0)正确拒绝显著性水平:犯第一类错误的可能性.(一般取:a=5%or 1%.)检验效能:1-犯第二类错误的可能性.(一般取:1-6=80%or 90%.)19P值和可信区间的解释-实例*Kirkwo
7、od&Sterne,p.76 f20例子有3种针对心脏病发作高危的中年人群的降血脂新药(A,B,C)-药A和B价格低廉-药C价格昂贵进行了5个包含这3种药物和对照(安慰剂)的随机试验主要的检测指标-一年内血脂水平-临床上确认的血脂下降均值(相对于安慰剂)40 mg/dl或更多少对心脏病发作有重要保护作用 20-40 mg/dl中等保护作用20试验结果-如何分析?试验药物价格每组的 病人数年内血脂均值(mg/dl)药物引起的下降值测药安慰剂计值95%CIP值1A便宜30140180-40(-118+38)0.322A便宜3000140180-40(-48,-32)0.0013B便宜4016018
8、0-20(-85+45)0.544B便宜4000178180-2(-8.5+4.5)0.545C日木 卬贝5000175180-5(-8.9,-1.1)0.0122重点 P值大并不代表零假设是正确的-“没有证据并不证明不存在”统计学意义不完全和临床相关-小试验9真实疗效大不一定会有统计学意义-大试验9疗效小也可以有统计学意义通常情况下,可信区间比P值更有意义-谕使在相关性看验无统计意义的时候,窄的可信空间也能排除疗 效大帝情况。9 一般建议:描述数值的时候,通常应该给出数值的95%CI和P值23随机对照试验中样本量的计算_ 基本概念24在随机对照临床试验中 计算样本量的重要性问题:在随机对照临
9、床试验(RCT)中,需要多少 病人来随机分配?在设计随机对照临床试验时,设定样本量是一个 严肃的问题!-伦理学方面样本量过大3太多的病人暴露在RCT的危险中样本量过小1尽管病人暴露在RCT的危险中,但试 验却无法说明重要的临床差异。-经济方面以上两种情况都会导致资源和时间的浪费25样本量计算基本原理在RCT中,通常根据试验的主要检测指标计算样本量,还根据:-选定的显著性水平和检验效能-两个治疗组之间的预期差异最小的临床相关性差异预期的差异(根据之前的试验 和/或专家的判断)-个值和总体均值之间的差异26显著性检验的选择选择接受Ho拒绝Ho结果Ho成立 Ha成立止确接受错误接受(第二类错误,6)
10、错误拒绝(第一类错误,0)正确拒绝显著性水平:犯第一类错误的可能性.(一般取:a=5%or 1%.)检验效能:1-犯第二类错误的可能性.(一般取:1-6=80%or 90%.)27适用于两组间比较的简单样本量公式28计算样本量的参数(连续性结果)必须在试验中能测到的效应大小:5(情境依赖)病人结果的标准差与样本均数的差异:。(情境依赖)显著性水平:a(一般:a=5%)检验效应大小的检验效能:1-6(一般:1-8=80%or 90%)29Ho成立时,观察到的疗效分布oAz1_a/2m/2/n30当Ho或Ha成立时,观察到的疗效分布z1_ot/2a727n zpaVTn适合连续性结果的样本量公式当
11、试验采用统计意义水平a和检验效能1-B时,0+3/2072Tzi=3-%bV2Tzi2(Za/2+Zp)n n=-六俗/。)2 备注-n是组样本量;总的来说,N=2n的病人量是必须的-样本量与5/。(标准化的效应大小)的平方成反比.-a=0.05,P=0.20(z1 a/?+z1 6)2=7.851 I-ci/N I-P/-a=0.05,8=0.10 f(Z/a/2+Zi3)2=1。5132简化的样本量计算公式(连续性结果)显著性水平为5%,检验效能为80%9每组样本量n为16显著性水平为5%,检验效能为90%9每组样本量n为21八屋A 3A指的是标准化的目标效应大小:A 二 a33例子 RC
12、T-比较降压药与安慰剂的试验-主要指标:随机分配后一个月时血压下降值(=服药的日期)-假定:两组数据接近正态分布,并且差值已知。=10 mm Hg需要有有效的检验效能来检测干预组中比安慰剂组大于5 mm Hg的下 降值(5=5)a=5%(双侧),3=10%(90%检测效能)力需要多少病人?分根据公式得出:=0.5 9n=84(每组)共需要168位患者以供随机分配。34各组总样本量不同时的样本量假设不需要1:1随机配对,而是12 少这对样本量有什么影响?理论上的结果:如果随机分配到一个组的病人比率是我 们需要考虑多一个因素1/(41(1-)来增加样本量,从 而保持相同的检验效能(相对于1:1随机
13、配对)玲1:1随机配对是最佳的个对于1:2随机配对(兀=0.333)来说,总样本量必须增加 12.5%.35样本量计算需要用到的参数(双重结果)对照组结果的可能性:p1(情境依赖)干预组结果的可能性:P2(情境依赖)显著性水平:a(通常:a=5%.)检测效应大小的检验效能:1-0(通常:1-0=80%或 90%)36适用于双重结果的样本量计算公式with,=(P+,2)/2 每组所需的样本量n为+Z1.,P1(1-1)+(,2-Pl),Zi_a/2=1.96时,显著性水平为5%Zi.b=0.84时,检验效能为80%;”1.28时,检验效能 为90%37例子 RCT-癌症标准疗法和新疗法的比较-
14、主要检测指标:出现完全肿瘤反应的病人比例-假设:pO.6,p2=0.8 Q=5%(双侧),B=10%(90%检验效能)9需要多少病人?少根据公式得出n=109(每组)分总病人数:N=21838研究标书中样本量的标准说明 这个试验中衡量效能的主要指标是,每组中出现完全肿瘤反应的病人 的比例。在预试验中,对照组中约60%的病人出现完全肿瘤反应。由于干预,主要检测指标上升了20%(从60%到80),可以认为具 有真实性和临床相关性。为了在双侧5%显著性水平和90%的检验效能的情况下能检测到这样 的变化,需要218个病人(每组109个)考虑到存在病人失访和违反标书标准的可能性,需要240个病人来随机
15、分配(每组120个)。39计算样本量的软件 现在有很多计算样本量的免费商业软件 许多在线计算工具3可信度多少?有一款免费的、互动的软件,我觉得挺好用:TS:Power and Sample Size Calculation”(http:biostat.mc.vanderbilt.edu/wiki/Main/PowerSamaleSize)40讨论41讨论一 在设计RCT时,计算样本量是一个很重要的问题,也是实 验标书的一个必要组成部分(包括对计算时采用哪种假设的 说明)。许多情况下/试验都有样本量计算公式。在某些复杂的情 况,样本量也可以通过模拟得出.42讨论二 样本量的计算通常是基于对真实效
16、应大小和数据差异的假 设。-尽量做出尽可能接近现实的假设(“无用输入-无用输出)以下方面的结果:二期试验,相似药物的试验,后期分析,专家评 判等.-在不同的情况/假设下计算样本量-谨慎的计算不是:只有80%的检验效能和对疗效非常乐观的假设.请注意:一些病人有可能改变治疗或者失访,而这会降低有效 治疗的效果(如在意向性治疗分析中所估计的).43讨论三在实践中,RCT中样本量的计算经常需要在对实际情况的假 设和实验的可行性这两个方面中择中选择。-例子:在某种罕见疾病的研究中,通过样本量计算得出需要5000个 病人。实际上,要在合理的时间段内收集到这么多病人,简直是天 方夜谭。对于重要的次要指标来说,进行检验效能的考虑也是有用 的。44讨论四获取更好的检验效能的方法就是,找到适合数据的更好的 模型。-根据最重要的基本因素,调整最初的分析()危险因素(比如说,用回归代替t检验)和在标书中对此预先说响。考虑检验效能对于实验目的设计来说是有用的,但在实验 完成后作用不大.-可以通过干预效果的可信区间的大小来了解不确定性。-避免事后计算检验效能,如:计算“观测到的检验效能”9这是没有 统计学意义的!45结束语检验效能:统计学家一直在计算却从来没有得到结果.Stephen Senn46