资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,诊断试验研究,病例,一位,54,岁的中学女老师找其家庭医生进行年度例行体检。其在过去的一年中一直感觉良好,只有一次发热,没经治疗就好了。家庭医生给她做了乳房、骨盆、直肠等项检查,没有发现异常。医生建议此人做一个乳房,X,光片。乳房,X,光片发现异常,放射科医生建议做一个乳腺活组织切片检查,会同外科医生,决定实施,FNA,(,fine needle aspiration,细针穿刺细胞学),,病理科医生在对样本检查时发现了癌细胞,决定对病人实施进一步的手术治疗。,实施诊断试验的目的,判断诊断对象患病可能性大小,评价疾病的严重程度,预测疾病的预后,评价治疗效果等,一、评价诊断试验的研究设计,一、选择一个“金标准”,,二、用“金标准”去筛选一定数量的患有和未患有某种疾病的研究对象,分为“病例组(有病)”与“对照组(无病)”,三、用待评价诊断方法同步地测试二组研究对象。,四、将所获得的结果与“金标准”的诊断结果进行比较,用一些特殊的指标来评价诊断方法的价值。,诊断方法的评价与选择程序图,诊断试验的程序,一、金标准的选择,二、研究对象的选择,三、样本量的估计,四、评价结果的整理,一,“,金标准”的确定,在其他书中又被称为标准诊断(,standard diagnosis,)、,标准试验(,standard test,)、,真实试验(,true test,)、,参考标准,(,reference standard,),等。,是指目前医学界公认的诊断某种疾病最准确可靠的方法或手段。,通常,一种疾病有一个“金标准”,“金,标准”的特性,准确性高:用低成本且比较安全的诊断技术去代替昂贵而危险的“金标准”可能导致疾病错误分类情况的发生,即将病人判断为非病人,将非病人判断为病人,临床可行性差:通常具有精确、复杂、昂贵和危险的特性,相对性:任何一个“金标准”只是特定历史条件下医学发展的产物,它不具有恒真性;目前所使用的所谓金标准也是相对的;在没有更好的标准的时候,一般标准也是金标准。,二,研究对象的选择,总的原则,是:研究对象应能代表诊断方法可能应用的靶人群。,病例组,应当包括所研究疾病的各种临床类型:轻、中、重型,早、中、晚期,典型的和不典型的,有和没有并发症者,治疗过的与未治疗过的,使病例组对该病的总体具有代表性,使评价的结果对该病具有普遍的意义。,非病组,应选自确实无该病的其他病例,并且还应该包括容易与该病产生混淆的其他疾病,这主要是为了考察待评价诊断方法的疾病鉴别诊断的能力。,总之,研究对象的选择既要考虑到病例的,代表性,,同时又要考虑到诊断方法的鉴别能力。,选择研究对象的过程中必须遵循,随机化的原则,,避免随意选择研究对象。,三,样本含量的估计,n,为样本量;,u,a,为正态分布中累积概率等于,a/2,的,u,值。为容许误差,可取总体率可信区间宽度的一半,一般在,0.05,0.10,;,p,为待评价诊断方法的灵敏度(病例组)或特异度(对照组)的估计值。,样本量的估计主要取决于灵敏度、特异度和允许误差(一般,0.05-0.10,)三个参数。如果为了排除疾病,需要诊断方法的灵敏度较高;如果为了确诊疾病,需要诊断方法的特异性较高。,也可用查表法来估计样本含量,四,评价结果的整理,某病病人与非病人诊断结果,金标准,诊断试验 病人 非病人 合计,阳性,真阳性,A,假阳性,B,A+B,阴性,假阴性,C,真阴性,D,A+D,合计,A+C B+D,A+B+C+D=N,例:某病患病状况与诊断结果,诊断试验 病人 非病人 合计,阳性,18 49 67,阴性,2 931 933,合计,20 980 1000,二、诊断方法的评价指标,诊断方法是:对人体无害、操作简便、出结果迅速、费用低廉,还要考虑,1,、真实性(,validity,)。,准确度(,accuracy,)、,效度(,validity,)。,是指一般测量工具的实际测量结果与真值(,true value,),之间的接近程度。在诊断方法的评价中,,真实性是指诊断方法的检测结果与“金标准”的检测结果的符合程度,,用灵敏度和特异度表示。,2,、可靠性(,reliability,),。,精确度(,precision,)、,信度(,reliability,),和可重复性(,repeatability,)。,是指在相同条件下针对同一事物,测量工具重复测量其结果的稳定程度(,stability,)。,在诊断方法评价中,,可靠性是指在相同条件下针对同一研究对象,重复检测其结果的稳定程度,或一致性(,consistency,)、,重现性。,一、真实性(,validity,),灵敏度,(sensitivity),:,指在“金标准”确诊的病人中,待评价的诊断试验检测出的阳性人数所占的比例。,真阳性率,灵敏度,Se=A/,(,A+C,),100%,假阴性率,(,false negative rate,,漏诊,率):,指在“金标准”确诊的病人中诊断试验检测出的“阴性”人数所占的比例。,假阴性率,FNR=C/(A+C),100%,FNR=1-Se,2,、特异度,(specificity),:指在“金标准”确诊的非病人中,诊断试验检测出的阴性人数所占的比例,特异度计算,S,P,=D/,(,B+D,),100%,假阳性率,(,false positive rate,,,误诊率):,指在“金标准”确诊的非病人中诊断方法检测出的“阳性”人数所占的比例。,假阳性率,FPR=B/(B+D)100%,假阳性率与特异度互补:,FPR=1-S,P,3,、灵敏度与特异度的综合评价,灵敏度与特异度是一个事物的两个方面,存在本质的联系,不可能截然分开。而且,分别评价灵敏度和特异度不利于全面把握诊断方法的真实性。,综合评价指标,似然比(,likehood,ratio,LR,),诊断指数(,Youdens,index,),符合率,(,1,),似然比,在诊断试验评价中,特定方法的似然比被界定为:,病人中出现某种检测结果的概率与非病人中出现相应结果的概率之比,说明病人出现该结果的机会是非病人的多少倍。,阳性似然比和阴性似然比,阳性似然比,是指真阳性率与假阳性率之比,,是诊断试验中阳性结果在患者中出现的概率与在非患者中出现的概率之比。,其计算公式为,阴性似然比,是指假阴性率与真阴性率之比,,是诊断试验中阴性结果在患者中出现的概率与在非患者中出现的概率之比。,一项诊断效率高的诊断方法应该是,真阳性率,高,,假阳性率,低。这二项之比称为该诊断试验的似然比(,likelihood ratio,,,LR,),似然比愈大,诊断的价值也愈大。,某卫生机构为了评价物理检查在急性化脓性咽炎诊断中的真实性,以咽拭子培养甲组乙型溶血性链球菌作为“金标准”,,阳性似然比,=,(,54/65,),/,(,21/163,),=6.45,阴性似然比,=,(,11/65,),/,(,142/163,),0.19,说明病人中出现检查阳性的机会是非病人的,6.45,倍;还说明病人中出现检查阴性的机会是非病人的,0.19,倍。,病人,非病人,合计,物理检查,阳性,阴性,合计,54,11,65,21,142,163,75,153,228,(,2,)诊断指数,是将灵敏度与特异度相加,反映诊断方法发现病人和非病人的总的能力,其取值接近,2,则方法的真实性高,反之则低。,DI=SN+SP,(,3,)符合率(,agreement rate),指诊断试验中真阳性和真阴性之和占总受检人数的比例。,符合率(,A,D,),/,(,A,B,C,D,),多数情况下,患者例数少于非患者例数,故符合率受特异度的影响大于灵敏度的影响。,人群中青光眼患者与非青光眼患者眼内压分布,ROC,曲线(了解),ROC,曲线,(,receiver operator characteristic curve,受试者工作特征曲线,),的横轴表示假阳性率(,1-,特异度),纵轴表示灵敏度,曲线上的任意一个点代表一项诊断方法的特定阳性标准值相对应的灵敏度和特异度对子。,作用:,1,、客观反映灵敏度和特异度之间的关系;,2,、正常值临界点的选择;,3,、比较两种或两种以上诊断试验的价值,餐后二小时血糖,(mg/100ml),灵敏度,%,特异度,%,70,80,90,100,110,120,130,140,150,160,170,180,190,200,98.6,97.1,94.3,88.6,85.7,71.4,64.3,57.1,50.0,47.1,42.9,38.6,34.3,27.1,8.8,25.5,47.6,69.8,84.1,92.5,96.9,99.4,99.6,99.8,100.0,100.0,100.0,100.0,糖尿病试验不同血糖的灵敏度和特异度分布,图,1,:糖尿病血糖试验的,ROC,曲线,当患病率接近,50%,时,坐标内曲线上最靠左上角的点代表最优的分界点。本例为,A,点。当患病率接近,0,或,100%,时,最优的分界点不一定在最靠左上角的位置。,ROC,曲线用于比较多个诊断方法,选择最优诊断方法。图,2,:老年人酗酒检测的,CAGE,和,MAST,试验的,ROC,曲线,二、可靠性,精确度(,precision,)、,信度(,reliability,),和可重复性(,repeatability,)。,是指在相同条件下针对同一事物,测量工具重复测量其结果的稳定程度(,stability,),。,在诊断试验评价中,可靠性是指在相同条件下针对同一研究对象,诊断方法重复检测其结果的稳定程度,或者一致性(,consistency,)、,重现性。,可靠性的计算方法,在所有条件(包括前述影响灵敏度和特异度的因素)一致的情况下,用待评价的诊断方法对同一组研究对象做两次相同的检测,根据两次检测的数据做,相关分析,,用,相关系数,来检验两次检测的一致性。对于检测结果属于非连续性分布的数据,通常采用,kappa,值,来评价两次检测结果一致的程度。,三、收益,影响收益的因素:患病率;诊断试验的灵敏度;正确诊断导致的治愈率、转阴率、生存率的提高或死亡率的下降等。,主要包括预测值(,predictive value,),估算、检出的新病例的预后状况、卫生经济学的评价等。,1.,预测值:应用诊断的结果来估计患病的可能性的大小。,阳性预测值(,positive predictive value,,记为“,+PV”,),和阴性预测值(,negative predictive value,,记为“,-PV,),。,阳性预测值,是指诊断结果为阳性的人患病的可能性,阴性预测值,是指诊断结果为阴性的人未患病的可能性。,预测值的计算,阳性预测值和阴性预测值的计算:,+PV=A/A+B,-PV=D/C+D,在患病率相同时,诊断试验的灵敏度愈高,阴性预测愈高,特异度愈高,阳性预测值愈高。,某急救中心于,1980,年在,500,名头部外伤的急诊患者开展了一项颅骨骨折的诊断,用受伤后失去知觉的时间长短、外伤严重程度和神经检查结果作为诊断指标,并最后用拍片检查以确诊有无颅骨骨折。结果,S,e,=79.07%S,P,=68.60%,PV+=34.34%PV-=94.04%,颅骨骨折,无颅骨骨折,合计,多项检查,阳性,阴性,合计,68,18,86,130,284,414,198,302,500,到了,2000,年,该急救中心又开展了一次相同的诊断。诊断方法及其灵敏度和特异度不变,结果如下,+PV=54.29%-PV=87.38%,与上一次诊断相比,在灵敏度和特异度不变的情况下,阳性预测值上升了,阴性预测值下降了。,原因是,两次诊断颅骨骨折的患病率不同造成的(前者为,17.20%(86/500),,后者为,32.07%(481/1500),)。在此可以得出这样的结论:,预测值与患病率有关。,颅骨骨折,无颅骨骨折,合计,多项检查,阳性,阴性,合计,380,101,481,320,699,1019,700,800,1500,对于一个非全人群的随机样本的诊断,在计算预测值时就应该考虑疾病在人群中的水平,这样计算出来的预测值才能反映真实的情况。,+PV=,(,SeP,),/,SeP,+,(,1-Sp,)(,1-P,),-PV=Sp,(,1-P,),/Sp,(,1-P,),+,(,1-Se,),P,P,为研究疾病的患病率。,1,预测值与患病率的关系,提示:阳性预测值与患病率之间成正比关系,但此结论的前提是灵敏度和特异度相同的情况下。,有研究者在前列腺癌患病水平不同的人群中,对用前列腺特异性抗原开展诊断的预测值的变化情况进行了研究,结果如下,诊断对象,患病率,(1/10,万,),阳性预测值,%,一般人群,高龄无症状男性,有可疑症状者,3.50,500.00,50000.00,0.02,3.40,87.50,Mausner,等将预测值与患病率之间的关系总结为:,当灵敏度和特异度不变时,阳性预测值随患病率的上升而上升,阴性预测值随患病率的上升而下降,且阳性预测值的上升速度快于阴性预测值的下降速度,即患病率对阳性预测值的影响较明显。,2,预测值与灵敏度特异度的关系,在患病率不变的情况下,随着灵敏度的升高,阴性预测值上升;随着特异度升高,阳性预测值上升。,上例:某急救中心在,1980,年的诊断中,其诊断方法的灵敏度为,79.07%,,特异度为,68.60%,,相应的阳性预测值为,34.34%,,阴性预测值为,94.04%,。假定当年在该诊断中,灵敏度为,65.00%,,特异度为,75.00%,,相应的阳性预测值和阴性预测值又是多少呢?,颅骨骨折,无颅骨骨折,合计,多项检查,阳性,阴性,合计,162,88,250,63,187,250,195,275,500,+PV=83.08%-PV=68.00%,四、联合试验:,是指采用多个诊断方法去检测一种疾病,达到提高诊断的灵敏或特异度的目的,以满足诊断对诊断准确性的需要。,联合试验分为,串联,(,serial test,),和,并联,(,parallel test,),两种。,串联,是指先后采用几项诊断方法去检测疾病,只有全部检测结果皆为阳性者才判为阳性。凡有一项检测结果为阴性即判为阴性。,并联,又称平行试验,,是指同时采用几项诊断方法去检测疾病,只要有一项检测结果为阳性者就判为阳性。,串联和并联试验的模式,串联和并联试验的结果,串联试验,的灵敏度低于各独立试验的灵敏度,串联试验的,特异度,高于各独立试验的特异度。,并联试验,的,灵敏度,高于各独立试验的灵敏度,并联试验的特异度低于各独立试验的特异度。,联合试验的选择,联合试验在提高灵敏度或特异度一方时是以牺牲另一方为代价的,这就需要我们考虑在什么情况下用并联或串联。,串联试验的选择时机,虽有几项试验方法,但单项试验的特异度不够高。,疾病不需要迅速做出诊断,但需要正确的诊断;,当某些疾病的治疗或康复费用昂贵或有危险时。,并联试验的选择时机,当急需对病人做出快速诊断时,例如对于急诊病人、住院病人和家住异地复诊困难的病人;,当诊断需要高灵敏度的方法,但可供利用的多项诊断方法灵敏度较低时,例如检测前列腺癌的两种技术:前列腺特异性抗原和肛门指检。,五、诊断试验的评价标准,是否将诊断试验与金标准采用盲法作对比研究?,病例是否包括了各型病例和不同病期的病例?对照是否代表了需要鉴别的人群?,病例的来源及研究工作的安排是否交代清楚?诊断试验的重复性及临床意义如何?,诊断试验的正常值的确定是否合理、可靠?,在一系列试验中,该试验是否最正确?,诊断试验的具体步骤、包括操作步骤、注意事项、结果判断是否明确?能否进行重复试验?,诊断试验的实用性如何?,
展开阅读全文