流行病学第七章-诊断性试验的评价.ppt

资源描述

,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第一节概述,一、诊断试验概念,二、诊断试验评价的目的意义,第二节诊断试验的评价,一、诊断试验评价的原理,二、真实性,三、可靠性,四、实用性,第三节提高诊断试验效率的方法,一、选择患病率较高的人群,二、采取联合试验,第三节诊断试验评价的设计,一、确定金标准,二、研究对象选择,三、样本含量的估计,四、确定诊断试验的分界值,五、与金标准同步进行盲法比较,第七章：诊断试验的评价,1,第一节概述,一、诊断试验的概念,诊断试验（,diagnostic test,）,:,是指应用各种实验、医疗仪器等手段对病人进行检查，以确定或排除疾病的试验方法。,目的是把病人与可疑有病、但实际无病的人区别开来，以便对确诊的病人给予相应的治疗,。,包括各种实验室检查（生物化学、免疫学、微生物学、病理学等）、影像诊断（超声波、,CT,、,X,线、核磁共振等）、仪器检查（心电图、脑电图、核素扫描、内窥镜等），还包括病史询问、体格检查等,。,2,二、诊断试验评价的意义,1,、为什么要评价诊断试验,新的诊断试验方法不断被提出,现有诊断方法缺陷需要新的方法,对诊断结果的解释（指导临床实践）,阳性结果,阴性结果,是否受患病率的影响,2,、诊断试验评价的意义,对诊断试验的应用价值进行科学评价。,为临床医生合理选用诊断试验并正确解释其结果提供科学依据。,3,Disease Status,（,Gold Standard,）,Present,Absent,Test Positive,True Positive,（真阳性）,a,Test Negative,真阳性,（,True positive,）：表示用金标准方法确诊患某病而用新方法试验亦判定为阳性者；,2*2 table,6,Disease Status,（,Gold Standard,）,Present,Absent,Test Positive,Test Negative,True Negative,（真阴性）,d,真阴性,（,True negative,）是指用金标准方法已确诊未患某病而用新方法试验也判定为阴性者。,2*2 table,7,Disease Status,（,Gold Standard,）,Present,Absent,Test Positive,False Positive,（假阳性）,b,Test Negative,假阳性,（,False positive,）是指用金标准方法确诊未患某病而用新方法试验却判定为阳性者；,2*2 table,8,Disease Status,（,Gold Standard,）,Present,Absent,Test Positive,Test Negative,False Negative,（假阴性）,c,假阴性,（,False negative,）是指用金标准方法确诊患某病而用新方法试验却判定为阴性者。,2*2 table,9,二、真实性,(Validity),：,真实性又称准确度（,accuracy,）和效度（,validity,），是指诊断试验所获得的测量值与实际情况（,“,金标准,”,）,的符合程度,。,10,1,、,评价真实性指标,：,灵敏度和假阴性率，特异度和假阳性率，约登指数，符合率，预测值（阳性预测值、阴性预测值），,似然比（阳性似然比、阴性似然比）。,真实性,(Validity),11,真实性,(Validity),-,灵敏度,Disease Status,Present,Absent,Test Positive,a,b,a+b,Test Negative,c,d,c+d,a+c,b+d,a+b+c+d,Sensitivity(SN),is the ability of the test to find people who have the disease(i.e.,new test is positive when gold standard is positive),灵敏度,：又称真阳性率，是试验检出病例的能力，即金标准诊断为“有病”的病例中，诊断性试验检测为阳性例数的比例。,12,真实性,(Validity),-,假阳性率,Disease Status,Present,Absent,Test Positive,a,b,a+b,Test Negative,c,d,c+d,a+c,b+d,a+b+c+d,假阴性率,(false negative rate,FN),：是由金标准诊断为“有病”的病例中，诊断试验结果为阴性的比例。即实际有病而被该诊断试验错误判为无病的百分比。又称,漏诊率,，漏诊率与敏感度互补,。,13,真实性,(Validity),-,特异度,Disease Status,Present,Absent,Test Positive,a,b,a+b,Test Negative,c,d,c+d,a+c,b+d,a+b+c+d,Specificity,(Sp)is the ability of the test to identify people who do not have the disease(i.e.,the new test is negative when the gold standard is negative,）,特异度,：又称真阴性率，是排除非病例的能力，,即由金标准诊断为“无病”的例数中，诊断试验结果为阴性的比例。,14,真实性,(Validity),-,假阳性率,Disease Status,Present,Absent,Test Positive,a,b,a+b,Test Negative,c,d,c+d,a+c,b+d,a+b+c+d,假阳性率（,false positive rate,FP,）,：,由金标准诊断为“无病”的例数中，诊断试验结果为阳性的比例，,即实际无病而被该诊断试验错误判为有病的百分比。,也叫,误诊率,，误诊率与特异度互补,。,15,表,血清肌酸磷酸激酶测定诊断急性心肌梗死,血清磷酸急性心肌梗死,（金标准判定）,肌酸激酶有无合计,阳性,225 24 249,阴性,25 121 146,合计,250 145 395,敏感度（真阳性率）,=,（,225/250,）,100%=90.0%,漏诊率（假阴性率）,=,（,25/250,）,100%=10.0%,误诊率（假阳性率）,=,（,24/145,）,100%=16.6%,特异度（真阴性率）,=,（,121/145,）,100%=83.4%,例子,16,约登指数,(Youden,s index,YI),：,又称正确指数。是灵敏度与特异度之和减，反映了诊断试验发现病人与非病人的总的能力。约登指数综合了灵敏度、特异度的信息。当灵敏度和特异度看作同等重要的时，可使用这一指数。,指数范围从，其值越大，诊断试验的真实性越好。,真实性,(Validity),17,符合率（,agreement rate,）,:,是指诊断试验中真阳性和真阴性之和占总受检人数的比例。也是诊断试验的结果与金标准结果的符合程度。反映了正确诊断患者与排除非患者的能力。,符合率,说明诊断检试验阳性与阴性结果均正确的百分比。它表示诊断试验的真实性。,真实性,(Validity),18,预测值（,predictive value,PV,）,:,预测值是根据诊断试验的结果来估计真正患病可能性的大小的指标，包括阳性预测值和阴性预测值。,阳性预测值（,positive predictive value,+PV,）,是指在诊断试验检测为阳性者中，用金标准诊断为“有病”者所占的比例。,真实性,(Validity),19,阴性预测值（,negative predictive value,-PV,）,是指在诊断试验检测为阴性者中，用金标准诊断为“无病”者所占的比例。,真实性,(Validity),20,似然比,(likelihood ratio,，,LR,）：,即诊断试验阳性或者阴性的结果分别在患者中出现的概率与非患者中出现的概率之比。,阳性似然比,(Positive likelihood ratio,，,+LR),是真阳性率（灵敏度）和假阳性率（误诊率）之比。表明诊断结果呈阳性时实际患病和不患病机会之比。,阳性似然比越大诊断的价值越高。,真实性,(Validity),21,阴性似然比（,negative likelihood ratio,，,-LR,）,是指假阴性率（漏诊率）与真阴性率（特异度）之比，表明错判阴性的可能性是正确判断阴性可能性的倍数，即诊断结果为阴性时患病与不患病机会之比。,阴性似然比越小筛检试验的真实性越好。,真实性,(Validity),22,2,、有关评价指标的相互关系及其应用,2.1,选择适宜的灵敏度与特异度,（,1,）、一项好的诊断方法应该既没有漏诊也没有误诊，即,100%,的正确诊断，,理想的正常人群与糖尿病病人血糖水平分布,现实的正常人群与糖尿病病人血糖水平分布,23,血糖试验不同血糖水平阳性界值的灵敏度和特异度,血糖水平灵敏度特异度血糖水平灵敏度特异度,（,mg/100ml,）（,）（,）（,mg/100ml,）（,）（,）,80 100.0 1.2 150 64.3 96.1,90 98.6 7.3 160 55.7 98.6,100 97.1 25.3 170 52.9 99.6,110 92.9 48.4 180 50.0 99.8,120 88.6 68.2 190 44.3 99.8,130 81.4 82.4 200 37.1 100.0,140 74.3 91.2,灵敏度与特异度之间的关系则是,当其中一个升高时，另一个必然降低,24,Number of persons,Measurement,Diagnostic tests use an arbitrary cut-off to separate two populations,(normal vs.abnormal),Normal,Abnormal,a,c,b,d,Normal,a,c,d,b,25,Diagnostic tests use an arbitrary cut-off to separate two populations,(normal vs.abnormal),Number,Measurement,Where cut-off is placed determines sensitivity and specificity,26,Diagnostic tests use an arbitrary cut-off to separate two populations,(normal vs.abnormal),Number,Measurement,Where cut-off is placed determines sensitivity and specificity,Normal,Abnormal,Few False Negatives,High Sensitivity,-result,+result,27,Diagnostic tests use an arbitrary cut-off to separate two populations,(normal vs.abnormal),Number,Measurement,Where cut-off is placed determines sensitivity and specificity,Normal,Abnormal,Few False Positives,High Specificity,-result,+result,28,Diagnostic tests use an arbitrary cut-off to separate two populations,(normal vs.abnormal),Number,Measurement,Where cut-off is placed determines sensitivity and specificity,Normal,Abnormal,Trade off between False and False+,-result,+result,29,Diagnostic tests use an arbitrary cut-off to separate two populations,(normal vs.abnormal),Number,Measurement,Test with High Sensitivity,Normal,Abnormal,A negative result allows you to rule-out whatever you are testing,-result,+result,SnNout,30,Diagnostic tests use an arbitrary cut-off to separate two populations,(normal vs.abnormal),Number,Measurement,Test with High Specificity,Normal,Abnormal,A positive result allows you to rule-in whatever you are testing,-result,+result,SpPin,31,（,2,）、选择诊断标准时，一般要遵循以下原则,：,1),选择高灵敏度筛检试验，目的是尽可能发现可疑病人。,如果疾病的早期或及时诊断将有利于病人的治疗和康复，漏诊将会造成严重的后果，并且有现成的治疗方法，病人从伦理和经济的角度可以接受，应将试验的诊断标准定在高灵敏度的水平，尽量把病人检测出来,32,）选择高特异度诊断试验，避免误诊。,对于一些治疗效果不理想的疾病，而误诊将会对病人造成严重的心理、生理和经济上的影响，应将诊断试验的诊断指标定在高特异度的水平，尽量排除非病人。,33,）选择灵敏度和特异度均较高的诊断试验,如果漏诊和误诊同等重要，应将诊断试验的诊断标准定在灵敏度和特异度均较高的位置，一般可把诊断标准定在“灵敏度,=,特异度”,34,2.2,预测值与灵敏度、特异度的关系,患病率不变的情况下：,随着灵敏度的升高，阴性预测值升高，阳性预测值下降。随着特异度的升高，阳性预测值升高，阴性预测值下降。灵敏度和特异度对阳性预测值的影响较阴性预测值明显,阳性预测值与特异度同向变化,阴性预测值与灵敏度同向变化,35,患病率,(%),灵敏度,(%),特异度,(%),诊断,结果,诊断,合计,阳性预,测值,(%),阴性预,测值,(%),糖尿病,非糖尿病,1.5,22.9,99.8,34,20,54,63.0,116,9830,9946,98.8,合计,150,9850,10000,1.5,44.3,99.0,66,98,164,40.2,84,9752,9836,99.1,合计,150,9850,10000,2.5,44.3,99.0,111,97,208,53.3,139,9653,9792,98.6,合计,250,9750,10000,表,灵敏度、特异度和患病率不同时糖尿病诊断结果,36,2.3,预测值与灵敏度、特异度、患病率的关系,37,2.3,预测值与灵敏度、特异度、患病率的关系,38,2.4,预测值与患病率的关系,While sensitivity and specificity are constants,Predictive Values change depending upon who you are testing,在诊断试验的灵敏度和特异度不变的情况下,诊断试验的,阳性预测值随着诊断人群患病率的升高而升高,阴性预测值随患病率的升高而降低,39,2.5,似然比的应用,似然比是反映诊断试验真实性的综合指标，该指标综合了灵敏度与特异度的临床意义，能全面反映诊断试验的诊断价值。似然比不受患病率影响。在选择诊断试验时应选阳性似然比比较高、阴性似然比较低的实验诊断方法。,40,3,受试者工作特征曲线,3.1,概念,受试者工作特征曲线（,receive operator characteristic curve,ROC,曲线）是依据专业知识，对病例组和对照组测定结果进行分析，确定测定值的上下限，组距以及分界值，按选择的组距间隔列出累积频数分布表，分别计算出所有分界值得灵敏度和特异度，以灵敏度为纵坐标（代表,真阳性率,TPR,），将所有分界值的灵敏度和,1-,特异度为横坐标（代表,假阳性率,FPR,），将所有分界值的灵敏度和,1-,特异度对应的点连成的曲线。,41,ROC,曲线,42,ROC,曲线,特点：,以假阳性率,FPR,为横轴，真阳性率,TPR,为纵轴，横轴与纵轴长度相等形成正方形。,注意无论资料类型如何曲线一定通过,(0,，,0),和,(1,，,1),这两点，这两点分别相当于灵敏度为,0,而特异度为,1,和灵敏度为,1,而特异度为,0,。,理论上，完善的诊断有,TPF=1,，,FPF=0,，表现为,ROC,曲线从原点垂直上升到图的左上角，然后水平到达右上角；完全无价值的诊断有,TPF=FPF,，是一条从原点到右上角的对角线；一般,ROC,曲线位于正方形的上三角。如示例。,43,ROC,曲线,3.3,应用,用于最佳的诊断试验分界值的选择：应用,ROC,曲线来确定诊断试验分界值。,比较两种或两种以上诊断试验的诊断价值：在同样一个坐标中，曲线顶点与纵坐标顶点最接近者，即为最好的诊断试验。一般用,ROC,曲线下面积反映诊断系统的准确性。理论上这一指标取值范围为,0.5,至,1,完全无价值的诊断为,0.5,；完善的诊断为,1,。,44,ROC,曲线,3.4,优缺点,优点,该方法简单、直观、通过图示可观察试验方法的临床准确性；,ROC,曲线将灵敏度与特异度以图示方法结合在一起，可准确反映某试验方法特异度和灵敏度的关系，是试验准确性的综合代表；,与阳性预测值不同的是,ROC,曲线评价方法与群体患病率无关。,缺点,ROC,曲线图上显示的不是真正的判断值，实际的分界值通常没有在图上表现出来。研究分析对象的数目也没有在图上表现出来。,45,三、可靠性,（,1,）概念,可靠性,（,Reliability,）,又称精密性,(Precision),或重复性,(Reproducibility),，是诊断试验在相同条件下进行重复操作获得相同结果的稳定程度。可靠性的评价主要是检验测量变异的大小。,46,（,2,）影响试验可靠性的因素,受试对象,生物学差异,只因不同受试对象之间或同一受试对象在不同条件下某些生理特征的变化造成的试验结果的差异。,观察者变异,由同一观察者或不同观察者对相同受试者的同一指标测量时，其结果会不一致。,实验方法的差异,实验所用的仪器、设备、试剂实验条件不稳定或等采用非同一批次试剂时，均可导致重复实验结果的差异。,47,（,3,）评价可靠性的指标,变异系数（,coefficient of variance,CV,）,符合率（,agreement rate,）,诊断试验一致性分析,48,变异系数,（,coefficient of variance,CV,）,：,当某实验定量测定时，可用变量系数来表示可靠性。变异系数为所测指标的标准差与均数之比；比值越小，可靠性越好。,49,符合率（,agreement rate,）,又称准确度（,accuracy,）当某实验是做定性测定时，同一批研究对象两次诊断结果均为阳性与均为阴性的人数之和占所有受检人数的比率。符合率可进行调整，称之为调整一致率。,50,诊断试验的一致性分析,若要衡量临床医生的诊断水平如何，他们之间对同一人群的诊断结果是否存在差异，可采用,Kappa,值,分析。,Kappa,值是表示不同操作者对同一试验结果，或同一操作者不同时间判断同一批结果的一致性强度的指标。该值考虑了机遇因素对一致性的影响并加以校正，从而提高了判断的有效性。,51,Kappa,值取值范围,-1,+,1,。,Kappa,值,=1,，表明两名医生的判断完全一致；,Kappa,值,=-1,，表明两名医生的判断完全不一致；,Kappa,值,=0,，表明观察一致完全由机遇所致；,Kappa,值,0,，表明观察一致率比机遇造成的一致率小；,Kappa,值,0,，表明观察一致率大于比机遇造成一致的程度；,目前对,Kappa,值一致性强度尚有争议，多数学者认为是,0.40.75,为中、高度一致，,Kappa,值,0.75,为极好的一致性，,Kappa,值,0.40,时，表明一致性差。,52,四、实用性,诊断试验的实用性评价的主要内容包括：诊断方法是否简单实用？能否迅速地应用于临床？试验步骤、操作方法、使用仪器及试剂规格、检测对象及注意事项是否具体明确？病人与医护人员是否容易接受等。,53,第三节提高诊断试验效率的方法,选择患病率高的人群,当诊断试验的灵敏度和特异度不变时，患病率与诊断试验的阳性预测值成正比，选择患病率高的人群，诊断试验可以较好地达到确诊或排除某病的目的，诊断效率提高。,采取联合试验,平行（并联）试验（,parallel test,）,系列（串联）试验（,serial test,）,54,联合试验是指采用多个筛检试验检测一种疾病，达到提高筛检试验灵敏度或特异度的目的，以满足提高筛检试验真实性的需要。,),平行（并联）试验（,parallel test,）,是指采用几种筛检方法检测疾病，凡有一项检测为阳性者即判为阳性，所有检测均为阴性才判为阴性,。,),系列（串联）试验（,serial test,）,是指采用几种筛检方法检测疾病，只有全部检测均为阳性者才判为阳性，凡有一项检测结果为阴性即判为阴性。,55,联合试验筛检糖尿病的结果,试验结果串联试验并联试验,尿糖血糖糖尿病病人非病人结果结果,14 10,33 11,117 21,35 7599,合计,199 7641,56,筛检试验糖尿病非病人灵敏度特异度假阴性率假阳性率,试验结果病人,单项尿糖阳性,131,31,65.83,99.59,34.17,0.41,阴性,68,7610,单项血糖阳性,150,32,75.38,99.58,24.62,0.42,阴性,49,7609,串联试验,阳性,117,21,58.79,99.73,41.21,0.27,阴性,82,7620,合计,199,7641,并联试验,阳性,164,42,82.41,99.45,17.59,0.55,阴性,35,7599,合计,199,7641,单项试验及联合试验筛检糖尿病结果,57,计算上表中联合试验的灵敏度和特异度，,串联试验：灵敏度,117/199100%,58.79%,特异度,(10+11+7599)/7641100%,99.73%,并联试验：灵敏度,(14+33+117)/199100%,82.41%,特异度,7599/7641100%,99.45%,58,第四节诊断试验评价设计,确定金标准,研究对象的选择,样本含量的估计,确定诊断试验的分界值,与金标准同步进行盲法比较,59,一、确定金标准,金标准（,gold standard,）标准诊断（,standard diagnosis,）,金标准能正确区分研究对象是否患病,通常，一种疾病有一个国际或国内公认的标准的诊断方法，是能够肯定或排除某种疾病的最可靠的诊断方法,病理学检查、手术、尸体解剖、特殊的影像学诊断以及微生物学培养、生物学标志检测是普遍意义的金,标准。,60,二、研究对象的选择,研究对象包括两组人，一组是经金标准确诊的某病病例,病例组,：,金标准证实的患研究疾病的病例,临床类型,:,轻、中、重型，早、中、晚期,非病例组或对照组,：,金标准证实未患所研究疾病外，,其它因素和特征上应与病例组可比,未患研究疾病的健康人,其它疾病病例组成,61,考虑病例和对照组的代表性,随机化的原则,诊断方法的鉴别能力,研究对象来源,社区,选择,医院,择取,62,三、样本含量的估计,样本含量的大小同样关系到研究对象的代表性问题，在进行筛检试验评价时必须加以考虑。,影响样本大小的因素,显著性水平,：,值越小，样本含量越大，一般取,0.05,。,容许误差,：,越小，样本含量越大；,越大，样本含量越小，,一般在,0.05,0.10,。,灵敏度或特异度的估计值：值,50%,时，样本量最大，越远离,50%,，样本量越小，病例组样本含量由灵敏度估计，对照组样本含量由特异度估计。,63,样本含量的计算,样本含量的估计可以采用率的抽样调查时的样本含量估计的公式，即,n,为样本含量；,为正态分布累计概率等于,a/2,时的,u,值，一般取,a=0.05,u,0.05,=1.96,为容许误差；,p,为待评价方法的灵敏度或特异度的估计值，在估算病例组的样本含量时，公式中的,p,值代表灵敏度的估计值，在估算非病例组的样本含量时，公式中的,p,值是特异度的估计值。,64,例,：,一项以静脉造影为,“,金标准,”,评价腿部扫描诊断下肢深部静脉栓塞的研究，据查阅文献腿部扫描方法的灵敏度为,50%,，特异度为,90%,，规定,0.05,，,=0.05,，估计病例组和非病例组的样本含量。,65,据已知条件，用公式计算。,病例组样本量：,n=(1.96/0.05)2(1,50,）,0.50=384.16,非病例组样本量：,n=(1.96/0.05)2,（,1,90,）,0.90=138.30,即在此项研究中需静脉造影确诊的下肢静脉栓塞患者（病例组）,384,名，非该病患者（非病例组）,138,名。,诊断试验的样本含量的估计也可以通过查阅下表获得，在,0.050,，,0.50,相交处，得,384,；在,0.050,，,0.90,相交处，得,138,，与公式计算所得两组样本量结果一致。,66,四、确定诊断试验的分界值,界值（,critical value,）又称截断点（,cutoff,），即将定量资料划分为两部分数值，需将定量测定的数据转换成阳性（异常）和阴性（正常）两类定性结果。,界值一般就是正常值的界值，在诊断试验中可根据其目的进行调整。,在诊断试验中常用的确定分界值的方法有：均数加减标准差法、百分位数法、临床判断法、,ROC,曲线法。,67,五、与金标准同步进行盲法比较,68,用金标准诊断方法将研究对象分为患病和非患病两组，同时用待评价的诊断方法对研究对象进行同步盲法测量，并将两次测量的结果进行比较。,同步,是指金标准诊断方法与待评价诊断方法在同时间、同地区、同人群中进行检测。,盲法,即测量者在不了解其他情况下用待评价诊断方法进行检测，然后比较诊断试验与金标准的检测结果。,Thank You,69,

展开阅读全文