第九章诊断试验的研究与评价

第九章诊断试验的研究与评价 （the Studies and Evaluations on Diagnostic Test）卫生系黄民主教授

本章学习要点 诊断试验研究与评价的设计评价真实性的常用指标及其计算方法可靠性的评价指标及影响可靠性的因素评价收益的常用指标，预测值的计算方法似然比的应用提高诊断质量的方法 —串联和并联

诊断试验定义应用一定的诊断方法把病人与可疑有病但实际无病的人区别开来。诊断试验定义应用一定的诊断方法把病人与可疑有病但实际无病的人区别开来。

诊断试验不仅可用于疾病诊断，也可用于疾病的筛检以及治疗和随访的监测。诊断试验与筛检试验(screening test)有一定区别，筛检试验是用快速简洁的试验或其它方法，从表面健康的人群中查出某病可疑患者的试验方法，其目的是将可疑有病而实际无病的人与病人区别开来，筛检试验并不等同于确诊试验，仅作为初步检查，是早期发现病人的一种方法。筛检试验的结果要经过诊断试验加以确诊，筛检试验主要用于社区人群的健康体检、普查、普治或某些特殊意义的研究。

诊断试验评价的主要内容 是否选用了适宜的金标准作比较？选择的研究对象是否合理？样本量是否足够？是否使用了盲法收集试验结果？同时应评价诊断试验的真实性、可靠性和收益。

诊断试验研究与评价的主要内容包括： ※选择适宜的金标准作比较； ※选择适合数量的研究对象； ※盲法收集试验结果资料； ※评价分析诊断试验的真实性、可靠性和收益； ※掌握诊断试验评价的原则等.

主要评价指标包括灵敏度、特异度、似然比、预测值、符合率等。

诊断试验研究与评价的设计 待评价方法金标准同步盲法比较判定该方法分辨目标疾病能力

1、确定金标准 金标准(gold standard)—当前公认最好的、准确可靠的诊断方法（病理学检查、手术探查、特殊影像学检查等），或专家制定并得到公认的临床诊断标准。

2、研究对象的选择 病例组和对照组人群选择应采用随机化原则，以确保样本的代表性和试验结果对目标人群的可推论性。

病例组应该包括各型病人，如典型和不典型的、不同病情严重程度的、不同病程阶段的、有或无并发症的病例。只有综合选择各型病例进行诊断试验的评价，其结果才能具有广泛的推论性和临床诊断的适用价值。病例组应该包括各型病人，如典型和不典型的、不同病情严重程度的、不同病程阶段的、有或无并发症的病例。只有综合选择各型病例进行诊断试验的评价，其结果才能具有广泛的推论性和临床诊断的适用价值。对照组最好选择需要与研究疾病鉴别的其它疾病，即所选择的对照组与病例组具有许多相似的临床表现，而应慎用自愿者和其他健康人群。

3、样本量的估计 诊断试验的评价需要选择足够的样本量。样本量可用公式计算或查相应的样本量表获得。在用公式进行计算时，要预先设置诊断试验的灵敏度和特异度，显著性水平 以及允许误差δ。

当灵敏度和特异度接近50%时，可用如下公式表达：当灵敏度和特异度接近50%时，可用如下公式表达：式中u指正态分布中累积概率为 /2时的u值（如u0.05/2=1.960，u0.01/2=2.576） 指允许误差，一般取总体率（灵敏度或特异度）100(1-)%可信区间宽度的一半。P为诊断试验预期的灵敏度或特异度。

当预期的灵敏度或特异度小于20%或大于80%时，资料呈偏态分布，需要对率采用平方根反正弦转换，可用如下公式表达：当预期的灵敏度或特异度小于20%或大于80%时，资料呈偏态分布，需要对率采用平方根反正弦转换，可用如下公式表达：

4、盲法判定和比较试验结果 要求判断试验结果者预先不知道病例被金标准划分为“有病”或“无病”的情况，可减少人为的主观偏差，保证比较结果的真实性。

5、观察指标和判断标准的确定 任何诊断试验都要选择适宜的观察指标，指标本身的特性影响诊断试验的结果，通常观察指标有客观指标、主观指标以及介于两者之间的半主观指标。

（1）客观指标：这些指标可用客观的仪器或试剂进行测量或测定，很少依赖医生的主观判断和病人的主诉。如体温、血压、血糖浓度、心电图、血与尿常规检查结果等。（1）客观指标：这些指标可用客观的仪器或试剂进行测量或测定，很少依赖医生的主观判断和病人的主诉。如体温、血压、血糖浓度、心电图、血与尿常规检查结果等。（2）主观指标：这些指标主要是病人的主诉，如疼痛、不舒服、失眠等。（3）半主观指标：此类指标主要凭借临床医生的主观感觉或判断，如判断肿块的硬度或大小等。

确定判断标准的方法主要有统计学方法、临床判断法和ROC曲线法确定判断标准的方法主要有统计学方法、临床判断法和ROC曲线法

（1）统计学方法 • 1）百分位数法： • 适用于偏态分布、分布类型不确定或有极端数值的数据。 • 2）正态分布法： • 适用于呈正态分布的数据，通常用平均值加减2倍标准差作为标准值。 • （2）临床判断法

（3）ROC曲线法 • ROC曲线或称为受试者工作特征曲线，是用构图法揭示灵敏度和特异度的相互关系，它通过将连续变量设定出多个不同的临界值，从而计算出一系列灵敏度和特异度，再以灵敏度为纵坐标、（1-特异度）为横坐标绘制成曲线，图中对角线下的面积为随机诊断产生的曲线下面积。ROC曲线越向左上偏，曲线下面积越大，诊断准确性越高。

B/E值 灵敏度 1-特异度特异度约登指数 0.97 0.000 0.825 0.175 0.175 0.99 1.000 0.500 0.500 0.500 1.00 0.986 0.300 0.700 0.686 1.00 0.932 0.175 0.825 0.757 1.01 0.932 0.075 0.925 0.857** 1.01 0.905 0.050 0.950 0.855 1.02 0.770 0.000 1.000 0.770 1.03 0.608 0.000 1.000 0.608 1.08 0.176 0.000 1.000 0.176 B/E不同取值的灵敏度、特异度、约登指数 **：当B/E值为1.010时，灵敏度为0.932，特异度为0.925，约登指数为0.857（最大）

6、评价指标的统计分析和结果报告 全面分析、评价和报告诊断试验的真实性、可靠性和收益。

诊断试验的评价 疾病诊断试验的评价是指对其所使用的医疗试验进行的流行病学分析。诊断试验评价的基本方法是用金标准确诊区分某病的病人和非病人，再应用待评价的诊断试验或筛检方法同步、盲法测定这些研究对象，用某些指标对诊断试验的真实性、稳定性、实用性以及效益进行评价。

一、真实性的评价 又称为效度，指一项诊断或筛检试验所获得的数值与实际值的符合程度。评价真实性的指标有灵敏度、特异度、漏诊率、误诊率和正确诊断指数表1应用诊断试验检查某病患者和非患者的结果模式表试验结果病人非病人合计阳性真阳性A 假阳性BA+B 阴性假阴性C 真阴性 D C+D 合计 A + C B + D A+B+C+D=N

A A+C 1、灵敏度指一项诊断或筛检方法能将实际有病的人正确地判断为患者的能力。灵敏度= ×100% 或灵敏度=1－假阴性率灵敏度的标准误计算公式为 95%SenL，SenU=Sen±UaSsen

灵敏度越大，试验发现阳性的可能性越大。当试验结果为阴性时，灵敏度大的试验更容易排除被检查者患病的可能性。灵敏度越大，试验发现阳性的可能性越大。当试验结果为阴性时，灵敏度大的试验更容易排除被检查者患病的可能性。

2、特异度 是指一项诊断或筛检方法将实际无病的人正确地判断为非患者的能力。 • 特异度= ×100% 或特异度=1－假阳性率特异度的标准误计算公式为 D B+D

特异度越大，实际无病的人被判断为阴性可能性越大。非常特异的试验通常被用于确定疾病的存在，其阳性结果可明确被检查者患有某种疾病。

漏诊率：指一项诊断试验将实际有病的人错误诊断为非病人的比例。也称假阴性率。灵敏度越高，漏诊越少。漏诊率：指一项诊断试验将实际有病的人错误诊断为非病人的比例。也称假阴性率。灵敏度越高，漏诊越少。 • 漏诊率=1-灵敏度， • 或 • 误诊率：指一项诊断试验将实际无病的人错误诊断为病人的比率。误诊率也称假阳性率。 • 误诊率=1-特异度或

正确诊断指数（Youden指数） 一项诊断方法发现真正的病人和非病人的总能力。约登指数=（灵敏度+ 特异度）－1或约登指数 = + －1 A D A+C B+D 将灵敏度和特异度合并为一个指标，可更全面地评价、比较各种筛检试验的真实性。指数愈大，反映的真实性也愈大。约登指数的标准误为

3、符合率（percent agreement)： • 一项诊断试验正确诊断的病人数与非病人数之和占所有进行诊断人数的比率。符合率越高，可靠性越好

4.似然比（likelihood ratio LR） 综合了灵敏度和特异度的信息，其含义为：病人中出现某种检测结果的概率与非病人中出现相应结果的概率之比，它表明某项试验所确定的阳性界值（截点）能否良好地区分真阳性和假阳性。根据似然比可以判断诊断试验阳性或阴性时患病的概率，以助临床医生的诊断决策。

1.阳性似然比（+LR） • 真阳性率与假阳性率之比，说明正确判断阳性的可能性是错判阳性可能性的倍数。 • 比值越大，试验结果阳性时为真阳性的概率越大，此诊断方法愈好。 • +LR =灵敏度/(1-特异度)=灵敏度/误诊率 • 或

2.阴性似然比（-LR） • 是假阴性率与真阴性率之比，表示错判阴性的可能性是正确判断阴性的可能性的倍数，此值越小，试验结果为真阴性的可能性越大，该诊断方法愈好 • -LR =(1-灵敏度)/特异度=漏诊率/特异度 • 即

根据似然比判断试验阳性或阴性时患病概率的计算：根据似然比判断试验阳性或阴性时患病概率的计算：验前概率：检查前病人患某种疾病的可能性。验前比：检查前病人患某种疾病的机率。验后比：检查后病人患某种疾病的机率。验后概率：检查后病人患某种疾病的可能性。 ①将验前概率转换为验前比验前比=验前概率/(1－验前概率) ②通过诊断试验的似然比计算验后比验后比=验前比×似然比(LR) ③将验后比转换为验后概率：验后概率=验后比/(验后比+1)

例：某18岁女性因面色苍白、乏力，被怀疑为严重贫血至某医院就诊，根据病史及外周血涂片检查，在该院该年龄段女性患缺铁性贫血的可能性为40%。在实验室进一步做血清铁蛋白检查，结果为12mmol/L，该院血液学实验室以骨髓铁染色作金标准，用血清铁蛋白试验法诊断缺铁性贫血的阈值为65mmol/L，≤65mmol/L为缺铁性贫血，该方法灵敏度为90%，特异度为85%。问该女患缺铁性贫血的概率是多少？解：验前概率 = 0.40 • 验前比 = 0.40/（1-0.40）=0.67 • 阳性似然比 = Sne/(1-Spe)=0.9/(1-0.85)=6 • 验后比 = 0.67×6=4.02 • 验后概率 = 4.02/（1+4.02）=0.80 • 该病员患缺铁性贫血的概率为80%。

当了解许多症状、体征在某些病的似然比后，可以利用其进行多重试验检验。在进行诊断时，把前一次检验的验后概率作为下一次检验的验前概率，继续运用，直到可下结论为止。举例如下。一位45岁妇女主诉突发左侧胸痛月余，来门诊就医。该患者是否患冠心病？查胸痛原因很多，如肺或胸膜疾患；上消化道疾病；冠心病；情绪影响；其他原因。仅只按其主诉，她患冠心病的可能（验前概率）仅为0.01。验前比=验前概率/（1-验前概率）=0.01/（1-0.01）=0.01。1）进一步询问其疼痛特点，有放射至左臂内侧的特点。其阳性似然比为100，其验后比=0.01×100=1。此时诊断冠心病的概率（验后概率）=验后比/（1＋验后比）=1/（1＋1）=0.502）再做心电图检查，ST段下降2.2mm，其阳性似然比为11，验前比=0.5/（1-0.5）=1。验后比=1×11=11。（0.5为前一项放射痛的验后概率） • 验后概率=11/（1＋11）=11/12=0.91673）再检验其血清肌酸磷酸酶（CPK）>80单位，此时阳性似然比为7.75。其验前比=0.9167/（1-0.9167）=11.0048；验后比=11.0048×7.75=85.25。 • 验后概率=85.25/（1＋85.25）=0.988经过询问症状，心电图检查及血清CPK检查，该病人患冠心病的可能性为98.8％，因 • 此可以明确诊断该病人患冠心病。

二、诊断试验的可靠性评价 可靠性又称信度，指同一指标在同一受试者身上重复测量时，获得结果的一致性。结果愈恒定，诊断方法的可靠性愈高

1.诊断试验的一致性分析—Kappa分析 • kappa值为实际一致率与非机遇一致率的比，该值考虑了机遇因素对一致性的影响，表示不同人判断同一批结果，或同一人不同时间判断同一批结果的一致性强度一般认为Kappa值在0.4～0.75为中、高度一致，Kappa值≥0.75为极好的一致性。K≤0.40时，表明一致性差。

例：临床经验相似的甲乙二医生阅片结果如下:例：临床经验相似的甲乙二医生阅片结果如下: 表1 甲、乙医生阅读胸片诊断结果甲医生诊断乙医生诊断肺门淋巴结核正常合计肺门淋巴结核 46（a） 10（b） 56（r1）正常 12（c） 32（d） 44（r2）合计 58（c1） 42（c2） 100（N）两医生的观察一致率（PO）

机遇一致率（PC） 非机遇一致率＝1－机遇一致率＝100% －51%＝49% 实际一致率＝观察一致率－机遇一致率＝78%－51%＝27% Kappa值也可直接求取

2.影响诊断试验可靠性的因素 • 1）试验方法与条件的差异 • 2）观察者的变异 • 3）被观察者的变异

1）试验方法与条件的差异 包括试验的环境条件，如温度、湿度等；试剂与药品的质量及配制方法；仪器是否校准以及操作者的熟练程度等。因此，必须严格规定试验的环境条件以及试剂与药品的级别，仪器必须先校准，才能保证试验的可靠性。

2）观察者的变异 包括不同观察者之间的变异（inter-observer variability）和同一观察者变异（intra-observer variability），即在不同时间、条件下重复检查同一样本时所得结果的不一致性。

3）被观察者的变异 主要是指个体的生物学变异（biological variation），即被观察者个体的各种生理、生化测量值均随测量时间、条件等变化而不断变化，严格来讲，个体生物学变异影响的是可靠性评价的过程，确实的可靠性指标需要排除被测个体生物学变异的干扰。因此，要严格规定统一的测量时间和测量条件，以使被观察者在相同条件下进行比较。同时，临床医师应对个体的生物学变异给予足够的重视。

三、收益评价 收益指经诊断试验后能使多少原来未发现的病人得到及时诊断和治疗。以及因此而创造的经济和社会价值。评价收益的常用指标有预测值、成本-效益分析、成本-效果分析等。

1．预测值： 应用诊断试验结果来估计受检者患病可能性大小的指标。是指在已知试验结果的条件下，表明有无疾病的概率。一个诊断方法有一定的灵敏度和特异度，但在诊断患病率不同的人群时，阳性（或阴性）结果所表示的意义却不同，如人群的患病率低，即使应用特异度高的试验也会出现相当多的假阳性。因此，一项试验要有一个预测值。

阳性预测值——指试验阳性者真正患该病 的可能性。阴性预测值——指试验阴性者未患该病的可能性。

第九章 诊断试验的研究与评价