診断検査に GRADE を適用する

診断検査にGRADEを適用する Applying GRADE to diagnostic tests 相原守夫　 Morio Aihara, M.D. (member of the GRADE Working Group) 相原内科医院　青森県弘前市青山3-8-2 TEL: 0172-33-0055 ezy01757@nifty.ne.jp 2012/10/23

Morio aihara, M.D. Hirosaki, Japan http://www.facebook.com/morio.aihara

本資料の作成および、改訂情報 今後の内容改訂については、このセクションで重要な変更のまとめを示す。今後は、本資料の新しいバージョンをダウンロードするたびにこのセクションを参照していただきたい。 • 2012.10.23web公開 • 2012.07.18： Holger Schunemannより許可を得て、診断検査に関するGRADE論文の翻訳を臨床評価誌に投稿 GRADEの適用：診療ガイドラインにおいて診断検査に関する根拠に基づく推奨を作成する　　　　臨床評価　2012; 40(1): 199-212.http://homepage3.nifty.com/cont/40_1/p199-212.pdf • 2012.06.01: Holger Schunemann, Jan Brozekら、海外のGRADEメンバーにppt (ver.20120510) 送付 • 2012.05.10: 「診断検査にGRADEを適用する」ppt (ver. 20120510) 作成開始 I have had the support and encouragement ofHolger J Schunemann, Jan L Brozek, Gordon Guyatt and Yngve Falck-Ytter. I would like to appreciate their support very much. GRADEハンドブック翻訳版（ハンドブック情報 *）に記載してあるが、エビデンスの質と推奨の強さをグレーディングするためのGRADEハンドブックを複製および翻訳する場合は、編集者からの許可を得ること（Holger J Schunemann, Jan Brozek, Andrew Oxman)。 3

GRADE：Grading of Recommendation Assessment, Development and Evaluation http://www.gradeworkinggroup.org/index.htm online learning modules: http://cebgrade.mcmaster.ca/ GRADEシステムに関する日本語の情報源相原内科医院 webサイトにて公開しています。 http://www.grade-jpn.com/ ■診療ガイドラインのためのGRADEシステム（相原　他、凸版メディア出版、2010） http://homepage3.nifty.com/aihara/grade-cover.html ■GRADEハンドブック (version 3.2 翻訳版、Free） http://homepage3.nifty.com/aihara/GRADEproHelp.html ■GRADEシステムの使い方（PPT, free） http://homepage3.nifty.com/aihara/how_to_use_grade_aihara_20120426.ppt ■GRADEガイドライン作成の流れ：解説　http://www.grade-jpn.com/grade_gl_flow_aihara.pdf 本解説は、http://www.grade-jpn.com/grade_gl_flow_20120717_2.pdfの項目に対応した内容です。 4

診断GRADEのワークショップ資料 診断検査・診断戦略を扱うGRADEは、治療介入のGRADEと基本的には同じであるが、検査精度は患者にとって重要なアウトカムの代理アウトカムである。診断検査・診断戦略のエビデンスの質の判断は治療介入とは異なる点がある。 http://homepage3.nifty.com/aihara/GRADE-Dx_workpackage_20101016_j.pdf * * Holger Schunemann教授作成のGRADE-Dx_workpackage 20101016.docを許可を得て日本語翻訳したものです。

診断GRADEに関する資料 翻訳論文 GRADEの適用：診療ガイドラインにおいて診断検査に関する根拠に基づく推奨を作成する臨床評価 2012; 40 (1): 199-212* http://homepage3.nifty.com/cont/40_1/p199-212.pdf *Open access論文（Hsu et al.: Application of GRADE: Making evidence-based recommendations about diagnostic tests in clinical practiceguidelines. Implementation Science 2011 6:62）　をHolger Schunemann教授の許可を得て日本語翻訳したものです。

GRADEの基本は、JAMA Users’ Guide to the Medical Literatureに記載されているEBMであり、本書を日本語翻訳したものが「医学文献ユーザーズガイド、根拠に基づく診療のマニュアル」である。翻訳 http://homepage3.nifty.com/aihara/jama_evidence.html

診断GRADEのkey論文* • GRADE guidelines: Applying GRADE to diagnostic tests(JCE series #14; not published yet) • Jonathan Hsu, Jan L Brozek, Luigi Terraciano, Julia Kreis, Enrico Compalati, Airton TETELBOOM Stein, Alessandro Fiocchi and Holger J Schunemann.Application of GRADE: Making Evidence-Based Recommendations about Diagnostic Tests in Clinical Practice Guidelines.Implementation Science 2011, 6:62(*) • Brozek JL, Akl EA, Jaeschke R, Lang DM, Bossuyt P, Glasziou P, Helfand M, Ueffing E, Alonso-Coello P, Meerpohl J, Phillips B, Horvath AR, Bousquet J, Guyatt GH, Schünemann HJ; GRADE Working Group. Grading quality of evidence and strength of recommendations in clinical practice guidelines: Part 2 of 3. The GRADE approach to grading quality of evidence about diagnostic tests and strategies. Allergy. 2009 Aug;64(8):1109-16. • Schünemann HJ, Oxman AD, Brozek J, Glasziou P, Jaeschke R, Vist GE, Williams JW Jr, Kunz R, Craig J, Montori VM, Bossuyt P, Guyatt GH; GRADE Working Group.Grading quality of evidence and strength of recommendations for diagnostic tests and strategies.BMJ. 2008 May 17;336(7653):1106-10 (*) 　臨床評価誌　2012; 40(1): 199-212 出版、翻訳公開は、Schunemann教授より許可を得た。 http://homepage3.nifty.com/cont/40_1/p199-212.pdf

Part-1 診断とは Part-2 診断検査にGRADEを適用する Part-3　診断検査のGRADEガイドライン　　　　　　（エビデンスから推奨へ） Part-4 その他 The Rational Clinical Examination: Evidence-Based Clinical Diagnosis GRADE JCEシリーズ JCEシリーズの introductionの翻訳文　内容注意：本資料で利用しているシステマティックレビューやガイドラインのデータ解釈に関しては、診断GRADEを解説するために個人的にデータを作成したものが多く、正確な理解のためにはオリジナル論文を読んでいただきたい。 9

Part 1 診断とは (diagnosis) 10

診断 Dia-gnosis The word diagnosis is derived through Latin from Greek: ■”dia” meaning apart, and “gnosis” meaning to learn. ［ギリシャ語diágnōsis（diá-離して＋gnōsis知ること＝区別すること）］

診断の過程

診断の過程 診断の過程は、論理的な認識とパターン認識の両方を含む複雑な認知的な過程である。パターン認識が成立しない場合、臨床医は確率論的な診断思考を採用できる。この場合、臨床医は考えられる一連の診断を列挙し、各診断の確率を推定して検査を行い、検査結果に基づいて各診断の確率を増減させ、最終的には、確実な診断がみつかったという確信に至る。

検査前確率を推定することが診断過程を円滑にする検査前確率を推定することが診断過程を円滑にする • 診断への確率論的アプローチにおいては，各標的状態の確率である検査前確率pretest probability を推定する。 • すべての候補診断の確率の合計は1 に等しくなるべきである。どのようにして検査後確率を推定できるか？臨床医の直感バイアスやランダム誤差検査結果によって確率がどの程度増減するかについて確信を持つためには、系統的な研究が必要となる。治療や害についてと同様に、特定の問題に関する診断検査の論文すべてのシステマティック・レビューが最も強力な推測を可能にする。

疾患確率の推定値はどれくらい精確か 研究が妥当なものであったときでも、研究サンプルにおける疾患頻度は標的集団における疾患の真の確率の推定値にすぎない。これらの推定値の精確さは、著者らによって提示された信頼区間 confidence intervals (CIs) によって検討することができる。著者らがそれらを提示していない場合、次の公式を使って自身で信頼区間を計算できる。 CI が十分に精確だと考えられるかどうかは、あなたの検査閾値test thresholds または治療閾値treatment thresholds に対して推定された割合とCIがどのような関係にあるかによるだろう。もし推定された割合と95％CI全体があなたの閾値の同じ側にあるならば、結果は精確で、検査や治療の計画のために使う疾患確率について確実な結論を可能にする。逆に、もし推定値を取りまく信頼限界があなたの閾値をまたぐならば、結果は十分に精確ではなく、疾患確率について確定的な結論を下すことはできないだろう。妥当だが不精確な確率が示されている場合でも、その不確実性と検査や治療への意味を念頭におきながら、結果を利用することは可能だろう。

検査後確率と閾値確率の関係が臨床行動を決める検査後確率と閾値確率の関係が臨床行動を決める例：　それまでは健康だった運動選手が、野球でファウルボールに当たる事故に遭い、胸郭側面に痛みを訴えている。経験を積んだ臨床医なら臨床問題（外傷後の側胸部痛）を認識し、主仮説（肋骨打撲）と他の有効な選択肢（肋骨骨折）を特定し、後者を確認するための検査（レントゲン写真）を計画するだろう。臨床医は、要請があれば、確率が低すぎるためにさらなる検討としない疾患（心筋梗塞など）を列挙することもできるだろう。言い換えると、肋骨打撲の確率ほどは高くはないが、肋骨骨折の確率は検査閾値を上回っているのに対し、心筋梗塞の確率は検査閾値を下回っている。

検査の２つの特性 • 精確性　Precision (reliability, reproducibility) --所見は反復検査しても一定か？ • 正確性　Accuracy (validity) --所見は疾患を正確に予測するか？

Precision and Accuracy • Precision:Some researchers will use the words reliability, observer variability, and precision interchangeably. • In the context of The Rational Clinical Examination series, these terms all refer to whether or not the findings remain consistent with repeated examinations, either for the same examiner or for different examiners. Accuracy: The characteristics of screening tests can be discussed through a variety of terms including sensitivity, specificity, likelihood ratios (LRs), and positive or negative predictive value. Accuracy is a global measure of a test that expresses a simple concept: how often did the screening test get it “right”? In other words, what percentage of the time was the target condition present when the test result was positive or absent when the test result was negative.

Precision and Accuracy You can use the framework of a dartboard to illustrate the concepts of precision and accuracy. If one were aiming at the center of the dartboard, an accurate throw would hit the center of the board. An accurate and precise dart player would hit center every time. Ask your learners to comment on the next 3 slides.

Precision and Accuracy This set of results is neither precise (similar results with each throw) nor accurate (near the center of the board). This pattern highlights an important point about precision. While the observers in this study showed poor agreement, some observers got very close to the bull’s-eye. Tests that show low precision should not be automatically discarded as useless. The astute investigator (or clinician) should explore the causes of poor agreement and see if they can be remedied. For example, the poor precision illustrated in this slide may have been attributable to poor technique (eg, listening for a third heart sound with the diaphragm of the stethoscope rather than the bell) or simply indicate the need for practice.

Precision and Accuracy As the results come more close to the center, the results are more precise and more accurate. This slide could also be used to describe random error in that there does not seem to be a systematic deviation from the bull’s-eye.

Precision and Accuracy This set of results is both accurate and precise. This reflects a precise but inaccurate set of results. In contrast to the earlier slide, this one could be used to describe systematic error to introduce the concept of bias.

Precisionを定量化する Intra-observer agreement（観察者内一致率）：1人の検査者が２回検査を行って、その結果がどのくらい一致するかを示すもの。 Inter-observer agreement（観察者間一致率）：複数の検査者が同じ検査を行ったときに、その結果がどのくらい一致するかを示すもの。 Kappa (K)：偶然を超えた一致率 K値の解釈　(*) • 0：一致不良（偶然の一致） • 0～0.2：やや一致 • 0.2～0.4：まあまあの一致 • 0.4～0.6：中程度の一致 • 0.6～0.8：かなりの一致 • 0.8～1.0：ほぼ完璧な一致

Kappa統計量

2x2表を使ったKappa値の計算は、http://homepage3.nifty.com/aihara/2x2.htmlでも可能である。2x2表を使ったKappa値の計算は、http://homepage3.nifty.com/aihara/2x2.htmlでも可能である。

偶然に依存しない一致であるファイ（φ）

Accuracyを定量化する • 感度と特異度 • 尤度比 • 陽性適中率と陰性適中率 • 診断オッズ比

感度と特異度、尤度比 ２ｘ２表感度とは、標的状態を持つ患者のうち、検査陽性の患者の割合のことを指す。 SnNOut (*) 特異度とは、標的状態を持たない患者のうち、検査陰性の患者の割合のことを指す。 SpPIn (*) Accuracy = (TP + TN)/(TP + FP + FN + TN)

例：　認知症のSIS検査 感度＝　0.81 (278/345) 特異度　＝ 0.91 (278/306) LR+＝　8.8 LR-　＝ 0.21

尤度比（LR) 疾患の可能性をオッズで表わすと、ベイズの定理 Bayes’ theoremと呼ばれる公式が成り立つ。検査前オッズ　ｘ　尤度比　＝　検査後オッズ • LR をどう解釈したらよいのか。LR は、得られた診断検査の結果が、どの程度まで標的疾患の検査前確率を上げるか、または下げるかを示す．LR 1 は、検査後確率が検査前確率とちょうど同じであることを意味している。LR が1.0 よりも大きいと、標的疾患が存在する確率を増加させる。つまり、LR が高いほど、この増加は大きくなる．逆に、LR が1.0 より小さいと、標的疾患の確率を減少させ、LR が低いほど、確率の減少は大きくなる。 • LR が，＞ 10あるいは＜ 0.1の場合，検査前確率から検査後確率へ，大きな，そしてしばしば決定的変化をもたらす． • LR が，5 〜10あるいは0.1 〜0.2の場合，検査前確率から検査後確率への，中程度の変化をもたらす． • LR が，2 〜5と0.5 〜0.2の場合，確率に小さな（しかし，時として重要な）変化をもたらす． • LR が，1 〜2と0.5 〜1の場合，確率にはわずかな（そして，めったに重要でない）変化しか生じない．

意思決定のための閾値 精密検査が必要

診断オッズ比 The diagnostic odds ratio is another global measure of test accuracy. Diagnostic odds ratio is a single indicator of test performance (like accuracy and Youden's J statistic) but which is independent of prevalence (unlike accuracy) and is presented as an odds ratio 感度、特異度、尤度比、診断オッズ比、Yorden’s Jなどは、オンラインで計算可能である。 http://homepage3.nifty.com/aihara/2x2.html

Part ２ 診断検査にGRADEを適用する

GRADEを使う論拠 GRADE system 結果は妥当か？患者はランダム割付されていたか？ランダム割付は隠蔽されていたか？研究はどの程度盲検化？追跡は完了しているか？試験は早期終了されたか？例：　慢性疼痛の患者において、ある治療介入の効果はNNTとして６だった（systematic review） risk of bias (or limitations) 結果は何か？効果の大きさは？　どの程度精確か？各研究結果は似ているか？レビューに含まれていない報告はないか？ imprecision inconsistency 結果を適用できるか？研究患者は自身の患者と似ているか？患者にとって重要なアウトカムは全て考慮されたか？ Publication bias indirectness

検査には多くの目的がある 臨床医は一般的に「診断的」と称される検査（徴候や症状、画像検査、生化学検査、病理検査、心理検査を含む）を使う。これらの目的は、生理学的障害の特定、予後の把握、疾患や治療反応の監視、スクリーニングや診断を含む。ガイドラインパネルやシステマティックレビューの著者は、診断検査または診断戦略の目的を明確にすべきである。そのためには、標的集団における標準的な診断手順を１つまたは複数決定し、その診断手順にかかわる限界を同定すべきである。

新しい診断検査の目的 to minimize use of an invasive or expensive test to replace test that is harmful or costly to improve diagnosis beyond what is already done

JAMA医学文献ユーザーズガイド　根拠に基づく診療のマニュアル　（相原守夫、他　凸版メディア、2010年）　JAMA医学文献ユーザーズガイド　根拠に基づく診療のマニュアル　（相原守夫、他　凸版メディア、2010年）　

患者と臨床医の考え方の違い What do patients want? 1 What do clinicians want? 2 患者が本当に知りたいのは、提供される診断や治療処置の利益と不利益である。正確な診断（すなわち、いかにその検査が疾患がある患者とない患者を正確に分類できるか）によって、患者にとって重要なアウトカムが影響されるというわけではない。臨床医は診断検査を検討する際に、検査精度に焦点をあてる。これは、標的状態があるかないかを正確に評価することが優れた患者マネジメントやアウトカムの改善をもたらすと想定されるためである。利用できる管理選択肢のうちで、どれが利益が最大で不利益が最小なのか。望ましい帰結と望ましくない帰結のバランスについてどれほど確信 (confidence)をもてるか。 Clinical practice guidelines should offer answers to these questions by advising about the most appropriate actions for ‘typical’ patients

検査精度(accuracy)は患者にとって重要なアウトカムの代理アウトカムである。検査精度(accuracy)は患者にとって重要なアウトカムの代理アウトカムである。つまり、その後に実施される治療が患者にとって重要なアウトカムに影響を与えるエビデンスとしては非直接的である。有効な治療がないような疾患の診断検査を考えてみる・・・

「ハンチントン病」（Huntington's Disease） 進行性の不随意運動、認識力低下などが現れる遺伝性疾患であり、根本的な治療法や進行を防止する治療法は現在のところ確立されていない。

不治の病であるハンチントン病の遺伝子検査の結果は、病気ではないという喜ばしい安心感を患者に与えるか、不幸にも病気になることを知りながら将来設計をする機会を患者に与えるかのいずれかである。不治の病であるハンチントン病の遺伝子検査の結果は、病気ではないという喜ばしい安心感を患者に与えるか、不幸にも病気になることを知りながら将来設計をする機会を患者に与えるかのいずれかである。将来設計という利益と早期診断による不利益のバランスを考える必要がある。つまり、意思決定には価値観と好みが重要な役割をもつ。

診断精度研究 標的集団新しい検査　＋　標準検査２ステップ推論検査陽性（TP・FP）　　検査陰性（TN・FN) 疾患があるかないかを正確にあるいは不正確に分類された患者のマネジメントについて推論患者にとって重要なアウトカムに関する推論患者にとっての重要なアウトカムとは？

診断精度研究における患者にとって重要なアウトカム診断精度研究における患者にとって重要なアウトカム GRADEシステムでは、以下のアウトカムについて患者にとっての重要度を判定する。 • 真陽性 (TP): 疾患があると正しく分類された患者 • 真陰性 (TN)：疾患がないと正しく分類された患者 • 偽陽性 (FP)：疾患があると誤って分類された患者 • 偽陰性 (FN)：疾患がないと誤って分類された患者 • 不確かな結果 (inconclusive results) • 合併症 • コスト（1000人あたり）

Sensible clinical question triage Question 1 Should skin prick tests be used for the diagnosisof IgE-mediated cows milk allergy (CMA) in patients suspectedof CMA? Population: patients suspected of CMA Intervention: skin prick test (SPT) Comparison: oral food challenge Outcomes:

GRADEの重要度分類 ７～９：　重大４～６：　重要だが重大ではない１～３：　重要ではない

GRADE評価は原則として　Systematic reviewを対象とするシステマティック・レビューとは、「明確に定式化された疑問について、関連する研究の特定・選択・批判的吟味、および採用研究からのデータを集めて解析する、系統的で明確な方法を用いるレビュー」である。 GRADE working groupは、ガイドラインパネルが、システマティックレビューを実施できならば、既存の質の高い最新のシステマティクレビューを利用することを勧めている現在のRevMan5では、感度や特異度の統合は不可能であり、診断検査のメタアナリシスのためには他のツールを利用する必要がある。

診断検査に GRADE を適用する