630 likes | 1.29k Views
BMC Boot Camp Vol.3 Evidences (エビデンスに関する基礎知識のまとめ). Evidences: Menu. 第1日 エビデンス総論 第2日 研究デザイン 第3日 バイアスと RAMBO 第4日 データの基本. 第1日 エビデンス総論. エビデンスとは?. 仮説に対する統計学的根拠. 仮説の理解: 「何を調べているのか」 PECO (または PICO )に基づく定式化 研究計画の理解: 「何がどの程度確実か」 研究の設計(対象、研究デザイン、測定手法) RAMBO に基づく批判的吟味 → 妥当性 の評価
E N D
BMC Boot Camp Vol.3Evidences(エビデンスに関する基礎知識のまとめ)
Evidences: Menu 第1日エビデンス総論 第2日研究デザイン 第3日バイアスとRAMBO 第4日データの基本
エビデンスとは? 仮説に対する統計学的根拠 • 仮説の理解:「何を調べているのか」 • PECO(またはPICO)に基づく定式化 • 研究計画の理解:「何がどの程度確実か」 • 研究の設計(対象、研究デザイン、測定手法) • RAMBOに基づく批判的吟味→妥当性の評価 • 統計の解析(p値の算出 etc)→信頼性の評価 エビデンスとしての研究論文の扱い方
PECO(PICO)に基づく定式化 Patient(患者) ※Participants(参加者)とも • 何に、どういう状態の人に Exposure(曝露)/ Intervention(介入) • どういう条件がある(加わる)と Comparison(比較) • 何と比べて Outcome(アウトカム) • 何に影響が出るのか • Time(時間)を加えて • ‘PECOT’とすることも • いつの時点で • どの程度の期間で
PECOTに基づく定式化の例 P糖尿病患者に Eスタチンを予防投与すると C投与しない場合と比べて O脂質異常症の発生率に影響が出るか T 5年以内に
一般的な統計の取り方 日本(世界)中のB病患者全員 理想的な母集団 A病院のB病患者全員 実際の母集団 そのうち研究に同意した100名 標本 50名ずつの2群に 群 抽出 測定・解析 群 割り付け エンドポイントを基にして行われる 評価・報告
「割り付け」とは? 対象をそれぞれの群に振り分ける作業 • ランダム化(randomization) • 乱数表などに基づいて無作為に割り付けを行う • 隠蔽(concealment) • 割り付け作業を非関係者が行う • 盲検化(blinding, masking) • 割り付けの結果を関係者に隠す 割り付けに関する3つのキーワード
研究の「エンドポイント」 統計処理の対象となるアウトカム 一次エンドポイント Primary endpoint • 研究目的に沿って測る指標(PECOのOにあたる) 二次エンドポイント Secondary endpoint • 研究のついでに測る指標 真のエンドポイント True endpoint • アウトカムを直接反映する指標(発症、死亡など) 代用エンドポイント Surrogate endpoint • アウトカムを間接的に評価する指標(検査値など)
統計の「解析」とは • 真の値・誤差の推定 • 標本のデータから全体の平均値や割合を予測 • 予測値の信頼区間(第4日参照)を算出 • 差の検定 • 2群の差が確実(有意、Statistically significant)なものであるかどうかを判定 • 判定用の指標としてp値(第4日参照)を算出 • 信頼区間からも判定が可能
解析から導き出されるもの 回帰直線と呼ばれる • 相関関係 correlation • 関数(狭義では1次関数=直線)に近似できる関係 • 右上がりなら「正の相関」、右下がりなら「負の相関」 • 因果関係 causality 相関関係に加えて以下のような要素が必要 • 必要性(‘結果’のある人物が必ず‘原因’を伴っている) • 時間的前後関係(必ず‘原因’が‘結果’に先行する) • 整合性(既存の事実や他の研究結果と矛盾しない) • 真の相関性(交絡因子(第3日参照)が間に存在しない)
妥当性と信頼性(再現性) • 妥当性 validity:「ずれ」の無さ • 測りたいものを正確に測れているか • 妥当性を下げる要素:バイアス bias • 信頼性 reliability:「ぶれ」の無さ • 繰り返し測定しても同じ値が得られるか どちらも高い 妥当性が低い 信頼性が低い
研究デザインの大枠 比較を 行わない 記述(非実験的)研究 日本における 糖尿病患者は~人 比較を 行う 人為的に 手を加えない 観察(準実験的)研究 糖尿病患者は 健常者に比べて~ 人為的に 条件を調整 実験的研究 糖尿病患者に~した群は~しない群に比べて…
観察研究の分類 現在のOから 過去のEを分析 ケースコントロール研究 病因・危険因子の探索 過去のEから 現在のOを追跡 コホート研究 病因、危険因子の検証 経時的な予後の解析 現在のEから 将来のOを追跡 現在のEとOを 同時に分析 横断研究 検査の性能・精度の評価
それぞれの長所、短所 • ケースコントロール(症例対照)研究 • 因果関係の探索・発見に適している • 時間と費用が少なくて済むがバイアスが入りやすい • コホート研究 • 因果関係の検証に適している • バイアスをある程度減らせるが時間と費用がかかる • 横断研究 • ある一時点における相関関係の探索に適している • 因果関係が不明瞭(どちらが原因でどちらが結果?)
介入研究の基本形 ランダム化の完全度を基に大きく3つに分類される アウトカム アウトカム 母集団 対象者 介入 対照群 介入群 • ランダム化比較試験 Randomized Controlled Trial • 乱数表、業者に委託 etc • 準ランダム化比較試験 Controlled Clinical Trial • サイコロの目、くじ引き etc • 非ランダム化比較試験
介入研究の盲検化 対象者の割り付け結果を関係者に伏せる • ‘誰に対して伏せるか’に基づく分類 • 一重盲検:患者 • 二重盲検:患者、介入者(最も一般的) • 三重盲検:患者、介入者、判定者 • 四重盲検:患者、介入者、判定者、データ解析者 ※PROBE法:結果判定者にのみ伏せる (倫理的な面から、臨床研究では最も現実的)
クロスオーバー研究 • 介入研究の一種 • 一定期間後に条件を交換し、再度経過を観察 • 介入の影響が素早く出て持続しない場合のみ有効 治療A群 評価 治療B群 評価 治療B群 評価 治療A群 評価 無治療(洗い流し期間)
研究デザインと妥当性の階層 複数のRCTの結果を 1つに統合したもの メタアナリシス システマティックレビュー 実験的研究 RCT>CCT>非ランダム化 観察研究(準実験的研究) コホート>ケースコントロール>横断 記述研究(非実験的研究) 専門家の個人的意見、レビューなど
バイアスとは 研究手法に潜み、誤った統計評価を導く要因 どんな研究でもバイアスを完全に除くことはできない! 典型的なバイアスを理解しておくことが不可欠 • 主なバイアス • 選択バイアス • 情報バイアス • 交絡 • 利害バイアス • 出版バイアス
選択バイアス 標本抽出・割り付けにおけるバイアス 抽出や割り付けの際に、 「母集団」と 質の異なる「対象」 や 臨床的特性の異なる 「介入群」と「対照群」 を設定している アウトカム アウトカム 母集団 対象者 介入 対照群 介入群
代表的な選択バイアス • 入院バイアス(Berksonバイアス) 入院患者を対象とした研究に付随する見落とし • 「入院患者は重症例や他疾患の合併例が多い」 • 罹患率バイアス(Neymanバイアス) 有病者を対象とした後ろ向き研究に付随する見落とし • 「発症早期に死亡した人は対象から抜け落ちやすい」 • 協力者バイアス(自己選択バイアス) 協力者を対象とした研究や調査に付随する偏り • 「どういう結果を期待している人が研究に協力的か」
情報バイアス 情報を管理・収集する際に生じるバイアス • データを取る側や 取られる側の心理が 結果に影響を与える • データを取る人間や 取り方が均一でない • データの測り間違い アウトカム アウトカム 母集団 対象者 介入 対照群 介入群
代表的な情報バイアス • 想起バイアス 聴取を基にした調査(過去の曝露歴など)の不正確性 • 記憶間違い、適当な回答などに起因する • 測定バイアス 測定手段や不十分な盲検化に伴う測定の不正確性 • 割り付けを知っている測定者が先入観で判断 • 割り付けを知っている患者の心理が反映される • 測定者の個人的な技量や判断基準が反映される • 何回も測定しているうちに測定者・患者が疲れる
交絡(=交絡因子の存在) 「虎の威を借る狐」 「虎を引き連れた狐」を見た動物たちが逃げ出した • 見た目「動物たちは狐を見て逃げ出した」 • 真実「動物たちは虎を見て逃げ出した」 因果関係があるように見える=交絡 動物逃げ出す 狐 虎 関連性あり (因果関係はなし) 関連性あり (因果関係) こういう因子を 交絡因子と呼ぶ
交絡の例 コーヒーをよく飲んでいる人は、飲まない人より 肺癌になる割合が有意に高かった。 ↑実はコーヒー好きには喫煙者が多い 本当は因果関係なし コーヒー 関連性あり (因果関係はなし) 関連性あり (因果関係) 肺癌 喫煙 交絡因子:喫煙
その他のバイアス • 利害バイアス 資金援助を受けている研究に生じるバイアス • スポンサーの企業や個人に有利な結果を誇張 • スポンサーの企業や個人に不利な結果を隠蔽 • 出版バイアス 成果を世間に報告する際に生じるバイアス 仮説を否定する研究(Negative study)は売れないため… • 出版社が出版しない、研究者が論文の形にしない • 有意差が生じるように研究者が結果をこじつける
バイアスへの対策 • 選択バイアス対策 • 参加適格・除外を明確な基準で判断 • 対象のランダム割り付けと追跡 • 情報バイアス対策 • 盲検化の維持、機械による測定手法の均質化 • 交絡対策 • 両群で比較条件以外の因子を揃える(matching) これらを基にエビデンスの妥当性を系統的に評価
臨床試験の妥当性評価:RAMBO Recruitment Allocation Maintenance Blind アウトカム アウトカム 対象者 母集団 脱落者 対照群 介入群 Objective
RAMBO(1) Recruitment(募集) 研究論文のここに注目 • 集めた人数は? 参加拒否者の人数と理由は? • 参加への適格性(eligibility)を判断する基準は? • 参加からの除外(exclusion)を判断する基準は? Introduction Methods Results Discussion 読み取りポイント 評価ポイント 参加者が母集団に対して代表的(等質)であるか?
RAMBO(2) Allocation(割り付け) 研究論文のここに注目 • (観察的研究の場合)何を基準に割り付けたか? • (実験的研究の場合)ランダム化を行ったか? • 実際の各群の人数と構成要員の臨床的特性は? Introduction Methods Results Discussion 読み取りポイント 評価ポイント 2つの群の比較したい条件以外が揃っているか?
RAMBO(3) Maintenance(維持) 研究論文のここに注目 • 途中で何人が脱落・中止し、何人が残ったか? • 脱落・中止の原因は何か? Introduction Methods Results Discussion 読み取りポイント 評価ポイント 参加者の追跡に不備が無かったか?
RAMBO(4) Blind(盲検) 研究論文のここに注目 • 誰に対して割り付けが隠されているか? • 盲検化が維持されていたか?(それをどう評価?) Introduction Methods Results Discussion 読み取りポイント 評価ポイント 盲検化が適切に実施されていたか?
RAMBO(5) Objective(客観性) 研究論文のここに注目 • 介入の内容は? 実際の実施状況は? • エンドポイントは?(一次/二次、True/Surrogate) • 測定者や測定機器の測定精度に変化はないか? Introduction Methods Results Discussion 読み取りポイント 評価ポイント 等質かつ客観的な手法で介入・測定が行われたか?
標本数、平均、中央値 • 標本数(標本の総数)は n で表される • 平均 mean(算術平均 arithmetic mean) • データ値の総和÷データの総数(n) • 10, 10, 20, 30, 50, 60なら180÷6=30 • 中央値 median • データを小さい順に並べた時に中央にくる値 • 10, 10, 20, 30, 50, 60なら20と30の平均(=25)
標準偏差(SD)と標準誤差(SEM) • 標準偏差 standard deviation(SD) • {(各データ値-平均)2の総和÷(n-1)}の平方根 • 10, 10, 20, 30, 50, 60 (n=6, 平均=30) なら2200÷5(=440)の平方根(≒21) • 標準誤差 standard error of the mean(SEM) • n個の標本のSDから母集団のSDを推測した値 • nの平方根に反比例し、母集団の数≫nならSEM=(標本のSD)÷(nの平方根)
四分位数と四分位範囲 • n個のデータを小さい順に並べた時に • 1+{(n-1)x(1/4)}番目に来る値=第1四分位数 • 1+{(n-1)x(2/4)}番目に来る値=第2四分位数(=中央値) • 1+{(n-1)x(3/4)}番目に来る値=第3四分位数 • 第1四分位数~第3四分位数:四分位範囲(IQR)と定義 • 10, 10, 20, 30, 50, 60なら、 • 第1四分位数(2.25番目):10+(20-10)x0.25=12.5 • 第3四分位数(4.75番目):30+(50-30)x0.75=45 • 四分位範囲(IQR):12.5~45
正規分布 中心から両端に向かって 均等に下がっていく分布 2xSD(SEM) 平均 正規分布を対象とした検定は パラメトリック検定と呼ばれる • 平均±SD に約70% • 平均±2xSD に約95% の対象者が含まれる 正規分布のデータはn・平均・SD(SEM)で表記
エラーバーグラフ 平均±SEM(SD)で正規分布を表現するグラフ SEM(またはSD)は上側しか表示しないことも多い 標準誤差 (SEM) 平均 (Mean)
非正規分布 四分位範囲 正規分布以外の分布 左右非対称、山が2つある、… 範囲 非正規分布を対象とした検定は ノンパラメトリック検定と呼ばれる 中央値 非正規分布のデータは平均値で表現できない 中央値、四分位範囲などを用いて実測値で表現
箱ひげグラフ 中央値・範囲で非正規分布を表現するグラフ 外れ値(1つ1つoなどで表記) 最大値(≦第3四分位数+1.5xIQR) 第3四分位数 中央値 四分位区間(IQR) 第1四分位数 最小値(≧第1四分位数-1.5xIQR)
p値(有意確率) 偶然その結果が生じる確率(信頼性の指標) • 「p=0.125」の意味とは? • その結果は12.5%の確率で「偶然の産物」 • その結果は87.5%の確率で意味のあるもの(有意) • p<有意水準(通常は0.05)→有意差あり • p値に関する注意点 • p値の大きさと差の大きさは無関係 • p値が十分小さくても実は差が無い可能性もある
●%信頼区間(Confidential Interval) 全ての値の●%を含む範囲(信頼性の指標) • 結論が逆転する可能性がある=差は有意でない • 「差」の95%信頼区間が0を含む→p≧0.05と同義 • 「比」の95%信頼区間が1を含む→p≧0.05と同義 • 信頼区間の広さはぶれ幅を表す • 信頼区間が狭い→信頼性が高い • 信頼区間が広い→正しく測定できているか怪しい • 差や比の実質的な大きさが評価できる
p値と信頼区間の例 p = 0.08 * A薬 B薬 無治療 無治療 Hazard Ratio: 0.90 [95%CI: (0.69-1.24)] *p < 0.05 有意差なし 有意差あり
第Ⅰ種の誤りと第Ⅱ種の誤り • 第Ⅰ種の誤り(αエラー)≒偽陽性 • 差が無いのに「差がある」と判断 • 第Ⅰ種の誤りの発生率はα(=p値)で表される • 通常はα < 0.05(p<0.05)が必要 ※許容されるαの上限(通常は0.05)を有意水準と呼ぶ • 第Ⅱ種の誤り(βエラー)≒偽陰性 • 差があるのに「差が無い」と判断(≒見落とし) • 第Ⅱ種の誤りの発生率はβで表される • 検出力(1-β):通常は > 0.8(β<0.2)が必要