820 likes | 1.12k Views
「測定の信頼性」 J. L. フライス、「臨床試験のデザインと解析」第一章 を下敷きに. 久留米大学バイオ統計センター 久留米大学大学院医学研究科バイオ統計学群 森川 敏彦 久留米大学バイオ統計センター公開セミナー 2005.7.2 久留米大学教育一号館 1501 号. J. L. フライス「臨床試験のデザインと解析」第一章より. いかに臨床研究のデザインが優れていたとしても、測定の信頼性が低く不正確であれば、そのことによる欠陥を克服することはできない。 データの質が高いことは、ランダム化や二重盲検化などと同じ位に重要な試験デザインの要素である。.
E N D
「測定の信頼性」J. L. フライス、「臨床試験のデザインと解析」第一章を下敷きに 久留米大学バイオ統計センター 久留米大学大学院医学研究科バイオ統計学群 森川 敏彦 久留米大学バイオ統計センター公開セミナー 2005.7.2 久留米大学教育一号館1501号
J. L. フライス「臨床試験のデザインと解析」第一章より • いかに臨床研究のデザインが優れていたとしても、測定の信頼性が低く不正確であれば、そのことによる欠陥を克服することはできない。 • データの質が高いことは、ランダム化や二重盲検化などと同じ位に重要な試験デザインの要素である。
ICHE9統計ガイドライン • ガイドラインの目的は臨床試験から得られる結果の偏りを最小に、精度を最大に(得られた結果・結論の科学的信憑性を最大に)すること • これはガイドラインがあろうとなかろうと科学研究である限り、当然追求しなければならないこと
ICH E9 Statistical Principles For Clinical Trials • 2.2.2 Primary and Secondary Variables(主要変数及び副次変数) • "The use of a reliable and validated variable with which experience has been gained either in earlier studies or in published literature is recommended.” • ”There should be sufficient evidence that the primary variable can provide a valid and reliable measure of some clinically relevant and important treatment benefit in the patient population described by the inclusion and exclusion criteria.”
2.2.3Composite Variables(合成変数) • "When a rating scale is used as a primary variable, it is especially important to address such factors as content validity (see Glossary), inter- and intra-rater reliability (see Glossary) and responsiveness for detecting change in the severity of disease.” • ex. ADAS-cog.(Alzheimer’s Disease Assessment Scale-cognitive subscale) Total Score • 2.2.4Global Assessment Variables(総合評価変数) • "When a global assessment variable is used as a primary or secondary variable, further details of the scale should be included in the protocol with respect to: • 1) the relevance of the scale to the objective of the trial • 2) the basis for the validity and reliability of the scale • ex. CIBIC (Clinician’s Interview Based Impression of Change)
Glossary • Content Validity(内容妥当性) • The extent to which a variable (e.g. a rating scale) measures what it is supposed to measure測りたいものが測れているか • Inter-Rater Reliability(評価者間信頼性) • The property of yielding equivalent results when used by different raters on different occasions違った評価者間で結果が再現するのか • Intra-Rater Reliability(評価者内信頼性) • The property of yielding equivalent results when used by the same rater on different occasions同じ評価者内で結果が再現するのか
一見客観的と思えるような種々の測定にも妥当性、信頼性の問題は潜んでいる。客観的な測定だから妥当で信頼がおけると天下り的に考えるのは危険。一見客観的と思えるような種々の測定にも妥当性、信頼性の問題は潜んでいる。客観的な測定だから妥当で信頼がおけると天下り的に考えるのは危険。 • 理想的な状態ではいい性能をもっている測定器であても生体内の測定においては種々の乱れが入ってくる。 • 外国で妥当性が確認された評価尺度であっても日本で(あるいは適用しようとしている対象に対して)妥当かどうかは確認しなければ分からない
例 • 骨密度の測定 • コレステロール値の測定 • 血圧の測定 • 胃内pHの測定 • 血糖値の測定 • 痴呆・リウマチ・脳血管障害・うつ・不安などの評価尺度
測定・評価の妥当性と信頼性 • 妥当性: 測りたいものが測れているか? (物差しで熱は測れない) • 信頼性: 測りたいものが精度よく測れるか?(熱を測るのに体温計? おでことおでこをくっつける?) 結果の再現性
測定・評価の妥当性と信頼性 妥当性 的を得た・・・・ 的外れ・・・・・・ ピントがずれて・・・・ 信頼性 ムラがある・・・ 再現性がよいからいい測定器だ・・
測定・評価の妥当性と信頼性 • 正解(“的”;gold standard)がわかっていれば、それと付き合わせることにより、偏り(妥当性)や精度(信頼性)がわかる。 • 正解がわからなくても精度は把握はできる。 • 血圧などの測定値はほんとのところはわからないが、T社、O社、M社などの簡易測定器で測ると会社によって(機種によって?)高めや低めがあり、また何回か測り直すと、いくらでも違う数値が表示される。妥当性・信頼性の両方の問題を含む(?)
信頼性の尺度 • 連続データ:信頼性係数(またはICC) • 分類データ:κ係数
信頼性の統計モデル • 測定モデル
信頼性係数coefficient of reliability(reliability coefficient) • 信頼性係数の定義
級内相関係数intraclass correlation coefficient(ICC) • ICC:同じものを2度測ったときの相関係数 • 先ほどの測定モデルの下で • すなわち、いま考えている測定モデルの下でICCは信頼性係数に等しい
級内相関係数ICCと相関係数 • ICCは同じ被験者(あるいは測定対象)を2回測ったときに測定結果XとYが傾き45度の直線の上に乗っている程度(測定の一致性・再現性) • 一般の相関係数は単に直線の上に乗っている程度 • 相関係数が高いからといって、ICCが高いとは限らない • ICCが低くても相関係数が高いことはありうる • 逆にICCが高ければ相関係数も高いし、相関が低ければICCも低い
信頼性が低いことがもたらす結果 • ①相関の低下~相関構造を崩す
信頼性が低いことがもたらす結果 • ②サンプルサイズの増加2群の患者からなる単純な2群比較試験
信頼性が低いことがもたらす結果 • ②サンプルサイズの増加
信頼性が低いことがもたらす結果 • ②サンプルサイズの増加
信頼性が低いことがもたらす結果 • ③臨床試験での標本選択の偏り • 本来は真値Tが閾値Aを上回る患者を試験の対象としたい。しかし測定値が誤差を含むために本来組み入れるべきではないT<Aなる患者もX=T+e>Aによって組み入れられる(偽陽性)。 • このような患者は十分重症でないために反応を示すことができず、また選択された標本自体が想定している集団よりも広くなることにより比較の感度が鈍る。 • このような標本が偏る性質はいわゆる中心への回帰regression to the meanの特別の場合
信頼性が低いことがもたらす結果 ③臨床試験での標本選択の偏り
単純な繰り返し信頼性研究と評価者内信頼性intra-rater reliability • 同一の測定者(測定器)・同一の条件 • N人の被験者 • 各被験者につきk回の測定の繰り返し • 測定モデル(一元配置ランダム効果モデル)
データの形式 • 表1.2’ 一元配置デザインから得られるデータ • ――――――――――――――――――――――― • 被験者 k回の繰り返しから得られる測定値 • ――――――――――――――――――――――― • 1 X11, X12, ・・・・, X1k • 2 X21, X22, ・・・・, X2k • ・・・・・・・・・・・ • N XN1, XN2, ・・・・, X Nk • ―――――――――――――――――――――――
分散分析 • H0: ならばE[BMS]=また仮説にかかわらずE[WMS]= • したがって帰無仮説 の下で、F=BMS/WMSは自由度N-1,(k-1)NのF分布に従う。 • このF分布の上側α点を としてのときに帰無仮説を棄却する。
(参考)独立な平均平方の比 • 平均平方をM,対応する自由度をf、Mの期待値をE[M]で表すと、fMは平方和でfM/E[M]は自由度fのχ2分布に従う。 • 独立な二つのχ2変量をχ12、χ22とし対応する自由度をf1、f2とすると(χ12/f1)/(χ22/f2)は自由度f1、f2のF分布 • 共通の期待値を持つ独立な二つの平均平方をM1、M2とし対応する自由度をf1、f2とするとM1/M2は自由度f1、f2のF分布
信頼性係数に関する推測 • 信頼性係数:逆に信頼係数が与えられると被験者間分散は • の検定 と は同値なので、先ほどの分散分析がそのまま使える。
表1.3のデータ(元に戻したデータを用いた場合)によるICC(Rのirr packageによる ; cf. 鍵村、2005)) • >icc(d,model="oneway",conf.level=0.9) • Single Score Intraclass Correlation • Model: oneway • Type : consistency • Subjects = 10 • Raters = 2 • ICC(1) = 0.991 • F-Test, H0: r0 = 0 • F(9,10) = 225 , p = 4.83e-10 • 90%-Confidence Interval for ICC Population Values: • 0.974 < ICC < 0.997 • > d<-read.table("e:Tab1.3.txt",header=T) • > d • X1 X2 • 1 0.3977882 0.07221179 • 2 0.1373607 0.09263932 • 3 0.1682843 0.11171573 • 4 0.0000000 0.00000000 • 5 0.4631025 0.30689750 • 6 2.6773607 2.63263932 • 7 0.1010555 0.02894449 • 8 0.4671954 0.28280456 • 9 0.5941421 0.56585786 • 10 4.0838478 3.71615224
信頼性試験の結果を利用した次の臨床試験の例数設計信頼性試験の結果を利用した次の臨床試験の例数設計
繰り返しによる信頼性の向上 • 一人の被験者に対し、m回測定を繰り返し、その平均値で測定値を代表させるものとすると、その平均値の信頼性係数は • この公式は求める信頼性を得るために必要なくり返し数を得るためにも使える。
評価者間信頼性 • N人の被験者:第i被験者のスコア • k人の評価者(測定器):第j評価者の効果 • 各評価者はすべての被験者を判定(測定) • ランダム化と盲検化 • モデル①評価者が固定されている場合(二元配置混合モデル)
評価者間信頼性:二元配置モデル • ②評価者がランダムに選ばれている場合(二元配置ランダム効果モデル)
二元配置の場合の級内相関係数 • 二元配置分散分析モデルで同じ被験者内の2つの測定値間の相関をとるとこれも一元配置の場合と同様に R=真値の分散/測定値の分散の形をとり、やはり信頼性係数とも呼ばれる。測定者間差および測定誤差がなく、測定値の再現性が高いとき、ICCないし信頼性係数の値は大きくなり、完全に再現するときR=1, 再現性が乏しい極限でR=0。