220 likes | 673 Views
5-7 欠測値を無視した尤度に基づく解析と PROC MIXED. B3 兼清 道雄. 結論. 欠測値を無視した尤度に基づいた解析 好ましい♪ MAR でいい♪ 単純な解析方法→ MCAR を仮定 暗黙の補完により統計的情報にバイアスが生じない♪ 明示的補完= Buck の条件付補完 PROC MIXED では追加プログラム必要なし♪ 欠測値を入力したデータ or 測定順序を示す変数を指定. 尤度に基づいた推定が妥当. 欠測メカニズムが MAR のとき 測定過程パラ θ と欠測過程パラ ψ が互いに素 (separability condition)
E N D
5-7欠測値を無視した尤度に基づく解析とPROC MIXED B3 兼清 道雄
結論 • 欠測値を無視した尤度に基づいた解析 • 好ましい♪ • MARでいい♪ • 単純な解析方法→MCARを仮定 • 暗黙の補完により統計的情報にバイアスが生じない♪ • 明示的補完=Buckの条件付補完 • PROC MIXEDでは追加プログラム必要なし♪ • 欠測値を入力したデータ or 測定順序を示す変数を指定 Likelihood-based Ignorable Analysis and PROC MIXED
尤度に基づいた推定が妥当 • 欠測メカニズムがMARのとき • 測定過程パラθと欠測過程パラψが互いに素(separability condition) • PROC MIXED(尤度に基づいた解析)がO.K. • ただし注意点3つ Likelihood-based Ignorable Analysis and PROC MIXED
(1) • 暗黙の仮定がある • 研究目的=測定過程パラθ • 欠測過程パラψは局外パラ • 必ずしも正しくない場合がある • ある対象者のプロファイルを予測 • 脱落時点以降:脱落したという条件を与えたもとでθとψを推定する必要がある • 欠測過程に対するモデルを構築する必要あり • カテゴリカルデータに対する手法でパラψ推定 Likelihood-based Ignorable Analysis and PROC MIXED
(2) • 尤度に基づいた推測 • 標本分布に関連した議論必要 • 推定量の精度(標準誤差?)に関する推定量 • to construct precision estimators→標準誤差 • 統計的仮説検定 • 5.8でさらに・・・・ Likelihood-based Ignorable Analysis and PROC MIXED
(3) • informative drop-outには× • MARとかMCARは○ • 対処方法の1つ • informative drop-out model • by Diggle and Kenward(1994) Likelihood-based Ignorable Analysis and PROC MIXED
informative drop-out model • パラメータ最適化アルゴリズム=シンプレックス法 • EMアルゴリズム(反応変数=カテゴリカルデータ) • S-Plusで書かれたOSWALDソフトフェア • info~の拡張、情報のある脱落を考慮 • 5.11で詳細 • SASプログラム for EMアルゴリズム • E=(不完全データ→完全|現在のパラと観測データ) • Msub1=PROC MIXED(測定過程に対する尤度最大化) • Msub2=PROC LOGISTIC(欠測過程に~) • EMアルゴリズム⇒⇒⇒5.9 Likelihood-based Ignorable Analysis and PROC MIXED
データ(表4.11) • 4章の成長曲線データ • 人工的に欠損させる • 具体的には • 欠損するのは10歳時のデータのみ • 8歳の身長が低いと欠損しやすい仕組み • 欠測メカニズムはMAR スライド from 鳥居さん Likelihood-based Ignorable Analysis and PROC MIXED
5.6 v.s. 5.7 • 欠測無対象者の方がより多くのパラメータ推定に寄与 • available case analysisと同様 • available⇒⇒直接的 • 尤度に基づく⇒尤度関数を通して、間接的 • 欠測無⇒4次元の正規対数尤度関数 • (平)=4、(共)=4×4 • 欠測有⇒10歳時の要素で積分、3次元周辺密度 • (平)=3、(共)=3×3 Likelihood-based Ignorable Analysis and PROC MIXED
Little and Rubin(1987) • 欠測した成長曲線データに対して、Jennrich and Schluchter(1986)と同じ8つのモデルを当てはめ • EMアルゴリズム • PROC MIXED • Fisherスコアリング法 or Newton-Raphson法 • 観測された尤度を直接最大化する推定方法 • 表5.8(Littleさん達の) • 表5.10(4.4プログラムそのまま) 結果は一致するはず Likelihood-based Ignorable Analysis and PROC MIXED
表5.8と表5.10で食い違い • モデル5 • 表5.8→棄却(p=0.0391)、表5.10→採択(p=0.1942) • 最大対数尤度(-2l)の値、違う • モデル1~5 • 平均、共分散パラメータも • プログラムを拝見 Likelihood-based Ignorable Analysis and PROC MIXED
モデル1プログラム PROC MIXED DATA=growth METHOD=ml COVTEST; CLASS idnr sex age; MODEL measure = sex age*sex / s; repeated / type=un subject=idnr r rcorr; format sex sexf; run; idnrが同じ=同一被験者から 注)ただし順序は考えていない 欠測がある被験者では 測定順が1,3,4ではなく、 1,2,3になっている よって、 最大対数尤度の値が変わる モデル6 ageより指定される random intercept age/ type=un subject=idnr g; モデル7 repeated / type =cs モデル8 順序、関係なし repeated / type =simple Likelihood-based Ignorable Analysis and PROC MIXED
解決方法 • 欠測値を明示的に示したデータセット • repeatedステートメントで観測値の順序を定義する(反復効果を指定) • モデル1 • モデル2 8,10,12,14:順序 ○ repeated age / type = un × repeated age / type = un モデル2ではclassステートメントにageがない 変数agec(ageと同じ)を作り↓ repeated agec / type = un Likelihood-based Ignorable Analysis and PROC MIXED
表4.14(完全データ)と表5.8(欠測、尤度に・・・)表4.14(完全データ)と表5.8(欠測、尤度に・・・) • 結論同じ(モデル7が一番) • モデル4○ モデル6○ モデル8× • モデル3と5に対する当てはまりのp値 • そんなに小さくない • 利用可能な測定値の減少より予期されたこと • モデル4と5の尤度比検定統計量 • G^2(2)=11.494 p=0.0032(やはり当てはまり×) Likelihood-based Ignorable Analysis and PROC MIXED
尤度に基づいた解析 • 平均値(予測平均) • 表5.12参照 • モデルが正しく特定されていれば • 欠測のある観測データの平均とは不一致 • 完全なデータセットにおける平均と一致 • 今回、完全なデータセットにおける平均値より小さくなっている • 小標本によるばらつきのため cf.単純平均 • 過大方向へバイアス(complete case analysis etc.) Likelihood-based Ignorable Analysis and PROC MIXED
5.6と5.7の違い • 10歳時のパラメータ推定 • 5.6 • 他のパラメータに関する情報を利用しない • 5.7 • バイアスを補正(以下の2つに基づいて) • 8,12,14歳時の測定値の分布は、全ての測定がなされたグループと為されなかったグループで異なる • 10歳時の測定値と8,12,14歳時の測定値の間には大きな相関有り Likelihood-based Ignorable Analysis and PROC MIXED
条件付平均値による補完 • 10歳時を過小評価 • バイアス補正の大きな影響 • 「尤度に基づく」よりも • 補完の為の回帰モデル • 全ての測定がなされた対象者のみ • 欠測値を明示的に補完 • 「尤度に基づく」は暗黙・・・ Likelihood-based Ignorable Analysis and PROC MIXED
?暗黙の補完? • 「尤度に基づく」では • 欠測値をあらかじめ埋めない(×明示的補完) • ある対象者の欠測値に対する条件付き平均値を、その観測値と収束して得られたパラメータ値を与えたもとで埋めれば、観測データに対する対数尤度を直接最大化して得られる点推定値と同じ推定値が導かれる(○暗黙の補完) Likelihood-based Ignorable Analysis and PROC MIXED
平均プロファイル • 他の解析結果と比較 • 4.4節の完全なデータセットに対する結果にかなり似ている Likelihood-based Ignorable Analysis and PROC MIXED
共分散(モデル1) • 完全なデータセットに比べ大きい(10歳時) • 標本数が2/3になった→推定値、よりばらつくことが原因 • 欠測値に伴う不確かさが生じることを認識すべき • たとえ欠測値を無視した正しい解析であっても (尤度に基づく) (完全データ) Likelihood-based Ignorable Analysis and PROC MIXED
相関・共分散 • モデル1相関 • r(8,10)は増加、r(10,12),r(10,14)は減少 • 条件付平均値での補完と同じ現象(値は小さい) • バイアスの補正の影響 「条件付・・」>「尤度に・・」 • 他モデル相関 • 完全なデータセットに比べ差はわずか • モデル6 • 変量効果の共分散行列の要素および測定誤差、若干増加 • よって共分散行列、若干増加 Likelihood-based Ignorable Analysis and PROC MIXED