不完全データの処理

不完全データの処理 立教大学経営学部山口和範

今日の話 • 不完全データの処理 • 不完全情報に基づく推定 • EMアルゴリズムの利用と最適化 • 潜在変数モデル • 潜在クラスモデル、混合モデル、… • 多重代入法とEMアルゴリズム • 傾向スコアとその拡張

欠測データへの考えられる対処法 • 欠測を含むケースの削除： Complete Case (CC) 法分析結果の偏りを招く可能性，　一般的には× • ペアワイズ法： Pairwise Deletion 変数毎あるいは変数対毎に利用できるデータを使って，平均や相関・共分散を推定 • 欠測データの推定：　Imputation Method 擬似的な完全データの作成（平均値推定，回帰推定，・・・） • 統計モデルに基づく方法最尤法（EMによる）

手にしているデータとは？ ; and 研究対象変数欠測指標変数

response variable missing indicator variable the joint distribution of x and r the marginal distribution of the observed data

欠測のモデルf (x,r)に関する２つのモデル • Selection models f ( x , r ) = f ( x )P ( r | x ) どの値が欠測するかは，対象変数 x の実現値から　　確率的に決まるとするモデル • Pattern mixture models f ( x , r ) = f ( x | r )P ( r ) 欠測パターン毎に，別々の異なる xの確率モデルが想定され，観測データ行列は，欠測パターン毎の生起確率を重みとする混合分布の実現値と考えるモデル

Selection Model v.s. Pattern Mixture Model • Selection Model • MARの仮定の下では，使いやすいモデル • 母集団を一つの分布法則でモデル化できる • 現状でよく使われている • NMARの下では，欠測発生のモデル化の適否が　結果を左右する • Pattern Mixture Model • NMARの下では，扱いやすいモデル • 欠測パターン毎の分布法則が知りたいのであれば適当なモデルといえる • NMARの下で，欠測発生のモデル化をしないで済む。　欠測パターンと目的パラメータの間で，何らかの制約式　など設定する必要がでてくる。

欠測発生メカニズムへの仮定（１） • Missing Completely at Randam (MCAR) P( r | x ) = P ( r ) どの変数の値が欠測するかはもとの観測ベクトル x とは無関係観測データと欠測指標の同時分布は， Ex. P(r=(1,1,・・・,1))=75%,P(r=(1,1,・・・,0))=10%,・・・

MCARの下では，発生メカニズムは無視できる No systematic difference between complete cases and incomplete cases CC 法, 平均値の代入 unbiased estimates of underlying marginal means/profiles

欠測発生メカニズムへの仮定（２） • Missing at Random (MAR) P( r | x ) = P ( r | xobs ) ある変数が欠測する確率は xobsが与えられた下で， xmisとは無関係 the joint distribution of the observed data 局所的に，MCARが成立

x10 r10 x12 , x14 Growth Curve Data (Potthoff & Roy,1964) x8 means the missing produced through a MAR mechanism by Little(1987)

Missing at Random (MAR) • 観測変数xobsで，欠測変数xmisと欠測指標変数rとの関係を　　　　　説明できれば，欠測変数と欠測指標変数との関係はなくなる。 • 欠測変数xmisと欠測指標変数rとの関係を説明する観測変数xobs が存在しそれらを適切に解析に組み込めば，欠測データによって生じる偏りはなくなる。 • 予め共変量など欠測変数xmisと関連のある観測変数を含めておくことで， MAR の仮定の成立は不自然ではなくなる。

MAR が成立すれば， non-response bias は補正できる　 • CC（Complete-case）法不完全ケースをすべて削除層別と重み付け Stratification & Weighting 補正のための各層で，完全に観測されたケースを観測率の逆数で重み付ける

局所的にMCARが成立するような補正セルをどうやって見つけるか？局所的にMCARが成立するような補正セルをどうやって見つけるか？ • Observed variables • Response Propensity スコアによる層別 • Predicted Mean による層別

Response Propensity スコア Probability of missing based on covariate. Missing at Random Rosenbaum & Rubin (1983) and approximately

Propensity スコアによる層別手順 • 欠測指標変数を観測変数でロジスティック回帰やプロビット回帰（ Propensityスコア）する • 前ステップでのPropensityスコアの推定値を各ケースで求める • Propensityスコアの推定値の大きさでカテゴリー化し，層別を行う * Propensityスコアの推定値は，各ケースのその大きさによるグループ分けには適しているが，そのまま各ケースの重みとして利用することは不適切

欠測データへの考えられる対処法 • 欠測を含むケースの削除： Complete Case (CC) 法 MCARのみ可，　MARで層別による補正　 • ペアワイズ法： Pairwise Deletion 変数毎あるいは変数対毎に利用できるデータを使って，平均や相関・共分散を推定 • 欠測データの推定：　Imputation Method 擬似的な完全データの作成（平均値推定，回帰推定，・・・） • 統計モデルに基づく方法最尤法ベイズ法

ペアワイズ法： Pairwise Deletion • 変数毎に利用できるデータを使って，平均・分散を推定 • 変数対毎に利用できるデータを使って，相関・共分散を推定

ペアワイズ法 • 標本相関行列の統計的分布が不明 • 標本相関行列が正定値行列でないことがある • 相関の高いデータ行列の場合は，とくに不適 • 　単なるCC法（削除法）より悪い結果となることも

Imputation（代入法） • 欠測データに何らかの値を代入 • 擬似的な完全データの作成 • Marginal or Conditional imputation • Explicit or Implicit model imputation • Deterministicor Stochastic imputation (using random numbers) • Univariate or Multivariate imputation • Singleor Multiple imputation

2種類の尤度 • Full loglikelihood – 欠測発生メカニズムをモデル化 • Partial loglikelihood –欠測発生メカニズムを無視 * より単純な partial likelihood を使っても良い条件とは　?

Ignorability Rubin(1977) モデルの推測に際して，欠測発生メカニズムを無視してよい条件とは ? • Sufficient conditions for ignorability • MAR • 欠測発生メカニズムを規定する母数 (f) とデータの分布の母数(q) は無関係 • 上記の MAR のみが成立していれば，ML法 Lpartial でも適切ではあるが，完全に efficient とはならない • MAR は key condition • Richer the observed data xobs , the more plausible the MAR assumption • NMAR は more plausible, しかし，特定の欠測発生メカニズムモデルを正当化することは難しい

Partial loglikelihood –欠測発生メカニズムを無視 Missing at Random has much simpler form than

Excelで実習 • 中途打ち切りデータの推定 • 　　　　　　　　　　　　　の最大化 • EMアルゴリズムによる方法

EM algorithm • A general algorithm for incomplete data problems that provides an interesting link with imputation methods • (k) converges to a maximum likelihood estimate of q based on Lpartial , if a unique finite MLE of q exists.

DLR(1977) • E-step　：To calculate the conditional expectation ofLc(q) • M-step　：To findq which maximize the conditional expectation calculated in the previous E-step

EM の適用(Ignorable case) • 欠測を含む多変量正規モデル • 欠測を含む多変量回帰モデル • 尺度混合正規モデルの下でのロバスト推定 • Logistic 回帰（ missing covariates） • Unbalanced repeated-measures models with structured covariance and with missing data • 潜在構造モデル

欠測値を含む多変量正規モデル

E-step　： Sufficient statistics

M-step　：

MARでない場合の影響 • 数値実験

欠測モデル(MARでない場合) x1 x2 m2

欠測モデル(MARの場合) x1 x2 m1

MARの場合

結果（平均）

平均（r=0.8）

平均

分散

相関係数

ペアワイズ削除で推定した場合

比較

まとめ • 欠測データを解決する unique solution はない • いくつかの方法を試して，sensitivitycheck　する • ML 法は，MARであればOK • MARでなくても、場合によっては十分な補正を行なう

Imputation（代入法） • 欠測データに何らかの値を代入 • 擬似的な完全データの作成 • Marginal or Conditional imputation • Explicit or Implicit model imputation • Deterministicor Stochastic imputation (using random numbers) • Univariate or Multivariate imputation • Singleor Multiple imputation

Mean Imputation (Unconditional)　　　単純な平均値の代入 • Available cases for each mean • MCARの下でも分散を過小評価検定や信頼区間の結果が信用できない

Mean Imputation (Conditional)　　　　回帰による推定値の代入 • Conditional on observed values in case Regress Xp on (X1 ,X2,・・・,Xp-1) Impute predictions パーセント点，相関係数，分散，　共分散などデータの線形関数以外の統計量の推定は偏る

Mean Imputation分布（ばらつき）を再現しない • Marginal distributions and associations distorted ( no residual variance) • Conditional better than unconditional • Standard errors from filled-in data too small • no residual variance • n actually smaller • uncertainty of prediction Stochastic Imputation

Cold deck法と Hot deck法(パネルデータ） • Cold deck 法代入値を同一人物の他の時点のデータから探す • Hot deck 法　　代入値を同一時点の他の人物（ドナー）のデータから探す代入値を提供するドナーケースは，補正セル内あるいは共変量とのマッチングで決める Exact matching v.s. Random matching ランダムホットデック法

Deterministic imputation（非確率的代入） • Hot deck and Cold deck methods • Overall (unconditional) mean • Group (adjusted cell) mean • Predictive mean by regression model More accuracy, but distort the distribution The distribution becomes too peaked and the variance is underestimated

Stochastic imputation確率的代入 • 非確率的代入法＋確率的要素　　ばらつきを保持する（代入値の分散・共分散を意識） EX. • Add a random residual from N (m ,s 2 ) StochasticPredictive mean imputation 　　　　　　回帰による推定値＋乱数による誤差 • Impute the value of a randomly selected case Random hot deck method

不完全データの処理

不完全データの処理

Presentation Transcript

EM Diffraction

EYE EM

EM algorithm

EM ze

EM BOMB

EM 5.8

EM Algorithm

EM Algorithm

Add ‘ Em , Subtract ‘ Em Alignment Lesson

Pensando em

EM Waveguiding

Rock em ’ Sock em ’ Robots

Keep ‘em or kick ‘em out

EM HARMONIA

Em dic...

Em Cena

Reach ‘ em , Teach ‘ em , and Let ‘ em Grow!

EM 2009

Em Abril...

EM ESPÍRITO, EM VERDADE

Em Abril...

Informação em Saúde em Cabo Verde