1 / 58

不完全データの処理

不完全データの処理. 立教大学経営学部 山口和範. 今日の話. 不完全データの処理 不完全情報に基づく推定 EM アルゴリズムの利用と最適化 潜在変数モデル 潜在クラスモデル、混合モデル、 … 多重代入法と EM アルゴリズム 傾向スコアとその拡張. 欠測データへの考えられる対処法. 欠測を含むケースの削除: Complete Case (CC) 法 分析結果の偏りを招く可能性, 一般的には × ペアワイズ法: Pairwise Deletion

claude
Download Presentation

不完全データの処理

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 不完全データの処理 立教大学経営学部 山口和範

  2. 今日の話 • 不完全データの処理 • 不完全情報に基づく推定 • EMアルゴリズムの利用と最適化 • 潜在変数モデル • 潜在クラスモデル、混合モデル、… • 多重代入法とEMアルゴリズム • 傾向スコアとその拡張

  3. 欠測データへの考えられる対処法 • 欠測を含むケースの削除: Complete Case (CC) 法 分析結果の偏りを招く可能性, 一般的には× • ペアワイズ法: Pairwise Deletion 変数毎あるいは変数対毎に利用できるデータを使って,平均や相関・共分散を推定 • 欠測データの推定: Imputation Method 擬似的な完全データの作成(平均値推定,回帰推定,・・・) • 統計モデルに基づく方法 最尤法(EMによる)

  4. 手にしているデータとは? ; and 研究対象変数 欠測指標変数

  5. response variable missing indicator variable the joint distribution of x and r the marginal distribution of the observed data

  6. 欠測のモデルf (x,r)に関する2つのモデル • Selection models f ( x , r ) = f ( x )P ( r | x ) どの値が 欠測するかは,対象変数 x の実現値から   確率的に決まるとするモデル • Pattern mixture models f ( x , r ) = f ( x | r )P ( r ) 欠測パターン毎に,別々の異なる xの確率モデルが 想定され, 観測データ行列は,欠測パターン毎の 生起確率を重みとする混合分布の実現値と考えるモデル

  7. Selection Model v.s. Pattern Mixture Model • Selection Model • MARの仮定の下では,使いやすいモデル • 母集団を一つの分布法則でモデル化できる • 現状でよく使われている • NMARの下では,欠測発生のモデル化の適否が  結果を左右する • Pattern Mixture Model • NMARの下では,扱いやすいモデル • 欠測パターン毎の分布法則が知りたいのであれば適当なモデルといえる • NMARの下で,欠測発生のモデル化をしないで済む。  欠測パターンと目的パラメータの間で,何らかの制約式  など設定する必要がでてくる。

  8. 欠測発生メカニズムへの仮定(1) • Missing Completely at Randam (MCAR) P( r | x ) = P ( r ) どの変数の値が欠測するかはもとの観測ベクトル x とは無関係 観測データと欠測指標の同時分布は, Ex. P(r=(1,1,・・・,1))=75%,P(r=(1,1,・・・,0))=10%,・・・

  9. MCARの下では,発生メカニズムは無視できる No systematic difference between complete cases and incomplete cases CC 法, 平均値の代入 unbiased estimates of underlying marginal means/profiles

  10. 欠測発生メカニズムへの仮定(2) • Missing at Random (MAR) P( r | x ) = P ( r | xobs ) ある変数が欠測する確率 は xobsが与えられた下で, xmisとは無関係 the joint distribution of the observed data 局所的に,MCARが成立

  11. x10 r10 x12 , x14 Growth Curve Data (Potthoff & Roy,1964) x8 means the missing produced through a MAR mechanism by Little(1987)

  12. Missing at Random (MAR) • 観測変数xobsで,欠測変数xmisと欠測指標変数rとの関係を      説明できれば,欠測変数と欠測指標変数との関係はなくなる。 • 欠測変数xmisと欠測指標変数rとの関係を説明する観測変数xobs が存在しそれらを適切に解析に組み込めば, 欠測データによって生じる偏りはなくなる。 • 予め共変量など欠測変数xmisと関連のある観測変数を含めておくことで, MAR の仮定の成立は不自然ではなくなる。

  13. MAR が成立すれば, non-response bias は補正できる  • CC(Complete-case)法 不完全ケースをすべて削除 層別と重み付け Stratification & Weighting 補正のための各層で,完全に観測されたケースを観測率の逆数で重み付ける

  14. 局所的にMCARが成立するような補正セルをどうやって見つけるか?局所的にMCARが成立するような補正セルをどうやって見つけるか? • Observed variables • Response Propensity スコアによる層別 • Predicted Mean による層別

  15. Response Propensity スコア Probability of missing based on covariate. Missing at Random Rosenbaum & Rubin (1983) and approximately

  16. Propensity スコアによる層別手順 • 欠測指標変数を観測変数でロジスティック回帰やプロビット回帰( Propensityスコア)する • 前ステップでのPropensityスコアの推定値を各ケースで求める • Propensityスコアの推定値の大きさでカテゴリー化し,層別を行う * Propensityスコアの推定値は,各ケースのその大きさによるグループ分けには適しているが,そのまま各ケースの重みとして利用することは不適切

  17. 欠測データへの考えられる対処法 • 欠測を含むケースの削除: Complete Case (CC) 法 MCARのみ可, MARで層別による補正  • ペアワイズ法: Pairwise Deletion 変数毎あるいは変数対毎に利用できるデータを使って,平均や相関・共分散を推定 • 欠測データの推定: Imputation Method 擬似的な完全データの作成(平均値推定,回帰推定,・・・) • 統計モデルに基づく方法 最尤法 ベイズ法

  18. ペアワイズ法: Pairwise Deletion • 変数毎に利用できるデータを使って,平均・分散を推定 • 変数対毎に利用できるデータを使って,相関・共分散を推定

  19. ペアワイズ法 • 標本相関行列の統計的分布が不明 • 標本相関行列が正定値行列でないことがある • 相関の高いデータ行列の場合は,とくに不適 •  単なるCC法(削除法)より悪い結果となることも

  20. Imputation(代入法) • 欠測データに何らかの値を代入 • 擬似的な完全データの作成 • Marginal or Conditional imputation • Explicit or Implicit model imputation • Deterministicor Stochastic imputation (using random numbers) • Univariate or Multivariate imputation • Singleor Multiple imputation

  21. 2種類の尤度 • Full loglikelihood – 欠測発生メカニズムをモデル化 • Partial loglikelihood –欠測発生メカニズムを無視 * より単純な partial likelihood を使っても良い条件とは ?

  22. Ignorability Rubin(1977) モデルの推測に際して,欠測発生メカニズムを無視して よい条件とは ? • Sufficient conditions for ignorability • MAR • 欠測発生メカニズムを規定する母数 (f) とデータの分布の母数(q) は無関係 • 上記の MAR のみが成立していれば,ML法 Lpartial でも適切ではあるが,完全に efficient とはならない • MAR は key condition • Richer the observed data xobs , the more plausible the MAR assumption • NMAR は more plausible, しかし,特定の欠測発生メカニズムモデルを正当化することは難しい

  23. Partial loglikelihood –欠測発生メカニズムを無視 Missing at Random has much simpler form than

  24. Excelで実習 • 中途打ち切りデータの推定 •              の最大化 • EMアルゴリズムによる方法

  25. EM algorithm • A general algorithm for incomplete data problems that provides an interesting link with imputation methods • (k) converges to a maximum likelihood estimate of q based on Lpartial , if a unique finite MLE of q exists.

  26. DLR(1977) • E-step :To calculate the conditional expectation ofLc(q) • M-step :To findq which maximize the conditional expectation calculated in the previous E-step

  27. EM の適用(Ignorable case) • 欠測を含む多変量正規モデル • 欠測を含む多変量回帰モデル • 尺度混合正規モデルの下でのロバスト推定 • Logistic 回帰( missing covariates) • Unbalanced repeated-measures models with structured covariance and with missing data • 潜在構造モデル

  28. 欠測値を含む多変量正規モデル

  29. E-step : Sufficient statistics

  30. E-step : Sufficient statistics

  31. M-step :

  32. MARでない場合の影響 • 数値実験

  33. 欠測モデル(MARでない場合) x1 x2 m2

  34. 欠測モデル(MARの場合) x1 x2 m1

  35. MARの場合

  36. 結果(平均)

  37. 平均(r=0.8)

  38. 平均

  39. 分散

  40. 相関係数

  41. ペアワイズ削除で推定した場合

  42. 比較

  43. まとめ • 欠測データを解決する unique solution はない • いくつかの方法を試して,sensitivitycheck する • ML 法は,MARであればOK • MARでなくても、場合によっては十分な補正を行なう

  44. Imputation(代入法) • 欠測データに何らかの値を代入 • 擬似的な完全データの作成 • Marginal or Conditional imputation • Explicit or Implicit model imputation • Deterministicor Stochastic imputation (using random numbers) • Univariate or Multivariate imputation • Singleor Multiple imputation

  45. Mean Imputation (Unconditional)   単純な平均値の代入 • Available cases for each mean • MCARの下でも分散を過小評価 検定や信頼区間の結果が信用できない

  46. Mean Imputation (Conditional)    回帰による推定値の代入 • Conditional on observed values in case Regress Xp on (X1 ,X2,・・・,Xp-1) Impute predictions パーセント点,相関係数,分散,  共分散などデータの線形関数以外の統計量の推定は偏る

  47. Mean Imputation分布(ばらつき)を再現しない • Marginal distributions and associations distorted ( no residual variance) • Conditional better than unconditional • Standard errors from filled-in data too small • no residual variance • n actually smaller • uncertainty of prediction Stochastic Imputation

  48. Cold deck法と Hot deck法(パネルデータ) • Cold deck 法 代入値を同一人物の他の時点のデータから探す • Hot deck 法   代入値を同一時点の他の人物(ドナー)のデータから探す 代入値を提供するドナーケースは,補正セル内あるいは 共変量とのマッチングで決める Exact matching v.s. Random matching ランダムホットデック法

  49. Deterministic imputation(非確率的代入) • Hot deck and Cold deck methods • Overall (unconditional) mean • Group (adjusted cell) mean • Predictive mean by regression model More accuracy, but distort the distribution The distribution becomes too peaked and the variance is underestimated

  50. Stochastic imputation確率的代入 • 非確率的代入法+確率的要素   ばらつきを保持する(代入値の分散・共分散を意識) EX. • Add a random residual from N (m ,s 2 ) StochasticPredictive mean imputation       回帰による推定値+乱数による誤差 • Impute the value of a randomly selected case Random hot deck method

More Related