1 / 18

Introduction to Methods for Handling Missing Values

Introduction to Methods for Handling Missing Values. 陳昱 楙 2012/05/14. Y ~ f ( y | θ ). f(M|Y, ϕ )=f(M| ϕ ). MACR. Complete Case Analysis . Available Case Analysis. Complete Case Analysis .

angeni
Download Presentation

Introduction to Methods for Handling Missing Values

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Introduction to Methods for Handling Missing Values 陳昱楙 2012/05/14

  2. Y ~ f (y|θ)

  3. f(M|Y,ϕ)=f(M|ϕ) MACR Complete Case Analysis Available Case Analysis

  4. Complete Case Analysis • 是將不完整資料丟除,利用剩餘的完整資料(complete data)來做分析。如果完整的樣本數很大時,丟棄資料勉強可以接受;倘若完整資料有限,且完整資料不具代表性,此時所推估出來的結果就會發生問題,導致不良的決策。

  5. Available Case Analysis • 為尋求資訊的完整性,有人提出將不完全資料中的可觀測資料加入分析,此資料分析稱為可獲得的觀察體分析(available-case analysis)。舉例來說,收集的資料為學生的身高跟體重,若至少其中一變項為遺失值,則將其成批刪除是所謂的完整資料分析。若該生的體重可觀察到,但是身高不能觀察到,將可觀察到的體重與其它完整資料的體重一起加入分析,得到平均的體重,則此種分析方法是所謂的可獲得的觀察體分析

  6. f(M|Y,ϕ)=f(M|YOBS,ϕ) MAR Single Imputation Multiple Imputation

  7. Single Imputation • 一旦出現遺失值就尋找一個數值來替代。 • 插補的方法主要是從一個分佈抽取值出來或者是某一分佈的平均數,這個分佈是依據可觀測資料而得到的。 • 目前實用的插補眾多,並不限於單一方式。 • 不過所有插補法的共同目的,就是找尋一個和遺失值相似的數值替代之

  8. Multiple Imputation • 主張應用各種插補方法和估計的數值,應該不限於一組。 • 可以插補(或估計)一系列的數值。由於每一個遺失值皆有相對應的許多插補值或估計值,因此研究者可以比較不同處置方法的差異,甚至估計插補的誤差,然後進一步模擬估計值的分佈。

  9. Mean Imputation Median Imputation 組內/外插補 Substitution Hot Deck Cold Deck Regression Imputation Stochastic Regression Imputation EM Imputation Wang & Rubins (1998)

  10. Mean Imputation • 將遺失值以平均數來替代 • 完全隨機的 (MCAR)的前提之下 • 變異數低估

  11. 組內/外插補 • 將遺失值以該問項前後數個已回答的資料之平均來填補 • 若遺失值與前後無關係,則填補值明顯會造成偏差

  12. Substitution • 主要是用在問卷方面, • 若有遺失值的發生,則重新問一個人

  13. Hot Deck • 是按照輔助變數的不同條件,將已填答的資料劃分成若干的插補空格(imputation cell),然後每一個出現遺失值的觀察體,依據其輔助變數的條件,從相對應的插補空格中尋找一個觀察體,以其所觀察的變數數值代替遺失值。

  14. Cold Deck • 與熱卡法相同,不過取代的來源來自外部的資料,比如說先前的問卷。

  15. Regression Imputation • Regression mean imputation can generate unbiased estimates of means, associations ad regression coefficients in a much wider range of settings than simple mean imputation. • The variability of the imputations is too small, so the estimated precision of regression coefficients will be wrong and inferences will be misleading.

  16. Stochastic Regression Imputation • 針對迴歸插補法的一種改進,因為真實的遺失值並不會剛好落在迴歸線上,所以預測值再加上一隨機的誤差項較能反應出真實的遺失值散佈情況。

  17. http://missingdata.lshtm.ac.uk/index.php?option=com_content&view=article&id=68:simple-mean-imputation&catid=39:simple-ad-hoc-methods-for-coping-with-missing-data&Itemid=96http://missingdata.lshtm.ac.uk/index.php?option=com_content&view=article&id=68:simple-mean-imputation&catid=39:simple-ad-hoc-methods-for-coping-with-missing-data&Itemid=96 • 楊棋全 (2004), 指數與韋伯分配遺失值之處理 • Donders, Heijden, Moons (2006), Review: A gentle introduction to imputation of missing values

More Related