1 / 23

Missing data

Missing data. JFRYE2005. Det manglar case i utvalet. når ein person nektar å svar, Ikkje er heime, er flytta, Osv

saburo
Download Presentation

Missing data

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Missing data JFRYE2005

  2. Det manglar case i utvalet • når ein person • nektar å svar, • Ikkje er heime, • er flytta, • Osv • Problemet med frafall kjem inn under studiet av skeive utval. Generelt er dette eit meir alvorleg problem enn at vi manglar data på nokre variablar for nokre case (sjå Breen 1996 ”Regression Models: Censored, Sample Selected, or Truncated Data”, QASS Paper 111, London, Sage) • Men problema er i slekt

  3. Det manglar data på visse variablar når • Personar nektar å svar på visse spørsmål • Personar gløymer eller overser nokre spørsmål, eller intervjuar gjer det same • Personar veit ikkje noko svar • Spørsmålet er irrelevant • I administrative register kan somme dokument ha gått tapt • I forskingsdesign der vanskeleg målbare variablar berre vert målt for eit mindre tal personar i utvalet

  4. Stort / lite problem? Problemet er som regel til stede, i større eller mindre grad Et spørsmål om grader av alvorlighet Hvor alvorlige brudd på forutsetningene er du villig til å akseptere (hva tjener du på bruddene?)

  5. Oppdag eventuelle problemer Reflekter over dem: årsaker og konsekvenser Ta et valg, og argumenter for dem Ta konsekvensene av valgene dine i fortolkningen av resultatene

  6. Manglande data fører til problem • Det er eit praktisk problem sidan alle statistiske prosedyrar føreset fullstendige datamatriser • Det er eit analytisk problem sidan manglande data som regel gir skeive estimat av parametrane • Det er eit viktig skilje mellom data som manglar av tilfeldige årsaker og dei som manglar av systematiske årsaker

  7. Den enkle løysinga: fjern alle case med manglande data • Listwise/ casewise fjerning av manglande data tyder at ein fjernar alle case som manglar data på ein eller fleire variablar inkludert i modellen • Metoden har gode eigenskapar, men kan i somme høve ta ut av analysen mesteparten av casa • Vanlege alternativ, som parvis (”pairwise”) fjerning, har vist seg å vere dårlegare • Dummyvariabelkorreksjon: Mykje nytta, men også tvilsam • Nyare metodar som ”maximum likelihood” og ”multiple imputation” har betre eigenskapar men er krevjande • Konklusjon: Det løner seg å gjere godt arbeid i datainnsamlinga!

  8. Typar av tilfeldig missing • MCAR: missing completely at random • Tyder at mangel på data for ein person i på variabelen y ikkje er korrelert med verdien på y eller med verdien på nokon anna variabel i datasettet (dette hindrar ikkje at missing i seg sjølv kan korrelere internt case for case) • MAR: missing at random • Tyder at mangel på data for ein person i på variabelen y ikkje er korrelert med verdien på y når ein kontrollerer for dei andre variablane i modellen • Meir formelt: Pr(Y=missing l Y,X) = Pr(Y=missing l X)

  9. Kan sjekkast! • Samanlikn verdiar for missing case mot verdiar for andre case

  10. Prosessen som gir missing • Kan ignorerast (ignorable) • Prosessen kan ignorerast dersom resultatet er MAR og parametrane som styrer missing prosessen ikkje er relatert til dei som skal estimerast • Kan ikkje ignorerast (non-ignorable) • Prosessen kan ikkje ignorerast dersom resultatet ikkje er MAR. Modellestimering krev da ein eigen modell for missing-prosessen (sjå Breen 1996 ”Regression Models: Censored, Sample Selected, or Truncated Data”, QASS Paper 111, London, Sage) • I det følgjande er det situasjonen med MAR data som vert drøfta

  11. Konvensjonelle metodar Vanlege metodar ved MAR data: • Listevis utelating (Listwise deletion) • Parvis utelating (Pairwise deletion) • Dummyvariabelkorreksjon • Innsetjing av verdi (Imputation) Av dei vanleg brukte metodane er listevis utelating den beste

  12. Listevis utelating (1) • Kan alltid nyttast • Dersom data er MCAR gir det eit enkelt tilfeldig utval av det opphavelege utvalet • Mindre n gir sjølvsagt større variansestimat • Også når data er MAR og missing på x-variablar er uavhengig av verdien på y vil listevis utelating gi forventingsrette estimat

  13. Listevis utelating (2) • I logistisk regresjon er listevis utelating problematisk berre dersom missing er relatert både til avhengig og uavhengige variablar • Når missing berre er avhengig av den uavhengige variabelen sine eigne verdiar er listevis betre enn maximum likelihood og multiple imputation

  14. Parvis utelating • Tyder at alle utrekningar baserer seg på alt tilgjengeleg materiale sett parvis for alle par av variablar som inngår i analysen • Dette fører til at ulike parametrar er rekna ut på grunnlag av ulike utval (variasjon i n frå observator til observator) • Da er alle variansestimat og vanlege testobservatorar skeivt estimert • Bruk ikkje parvis utelating!

  15. Dummyvariabelkorreksjon Dersom data manglar på den uavhengige variabelen x • Sett x* = x dersom x ikkje er missing og x* = c (ein vilkårleg konstant, for eksempel 0) når x er missing • Definer D=1 hvis x er missing, 0 elles • Bruk x* og D i regresjonen i staden for x • I nominalskalavariable kan missing få sin eigen dummy Studiar viser at sjølv med MCAR data er parameter- estimata skeive Bruk ikkje dummy-variabel korreksjon!

  16. Innsetjing av verdi (imputasjon) • Målet her er å erstatte missing verdiar med rimelege gjettingar på kva verdien kunne vere før ein gjennomfører analysen som om dette var verkelege verdiar, t.d. • Gjennomsnitt av valide verdiar • Regresjonsestimat basert på mange variablar og case med gyldige observasjonar • Parameterestimata er konsistente, men variansestimata er skeive (systematisk for små) og testobservatorar er for store • Unngå om mogeleg å nytte enkel imputasjon

  17. Oppsummering om konvensjonelle metodar for manglande data • Vanlege metodar for korreksjon av manglande data gjer problema verre • Ver nøye med datainnsamlinga slik at det er eit minimum av manglande data • Prøv å samle inn data som kan hjelpe til med å modellere prosessen som fører til missing • Der data manglar bruk listevis utelating dersom ikkje maximum likelihood eller multiple imputasjon er tilgjengeleg

  18. Nye metodar for ignorerbare manglande data(MAR data): Maximum Likelihood • Konklusjonar • Baserer seg på sannsynet for å observere nett dei variabelverdiane vi har funne i utvalet • ML gir optimale parameterestimat i store utval når data er MAR • Men ML krev ein modell for den felles fordelinga av alle variablane i utvalet som manglar data, og den er vanskeleg å bruke for mange typar modellar

  19. Nye metodar for ignorerbare manglande data(MAR data): Multippel Imputasjon • Konklusjonar • Baserer seg på ein tilfeldig komponent som vert lagt til estimat av dei einskilde manglande opplysningane • Har like gode eigenskapar som ML og er enklare å implementere for alle slags modellar. • Men den gir ulike resultat for kvar gong den blir brukt

  20. Typar av tilfeldig missing • MCAR: missing completely at random • Tyder at mangel på data for ein person i på variabelen y ikkje er korrelert med verdien på y eller med verdien på nokon anna variabel i datasettet (dette hindrar ikkje at missing i seg sjølv kan korrelere internt case for case) • MAR: missing at random • Tyder at mangel på data for ein person i på variabelen y ikkje er korrelert med verdien på y når ein kontrollerer for dei andre variablane i modellen • Meir formelt: Pr(Y=missing l Y,X) = Pr(Y=missing l X)

  21. NB: Er casa missing, egentleg? • Skulle dei ha svart, eller ikkje? • Kva er egentleg populasjonen? • ’Detektivarbeid’ • Jfr. døme på stemmegjeving

  22. recode prtclno (1=1) (sysmis=sysmis) (else=0) into modRV. recode prtclno (2=1) (sysmis=sysmis) (else=0) into modSV. recode prtclno (3=1) (sysmis=sysmis) (else=0) into modAp. recode prtclno (4=1) (sysmis=sysmis) (else=0) into modV. recode prtclno (5=1) (sysmis=sysmis) (else=0) into modKrF. recode prtclno (6=1) (sysmis=sysmis) (else=0) into modSp. recode prtclno (7=1) (sysmis=sysmis) (else=0) into modH. recode prtclno (8=1) (sysmis=sysmis) (else=0) into modFrP. recode prtclno (9 thru 10=1) (sysmis=sysmis) (else=0) into modAndre.

  23. recode prtclno (1=1) (else=0) into RV. recode prtclno (2=1) (else=0) into SV. recode prtclno (3=1) (else=0) into Ap. recode prtclno (4=1) (else=0) into V. recode prtclno (5=1) (else=0) into KrF. recode prtclno (6=1) (else=0) into Sp. recode prtclno (7=1) (else=0) into H. recode prtclno (8=1) (else=0) into FrP. recode prtclno (9 thru 10=1) (else=0) into Andre. recode prtclno (1 thru 10=0) (else=1) into Missing.

More Related