1 / 17

Chýbajúce hodnoty alebo problém item non-response

Chýbajúce hodnoty alebo problém item non-response. Základy analýzy kvantitativních dat a SPSS 6.12.2011 Ivan Petrúšek. Obsah prednášky. Definícia chýbajúcich hodnôt Mechanizmy chýbajúcich hodnôt M issing C ompletely A t R andom M issing A t R andom M issing N ot A t R andom

najwa
Download Presentation

Chýbajúce hodnoty alebo problém item non-response

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Chýbajúce hodnotyalebo problémitem non-response Základy analýzy kvantitativníchdat a SPSS 6.12.2011 Ivan Petrúšek

  2. Obsah prednášky • Definícia chýbajúcich hodnôt • Mechanizmy chýbajúcich hodnôt • Missing Completely At Random • Missing At Random • Missing Not At Random • Tradičné riešenia problému chýbajúcich hodnôt • Prístupy založené na vynechávaní prípadov z analýzy • Prístupy založené na nahrádzaní chýbajúcich hodnôt • Ukážky známych analýz v SPSS

  3. Definícia chýbajúcich hodnôt • Chýbajúce hodnoty (missing data) = „prázdne“ miesta v dátovej matici (tzn. u niektorých premenných pre niektoré prípady chýbajú platné hodnoty) • System missing values • User-defined missing values • Problém = takmer všetky štatistické metódy predpokladajú, že v dátach nie sú chýbajúce hodnoty

  4. Chýbajúce hodnoty - príklady • Príjem jedinca – vo veľkej väčšine výskumov patrí príjem medzi premenné s najvyšším podielom chýbajúcich hodnôt • Česká volebná štúdia 2010 – až 11,5% respondentov, ktorí odpovedali kladne na otázku po volebnej účasti, následne odmietlo odpovedať na otázku, ktorú stranu volili • → maximálny podiel chýbajúcich hodnôt u premennej by mal byť 5%

  5. Mechanizmy chýbajúcich hodnôt • Mechanizmy zjednodušene vyjadrujú vzťahy medzi meranými premennými a pravdepodobnosťou výskytu chýbajúcich hodnôt • Podľa prítomného mechanizmu chýbajúcich hodnôt v (našich) dátach vieme posúdiť, do akej miery bude zvolený postup riešenia problému chýbajúcich hodnôt „vhodný“, resp. problematický

  6. MissingCompletelyAtRandom (MCAR) • pravdepodobnosť výskytu chýbajúcich hodnôt premennej Y nezávisí od platných hodnôt ďalších premenných a nezávisí ani od hodnôt premennej Y samotnej • Ak dáta chýbajú podľa MCAR, tak pozorované dáta môžeme považovať za náhodný výber / podmnožinu z hypoteticky kompletného dátového súboru

  7. Missing Completely At Random (MCAR) • Pre overenie mechanizmu MCAR existuje viacero štatistických testov • SPSS obsahuje MCAR test podľa Littla (Roderick Little) (H0: dáta chýbajú podľa MCAR) • MCAR predstavuje veľmi prísny predpoklad o chýbajúcich hodnotách a v sociologickej praxi nie je veľmi pravdepodobné, aby chýbajúce hodnoty boli MCAR

  8. MissingAtRandom (MAR) • pravdepodobnosť výskytu chýbajúcich hodnôt premennej Y závisí od platných hodnôt ďalších premenných, ale nezávisí od hodnôt premennej Y samotnej • Zavádzajúci názov mechanizmu → hodnoty v dátach chýbajú systematicky • Problém: neexistuje spôsob, ako overiť, že hodnoty premennej Y chýbajú podľa mechanizmu MAR

  9. MissingNotAtRandom (MNAR) • pravdepodobnosť výskytu chýbajúcich hodnôt premennej Y závisí od hodnôt samotnej premennej Y • Rovnaký problém ako u MAR: neexistuje spôsob, ako overiť, že hodnoty premennej Y chýbajú podľa mechanizmu MNAR • → pretože nepoznáme chýbajúce hodnoty premennej Y, tak ich nedokážeme porovnať s platnými hodnotami premennej Y

  10. Tradičné riešenia problému chýbajúcich hodnôt • Prístupy založené na vynechávaní prípadov z analýzy • Listwise deletion • Pairwise deletion • Prístupy založené na nahrádzaní chýbajúcich hodnôt • arithmetic mean imputation/substitution • regression imputation/substitution → uvedené techniky sú dostupné v module SPSS Base (ukážka pre faktorovú analýzu)

  11. Listwise deletion • Každý prípad, u ktorého chýba aspoň jedna hodnota (u niektorej z premenných vstupujúcich do analýzy) je z analýzy vyradený • Výhody: • Pod mechanizmom MCAR sa jedná o optimálne riešenie • V regresnej analýze produkuje nevychýlené odhady regresných koeficientov aj pod mechanizmom MAR • Nevýhody: • Často sa stáva, že významne zredukuje počet prípadov, na ktorých sa daná analýza spočíta • Pod mechanizmami MAR a MNAR produkuje vychýlené odhady parametrov

  12. Pairwisedeletion • Prípady sú z analýzy vyraďované v rámci párov premenných (cieľom je maximalizovať počet prípadov, na ktorých sa daná analýza spočíta) • → každá z buniek korelačnej matice je spočítaná na inom počte prípadov • Výhody: • Pod mech. MCAR sa jedná o relatívne vhodné riešenie • Nevýhody • Pod mechanizmami MAR a MNAR produkuje vychýlené odhady parametrov • Produkuje tiež vychýlené odhady štandardných chýb a testovacích štatistík

  13. Arithmetic mean imputation • Každá chýbajúca hodnota premennej sa nahradí hodnotou aritmetického priemeru, ktorý je spočítaný z platných hodnôt danej premennej • Jediná maličká výhoda: • Máme k dispozícii „kompletné“ dáta • Nevýhody: • Redukcia variability hodnôt danej premennej (zníži sa rozptyl aj štandardná odchýlka) • Zníži sa tiež úroveň korelácia medzi premennou s nahradenými hodnotami a ďalšou premennou • Biased odhady parametrov pod každým mechanizmom • →najhoršia dostupná technika

  14. Regressionimputation • Každá chýbajúca hodnota kardinálnej premennej Y sa nahradí odhadom uskutočneným pomocou regresnej rovnice (podľa hodnôt premennej X) • Výhody: • Máme k dispozícii „kompletné“ dáta • Produkuje nevychýlené odhady priemeru premennej Y • Nevýhody: • Redukcia variability hodnôt premennej Y • Môže zvýšiť úroveň korelácie medzi premennou s nahradenými hodnotami Y a premennou X → existuje vylepšená verzia tejto techniky s názvom stochastic regression imputation

  15. Záver • Chýbajúce hodnoty predstavujú takmer všade–prítomný jav v spoločenskovedných dátach • Pri voľbe techniky riešenia problému je potrebné mať predstavu o mechanizme chýbajúcich hodnôt (pre danú analýzu a premenné) • Tradične používané techniky problém väčšinou neriešia (okrem listwise deletion pod MCAR) • V súčasnosti už existujú aj prístupy, ktoré dosahujú „kvalitné“ výsledky pod mechanizmom MAR • →→→→→→→→→→→→→→→→→→→→→→→

  16. „The only really good sollution to the missing data problem is not to have any. … Statistical adjustment can never make up for sloppy research.“ – Paul D. Allison Ďakujem za pozornosť!

  17. Použitáliteratúra • Allison, P. D. 2001. Missing data. Thousand Oaks: Sage. • Baraldi, A. N. Enders, C. K. 2010. „An introduction to modern missing data analyses“. Journal of School Psychology 48 (1): 5-37. • Enders, C. K. 2010. Applied Missing Data Analysis. New York: The Guilford Press. • Schafer, J. L.; Graham, J. W. 2002. „Missing data: Our View of the State of the Art“. Psychological Methods 7 (2): 147–177.

More Related