170 likes | 312 Views
Chýbajúce hodnoty alebo problém item non-response. Základy analýzy kvantitativních dat a SPSS 6.12.2011 Ivan Petrúšek. Obsah prednášky. Definícia chýbajúcich hodnôt Mechanizmy chýbajúcich hodnôt M issing C ompletely A t R andom M issing A t R andom M issing N ot A t R andom
E N D
Chýbajúce hodnotyalebo problémitem non-response Základy analýzy kvantitativníchdat a SPSS 6.12.2011 Ivan Petrúšek
Obsah prednášky • Definícia chýbajúcich hodnôt • Mechanizmy chýbajúcich hodnôt • Missing Completely At Random • Missing At Random • Missing Not At Random • Tradičné riešenia problému chýbajúcich hodnôt • Prístupy založené na vynechávaní prípadov z analýzy • Prístupy založené na nahrádzaní chýbajúcich hodnôt • Ukážky známych analýz v SPSS
Definícia chýbajúcich hodnôt • Chýbajúce hodnoty (missing data) = „prázdne“ miesta v dátovej matici (tzn. u niektorých premenných pre niektoré prípady chýbajú platné hodnoty) • System missing values • User-defined missing values • Problém = takmer všetky štatistické metódy predpokladajú, že v dátach nie sú chýbajúce hodnoty
Chýbajúce hodnoty - príklady • Príjem jedinca – vo veľkej väčšine výskumov patrí príjem medzi premenné s najvyšším podielom chýbajúcich hodnôt • Česká volebná štúdia 2010 – až 11,5% respondentov, ktorí odpovedali kladne na otázku po volebnej účasti, následne odmietlo odpovedať na otázku, ktorú stranu volili • → maximálny podiel chýbajúcich hodnôt u premennej by mal byť 5%
Mechanizmy chýbajúcich hodnôt • Mechanizmy zjednodušene vyjadrujú vzťahy medzi meranými premennými a pravdepodobnosťou výskytu chýbajúcich hodnôt • Podľa prítomného mechanizmu chýbajúcich hodnôt v (našich) dátach vieme posúdiť, do akej miery bude zvolený postup riešenia problému chýbajúcich hodnôt „vhodný“, resp. problematický
MissingCompletelyAtRandom (MCAR) • pravdepodobnosť výskytu chýbajúcich hodnôt premennej Y nezávisí od platných hodnôt ďalších premenných a nezávisí ani od hodnôt premennej Y samotnej • Ak dáta chýbajú podľa MCAR, tak pozorované dáta môžeme považovať za náhodný výber / podmnožinu z hypoteticky kompletného dátového súboru
Missing Completely At Random (MCAR) • Pre overenie mechanizmu MCAR existuje viacero štatistických testov • SPSS obsahuje MCAR test podľa Littla (Roderick Little) (H0: dáta chýbajú podľa MCAR) • MCAR predstavuje veľmi prísny predpoklad o chýbajúcich hodnotách a v sociologickej praxi nie je veľmi pravdepodobné, aby chýbajúce hodnoty boli MCAR
MissingAtRandom (MAR) • pravdepodobnosť výskytu chýbajúcich hodnôt premennej Y závisí od platných hodnôt ďalších premenných, ale nezávisí od hodnôt premennej Y samotnej • Zavádzajúci názov mechanizmu → hodnoty v dátach chýbajú systematicky • Problém: neexistuje spôsob, ako overiť, že hodnoty premennej Y chýbajú podľa mechanizmu MAR
MissingNotAtRandom (MNAR) • pravdepodobnosť výskytu chýbajúcich hodnôt premennej Y závisí od hodnôt samotnej premennej Y • Rovnaký problém ako u MAR: neexistuje spôsob, ako overiť, že hodnoty premennej Y chýbajú podľa mechanizmu MNAR • → pretože nepoznáme chýbajúce hodnoty premennej Y, tak ich nedokážeme porovnať s platnými hodnotami premennej Y
Tradičné riešenia problému chýbajúcich hodnôt • Prístupy založené na vynechávaní prípadov z analýzy • Listwise deletion • Pairwise deletion • Prístupy založené na nahrádzaní chýbajúcich hodnôt • arithmetic mean imputation/substitution • regression imputation/substitution → uvedené techniky sú dostupné v module SPSS Base (ukážka pre faktorovú analýzu)
Listwise deletion • Každý prípad, u ktorého chýba aspoň jedna hodnota (u niektorej z premenných vstupujúcich do analýzy) je z analýzy vyradený • Výhody: • Pod mechanizmom MCAR sa jedná o optimálne riešenie • V regresnej analýze produkuje nevychýlené odhady regresných koeficientov aj pod mechanizmom MAR • Nevýhody: • Často sa stáva, že významne zredukuje počet prípadov, na ktorých sa daná analýza spočíta • Pod mechanizmami MAR a MNAR produkuje vychýlené odhady parametrov
Pairwisedeletion • Prípady sú z analýzy vyraďované v rámci párov premenných (cieľom je maximalizovať počet prípadov, na ktorých sa daná analýza spočíta) • → každá z buniek korelačnej matice je spočítaná na inom počte prípadov • Výhody: • Pod mech. MCAR sa jedná o relatívne vhodné riešenie • Nevýhody • Pod mechanizmami MAR a MNAR produkuje vychýlené odhady parametrov • Produkuje tiež vychýlené odhady štandardných chýb a testovacích štatistík
Arithmetic mean imputation • Každá chýbajúca hodnota premennej sa nahradí hodnotou aritmetického priemeru, ktorý je spočítaný z platných hodnôt danej premennej • Jediná maličká výhoda: • Máme k dispozícii „kompletné“ dáta • Nevýhody: • Redukcia variability hodnôt danej premennej (zníži sa rozptyl aj štandardná odchýlka) • Zníži sa tiež úroveň korelácia medzi premennou s nahradenými hodnotami a ďalšou premennou • Biased odhady parametrov pod každým mechanizmom • →najhoršia dostupná technika
Regressionimputation • Každá chýbajúca hodnota kardinálnej premennej Y sa nahradí odhadom uskutočneným pomocou regresnej rovnice (podľa hodnôt premennej X) • Výhody: • Máme k dispozícii „kompletné“ dáta • Produkuje nevychýlené odhady priemeru premennej Y • Nevýhody: • Redukcia variability hodnôt premennej Y • Môže zvýšiť úroveň korelácie medzi premennou s nahradenými hodnotami Y a premennou X → existuje vylepšená verzia tejto techniky s názvom stochastic regression imputation
Záver • Chýbajúce hodnoty predstavujú takmer všade–prítomný jav v spoločenskovedných dátach • Pri voľbe techniky riešenia problému je potrebné mať predstavu o mechanizme chýbajúcich hodnôt (pre danú analýzu a premenné) • Tradične používané techniky problém väčšinou neriešia (okrem listwise deletion pod MCAR) • V súčasnosti už existujú aj prístupy, ktoré dosahujú „kvalitné“ výsledky pod mechanizmom MAR • →→→→→→→→→→→→→→→→→→→→→→→
„The only really good sollution to the missing data problem is not to have any. … Statistical adjustment can never make up for sloppy research.“ – Paul D. Allison Ďakujem za pozornosť!
Použitáliteratúra • Allison, P. D. 2001. Missing data. Thousand Oaks: Sage. • Baraldi, A. N. Enders, C. K. 2010. „An introduction to modern missing data analyses“. Journal of School Psychology 48 (1): 5-37. • Enders, C. K. 2010. Applied Missing Data Analysis. New York: The Guilford Press. • Schafer, J. L.; Graham, J. W. 2002. „Missing data: Our View of the State of the Art“. Psychological Methods 7 (2): 147–177.