1 / 13

Čistenie dát z kvantitatívnych výskumov

Metodologický seminár SASD k archivácii sociálnych dát Katedra sociológie FiF UK Bratislava, 3. decembra 2008. Čistenie dát z kvantitatívnych výskumov. Mgr. Milan ZEMAN Sociologický ústav SAV. Čo je čistenie dát ?. Aký je účel čistenia dát?. Podstata čistenia dát.

egil
Download Presentation

Čistenie dát z kvantitatívnych výskumov

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Metodologický seminár SASD k archivácii sociálnych dát Katedra sociológie FiF UK Bratislava, 3. decembra 2008 Čistenie dát z kvantitatívnych výskumov Mgr. Milan ZEMAN Sociologický ústav SAV

  2. Čo je čistenie dát ?

  3. Aký je účel čistenia dát? Podstata čistenia dát ... je nevyhnutným úkonom pred akoukoľvek analýzou dát. Seriózny výskumník by mal mať vždy istotu, že všetky dáta sú skontrolované a vyčistené. Mal by mať stále na pamäti – známy akronym GIGO Garbage In Garbage Out zlé dáta = zlé výsledky Je to kontrola dát, pri ktorej zisťujeme, či v priebehu nahrávania dát do elektronickej formy nedošlo k chybe. Hlavnou úlohou čistenia dát je odhaliť a vylúčiť nekvalitné informácie v dátovom súbore. Čo je čistenie dát?

  4. Pridelenie ID Kroky pri čistení dát Proces čistenia dát začína už pred nahrávaním do elektronickej formy: kontrola a čistenie dát od nedokončených dotazníkov, kontrola a čistenie zjavne zle vyplnených dotazníkov, logická kontrola . Každému dotazníku je potrebne prideliťjedinečné identifikačné číslo, aby ho bolo možné bez problémov nájsť a konfrontovať s nahraným údajom v elektronickej forme. Kedy začína čistenie dát?

  5. Kroky pri čistení dát 1. Kontrola chybných dát Kontrola chybných údajov spočíva v tom, že podrobne kontrolujeme, či jednotlivé hodnoty variantov premennej (znaku) zodpovedajú variantom, ktoré máme v dotazníku. Teda, či distribúcia rozloženia nahraných hodnôt nevybočuje zo stupníc, s ktorých pomocou sme jednotlivé premenné merali. Analýzu môžu negatívne ovplyvniť hodnoty, ktoré sú výrazne vyššie/nižšie než je prevažná väčšina hodnôt danej premennej. V jazyku analýzy dát sa im hovorí outliers, teda extrémne odlišné hodnoty. Outliers väčšinou vznikajú chybným nahrávaním, stlačením inej klávesy (napr. pohlavie dáme hodnotu 7, alebo pri veku k číslu 47 pridáme nulu a máme 470...) Čistenie dát prebieha v dvoch krokoch Negatívne vplyvy na analýzu

  6. Kontrola dát podľa typu premenných Je potrebné skontrolovať všetky premenné, ktoré obsahuje naša dátová matica, alespôsob kontroly závisí od typu premennej. U premenných nominálnych a ordinálnych a tiež intervalových s malým počtom variantov odpovedí (napr. počet detí respondenta) je spôsob kontroly odlišný na rozdiel od intervalových premenných s veľkým počtom variantov (napr. vek, príjem...) Prvá skupina – dáta kategorizované Druhá skupina – dáta nekategorizované Spôsob kontroly podľa typu premennej Zjednodušené delenie dát

  7. Kontrola kategorizovaných dát Kontrolujeme tak, že si urobíme rozloženie početností jednotlivých premenných: Analyze – Descriptive statistics – Frequencies V rámci Frequencies ešte necháme zobraziť minimálnu a maximálnu hodnotu znaku

  8. Kontrola kategorizovaných dát Kontrola celkového počtu respondentov je veľmi dôležitá. Ak by sme našli veľký počet missing values – niečo nie je v poriadku – treba zistiť prečo sú tam chýbajúce hodnoty.

  9. Kontrola nekategorizovaných dát Nekategorizované dáta s veľkým rozsahom hodnôt (s veľkým množstvom variantov) nie je vhodné kontrolovať prostredníctvom procedúry Frequencies – dostaneme príliš mnoho riadkov. Použijeme procedúru: Analyze – Descriptive statistics – Descriptives V tabuľke Descriptive Statistics vidíme min. a max. hodnoty a priemer.

  10. Kontrola nekategorizovaných dát Ak máme nekategorizovanú premennú, tak nevieme presne, aké hodnoty máme hľadať. Poznáme len extrémne hodnoty min a max, ktoré môžu byť pochybné, ale nevieme, či tam ešte nie sú ďalšie chyby. Na to, aby sme ich našli (ak tam sú) použijeme procedúru Explore Analyze – Descriptive statistics – Explore Ako Dependent List zvolíme premennú, ktorú chceme kontrolovať (napr. rok narodenia) a do okienka Label Cases vpíšeme identifikačnú premennú. Klikneme na tlačítko Statistics a zvolíme Outliers

  11. Kontrola nekategorizovaných dát Posledné 2 stĺpčeky sú najdôležitejšie – Value a ID. Stĺpec Value zobrazuje 5 najvyšších hodnôt premennej, ktoré sa v súbore vyskytujú (v hornej polovici tabuľky, ktorá je označená ako highest) a tiež 5 najnižších hodnôt danej premennej (pod čiarou v časti Lowest)

  12. Nájdenie chýb a ich opravy 2. Oprava chybných dát Keď takto postupne skontrolujeme všetky premenné vieme, že v našom dátovom súbore existujú chyby. Máme 2 možnosti: Ak je dátový súbor dostatočne veľký a počet chýb malý – môžeme si dovoliť niekoľko chybných prípadov obetovať a chybné hodnoty vyhlásiť (rekódovať) ako chýbajúce hodnoty – missing values. Missing values už nevstupujú do žiadnych ďalších analýz. Tento spôsob odborníci neodporúčajú, pretože – zber údajov je veľmi finančne nákladný a každý nevyužitý údaj = plytvanie financiami. Ak to okolnosti neumožňujú - relatívne malý dátový súbor, väčšie množstvo chýb – treba chyby nájsť a opraviť podľa skutočných hodnôt. Na hľadanie chýb použijeme: Edit – Find (Ctrl + F) Ďalší typ chýb – logické chyby po filtračných otázkach

  13. Ďakujem za pozornosť E-mail: milan.zeman@savba.sk

More Related