1 / 54

Analýza kvantitativních dat I. Popisné statistiky a explorační analýza

UK FHS Historická sociologie (LS 2014+). Analýza kvantitativních dat I. Popisné statistiky a explorační analýza. Jiří Šafr jiri.safr(zavináč)seznam.cz. vytvořeno 29. 6. 2009, poslední aktualizace 26. 4. 2014. Obsah. Analýza kvantitativních dat (obecné principy)

verna
Download Presentation

Analýza kvantitativních dat I. Popisné statistiky a explorační analýza

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. UK FHS Historická sociologie (LS 2014+) Analýza kvantitativních dat I.Popisné statistiky aexplorační analýza Jiří Šafrjiri.safr(zavináč)seznam.cz vytvořeno 29. 6. 2009, poslední aktualizace 26. 4. 2014

  2. Obsah • Analýza kvantitativních dat (obecné principy) • Dva základní typy (přístupy ke) statistiky • Připomenutí základních pojmů – typy znaků • Jednoduché popisné statistiky → třídění dat 1. stupně (jednorozměrná analýza): • Střední hodnoty: modus, medián, průměr • Variance-rozptýlení dat: rozptyl, směrodatná odchylka • Další míry variability-rozptýlení (rozpětí, kvantily, špičatost, šikmost) • Střední hodnoty a míry variability v SPSS • Míry variability pro kategoriální proměnné (úvod): • Směrodatná odchylka pro dichotomickou proměnnou • Variační poměr – v • Vlastnosti rozdělení znaků • Ověření normality rozložení dat • Na co si dát v datech pozor • Standardizace na z-skóre

  3. Analýza kvantitativních dat • Předmětem statistického zkoumání jsou hromadné jevy: výskyt vlastností u velkého počtu prvků – statistických jednotek (osoby, organizace, události,…) • Jejich vlastnosti vyjadřují statistické znaky (= proměnné): kvantitativní (číselné)/ kvalitativní (slovní). • Získání dat pomocí šetření: - úplné-vyčerpávající- výběrové (pouze u části populace → výběrový soubor, který reprezentuje základní soubor) [Cyhelský, Hustopecký, Závodský 1978]

  4. Dva základní typy statistiky • Popisná statistika: metody pro zjišťování a sumarizaci informací → grafy, tabulky, popisné charakteristiky (průměr, rozptyl percentily,..) • Inferenční statistika (statistická indukce): metody pro přijímání a měření spolehlivosti závěrů o populaci založených na informacích získaných z jejího výběru (odhad parametru na základě výběru z populace)

  5. Proces analýzy dat musíme promyslet již ve stadiu plánování dotazníku (modelu vztahů a hypotéz).

  6. Nejprve malé připomenutí základních pojmů

  7. Základní pojmy • Populace • Základní soubor • Výběrový soubor (vzorek) • Datový soubor • Znak • Třídění dat (jedno a vícestupňové) • Absolutní četnost • Relativní (poměrná) četnost • Kumulativní četnost • Distribuce (rozdělení) hodnot proměnné

  8. Typy znaků – proměnných Kategoriální: Nominální • Kategorie jsou rovnocenné (na úrovni jmen) • př.: pohlaví, jména, typ rodiny, barva vlasů, profese Pořadové (ordinální) • Kategorie lze seřadit do hierarchie • Lze se ptát: vyšší/nižší apod., ale ne o kolik např.: spokojenost, stupeň souhlasu Kardinální (intervalové/poměrové): • číselné proměnné lze se ptát větší/ menší a o kolik př.: věk, příjem, počet dětí → Různé typy znaků vyžadují v analýze odlišné přístupy (statistické míry).

  9. Znaky / proměnné kardinální • Kardinální: • A) intervalové – nemají přirozený počátek: obsahový smysl má rozdíl ale nikoliv podílPříklad: „Dnes je o 10 st. C tepleji“, ale ne „o 25% tepleji.“ / IQ nemá nulu • B) poměrové – mají přirozený počátek (0 má význam), tudíž lze uvažovat i podíl.Příklad: „nulové“ i „dvojnásobné tržby“

  10. Jednoduché popisné statistiky třídění dat 1. stupně: Střední hodnoty Míry variability

  11. Střední hodnoty: • nominální znaky →modus • ordinální znaky →medián (aritmetický průměr) • intervalové znaky →aritmetický průměr • Pomocí „jednoho čísla“ vyjadřujeme vlastnost znaku → typická hodnota datové řady

  12. Základní střední hodnoty (míry centrální tendence) • Modus (Mo)= kategorie s největší četnostíNelze s ním provádět žádné algebraické operace. Může existovat i více modálních kategorií. • Medián (Me)= hodnota, která je ve prostředku všech pozorování seřazených podle hodnotnebo jinak řečeno: Hodnota proměnné, před níž je polovina pozorování majících menší hodnotu a za níž je druhá polovina pozorování majících větší hodnotu než má medián. Při sudém počtu hodnot: průměr dvou prostředních hodnot. _ • Aritmetický průměr (X) = součet hodnot dělený počtem pozorování _ • Pro symetrické rozložení hodnot je Mo = Me = X

  13. Modus (mode) [Babbie 1995]

  14. Medián Poznámka: zde je důležité, aby hodnoty znaku byly seřazeny. Máme 31 případů (žáků) seřazených podle věku, tj. medián je uprostřed (16. žák): 50 % případů je pod a 50 % nad ním. Zde je medián zároveň modusem i průměrem. [Babbie 1995]

  15. Průměr [Babbie 1995]

  16. Střední hodnoty a jejich limity • Střední hodnota → popis rozložení hodnot znaku „pomocí jednoho „typického“ čísla“ – těžiště uspořádání hodnot znaku • To má pochopitelně limity: - jedno číslo většinou nestačí(málokdy mají všechny případy přibližně stejnou hodnotu) - neříká nic o variabilitě – rozptýlení dat - moc se nehodí pro kategoriální znaky (místo modusu ukazujeme raději celou distribuci v %) Proto je vždy používáme zároveň s údaji o variabilitě, rozptylu → “kvalitativní“ informace

  17. Charakteristiky variability → „Kvalitativní“ charakteristiky středních hodnot • Rozptyl = střední hodnota kvadrátů odchylek od střední hodnoty • Směrodatná odchylka = odmocnina z rozptylu náhodné veličiny (na rozdíl od rozptylu je v původních jednotkách proměnné) • Výběrová směrodatná odchylka (dtto ale ve výběrovém souboru → malinká úprava ve vzorci, logicky jde o odmocninu z výběrového rozptylu)

  18. Charakteristiky variability kardinálních znaků: Rozptyl a Směrodatná odchylka Udávají koncentraci nebo rozptýlení kolem střední hodnoty. Ukazují na „kvalitu“ průměru. Rozptyl (σ2) = součet kvadratických odchylek od průměru dělený rozsahem výběru (pokud jde o výběrový soubor tak navíc zmenšeným o 1) (anglicky Variance) Směrodatná odchylka (σ) = odmocnina z rozptylu (anglicky Standard Deviation – STDDEV) Směrodatná odchylka je míra rozptýlení hodnot od průměrné (střední) hodnoty vyjádřená v původních hodnotách, v nichž proměnnou měříme (např. u věku v letech). Naproti tomu samotný rozptyl je bezrozměrný a špatně se tak interpretuje. Existují také míry variability pro kategoriální (nominální) znaky, viz dále.

  19. Výpočet směrodatné odchylky Máme pozorování: 2 5 4 3 1 8 2 6 2 7 součet řady = 40; počet případůn = 10; průměr = 40/10 = 4 odchylky od průměru (X=4): -2 1 0 -1 -3 4 -2 2 -2 3 (součet odchylek je 9 – 9 = 0) čtverce odchylek: 4 1 0 1 9 16 4 4 4 9 součet čtverců odchylek = 52 průměrná čtvercová odchylka tj. rozptylσ2= 52/10= 5,2 směrodatná odchylka (odmocnina z rozptylu) s = 2,28 Existují dva vzorečky: pro populační směrodatnou odchylku (zde – pro celou populaci) a pro výběrovou, tj. jen pro vzorek z populace, v níž je ve jmenovateli místo „n „n-1“.

  20. Výpočet směrodatné odchylky Obdobné jako předchozí příklad, ale vynechali jsme jedno – poslední pozorování (n=9). Příklad 2. Máme pozorování: 2 5 4 3 1 8 2 6 2 Součet řady = 33; n = 9; průměr = 33/9 = 3,66 odchylky od průměru: -1,66 1,34 0,34 -0,66 -2,66 4,34 -1,66 2,34 -1,66 součet odchylek je = 0 čtverce odchylek: 2,76; 1,80; 0,12; 0,44; 7,08; 18,84; 2,76; 5,48; 2,76 součet čtverců odchylek = 42,04 průměrná čtvercová odchylka tj. rozptyl = 42,04 /9= 4,67 směrodatná odchylka (odmocnina z rozptylu) = 2,16

  21. Denní 23 25 24 23 24 23 22 23 22 Kombinované 33 30 48 25 31 46 49 38 26 28 26 31 Příklad k procvičení DATA: Věk AKD1 LS 2012Porovnejte střední hodnoty (průměr, medián) a směrodatnou odchylku u skupin studentů z Denního a Kombinovaného studia

  22. Směrodatná odchylka v Excelu STDEVPA pro základní soubor STDEVA pro výběrový soubor V SPSS je výpočet pro výběrovousměrodatnou odchylku StD (tj. pro vzorek z populace).

  23. Další popisné statistiky - variabilita Pro kardinální (číselné) proměnné • Minimum / maximum • Rozpětí (= max - min) • Kvantily: dolní a horní kvartil → mezikvartilové rozpětí(jsou ale jiné členění do stejně početně zastoupených skupin, např. tercily (33 % / 33 % / 33 %), decily (10 % / 10 % …) • Koeficienty šikmosti (Skewness) • Koeficienty špičatosti (Kurtosis) • Variační koeficient (= podíl směr.odchylky a průměru) Pro kategoriální proměnné • míry variability (variační koeficient a jeho varianty) – viz AKD II. 9. Míry variability: variační koeficient a další indexyhttp://metodykv.wz.cz/AKD2_variacni_koef.ppt

  24. Různé typy proměnných a odpovídající popisné statistiky(střední hodnoty, míry variability, grafy, …) Zdroj: [Rachad 2003: 81].

  25. Střední hodnoty a míry variability v SPSS K dispozici máme více možností, např. pomocí příkazů: FREQUENCIES, MEANS, DESCRIPTIVES a EXAMINE. FREQUENCIESvek /STATISTICS MEAN STDDEV MEDIAN MODE. *průměr, směrodatná odchylka, medián a Modus (tabulku frekvencí lze vypnout pomocí přidání /FORMAT NOTABLE.). MEANSvek /CELLS MEAN STDDEV MEDIAN COUNT. *průměr, směrodatná odchylka, medián a počet případů. DESCRIPTIVESvek. *průměr, směrodatná odchylka, počet případů; vhodné pro porovnání hodnot u více proměnných. EXAMINE vek /PLOT NONE. *velké množství statistik pro střední hodnoty a variabilitu, zde bez grafů.

  26. Střední hodnoty a míry variability v SPSS (output) Frequencies Means Descriptives Explore

  27. Směrodatná odchylka pro dichotomickou proměnnou (podíl) • Variance = p*q kde p (resp. q) je pravděpodobnost (tj. p = % / 100). • Směrodatná odchylka = √p*qnebo√p(1-p) Příklad: p = 0,29 q = 0,71 StD = √0,29*0,71 = 0,45 Pokud máme hodnoty dichotomické proměnné kódovány jako 0/1 (např. 0=nepracuje, 1=pracuje), pak lze v SPSS použít např. Descriptives (vzorec není ale stejný – výsledek se může nepatrně lišit).

  28. Kvanitly • Kvantily (obecně) → členění do stejně početně zastoupených skupin • Tercily: tři skupiny(33 % / 33 % / 33 %) • Decily: deset skupin (10 % / 10 % …) • Kvartily: čtyři skupiny(25 % / 25 % / 25 % / 25 %) → mezikvartilové rozpětí: rozdíl horního a dolního kvartilu (x75 – x25) • Zobrazujeme je (spolu s mediánem) v Boxplotu→ jejich poloha ukáže na zešikmení (čím blíže je H nebo D kvartil k mediánu, tím větší zešikmení) • Určení kvantilů v SPSS pomocí NTILES: FREQUENCIES vek /NTILES(4). *číslo v závorce určuje, pro kolik stejných skupin chceme určit hranice hodnot(na jejich základě můžeme dále rekódovat kardinální-spojitý znak na ordinální-kategoriální).

  29. Boxplot – vousaté krabičky: vizualizace distribuce KVARTILY dělí statistický soubor na desetiny:dolní Q0,25 (Q1) a horní Q0,denní5 (Q3) Interkvartilové rozpětí: HH = horní kvartil + 1,5 násobku interkvartilového rozpětí DH = dolní kvartil + 1,5 násobku interkvartilového rozpětí

  30. Variabilita hodnot u nominálního znaku Na rozdíl od kardinálních-numerických znaků tvar rozložení nedává smysl (v histogramu), protože kategorie nemají žádný číselný - hierarchický význam. (u ordinálních znaků tvar rozložení ovšem určitou informaci podává). Variabilita znaku je dána rozptýleností / koncentrací podílů (%) v jednotlivých kategoriích (nulová je tehdy jsou-li kategorie % stejně zastoupené).

  31. Míry variability pro kategoriální proměnnéponěkud složitější situace (než u kardinálních znaků) Nominální proměnné: • Variační poměr – v • Nominální rozptyl – D (nomvar) (Giniho koeficient)→ relativní počet všech dvojic, které nejsou ve stejné kategorii • Normalizovaný nominální rozptyl(norm. nomvarneboIQV) • Entropie – H • normalizovaná entropie– H* Ordinální proměnné: • Ordinální rozptyl - dorvar Variační koeficient a jeho varianty – viz AKD II. 9. Míry variability: variační koeficient a další indexyhttp://metodykv.wz.cz/AKD2_variacni_koef.ppt • Viz také http://iastat.vse.cz/Nominalni.html

  32. Vlastnosti měr variability kategoriálních znaků • Čím vyšší hodnota tím vyšší heterogenita souboru • Jsou rovny nule, když je celý soubor soustředěn do jedné kategorie (nulové rozptýlení) → úplná homogenita • Maximální hodnota = rovnoměrné rozložení dat (kategorií) → úplná heterogenita • Ukazují do jaké míry, jsou data koncentrována kolem své charakteristické hodnoty (→ modální kategorie), tj. jak moc je tato hodnota typická pro celý soubor. Zdroj: [Řehák, Řeháková 1986: 66-69]

  33. Variační poměr – v • Nejjednodušší míra variability. • Pokud je více modálních kategorií uvažujeme nejvyšší četnost pouze jednou. • Výhodou v je jednoduchost výpočtu. • Nevýhodou vje, že je založeno pouze na modální četnosti (normvar – D je pracnější,ale odráží celou strukturu tabulky). Zdroj: [Řehák, Řeháková 1986: 66]

  34. Příklad: Variační poměr – v (DATA) [Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]

  35. Příklad: Variační poměr – v Způsob získávání denního tisku u pravidelných čtenářů, pro Periodikum J(N = 1289) lze spočítat v Excelu: v = 1 – (56,028 / 116) = 0,517 V může sloužit k porovnání variability rozložení několika znaků (např. zde různých periodik) nebo podskupin v třídění 2.stupně(podobně jako Směrod.odchylka u kardinálních znaků). Zde způsoby získávání u různých periodik: např. periodikum J (v=0,517) má dvojnásobný variační poměr než periodikum H (v=0,224), tj. způsoby jeho získávání jsou mnohem variabilnější (všimněte si, že u tiskoviny H představuje modus „Kupuje“ celých 77,6 %). Zdroj: [Řehák, Řeháková 1986: 68-69]

  36. Nominální variance (nomvar)Index diversity (D) • nomvarneboD • Kde: p – podíl pozorování v dané i-té kategorii → podíl všech dvojic jednotek, které nemají stejnou hodnotu znaku nebo také → pravděpodobnost, že dva náhodně vybraní jedinci z populace budou patřit do rozdílných kategorií. Index je tím vyšší, čím více je kategorií a čím více jsou pozorování rozptýlena rovnoměrně v těchto kategoriích. [Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]

  37. Více k varianci kategoriálních znaků v AKD II.http://metodykv.wz.cz/AKD2_variacni_koef.ppt SPSS míry variability pro kategoriální proměnné neumí, ale na již hotovou tabulku (FREQUENCIES) lze v outputu použít skript Míry variability pro kategorizované proměnné http://acrea.cz/cz/skripty/mira-variability

  38. Vlastnosti rozdělení znaků popisná statistka pro kardinální znaky v grafickém znázornění

  39. Symetrie, variabilita Vlastnosti rozložení hodnot znaku, jsou dány střední hodnotou (průměrem) a rozptylem hodnot [Hanousek, Charamza 1992: 21]

  40. Šikmost a špičatost → odchylky od symetrie (šikmost) a variability (špičatost/plochost) [Hanousek, Charamza 1992: 21]

  41. Normální rozložení hodnot a směrodatná odchylka Rozložení hodnot (tvar křivky) je dán průměrem a rozptylem. Zde jde o normované (standardizované) normální rozdělení, kde μ=0 a σ=1 Platí, že v ploše pod křivkou vymezené +/- 1 směrodatnou odchylkou od průměru je 68 % případů (cca 2/3). Jde o teoretické rozložení hodnot, v praxi vždy dochází k nějaké odchylce od tohoto normálního rozložení. Pro většinu analýz kardinálních znaků (např. průměr nebo korelace) potřebujeme, aby se rozložení proměnných co nejméně odchylovalo od tohoto tvaru (gaussovy křivky). http://www.stat.tamu.edu/~west/applets/normaldemo1.html

  42. A k čemu variabilita dat (směrodatná odchylka) je? • Směrodatná odchylka ukazuje na to, jak „kvalitně“ popisuje průměr data. (nulová STDEV = všechny případy mají stejnou hodnotu, tj. průměr)→ uvádíme-li průměr, tak vždy uvedeme i směrodatnou odchylku (StDev) • Distribuci hodnot – varianci v datech musíme věcně interpretovat (StdDev, míry šikmosti, percentily, …). • Před výpočty u numerické proměnné (korelace, průměr, …) ověřujeme rozložení hodnot, zda se (výrazněji) nevychyluje od normálního rozložení. A pro výběrová data, tj. náhodný(!) vzorek z populace platí: • normální rozdělení je vlastně zákonem chybměření (a to i těch o nichž nevíme, tj. přímo jsme je neměřili). A na tom jsou postaveny principy inferenční statistiky (testování hypotéz) • Směrodatná odchylka slouží k výpočtu Standardní chyby (S.E.) → kvantifikace chyb měření

  43. Ověření normality rozložení dat • Histogram → vizuálně orientačně Podrobněji a přesněji: • Q-Q graf (quantile-quantile): ukazuje kvantily pozorované distribuce proměnné proti kvantilů zvolené distribuční funkce Normálně rozložená data → přímkový charakter v SPSS: Analyze, Descriptive statistics, Q-Q plots • Kolmogorov-Smirnov test: H0 = data jsou normálně rozložena,Pozor na interpretaci výsledku: nízké! p (< 0,05) → distribuce dat se statisticky signifikantně lišší od normální distribuce. v SPSS: Analyze, Nonparametric Tests, 1-Sample K-S... • Dojde-li k porušení normality rozložení → rekódování, transformace (např. logaritmická), použití neparametrických metod

  44. Rozložení četností a Q-Q graf

  45. Na co si dát v datech pozor Variance a střední hodnoty

  46. Vzájemná poloha průměru a mediánu

  47. Průměr a rozptyl nejsou všechno! Ve všech třech případech stejné: maximum 170 průměr 85 směrodatná odchylka 25,8 Zdroj: [Hanousek, Charamza 1992: 38-39]

  48. Variabilita rozložení hodnot - doporučení kardinální znaky • Průměr a směrodatná odchylka nestačí, uvádějte ještě alespoň medián • Grafické znázornění variability → Histogram (případně boxplot) • Pokud chceme variabilitu popsat čísly: Koeficienty šikmosti (Skewness) a špičatosti (Kurtosis) nebo mezikvartilové rozpětí (rozdíl horního a dolního kvartilu) kategoriální (nominální) znaky • Tabulka frekvencí (s %) nebo graficky → Barchart

  49. Standardizace na z-skóre odstranění původní metriky u kardinálních-číselných znaků • Z – skóry: průměr X=0 a StD =1 V transformované proměnné je aritmetický průměr roven nule a směrodatná odchylka je jedna. • Odchylka od průměru / směrodatnou odchylkou: • Od každého pozorování odečteme průměr a vydělíme směrodatnou odchylkou. • z-skóre = kolik standardních odchylek je danná hodnota vzdálena od střední hodnoty (aritmetického průměru) • Většina nově transformovaných hodnot je v rozmezí od -3 do 3. → umožňuje porovnat znaky s odlišnou metrikou.

More Related