1 / 18

Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz

Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz. Analýza kvantitativních dat I. UK FHS Historická sociologie, Řízení a supevize LS 2012, 2013, 2014. Jiří Šafr jiri.safr(zavináč)seznam.cz. poslední aktualizace 21. 4. 2014. Struktura.

rey
Download Presentation

Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Třídění 2. a 3. stupně: orientační mapa možností bivariátních analýz Analýza kvantitativních dat I. UK FHS Historická sociologie, Řízení a supevize LS 2012, 2013, 2014 Jiří Šafrjiri.safr(zavináč)seznam.cz poslední aktualizace21. 4. 2014

  2. Struktura • „Orientační mapa“ analýzy vztahu 2 proměnných: • Spojitá × spojitá • Spojitá (závislá) × kategoriální (nezávislá) • Kategoriální × kategoriální • Kontingenční tabulky • Třídění 3. stupně (dtto) • Na co s dát pozor (výběrová data vs. census) • Jak to má vypadat – úprava tabulek a dalších výstupů

  3. „Orientační mapa“ analýzy 2 proměnných • Hlavním cílem výzkumu je testovat hypotézy 2.řádu = vztah dvou (a více) proměnných. • (Jak) souvisí spolu hodnoty jedné a druhé proměnné? • Například: Klesá počet přečtených knih za rok s dobou, kterou člověk věnuje sledování televize? • Je počet přečtených knih za rok stejný ve všech skupinách studentů (obory studia&ročník)? • Proměnné existují ve 2 základních typech: kategoriální (nominální a ordinální) spojité – kardinální (číselné) → různé varianty jejich kombinací při analýze

  4. „Orientační mapa“ analýzy dvou proměnných – přehled analytických nástrojů • Spojitá × spojitá, např. počet přečtených knih a věk → korelační koeficient (Pearsonův), bodový X-Y graf • Spojitá (závislá) × kategoriální (nezávislá)např. např. počet přečtených knih a obor studia → průměry v podskupinách, koeficient Eta, graf průměrů v podskupinách (Barchart pro mean, Line-multiple nebo Boxplot, Errorbar) • Kategoriální × kategoriální např. oblíbené literární žánry a obor studia → kontingenční tabulka, sloupcový graf (Barchart) pro % koeficient kontingence (CC), Phi, Gama …

  5. Spojitá × spojitá • Číselná proměnná → ideální situace: nejlepší způsob měření, nejsofistikovanější analýzy, možnost převodu na kategoriální • Korelace (a nebo) X-Y graf CORRELATIONS knihy_celk WITH TV. GRAPH /SCATTERPLOT(BIVAR) =knihy_celk WITH TV. R - korelační koeficient R2 - koeficient determinace R = √R2 a R2 = R × R zde √0,066 = 0,257 • ALE! Korelace měří lineární vztah (přímou úměru) a předpokládá „normální“ rozložení proměnných. • Závislosti mohou mít i jinou než lineární povahu, proto si raději udělejte i X-Y (Scatter plot) → souvislosti jsou vizuálně vidět • Pozor na Outliery – extrémní hodnoty znaků (a jejich kombinace)

  6. Spojitá (závislá) × kategoriální (nezávislá) • V principu porovnáváme průměry závislé - spojité v kategoriích nezávislé proměnné + kontrola rozptylu (směrodatné odchylky StD ve skupinách) missing values studium (5 6). MEANSknihy_celk BY studium. GRAPH /BAR(SIMPLE)=MEAN(knihy_celk) BY studium. *pro výběrová data = vzorek z populace) Intervalový odhad průměru s konfidenčním int.:. GRAPH ERRORBAR (CI) knihy_celk BY studium.

  7. Kategoriální × kategoriální • Kontingenční tabulka: hledáme souvislosti pomocí spoluvýskytu v relativních četnostech (%) • Odchylky od očekávané=teoretické četnosti (→ znaménkové schéma) • Pro ordinální znaky sledujeme krajní kategorie a kupení na diagonále. • Vidíme i vztahy spoluvýskytu, které nejsou lineární (pro nominální znaky) CROSSTABS knihy_celk3t BY TV3t . CROSSTABS knihy_celk3t BY TV3t /cel = col. CROSSTABS knihy_celk3t BY TV3t /cel = col count. *+ test homogenity; míry asociace / korelace. CROSSTABS knihy_celk3t BY TV3t /cel = col / STATISTICS CC CORREL LAMBDA . Vztah znaků v tabulce lze vyjádřit i jedním číslem: pro nominální (a ordinální) znaky: koef. kontingence apod. (CC, Cramérovo V, Lambda) → vyjadřují i nelineární souvislosti pro ordinální znaky (navíc): pořadové korelace (Gama, Spearmanův koef. pořadové korelace (ró), Kendallovo tau-b/ tau-c, Somersovo d) → vyjadřují (víceméně) pouze lineární souvislost Vždy kontrolujeme počet absolutních četností! Pod cca 5 → problém (→ nespolehlivé závěry) → sloučit kategorie.

  8. Třídění 3. stupně Úvod Pro spojitou závislou proměnnou a kategoriální nezávislé proměnné → průměry v podskupinách

  9. Vztah dvou proměnných: spojitá (závislá) × kategoriální (nezávislá)v podskupinách třetí proměnné Průměrný počet přečtených knížek podle studijních skupinv podskupinách dle pohlaví GRAPH/BAR(GROUPED)=MEAN(knihy_celk) BY Studium BY pohlavi.

  10. Vztah dvou proměnných: spojitá (závislá) × kategoriální (nezávislá)v podskupinách třetí proměnné To samé v tabulce Pozor na absolutní četnosti! MEANS knihy_celk BYStudium BY pohlavi.

  11. K třídění 3. stupně v kontingenční tabulce (pro %) viz prezentaciVztahy mezi 3 znaky v kontingenční tabulce - úvod http://metodykv.wz.cz/AKD1_kontg_tab3st_uvod.ppt

  12. Na co s dát pozor

  13. Výběrová data vs. census • Máme-li data z náhodného (dobrého kvótního) výběru z populace (tj. vzorek) , pak k testování hypotéz můžeme (měli bychom) přistoupit pomocí principů statistické inference (statistické testy; intervalové odhady → viz AKDII. http://metodykv.wz.cz/index.htm#analyza2) • A naopak máme-li kompletní populaci (census)statistické testy nedávají smysl.

  14. Pozor na … • Nízké četnosti zejména při spoluvýskytu některých kategorií v kontingenčních tabulkách → sloučit (překódovat) • Outliery = extrémní hodnoty → rekódovat na „nižší ale smysluplnou“ hodnotu (nebo případně označit jako chybějící hodnoty)

  15. Ukázky jak prezentovat tabulky a interpretovat vztahy.

  16. Prezentace tabulky v textu 4. K jaké populaci se výsledek vztahuje (teritorium, časové období, sociální skupina,…) • Závislá proměnná, • Vysvětlující proměnná/é, • Použité míry/ statistiky. Nezapomeňte uvádět datový zdroj a počet validních - platných případů v konkrétní analýze (tabulce). Zejména tehdy pokud počet missingů překročí cca 5%.

  17. Prezentace grafu v textu

  18. Prezentace a interpretace kontingenční tabulky (výzkumná otázka a hypotéza) • Výzkumná otázka (RQ): Souvisí počet přečtených knih s dobou sledování TV? • Hypotéza sociologická: Počet přečtených knih roste s dobou strávenou s TV. = pozitivní souvislost • Nulová hypotéza (H0): Počet přečtených knih se neliší v závislosti na době strávené u TV. = žádný vztah Tabulka 2 ukazuje podíl přečtených knih za rok (rozděleno na tři skupiny čtenářů dle tercilů) ve skupinách podle míry sledování televize v běžný den (rovněž kategorizováno na tercily). V tabulce ověřujeme Hypotézu, podle níž počet přečtených knih roste s dobou strávenou s TV. Zatímco v kategorii podprůměrného množství přečtených knih (I. tercil) je pouze 16 %, těch co televizi sledují málo (I. tercil), tak těch, kdo sledují TV nadprůměrně (III. tercil) je v této kategorii zhruba 2,5 x více (39%). Obdobně v kategorii nejvíce přečtených knih (III. tercil) je 42 % těch, kdo se na televizi v podstatě nedívají a zároveň jen 17% těch, kteří se na ní dívají velmi často (III. tercil). Vidíme tak, že mezi čtením knih a sledováním televize existuje negativní souvislost (vyjádřeno pomocí kontingenčního koeficientu souvislost je tato souvislost středně silná, CC = 0,25). Naší hypotézu o pozitivní souvislosti mezi počtem přečtených knih a sledováním TV nám tedy nezbývá než zamítnout, vztah je přesně obrácený: čím více studenti čtou, tím méně se dívají na televizi.

More Related