1 / 21

Map of bivariate analyses configuration (bivariate and trivariate)

Map of bivariate analyses configuration (bivariate and trivariate). Quantitative Data Analysis I. UK FHS Historical sociology (2014). Jiří Šafr jiri.safr(AT)seznam.cz. updated 2/ 6 /2014. Content. „ orientation map“ analysis of 2 variables relationship: ratio × ratio (both numeric)

oberon
Download Presentation

Map of bivariate analyses configuration (bivariate and trivariate)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Map of bivariate analyses configuration (bivariate and trivariate) Quantitative Data Analysis I. UK FHS Historical sociology (2014) Jiří Šafrjiri.safr(AT)seznam.cz updated2/6/2014

  2. Content • „orientation map“ analysis of 2 variables relationship: • ratio × ratio (both numeric) • ratio-numeric (dependent–outcome) × categorial (independent–explanatory) • Categorical × Categorical • Contingency table • 3rd level of data sorting (identically) • What to take care of (sample data vs. census) • How to organise and format a table

  3. „orientational map“ of bivariate analysis • Hlavním cílem výzkumu je testovat hypotézy 2.řádu = vztah dvou (a více) proměnných. • (Jak) souvisí spolu hodnoty jedné a druhé proměnné? • Například: Klesá počet přečtených knih za rok s dobou, kterou člověk věnuje sledování televize? • Je počet přečtených knih za rok stejný ve všech skupinách studentů (obory studia&ročník)? • Proměnné existují ve 2 základních typech: kategoriální (nominální a ordinální) spojité – kardinální (číselné) → různé varianty jejich kombinací při analýze

  4. Tools for analysis of 2 variables relationship • Ratio × Ratio, e.g. Number of books read and age → (linear) correlation coefficient (Pearson), X-Y graph • Ratio-numeric(dependent–outcome)×Categorical(independent–explanatory) e.g. Number of books read and field of study → means in sub-groups, coefficient EtaSq, graph of means in subgroups (Barchart for mean, Line-multiple or Boxplot, Errorbar) • Categorical × Categoricale.g. Literary genres and field of study → contingency table, Barchart (for %) coefficients of association – contingency (CC), Cramer‘s V or Phi (for 2x2), … in case that both are ordinal – ordinal correlation (Gamma, Sperman‘s Rho, Kendaull‘s Tau B)

  5. Ratio × Ratio • Numeric variable → ideal situation: the best approach to measurement, the most sophisticated analyses, and we can collapse it into categorical variable • Correlation(and or)X-Y graph CORRELATIONS knihy_celk WITH TV. GRAPH /SCATTERPLOT(BIVAR) =knihy_celk WITH TV. R – correlation coefficient R2 – coefficient of determination R = √R2 a R2 = R × R here √0,066 = 0,257 • BUT! Correlation measures only linear relationship (přímou úměru) and it expects „normlity“ of values distribution. • Dependencies can have other form than linear, you better make X-Y (Scatter plot) → relationships are visible visually. • Look at Outliers – extreme values (and theircombination)

  6. Ratio (depend.) × Categorical (independent) • In principle we compare means of dependent variable in categories of independent variable+ variance (standard deviation StD in groupings) missing values studium (5 6). MEANSknihy_celk BY studium. GRAPH /BAR(SIMPLE)=MEAN(knihy_celk) BY studium. *pro výběrová data = vzorek z populace) Intervalový odhad průměru s konfidenčním int.:. GRAPH ERRORBAR (CI) knihy_celk BY studium.

  7. Categorical × Categorical • Contingency table: hledáme souvislosti pomocí spoluvýskytu usingrelative frequencies (%) orprobabilities • Odchylky od očekávané=teoretické četnosti (→ znaménkové schéma) • Pro ordinální znaky sledujeme krajní kategorie a kupení na diagonále. • Vidíme i vztahy spoluvýskytu, které nejsou lineární (pro nominální znaky) CROSSTABS knihy_celk3t BY TV3t . CROSSTABS knihy_celk3t BY TV3t /cel = col. CROSSTABS knihy_celk3t BY TV3t /cel = col count. *+ test homogenity; míry asociace / korelace. CROSSTABS knihy_celk3t BY TV3t /cel = col / STATISTICS CC CORREL LAMBDA . Vztah znaků v tabulce lze vyjádřit i jedním číslem: pro nominální (a ordinální) znaky: koef. kontingence apod. (CC, Cramérovo V, Lambda) → vyjadřují i nelineární souvislosti pro ordinální znaky (navíc): pořadové korelace (Gama, Spearmanův koef. pořadové korelace (ró), Kendallovo tau-b/ tau-c, Somersovo d) → vyjadřují (víceméně) pouze lineární souvislost Vždy kontrolujeme počet absolutních četností! Pod cca 5 → problém (→ nespolehlivé závěry) → sloučit kategorie.

  8. CROSSTABS basic entry • Categorical X Categorical variables: CROSSTABSvar1-DEPENDENTBYvar2-INDEPENDENT. • → counts (absolute frequency), but we need PERCENT which we can have COLUMN %orROWS %. CROSSTABSvar1-dependent BY var2-independent/CELL COL. or reversed CROSSTABSvar2-independent BYvar1-dependent /CELL ROW. • Notice in CROSSTABS it is similar principle as in MEANS: MEANSvar1-dependent-numeric BYvar2-independent-categorical.

  9. Numerical X Categorical Numericaldependent X Categorical independent variables MEANSvar1-dependent-numericBYvar2-independent-categorical. There is also a coefficient measuring strength of the relationship → Eta / EtaSq(EtaSq = variance in dependent variable explained by categories of the independent variable; it ranges from 0=no relationship to 1=maximum)

  10. Numerical X Numerical Numerical X Numerical variables: • Correlation coefficient (Pearson‘s R) for linear relationship of simple linear/nonlinear regression • Scatter-plot of Y-X • (alternatively we can categorise one – usually independent var. and then → means (dependent) in subgroups (of independent) or possibly categorise both and use contingency table (%))

  11. (Simple) Multivariate analysis3rd level of data sorting introduction Pro spojitou závislou proměnnou a kategoriální nezávislé proměnné → průměry v podskupinách

  12. Vztah dvou proměnných: spojitá (závislá) × kategoriální (nezávislá)v podskupinách třetí proměnné Průměrný počet přečtených knížek podle studijních skupinv podskupinách dle pohlaví GRAPH/BAR(GROUPED)=MEAN(knihy_celk) BY Studium BY pohlavi.

  13. Vztah dvou proměnných: spojitá (závislá) × kategoriální (nezávislá)v podskupinách třetí proměnné To samé v tabulce Pozor na absolutní četnosti! MEANS knihy_celk BYStudium BY pohlavi.

  14. Multivariate approach in contingency table(% point differences) see presentation3. Contingency tables and analysis of categorical data http://metodykv.wz.cz/QDA1_crosstab1.ppt

  15. Na co s dát pozor

  16. Výběrová data vs. census • Máme-li data z náhodného (dobrého kvótního) výběru z populace (tj. vzorek) , pak k testování hypotéz můžeme (měli bychom) přistoupit pomocí principů statistické inference (statistické testy; intervalové odhady → viz AKDII. http://metodykv.wz.cz/index.htm#analyza2) • A naopak máme-li kompletní populaci (census)statistické testy nedávají smysl.

  17. Pozor na … • Nízké četnosti zejména při spoluvýskytu některých kategorií v kontingenčních tabulkách → sloučit (překódovat) • Outliery = extrémní hodnoty → rekódovat na „nižší ale smysluplnou“ hodnotu (nebo případně označit jako chybějící hodnoty)

  18. Ukázky jak prezentovat tabulky a interpretovat vztahy.

  19. Prezentace tabulky v textu 4. K jaké populaci se výsledek vztahuje (teritorium, časové období, sociální skupina,…) • Závislá proměnná, • Vysvětlující proměnná/é, • Použité míry/ statistiky. Nezapomeňte uvádět datový zdroj a počet validních - platných případů v konkrétní analýze (tabulce). Zejména tehdy pokud počet missingů překročí cca 5%.

  20. Prezentace grafu v textu

  21. Prezentace a interpretace kontingenční tabulky (výzkumná otázka a hypotéza) • Výzkumná otázka (RQ): Souvisí počet přečtených knih s dobou sledování TV? • Hypotéza sociologická: Počet přečtených knih roste s dobou strávenou s TV. = pozitivní souvislost • Nulová hypotéza (H0): Počet přečtených knih se neliší v závislosti na době strávené u TV. = žádný vztah Tabulka 2 ukazuje podíl přečtených knih za rok (rozděleno na tři skupiny čtenářů dle tercilů) ve skupinách podle míry sledování televize v běžný den (rovněž kategorizováno na tercily). V tabulce ověřujeme Hypotézu, podle níž počet přečtených knih roste s dobou strávenou s TV. Zatímco v kategorii podprůměrného množství přečtených knih (I. tercil) je pouze 16 %, těch co televizi sledují málo (I. tercil), tak těch, kdo sledují TV nadprůměrně (III. tercil) je v této kategorii zhruba 2,5 x více (39%). Obdobně v kategorii nejvíce přečtených knih (III. tercil) je 42 % těch, kdo se na televizi v podstatě nedívají a zároveň jen 17% těch, kteří se na ní dívají velmi často (III. tercil). Vidíme tak, že mezi čtením knih a sledováním televize existuje negativní souvislost (vyjádřeno pomocí kontingenčního koeficientu souvislost je tato souvislost středně silná, CC = 0,25). Naší hypotézu o pozitivní souvislosti mezi počtem přečtených knih a sledováním TV nám tedy nezbývá než zamítnout, vztah je přesně obrácený: čím více studenti čtou, tím méně se dívají na televizi.

More Related