Map of bivariate analyses configuration (bivariate and trivariate)

Map of bivariate analyses configuration (bivariate and trivariate) Quantitative Data Analysis I. UK FHS Historical sociology (2014) Jiří Šafrjiri.safr(AT)seznam.cz updated2/6/2014

Content • „orientation map“ analysis of 2 variables relationship: • ratio × ratio (both numeric) • ratio-numeric (dependent–outcome) × categorial (independent–explanatory) • Categorical × Categorical • Contingency table • 3rd level of data sorting (identically) • What to take care of (sample data vs. census) • How to organise and format a table

„orientational map“ of bivariate analysis • Hlavním cílem výzkumu je testovat hypotézy 2.řádu = vztah dvou (a více) proměnných. • (Jak) souvisí spolu hodnoty jedné a druhé proměnné? • Například: Klesá počet přečtených knih za rok s dobou, kterou člověk věnuje sledování televize? • Je počet přečtených knih za rok stejný ve všech skupinách studentů (obory studia&ročník)? • Proměnné existují ve 2 základních typech: kategoriální (nominální a ordinální) spojité – kardinální (číselné) → různé varianty jejich kombinací při analýze

Tools for analysis of 2 variables relationship • Ratio × Ratio, e.g. Number of books read and age → (linear) correlation coefficient (Pearson), X-Y graph • Ratio-numeric(dependent–outcome)×Categorical(independent–explanatory) e.g. Number of books read and field of study → means in sub-groups, coefficient EtaSq, graph of means in subgroups (Barchart for mean, Line-multiple or Boxplot, Errorbar) • Categorical × Categoricale.g. Literary genres and field of study → contingency table, Barchart (for %) coefficients of association – contingency (CC), Cramer‘s V or Phi (for 2x2), … in case that both are ordinal – ordinal correlation (Gamma, Sperman‘s Rho, Kendaull‘s Tau B)

Ratio × Ratio • Numeric variable → ideal situation: the best approach to measurement, the most sophisticated analyses, and we can collapse it into categorical variable • Correlation(and or)X-Y graph CORRELATIONS knihy_celk WITH TV. GRAPH /SCATTERPLOT(BIVAR) =knihy_celk WITH TV. R – correlation coefficient R2 – coefficient of determination R = √R2 a R2 = R × R here √0,066 = 0,257 • BUT! Correlation measures only linear relationship (přímou úměru) and it expects „normlity“ of values distribution. • Dependencies can have other form than linear, you better make X-Y (Scatter plot) → relationships are visible visually. • Look at Outliers – extreme values (and theircombination)

Ratio (depend.) × Categorical (independent) • In principle we compare means of dependent variable in categories of independent variable+ variance (standard deviation StD in groupings) missing values studium (5 6). MEANSknihy_celk BY studium. GRAPH /BAR(SIMPLE)=MEAN(knihy_celk) BY studium. *pro výběrová data = vzorek z populace) Intervalový odhad průměru s konfidenčním int.:. GRAPH ERRORBAR (CI) knihy_celk BY studium.

Categorical × Categorical • Contingency table: hledáme souvislosti pomocí spoluvýskytu usingrelative frequencies (%) orprobabilities • Odchylky od očekávané=teoretické četnosti (→ znaménkové schéma) • Pro ordinální znaky sledujeme krajní kategorie a kupení na diagonále. • Vidíme i vztahy spoluvýskytu, které nejsou lineární (pro nominální znaky) CROSSTABS knihy_celk3t BY TV3t . CROSSTABS knihy_celk3t BY TV3t /cel = col. CROSSTABS knihy_celk3t BY TV3t /cel = col count. *+ test homogenity; míry asociace / korelace. CROSSTABS knihy_celk3t BY TV3t /cel = col / STATISTICS CC CORREL LAMBDA . Vztah znaků v tabulce lze vyjádřit i jedním číslem: pro nominální (a ordinální) znaky: koef. kontingence apod. (CC, Cramérovo V, Lambda) → vyjadřují i nelineární souvislosti pro ordinální znaky (navíc): pořadové korelace (Gama, Spearmanův koef. pořadové korelace (ró), Kendallovo tau-b/ tau-c, Somersovo d) → vyjadřují (víceméně) pouze lineární souvislost Vždy kontrolujeme počet absolutních četností! Pod cca 5 → problém (→ nespolehlivé závěry) → sloučit kategorie.

CROSSTABS basic entry • Categorical X Categorical variables: CROSSTABSvar1-DEPENDENTBYvar2-INDEPENDENT. • → counts (absolute frequency), but we need PERCENT which we can have COLUMN %orROWS %. CROSSTABSvar1-dependent BY var2-independent/CELL COL. or reversed CROSSTABSvar2-independent BYvar1-dependent /CELL ROW. • Notice in CROSSTABS it is similar principle as in MEANS: MEANSvar1-dependent-numeric BYvar2-independent-categorical.

Numerical X Categorical Numericaldependent X Categorical independent variables MEANSvar1-dependent-numericBYvar2-independent-categorical. There is also a coefficient measuring strength of the relationship → Eta / EtaSq(EtaSq = variance in dependent variable explained by categories of the independent variable; it ranges from 0=no relationship to 1=maximum)

Numerical X Numerical Numerical X Numerical variables: • Correlation coefficient (Pearson‘s R) for linear relationship of simple linear/nonlinear regression • Scatter-plot of Y-X • (alternatively we can categorise one – usually independent var. and then → means (dependent) in subgroups (of independent) or possibly categorise both and use contingency table (%))

(Simple) Multivariate analysis3rd level of data sorting introduction Pro spojitou závislou proměnnou a kategoriální nezávislé proměnné → průměry v podskupinách

Vztah dvou proměnných: spojitá (závislá) × kategoriální (nezávislá)v podskupinách třetí proměnné Průměrný počet přečtených knížek podle studijních skupinv podskupinách dle pohlaví GRAPH/BAR(GROUPED)=MEAN(knihy_celk) BY Studium BY pohlavi.

Vztah dvou proměnných: spojitá (závislá) × kategoriální (nezávislá)v podskupinách třetí proměnné To samé v tabulce Pozor na absolutní četnosti! MEANS knihy_celk BYStudium BY pohlavi.

Multivariate approach in contingency table(% point differences) see presentation3. Contingency tables and analysis of categorical data http://metodykv.wz.cz/QDA1_crosstab1.ppt

Na co s dát pozor

Výběrová data vs. census • Máme-li data z náhodného (dobrého kvótního) výběru z populace (tj. vzorek) , pak k testování hypotéz můžeme (měli bychom) přistoupit pomocí principů statistické inference (statistické testy; intervalové odhady → viz AKDII. http://metodykv.wz.cz/index.htm#analyza2) • A naopak máme-li kompletní populaci (census)statistické testy nedávají smysl.

Pozor na … • Nízké četnosti zejména při spoluvýskytu některých kategorií v kontingenčních tabulkách → sloučit (překódovat) • Outliery = extrémní hodnoty → rekódovat na „nižší ale smysluplnou“ hodnotu (nebo případně označit jako chybějící hodnoty)

Ukázky jak prezentovat tabulky a interpretovat vztahy.

Prezentace tabulky v textu 4. K jaké populaci se výsledek vztahuje (teritorium, časové období, sociální skupina,…) • Závislá proměnná, • Vysvětlující proměnná/é, • Použité míry/ statistiky. Nezapomeňte uvádět datový zdroj a počet validních - platných případů v konkrétní analýze (tabulce). Zejména tehdy pokud počet missingů překročí cca 5%.

Prezentace grafu v textu

Prezentace a interpretace kontingenční tabulky (výzkumná otázka a hypotéza) • Výzkumná otázka (RQ): Souvisí počet přečtených knih s dobou sledování TV? • Hypotéza sociologická: Počet přečtených knih roste s dobou strávenou s TV. = pozitivní souvislost • Nulová hypotéza (H0): Počet přečtených knih se neliší v závislosti na době strávené u TV. = žádný vztah Tabulka 2 ukazuje podíl přečtených knih za rok (rozděleno na tři skupiny čtenářů dle tercilů) ve skupinách podle míry sledování televize v běžný den (rovněž kategorizováno na tercily). V tabulce ověřujeme Hypotézu, podle níž počet přečtených knih roste s dobou strávenou s TV. Zatímco v kategorii podprůměrného množství přečtených knih (I. tercil) je pouze 16 %, těch co televizi sledují málo (I. tercil), tak těch, kdo sledují TV nadprůměrně (III. tercil) je v této kategorii zhruba 2,5 x více (39%). Obdobně v kategorii nejvíce přečtených knih (III. tercil) je 42 % těch, kdo se na televizi v podstatě nedívají a zároveň jen 17% těch, kteří se na ní dívají velmi často (III. tercil). Vidíme tak, že mezi čtením knih a sledováním televize existuje negativní souvislost (vyjádřeno pomocí kontingenčního koeficientu souvislost je tato souvislost středně silná, CC = 0,25). Naší hypotézu o pozitivní souvislosti mezi počtem přečtených knih a sledováním TV nám tedy nezbývá než zamítnout, vztah je přesně obrácený: čím více studenti čtou, tím méně se dívají na televizi.

Map of bivariate analyses configuration (bivariate and trivariate)