1 / 37

Nové statistické techniky v kvantitativním výzkumu

Nové statistické techniky v kvantitativním výzkumu. Možné zdroje informací. Kaplan (ed.). 2004 . The Sage of handbook of quantitative methodology for the social sciences . London : Sage. Řada Quantitive applications in the social science s. Sage (cca 180 sešitků)

loyal
Download Presentation

Nové statistické techniky v kvantitativním výzkumu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Nové statistické techniky v kvantitativním výzkumu

  2. Možné zdroje informací • Kaplan (ed.). 2004. The Sage of handbook of quantitative methodology for the social sciences. London : Sage. • Řada Quantitive applications in the social sciences. Sage (cca 180 sešitků) • Řada Advanced quantitative techniques in the social sciences. Sage (10 knih) • Řada Wiley probability and statistics. Wiley (cca 280 knih) • Řada Introducing statistical methods. Sage (cca 10 knih) • Další nakladatelství Erlbaum associates, Springer Verlag, Oxford university press, Cambridge university press, Harvard university press

  3. 3 části statistické analýzy • Popisná (deskripce) • Průzkumová (explorační) • Úsudková (Inferenční) • Na třetí je dáván největší důraz, méně se provádí generování smysluplných hypotéz a prozkoumání dat

  4. Základní problémy (přibližování realitě) • Chybějící data • Chyby měření a nemožnost měření některých fenoménů • Lidé v dlouhodobých výzkumech přestávají spolupracovat • Lidé jsou ovlivněni kontexty (hierarchiemi), v nichž žijí • Normální rozdělení je v sociálních vědách nenormální • Lineární vztahy nepopisují věrně realitu • Hypotézy věcně vhodné nelze vždy pomocí statistiky zachytit a zkoumat

  5. Základní oblasti rozvoje • Víceúrovňová analýza • Kategoriální data • Latentní proměnné • Oblast měření v sociálních vědách

  6. Základní techniky řešící problémy 1. Od regrese k hierarchickým lineárním modelům 2. Od faktorové analýzy k analýze latentních tříd 3. Od chi-kvadrát testu k loglineárním (logitovým) modelům 4. Latentní proměnné a strukturní modelování 5. Problémy statistické významnosti 6. Oblast měření v sociálních vědách-mimo přednášku

  7. 1. hierarchické lineární modely

  8. Možné zdroje informací • Kreft, I. G., J. de Leeuw. 1998. Introducing multilevel modeling. London : Sage. • Snijders, Tom A.B., Roel J.Bosker. 1999. Multilevel Analysis: An Introduction to Basic and Advanced Multilevel Modeling. London: Sage Publisher. • Hox, J. 2002. Applied Multilevel Analysis: Techniques and Applications. Erlbaum associates. • Raudenbush, S. W., A.S. Bryk. 2002. Hierarchical Linear Models 2nd edition. London: Sage Publications.

  9. !!!Regrese předpoklady!!! • Normalita reziduí resp. náhodné složky viz např procedura Explore v Analyze-Descriptives) • Nekorelovanost nezávislých proměnných (opak multikolinearita) • Nezávislost jednotlivých pozorování - tedy prostý náhodný výběr • Homoskedasticita a nekorelovanost náhodné složky

  10. Regrese v SPSS-závislost příjmu na počtu let vzdělání a pohlaví Obě proměnné v modelu správně • Z hodnot v tabulce lze napsat rovnici: Příjem= -476 + 626* roky vzdělání + 3800*pohlaví(je muž) Osoba která má o rok vyšší vzdělání má v průměru o 625 Kč více Pokud se nic dalšího nezmění (tzv. ceteris paribus) Osoba, která je muž má v průměru o 3800 Kč více

  11. Víceúrovňové modely-jazyk V angličtině se využívá několik ekvivalentů multilevel modeling (nejužívanější) ML, random-coefficient modeling, hierarchical modeling, mixed-effects modeling, covariance components models

  12. Obrázek (Různé konstanty, různé směrnice)

  13. Problém různého vztahu ve skupinách - pokračování • Velmi často (vždy?) se setkáváme s případem na obrázku. Co se stane, pokud v těchto případech ignorujeme různý vztah pro muže a ženy, naznačují opět slabší nepřerušované regresní přímky. • V realitě je běžně sledovaných skupin více a problém se jen komplikuje a volá po víceúrovňové analýze

  14. Problém jednoúrovňové analýzy rozptylu • Skupiny, v nichž se vztahy liší, jsou náhodně vybrány ze základního souboru. Příkladem může být náhodný výběr několika škol, ve kterých jsou potom náhodně vybráni žáci • Chceme-li ale zobecnit závěry na všechny školy v ČR a hledat faktory které způsobují odlišnost škol, nevystačíme již s klasickou analýzou rozptylu. Opět nám úlohu může pomoci vyřešit víceúrovňové modelování, které se zaměřuje na modelování vztahů na úrovni jedinců (mikroúrovni) i na modelování rozdílů mezi jednotlivými skupinami

  15. Ukázka – čten. gramotnost Závislá proměnná-čtenářská gramotnost, data PIRLS 2011, n=4800; Vysvětlení na úrovni tříd 76 %, na úrovni žáků 21 %

  16. Další problémy řešitelné víceúrovňově Modely růstu (growth models) • U modelu růstu máme změřenou určitou vlastnost ve více časových okamžicích u různých jedinců. Měření v různých časových okamžicích můžeme považovat za první úroveň (stejně tak jako jednotlivé žáky ve škole) a jedince za druhou úroveň, tak jako školy. Výsledkem modelů růstu může být jednak zjištění, zda obecně dochází k nárůstu či poklesu sledované vlastnosti, zda se jedinci liší v růstových křivkách mezi sebou Metaanalýza (pozor v SPSS nelze nejsou-li data z původních studií) • 1. úroveň data z jednotlivých studií • 2. úroveň jednotlivé studie Cíle: • 1. najít společný („průměrný“) výsledek všech nalezených studií a • 2. odhalit příčiny rozdílů mezi studiemi Modely se smíšenými hierarchiemi (cross classified models) Obecné statistické pakety: • jedinec není zařazen jen do jedné skupiny která ho výrazněji ovlivňuje, ale do mnoha skupin a vlivy jednotlivých skupin se kříží

  17. 2. Analýza latentních tříd (LCA)

  18. Možné zdroje informací • Lazarsfeld, Henry. 1968. Latent structure analysis. Boston • McCutcheon. 1987. Latent class analysis. Sage. • Hagenaars, McCutcheon (eds.). 2002. Applied latent class analysis. Cambridge university press.

  19. Základní myšlenky LCA (obdoba FA) • FA – cíl najít několik málo faktorů (latentních proměnných), které nelze přímo měřit a nepřímo měříme jen jejich odraz v několika zachycených proměnných • Měřené proměnné kardinální, analýza založena na korelacích, původ v psychologii inteligence (Spearman, 1906) • LCA-vychází z Latent structure analysis (Lazarsfeld, Henry, 1968)-snaha najít latentní struktury, které se projevují v odpovědích na sadu dichotomických otázek

  20. Základní myšlenky LCA (obdoba FA) • LCA-rozšíření Latent structure analysis na nominální proměnné s více kategoriemi a ordinální proměnné-snaha najít latentní třídy, které se projevují v odpovědích na sadu dichotomických otázek • Na rozdíl od FA se vychází z pravděpodobností (členství v příslušné třídě při určitých hodnotách odpovědí)

  21. LCA výstupy /čeština • Namísto matice faktorových zátěží (korelací), tabulka s pravděpodobnostmi

  22. LCA výstupy / matika • Namísto matice faktorových zátěží (korelací), tabulka s pravděpodobnostmi

  23. 3. Loglineární modely

  24. Možné zdroje informací Agresti. 2002. Categorical data analysis. New York : Wiley-Interscience. Simonoff. 2003. Analyzing categorical data. New York : Springer. Knoke, Burke. 1980. Log-linear models . Newbury Park, California : SAGE Publications. DeMaris. 1992. Logit modeling: practical applications. Newbury Park : Sage Publications. Česky: Hebák a kol. 2005. Vícerozměrné stat. metody s aplikacemi, 3. díl, kapitola 1

  25. Chí-kvadrát test o nezávislosti Připomínka: Řeší problém závislosti kategoriální (nominální či ordinální) proměnné v řádku a sloupci v kontingenční tabulce Postoje k náboženství a k gender otázkám (souvisí spolu?) Count GENDER Total tradiční střed liberální Náboženský postoj věřící 458 311 202 971 ani, ani 132 191 182 505 nevěřící 51 119 159 329 Total 641 621 543 1805 Χ2=160, P=1,14 e-33 Pouze dvourozměrný vztah

  26. Omezení chí-kvadrát testu, důvod pro loglineární modely Řeší problém závislosti jen mezi dvěmi proměnnými. Co když je ale vztah klamný a způsobuje ho jiná proměnná (elaborace) – loglineární modely Zde například postoje k genderu i náboženské ovlivňuje rasa jedince To ale za pomoci chí-kvadrát testu současně nepoznáme. Loglineární model - není závislá a nezávislá proměnná a řeší vztahy mezi více kategoriálními proměnnými Matematicky: Modelování četností ve vícerozměrné kontingenční tabulce za pomoci kategorií jednotlivých proměnných Logitový model – jedna proměnná považována za závislou, mdoelují se podíly četností (tzv. šance) Poznámka: Matematicky je jeden model převoditelný na druhý, jedná se tedy o dvě různá vyjádření téhož

  27. Loglineární modely Loglineární analýzy jsou přístupy konfirmatorní, umožňují nám testovat existenci závislosti, významnost zařazení nezávislých proměnných do modelu, celkovou kvalitu modelu atd. Složitější modely pracují s proměnnými jako s ordinálními, případně využívají jejich součiny (interakce) Obdobou loglineárních modelů jsou logistické regrese (binární, odinální a polytomická) Aplikace v ČR: Řeháková, B.2001.Změny hodnot v České republice a Inglehartova hodnotová typologie.Sociální studia ,6:47-71 resp. Řeháková, B.2001.Who are the Czech Materialists, Post-Materialists and Those Who Are "Mixed".Czech Sociological Review,1:35-52

  28. Loglineární modely - ukázka Model-kromě vztahu náboženského postoje a genderu zavedena ještě proměnná měřící z jaké etnické skupiny je jedinec (kontrola) Ukázka koeficientů: Parameter Odhad SE Z-value CI- L CI – U Exp(b) Naboz*gender trad 1,9640 ,1855 10,59 1,60 2,33 7,1 naboz*genderstred ,7723 ,1543 5,01 ,47 1,07 2,2 nabozstred*gendertrad ,7915 ,1998 3,96 ,40 1,18 2,2 nabozstred*genderstred ,3532 ,1604 2,20 ,04 ,67 1,4 ……atd. Vyhodnocení modelu: Chi-Square DF Sig. Likelihood Ratio 9,8112 8 ,2785 Pearson 9,8791 8 ,2736 Model elaborace kontrola vlivu 3. proměnné, vztah odolal.

  29. 4. Latentní proměnné, strukturní modely (SEM)

  30. Možné zdroje informací Bollen, K. A. 1989. Structural equations with latent variables. Wiley MacDonald, R.. 1991, Faktorová analýza a příbuzné metody v psychologii. Academia Urbánek, T. 2000. Strukturní modely. Brno : AV ČR. Psychologický ústav. Časopis Structural Equation Modeling

  31. Podstata metody SEM 2 části modelů • Model měření • Strukturní model Celkem tzv. modely kovariančních struktur Latentní a manifestní proměnné, endo a exogenní proměnné

  32. Podstata metody SEM • Cíl – zjistit zda navržený model a data se shodují resp. zda kovarianční matice generovaná modelem a napozorovaná jsou obdobné • Možnosti různých testů, ale i desítky statistických kritérií (AGFI, RMSEA, AIC, BIC atd.) • Většina algoritmů vhodných jen pro kardinální proměnné, teprve v poslední době i algoritmy pro ordinální proměnné – omezen aplikovatelnosti v sociálních vědách • V poslední době i víceúrovňové strukturní modely

  33. Strukturní model – ukázka

  34. Strukturní model – popis

  35. Závěrem

  36. Obecně o software Speciální pakety: • HLM, MLWin pro víceúrovňové modely • Mplus-víceúrovňové modely, analýza lat. tříd • LISREL, AMOS, EQS-strukturní modely • Latent gold, MLLSA, Lem - LCA • Atd. Obecné statistické pakety: • SAS- umí ML, SEM, LOGLIN • SPSS – umí ML, LOGLIN • STATA – umí ML, LOGLIN • STATISTICA – umí SEM, LOGLIN, ML

  37. Stačí software? Problém: • Software je téměř na vše, ale ne na vše jsou data. • Ne vždy je třeba užívat novou techniku, mnohdy stačí jednoduchá běžná technika nebo není třeba statistiky vůbec :).

More Related