730 likes | 1.01k Views
Beschrijvende en inferentiële statistiek. College 8 – Anouk den Hamer – Hoofdstuk 11 (11.5 geen tentamenstof ). Vandaag. Oude tentamenvragen Chi-square toets. Kritieke t-waarde?. Vandaag. Chi-square toets. Inferentiële statistiek: overzicht. Chi-square toets.
E N D
Beschrijvende en inferentiële statistiek College 8 – Anouk den Hamer – Hoofdstuk 11 (11.5 geententamenstof)
Vandaag • Oude tentamenvragen • Chi-square toets
Vandaag • Chi-square toets
Chi-square toets • Met een chi-square toets kun je twee of meer categorische variabelen vergelijken • Categorische variabele: variabele die uit verschillende categorieën bestaat
Vorige keer • We keken of het hebben van een kat invloed heeft op geluk. • Soort variabelen? • Categorisch (wel/geen kat) en continu (geluk)
Vandaag • Twee categorische variabelen vergelijken
Voorbeeld vergelijken categorische variabelen • Een onderzoeker wilt weten of flirtgedrag afhankelijk is van opleidingsjaar. • Zou er verschil bestaan in het flirtgedrag tussen eerste-, tweede- en derdejaars? • Maw: bestaat er een associatie tussen flirtgedrag en opleidingsjaar? opleidingsjaar flirtgedrag
Opleidingsjaar: eerste-, tweede-, derdejaars • Flirtgedrag: nooit, zelden, af en toe, vaak, heel vaak
H0: opleidingsjaar heeft geen invloed op flirtgedrag • Ha: hoe hoger het opleidingsjaar, hoe meer flirtgedrag • Of: • H0: flirtgedrag en opleidingsjaar zijn onafhankelijk van elkaar (er bestaat geen associatie) • Ha: flirtgedrag en opleidingsjaar zijn afhankelijk van elkaar (er bestaat een associatie)
Chi-square test Test van onafhankelijkheid: - H0 : variabelen zijn onafhankelijk - Ha : variabelen zijn afhankelijk Doel test: als de variabelen onafhankelijk zijn, hoe groot is dan de kans dat we vinden wat we vinden?
Om te zien of er wel of geen associatie is vergelijk je de: • Observed counts: de waardes die je vindt in je steekproef • Expected counts: de waardes die je zou verwachten als de nulhypothese waar zou zijn H0: flirtgedrag en opleidingsjaar zijn onafhankelijk van elkaar (er bestaat geen associatie)
Kruistabel met expected count 765.5 Expected count = (rij totaal x kolom totaal) / totaal aantal respondenten Expected count eerstejaars die nooit flirten = (3534 x 12211) / 56373 = 765.5
Waarom? • Waarom observed en expected counts bekijken? • Als de observed counts erg afwijken van de expected counts dan zou er een associatie kunnen bestaan tussen flirtgedrag en opleidingsjaar. • Associatie significant? Chi-square test.
Chi-square • De chi-square statistic geeft aan hoe veel de observed counts van de expected counts afwijken. • In SPSS vind ik dat de chi-square 26978 is. • Hoe hoger de chi-square, hoe groter de kans dat er sprake is van een significante associatie
Hoe weet je of de chi-square significant is? • Je rekent eerst de degrees of freedom (df) uit: • df = (rij – 1 ) x (kolom – 1) • (3 – 1) x (5 – 1) = 8
Degrees of freedom • Vrijheidsgraden in chi-square toets: het minimaal aantal cellen waarvan je de uitkomst moet kennen om de overige cellen te kunnen berekenen.
df = (rij – 1 ) x (kolom – 1) • Df = (3 – 1) x (5 – 1) = 8 • We moeten dus van 8 cellen de waardes weten willen we de andere cellen kunnen berekenen
Chi-square significant? • Tabel C (p. 736) • In die tabel zie je welke waarde de chi-square minimaal aan moet nemen wil deze significant zijn (de kritieke waarde).
Met df = 8 moet de chi-square minimaal 15.51 zijn (als je met α = 0.05 toetst) • Onze chi-square is 26978 en dus significant
Dus chi-square • De chi-square statistic geeft aan hoeveel de observed counts van de expected counts afwijken. • Als deze significant afwijken, dan bestaat er een associatie tussen de twee variabelen. • Want: dat wat je vindt in je steekproef (observed counts) is anders dan wat je op basis van de nulhypothese had verwacht (expected counts). • Daardoor kun je de nulhypothese verwerpen als je een significante chi-square vindt.
Onze nulhypothese zei dat opleidingsjaar en flirtgedrag onafhankelijk van elkaar waren. Dat ze dus niks met elkaar te maken zouden hebben. • Echter significante chi-square, dus nulhypothese verwerpen.
In SPSS Assumptie chi-square toets: iedere cel moet een expected value hebben van minimaal 5. Zo niet, dan is je steekproef te klein.
Conclusie voorbeeld • Als flirtgedrag onafhankelijk is van opleidingsjaar, dan is het erg onwaarschijnlijk dat we een chi-square van 26978 vinden (kans namelijk kleiner dan 5%). • Het flirtgedrag is inderdaad afhankelijk van het opleidingsjaar. Eerste- en tweedejaars flirten vaker dan derdejaars (dat zagen we in de tabel met de observed counts). • Er bestaat dus een significante associatie tussen flirtgedrag en opleidingsjaar.
Eigenschappen chi-square • Chi-square is altijd positief getal • Hoe hoger de chi-square, hoe groter het bewijs tegen H0 : onafhankelijkheid • De chi-square is een goodness-of-fit statistic: het geeft aan hoe goed de expected values (de H0) de observed values hebben voorspeld • De laagst mogelijke waarde van chi-sqaure is 0, in dat geval zijn de observed counts en de expected counts precies gelijk.
Tabel C Hoe groter het verschil tussen de observed values en de expected values, hoe meer bewijs we hebben tegen H0. Daarom kijk je alleen naar de rechterstaart.
Homogeniteit • De chi-square test wordt vaak “test of homogeneity”genoemd, omdat je wilt weten of de expected counts en observed counts homogeen (hetzelfde) zijn • Als ze homogeen zijn dan zijn de variabelen waar je op getest hebt onafhankelijk van elkaar
Associatie • Met een chi-square toets weet je of er een statistisch significante associatie is, je weet echter nog niet hoe sterk deze associatie is. • Een hoge chi-square betekent niet direct een sterke associatie! • Waarom? Omdat grotere steekproeven ook grotere chi-squares hebben.
Verschillende manieren om te zien hoe sterk de associatie is: • Kruistabel percentages • Adjusted residuals • Correlatie (kan alleen bij ordinale variabelen, niet bij categorische variabelen)
Eerste manier om sterkte associatie te zien: kruistabel percentages
Is hier sprake van een sterke associatie? Nee. Er is geen verschil tussen mannen en vrouwen in wat ze stemmen.
Tweede manier om sterkte associatie te zien: adjusted residuals • Met de adjusted residuals vinden we welke cellen “verantwoordelijk” zijn voor de associatie • Adjusted residual: hoeveel standaardfouten de observed count van de expected count afwijkt
Adjusted residuals • Residual: verschil tussen de observed count en de expected count, dus observed count – expected count. • Standardized residual: residual / se • Waarom zou je de gestandaardiseerde residual (ook wel adjusted residual genoemd) willen weten? • Omdat je dan weet hoeveel standaardfouten de observed count van de expected count afwijkt en je daarmee kunt interpreteren hoe sterk de associatie in die cel is. • Als de adjusted residuals groter zijn dan 3 of -3 dan is er een associatie in die cel.
Dus alleen bij de democraten is er een verschil tussen stemgedrag van mannen en vrouwen. • Bij de vrouwen werd er 4 se’s meer op democraten gestemd dan verwacht. En bij mannen 4 se’s minder dan verwacht. • Stemgedrag is dus afhankelijk van geslacht, ook al zien we alleen een effect bij de democraten.