820 likes | 1.11k Views
Beschrijvende en inferentiële statistiek. College 11 – Anouk den Hamer – Vervolg regressie. Responsiecollege. Volgende week dinsdag 19 maart Vragen indienen op forum BB vóór vrijdag 15 maart 17.00 uur. NB formuleblad. Formule conditionele standaarddeviatie:
E N D
Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolgregressie
Responsiecollege • Volgende week dinsdag 19 maart • Vragen indienen op forum BB vóór vrijdag 15 maart 17.00 uur
NB formuleblad • Formule conditionele standaarddeviatie: • Wordt op formuleblad “residu standaard deviatie y” genoemd
Vandaag • Uitwerking huiswerkopdracht • Vervolg regressie
Oefening multipele regressie • In de huiswerkopdracht van college 9 hebben jullie onderzocht of tv kijken invloed heeft op tentamencijfer. Onderzoek of naast tv kijken sporten (in dataset exercising) en aantal uren studeren (studytime) ook invloed heeft (je hebt dus 3 onafhankelijke variabelen en 1 afhankelijke). • Voer de regressie uit en trek je conclusie.
We weten nu dat hoe meer een student tv kijkt en hoe meer hij/zij sport, hoe lager zijn/haar tentamencijfer (p < .05). Het aantal uren studeren bleek geen significante invloed op tentamencijfer te hebben. Tv kijken en sporten verklaart 19.8% van het tentamencijfer.
Tot nu toe • Enkelvoudige regressie: 1 X en 1 Y • Meervoudige regressie: > 1 X-en en 1 Y • Y voorspellen dmv X (regressieformule) • Residuals • Correlatie sterkte verband • R-square verklaarde variantie Y door X • Wijken slopes significant af van 0?
RSS, TSS, MSS MSS RSS TSS
Correlatie • Correlatie: geeft sterkte van het verband tussen X en Y aan • Twee manieren om te berekenen: • Met de R-square • Met de slope en de standaarddeviaties
Correlatie • Correlatie berekenen met de R-square: • De correlatie wordt uitgedrukt in r. • Dus de wortel van R-square is de correlatie:
Correlatie • Correlatie berekenen met de slope en de standaarddeviaties van X en Y:
In een andere tabel (door een descriptives te draaien) zie ik een standaarddeviatie van X 1.083 en van Y .650. • De slope was .518.
Let op: • De correlatieberekenendmv de standaarddeviaties en de slope kanalleenmaarals je 1 X hebt • Als je meerdere X-en hebtdangeeft de correlatie het verbandtussen al die X-en en Y aan
Variantie en covariantie Variantie: gemiddelde gekwadrateerde afstand tot het gemiddelde Covariantie: vergelijkbaar met variantie, maar dan voor 2 variabelen: Covariantie: meet hoeveel afstand tussen de gemiddeldes van 2 variabelen met elkaar te maken heeft.
Covariantie Nadeel: is afhankelijk van meeteenheden. Voor inkomen in euros ipv dollars:
Covariantie and correlatie In plaats van de variantie, gebruiken we de standaard deviatie. In plaats van de covariantie, gebruiken we de correlatie. In ons inkomen (in dollars) en opleiding voorbeeld:
Correlatie Voordeel: is niet afhankelijk van meeteenheden. Eigenschappen: • -1 ≤ r ≤ 1. • r=1: perfecte positieve correlatie. • r=-1: perfecte negatieve correlatie. • Grootte van r: sterkte van de associatie. Gebruiken we vooral met interval/continue variabelen.
Correlatie en regressie Correlatie: geen causaal onderscheid tussen X en Y. Regressie: wel een causaal onderscheid tussen X en Y. Relatie tussen correlatie en regressiecoëfficiënt:
Correlatie en regressie In ons voorbeeld: r is ook de gestandaardiseerde coëfficiënt (alleen met 1 X)
Correlatie en regressie • Eén s.d. omhoog in x resulteert in r s.d.’s omhoog in y. • Onafhankelijk van meeteenheid! • r (in dit geval de gestandardiseerde coefficient): goede maat voor sterkte! b 1 sxb=rsy sx
Ter illustratie Inkomen in dollars: Inkomen in euros:
Gestandaardiseerde coëfficiënten (beta’s) Om de sterkte van de associatie te meten. Mogelijk om verschillende coëfficiënten te vergelijken: • …van dezelfde variabelen tussen verschillende regressies. • Ook als de meeteenheid niet hetzelfde is. • …van verschillende variabelen in dezelfde (multivariate) regressie.
Verschil correlatie en regressielijn Correlatie: • Onafhankelijk van meeteenheden • Geeftsterkte van associatietussen X en Y aan in ééngetal • Nietmogelijkom Y tevoorspellen • Geencausalerichtingtussen X en Y, simpelwegassociatie Regressielijn: • Afhankelijk van meeteenheden • Mogelijkom Y tevoorspelleno.b.v. X • Geeftrichting: je kijkt of X Y voorspelt
Weten nu meer over • RSS, TSS, MSS • R-square • Correlatie
Hebben het nu steeds over beschrijvende statistiek Nu inferentiële statistiek
Betrouwbaarheidsintervallen Hypothesetests • Ha: β > 0 of Ha: β < 0
We willen weten of de slope significant afwijkt van 0 (0 is waarde nulhypothese) Moeten eerst de test statistic (t-waarde) weten.
Betrouwbaarheidsinterval van de slope (95%) • b ± t(se) • b = .518 • Kritieke t-waarde = 2.306 • Se = 0.107 Dus: .518 ± 2.306(0.107) We weten met 95% zekerheid dat de slope in de populatie tussen de 0.27 en 0.76 ligt.
Als de 0 in het betrouwbaarheidsinterval van de slope ligt, dan kunnen we de nulhypothese niet verwerpen. Ligt de 0 niet in het betrouwbaarheidsinterval, dan kunnen we de nulhypothese wel verwerpen: de slope wijkt significant af van 0.