1 / 79

Beschrijvende en inferentiële statistiek

Beschrijvende en inferentiële statistiek. College 11 – Anouk den Hamer – Vervolg regressie. Responsiecollege. Volgende week dinsdag 19 maart Vragen indienen op forum BB vóór vrijdag 15 maart 17.00 uur. NB formuleblad. Formule conditionele standaarddeviatie:

tate
Download Presentation

Beschrijvende en inferentiële statistiek

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Beschrijvende en inferentiële statistiek College 11 – Anouk den Hamer – Vervolgregressie

  2. Responsiecollege • Volgende week dinsdag 19 maart • Vragen indienen op forum BB vóór vrijdag 15 maart 17.00 uur

  3. NB formuleblad • Formule conditionele standaarddeviatie: • Wordt op formuleblad “residu standaard deviatie y” genoemd

  4. Vandaag • Uitwerking huiswerkopdracht • Vervolg regressie

  5. Oefening multipele regressie • In de huiswerkopdracht van college 9 hebben jullie onderzocht of tv kijken invloed heeft op tentamencijfer. Onderzoek of naast tv kijken sporten (in dataset exercising) en aantal uren studeren (studytime) ook invloed heeft (je hebt dus 3 onafhankelijke variabelen en 1 afhankelijke). • Voer de regressie uit en trek je conclusie.

  6. Eerst correlatie

  7. We weten nu dat hoe meer een student tv kijkt en hoe meer hij/zij sport, hoe lager zijn/haar tentamencijfer (p < .05). Het aantal uren studeren bleek geen significante invloed op tentamencijfer te hebben. Tv kijken en sporten verklaart 19.8% van het tentamencijfer.

  8. Tot nu toe • Enkelvoudige regressie: 1 X en 1 Y • Meervoudige regressie: > 1 X-en en 1 Y • Y voorspellen dmv X (regressieformule) • Residuals • Correlatie sterkte verband • R-square verklaarde variantie Y door X • Wijken slopes significant af van 0?

  9. RSS, TSS, MSS MSS RSS TSS

  10. Correlatie • Correlatie: geeft sterkte van het verband tussen X en Y aan • Twee manieren om te berekenen: • Met de R-square • Met de slope en de standaarddeviaties

  11. Correlatie • Correlatie berekenen met de R-square: • De correlatie wordt uitgedrukt in r. • Dus de wortel van R-square is de correlatie:

  12. Correlatie • Correlatie berekenen met de slope en de standaarddeviaties van X en Y:

  13. In een andere tabel (door een descriptives te draaien) zie ik een standaarddeviatie van X 1.083 en van Y .650. • De slope was .518.

  14. Let op: • De correlatieberekenendmv de standaarddeviaties en de slope kanalleenmaarals je 1 X hebt • Als je meerdere X-en hebtdangeeft de correlatie het verbandtussen al die X-en en Y aan

  15. Theorie achter correlatie

  16. Variantie en covariantie Variantie: gemiddelde gekwadrateerde afstand tot het gemiddelde Covariantie: vergelijkbaar met variantie, maar dan voor 2 variabelen: Covariantie: meet hoeveel afstand tussen de gemiddeldes van 2 variabelen met elkaar te maken heeft.

  17. Covariantie Nadeel: is afhankelijk van meeteenheden. Voor inkomen in euros ipv dollars:

  18. Covariantie and correlatie In plaats van de variantie, gebruiken we de standaard deviatie. In plaats van de covariantie, gebruiken we de correlatie. In ons inkomen (in dollars) en opleiding voorbeeld:

  19. Correlatie Voordeel: is niet afhankelijk van meeteenheden. Eigenschappen: • -1 ≤ r ≤ 1. • r=1: perfecte positieve correlatie. • r=-1: perfecte negatieve correlatie. • Grootte van r: sterkte van de associatie. Gebruiken we vooral met interval/continue variabelen.

  20. Correlatie en regressie Correlatie: geen causaal onderscheid tussen X en Y. Regressie: wel een causaal onderscheid tussen X en Y. Relatie tussen correlatie en regressiecoëfficiënt:

  21. Correlatie en regressie In ons voorbeeld: r is ook de gestandaardiseerde coëfficiënt (alleen met 1 X)

  22. Correlatie en regressie • Eén s.d. omhoog in x resulteert in r s.d.’s omhoog in y. • Onafhankelijk van meeteenheid! • r (in dit geval de gestandardiseerde coefficient): goede maat voor sterkte! b 1 sxb=rsy sx

  23. Ter illustratie Inkomen in dollars: Inkomen in euros:

  24. Gestandaardiseerde coëfficiënten (beta’s) Om de sterkte van de associatie te meten. Mogelijk om verschillende coëfficiënten te vergelijken: • …van dezelfde variabelen tussen verschillende regressies. • Ook als de meeteenheid niet hetzelfde is. • …van verschillende variabelen in dezelfde (multivariate) regressie.

  25. Verschil correlatie en regressielijn Correlatie: • Onafhankelijk van meeteenheden • Geeftsterkte van associatietussen X en Y aan in ééngetal • Nietmogelijkom Y tevoorspellen • Geencausalerichtingtussen X en Y, simpelwegassociatie Regressielijn: • Afhankelijk van meeteenheden • Mogelijkom Y tevoorspelleno.b.v. X • Geeftrichting: je kijkt of X Y voorspelt

  26. Weten nu meer over • RSS, TSS, MSS • R-square • Correlatie

  27. Hebben het nu steeds over beschrijvende statistiek Nu inferentiële statistiek

  28. Betrouwbaarheidsintervallen Hypothesetests • Ha: β > 0 of Ha: β < 0

  29. We willen weten of de slope significant afwijkt van 0 (0 is waarde nulhypothese) Moeten eerst de test statistic (t-waarde) weten.

  30. Want n – (1 + k)

  31. Kritieke t-waardebijdf=8 met 95% (tweezijdig)?

  32. Kritieke t = 2.306

  33. Betrouwbaarheidsinterval van de slope (95%) • b ± t(se) • b = .518 • Kritieke t-waarde = 2.306 • Se = 0.107 Dus: .518 ± 2.306(0.107) We weten met 95% zekerheid dat de slope in de populatie tussen de 0.27 en 0.76 ligt.

  34. Als de 0 in het betrouwbaarheidsinterval van de slope ligt, dan kunnen we de nulhypothese niet verwerpen. Ligt de 0 niet in het betrouwbaarheidsinterval, dan kunnen we de nulhypothese wel verwerpen: de slope wijkt significant af van 0.

  35. 0.391 +- 1.96(0.028) = van 0.336 tot 0.446

More Related