1 / 16

Meervoudige lineaire regressie

Meervoudige lineaire regressie. Statistiek in de Praktijk. Hoofdstuk 9 pp. 533 - 553. Enkelvoudige lineaire regressie (vorig jaar): 2 kwantitatieve variabelen : X is een verklarende variabele Y is een te verklaren variabele X Y

timothy
Download Presentation

Meervoudige lineaire regressie

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Meervoudige lineaire regressie Statistiek in de Praktijk. Hoofdstuk 9 pp. 533 - 553

  2. Enkelvoudige lineaire regressie (vorig jaar): • 2 kwantitatieve variabelen : • X is een verklarende variabele • Y is een te verklaren variabele X Y • Meervoudige lineaire regressie : • Meer dan 2 kwantitatieve variabelen waarbij • Y is een te verklaren variabele • Meerdere verklarende variabelen X1 X2 Y X3 …

  3. A. Statistisch model voor meervoudige regressie • µy = 0 + 1 x bij enkelvoudige • µy = 0 + 1 x1 + 2 x2 + 3 x3 + …+ p xp bij meervoudige Dit is de populatie-regressievergelijking, op basis van steekproeven schatten

  4. VOORBEELD : voorspellen van succes in 1e kan informatica (y=totale score) op basis van resultaten humaniore wiskunde (x1), natuurwetenschappen (X2) en engels (X3). X1 X2 Y X3 µtotale score = 0 + 1wiskunde + 2natuurwet + 3engels

  5. De - waarden worden geschat op basis van de steekproef b0, b1, b2, b3, ….., bp Zijn schatters van de parameter 0 , 1,2,3, ….., p In dit voorbeeld zijn er voor elke proefpersoon 4 waarden nodig = 4 variabelen (kolommen) per proefpersoon : 3 OV en 1 AV

  6. WAARNEMING = AANPASSING + RESIDU • Op basis van kleinste kwadratenmethode de residuen zo klein mogelijk maken • RESIDU zijn de afwijkingen, de ruis, voorgesteld door Epsilon () die maken dat de waargenomen waarden niet op een rechte lijn liggen. • Residu = waargenomen – voorspelde reactie • De afwijkingen i worden verondersteld onafhankelijk te zijn met verwachting 0 en st.dev. 

  7. H0 : 1 = 2 = 3 = 4 = … p = 0 • Dan houden we in µy = 0 + 1 x1 + 2 x2 + 3 x3 + …+ p xp enkel µy = 0 over • Dat betekent dat de verwachting van y niet varieert met de verschillende xen, geen van de verklarende variabelen x is een voorspeller van y • Ha : j 0 voor tenminste één j • Dat betekent dat er ten minste één verklarende variabele x bij is, die lineair samenhangt met de te verklaren variabele y

  8. R2 is de meervoudige correlatiecoëfficiënt of de fractie van de variatie in de verklaarde variabele y die verklaard wordt door de verklarende variabelen x1, x2, x3, …, xp in een meervoudige lineaire regressie • De wortel R van R2 is de correlatie tussen de waarnemingen y en de voorspelde waarden y (op basis van b0 + b1 x1 + b2 x2 +… )

  9. Uitgewerkt voorbeeld : Voorspellen van totaalscore 1e kan op basis van de scores op wiskunde, wetenschap en engels

  10. Stap 1 : • Descriptive statistiek van afzonderlijke variabelen • Gemiddelde, stand.afw., minimum, maximum : zijn er extreme waarden, zijn er uitbijters ??? • Niet elke variabele apart moet normaal verdeeld zijn, wel de som

  11. Stap 2 : • Relaties tussen elke twee variabelen • Spreidingsdiagrammen en correlaties • Zeer hoge correlaties tussen OV moeten vermeden worden (wordt hetzelfde niet gemeten ?) • Niet significante correlatie tussen OV en AV betekent niet noodzakelijkerwijs dat deze OV geen nuttige (en significante) voorspeller kan zijn van de AV in een meervoudige regressie

  12. Stap 3 : • Regressie berekenen via Regression > Linear > dependent en indepent invullen • We krijgen een ANOVA tabel, en informatie over de schatting van de parameters • De ANOVA tabel geeft een toets van H0 : 1 = 2 = 3 = 4 = … p = 0 • Als F-waarde significant is : ten minste één van de drie regressiecoëfficiënten is verschillend van 0 F=19,7 p<0.001

  13. De waarde van R2 betekent het percentage van de waargenomen variatie in y die verklaard wordt door de lineaire regressie = .787 • Op basis van de parameter estimates kunnen we de vergelijking weer opstellen : Totaalscore = 3.189 + 0.522wiskunde – 0.121wetenschappen + 0.149 engels

  14. Deze aparte regressiecoëfficiënten worden getoetst met t-waarden. Significante t-waarden wijzen op predictoren die significant y voorspellen • In het voorbeeld enkel wiskunde die significant voorspelt t=5.01 p<0.001 • Twee andere predictoren voorspellen niet, vooral omwille van de hoge intercorrelatie met wiskunde=overlapping van voorspellende waarde • MAAR als we wiskunde weg laten : toch voorspellende waarde van engels (p<0.05)

  15. Bij multiple regressie : • Voorspellende waarde zeer sterk afhankelijk van welke predictoren • Weglaten van één of toevoegen geeft andere waarden voor alle parameters • Let op gemeenschappelijke variantie • Hoe meer onafhankelijk de OV van elkaar zijn, hoe meer ze elk op zich kunnen voorspellen

  16. Methoden van Multiple Regressie : • Enter : alle OV tegelijk in 1 model • Foreward : eerst OV met hoogste predictie dan toevoegen die meest • Backward : eerst alle OV in model dan weglaten die minst • Stepwise : analoog met Foreward maar telkens evaluatie van geheel

More Related