160 likes | 582 Views
Meervoudige lineaire regressie. Statistiek in de Praktijk. Hoofdstuk 9 pp. 533 - 553. Enkelvoudige lineaire regressie (vorig jaar): 2 kwantitatieve variabelen : X is een verklarende variabele Y is een te verklaren variabele X Y
E N D
Meervoudige lineaire regressie Statistiek in de Praktijk. Hoofdstuk 9 pp. 533 - 553
Enkelvoudige lineaire regressie (vorig jaar): • 2 kwantitatieve variabelen : • X is een verklarende variabele • Y is een te verklaren variabele X Y • Meervoudige lineaire regressie : • Meer dan 2 kwantitatieve variabelen waarbij • Y is een te verklaren variabele • Meerdere verklarende variabelen X1 X2 Y X3 …
A. Statistisch model voor meervoudige regressie • µy = 0 + 1 x bij enkelvoudige • µy = 0 + 1 x1 + 2 x2 + 3 x3 + …+ p xp bij meervoudige Dit is de populatie-regressievergelijking, op basis van steekproeven schatten
VOORBEELD : voorspellen van succes in 1e kan informatica (y=totale score) op basis van resultaten humaniore wiskunde (x1), natuurwetenschappen (X2) en engels (X3). X1 X2 Y X3 µtotale score = 0 + 1wiskunde + 2natuurwet + 3engels
De - waarden worden geschat op basis van de steekproef b0, b1, b2, b3, ….., bp Zijn schatters van de parameter 0 , 1,2,3, ….., p In dit voorbeeld zijn er voor elke proefpersoon 4 waarden nodig = 4 variabelen (kolommen) per proefpersoon : 3 OV en 1 AV
WAARNEMING = AANPASSING + RESIDU • Op basis van kleinste kwadratenmethode de residuen zo klein mogelijk maken • RESIDU zijn de afwijkingen, de ruis, voorgesteld door Epsilon () die maken dat de waargenomen waarden niet op een rechte lijn liggen. • Residu = waargenomen – voorspelde reactie • De afwijkingen i worden verondersteld onafhankelijk te zijn met verwachting 0 en st.dev.
H0 : 1 = 2 = 3 = 4 = … p = 0 • Dan houden we in µy = 0 + 1 x1 + 2 x2 + 3 x3 + …+ p xp enkel µy = 0 over • Dat betekent dat de verwachting van y niet varieert met de verschillende xen, geen van de verklarende variabelen x is een voorspeller van y • Ha : j 0 voor tenminste één j • Dat betekent dat er ten minste één verklarende variabele x bij is, die lineair samenhangt met de te verklaren variabele y
R2 is de meervoudige correlatiecoëfficiënt of de fractie van de variatie in de verklaarde variabele y die verklaard wordt door de verklarende variabelen x1, x2, x3, …, xp in een meervoudige lineaire regressie • De wortel R van R2 is de correlatie tussen de waarnemingen y en de voorspelde waarden y (op basis van b0 + b1 x1 + b2 x2 +… )
Uitgewerkt voorbeeld : Voorspellen van totaalscore 1e kan op basis van de scores op wiskunde, wetenschap en engels
Stap 1 : • Descriptive statistiek van afzonderlijke variabelen • Gemiddelde, stand.afw., minimum, maximum : zijn er extreme waarden, zijn er uitbijters ??? • Niet elke variabele apart moet normaal verdeeld zijn, wel de som
Stap 2 : • Relaties tussen elke twee variabelen • Spreidingsdiagrammen en correlaties • Zeer hoge correlaties tussen OV moeten vermeden worden (wordt hetzelfde niet gemeten ?) • Niet significante correlatie tussen OV en AV betekent niet noodzakelijkerwijs dat deze OV geen nuttige (en significante) voorspeller kan zijn van de AV in een meervoudige regressie
Stap 3 : • Regressie berekenen via Regression > Linear > dependent en indepent invullen • We krijgen een ANOVA tabel, en informatie over de schatting van de parameters • De ANOVA tabel geeft een toets van H0 : 1 = 2 = 3 = 4 = … p = 0 • Als F-waarde significant is : ten minste één van de drie regressiecoëfficiënten is verschillend van 0 F=19,7 p<0.001
De waarde van R2 betekent het percentage van de waargenomen variatie in y die verklaard wordt door de lineaire regressie = .787 • Op basis van de parameter estimates kunnen we de vergelijking weer opstellen : Totaalscore = 3.189 + 0.522wiskunde – 0.121wetenschappen + 0.149 engels
Deze aparte regressiecoëfficiënten worden getoetst met t-waarden. Significante t-waarden wijzen op predictoren die significant y voorspellen • In het voorbeeld enkel wiskunde die significant voorspelt t=5.01 p<0.001 • Twee andere predictoren voorspellen niet, vooral omwille van de hoge intercorrelatie met wiskunde=overlapping van voorspellende waarde • MAAR als we wiskunde weg laten : toch voorspellende waarde van engels (p<0.05)
Bij multiple regressie : • Voorspellende waarde zeer sterk afhankelijk van welke predictoren • Weglaten van één of toevoegen geeft andere waarden voor alle parameters • Let op gemeenschappelijke variantie • Hoe meer onafhankelijk de OV van elkaar zijn, hoe meer ze elk op zich kunnen voorspellen
Methoden van Multiple Regressie : • Enter : alle OV tegelijk in 1 model • Foreward : eerst OV met hoogste predictie dan toevoegen die meest • Backward : eerst alle OV in model dan weglaten die minst • Stepwise : analoog met Foreward maar telkens evaluatie van geheel