Gegevensverwerving en verwerking

Gegevensverwerving enverwerking Bibliotheek Staalname - aantal stalen/replicaten - grootte staal - apparatuur Statistiek - beschrijvend - variantie-analyse - correlatie - regressie - ordinatie - classificatie Experimentele setup Websites : www.statsoft.com => electronic statistic textbook allserv.rug.ac/ ~katdhond/ => reservatie PC zalen / ~gdsmet/MarBiolwebsite/ => lesnota’s

Eenvoudige lineaire regressie Y = a + bX Vergelijking van een rechte : => residuelen zo klein mogelijk houden bij bepalen van a en b door de METHODE van de KLEINSTE KWADRATEN SSregr. SSY SSres Volgt bij benadering een F-distributie met 1 en n-2 vrijheidsgraden indien b=0 Regressie is significant Dus indien F > F tabel => SSregr. R² = -------- SSY R² geeft weer hoeveel % variatie in Y kan worden toegeschreven aan een lineaire relatie met X. De overige variatie is willekeurig.

Voorwaarden : (zelfde als bij parametrische testen => F-test en t-test - alle variabelen zijn normaal verdeeld - er zijn geen residuele uitbijters => residuele analyse * e is een willekeurige variabele met een constante variantie * e ‘s zijn onderling onafhankelijk * e’s zijn normaal verdeeld. => op zoek naar uitbijters : sterke impact op regressielijn - wanneer e > gemiddelde e waarde ± 3 SD - ‘deleted residual’ = residuele van een waarneming, indien deze niet in de analyse zou zijn inbegrepen plot van residuelen tov ‘deleted residuals’

Test van residuelen

Voorbeeld : eenvoudige lineaire regressie

Correlations (regvb1.sta) SALINITY SEDIMENT PH NUTR_ LICHT TEMP POROSITE DIATOMS SALINITY 1.000000 .052237 .100864 .369392 -.022323 -.174269 .126697 -.644688 SEDIMENT .052237 1.000000 .150468 .375451 -.658402 -.351110 .943332 -.182531 PH .100864 .150468 1.000000 -.091243 .013030 -.130438 .259497 .053407 NUTR_ .369392 .375451 -.091243 1.000000 -.760288 -.110341 .279120 -.729264 LICHT -.022323 -.658402 .013030 -.760288 1.000000 .314903 -.560574 .520268 TEMP -.174269 -.351110 -.130438 -.110341 .314903 1.000000 -.347578 .046892 POROSITE .126697 .943332 .259497 .279120 -.560574 -.347578 1.000000 -.198859 DIATOMS -.644688 -.182531 .053407 -.729264 .520268 .046892 -.198859 1.000000

Y as X as

Regression Summary for Dependent Variable: DIATOMS R= .64468754 R²= .41562202 Adjusted R²= .39397839 F(1,27)=19.203 p<.00016 Std.Error of estimate: 5.0560 St. Err. St. Err. BETA of BETA B of B t(27) p-level Intercpt 32.70604 2.374576 13.77342 .000000 SALINITY-.644688 .147118 -.40048 .091389 -4.38212 .000160 Besluit: 41.5 % van variatie in aantal diatomeeën wordt verklaard door saliniteit. Daar p <0.05 kan de regressielijn gezien worden als een betrouwbare schatting diat. = 32.7 - -0.40048 saliniteit. => model , voorspellingen ????

Multiple lineaire regressie Twee of meer (k) onafhankelijke variabelen Y = a + b1X1+ b2X2+…….bkXk Vergelijking : Licht X1 temperatuurX2 nutrientenXk…….. Groei Y Onafhankelijke Afhankelijke variabelen

Y = a + bX a en b zijn parameters of constanten a = waarde van Y als X = 0 ; = snijpunt Y as b = aantal eenheden dat Y verandert als X met één eenheid verandert; = helling of REGRESSIE-COEFFICIENT Y = a + b1X1+ b2X2+…….bkXk b1 = verwachte verandering in Y wanneer X1 met één eenheid verandert terwijl X2 constant is b2 =idem voor X2 met X1 constant => PARTIËLE REGRESSIE-COËFFICIENTEN

Gestandardiseerde partiële regressie-coëfficienten , ’s Y en Xen uitgedrukt in verschillende eenheden=> a en b’s onderling niet vergelijkbaar. Daarom Y en Xen gestandardiseerd (naar dezelfde éénheid-variantie) ==> afgeleide regressie-coëfficienten zijn een maat voor relatief belang van elke onafhankelijke variabele op de afhankelijke variabele. =0 Y = 1X1+ 2X2+……. kXk

Beperkingen - meer data dan onafhankelijke variabelen (10 tot 20 maal) - de onafhankelijke variabelen mogen niet overlappend zijn (‘redundancy’) Tolerantie-waarde : 1-R² R² van de regressie met één bepaalde onafhankelijke variabele als afhankelijke variabele, en de overige onafhankelijke variabelen als onafhankelijke variabelen Hoe kleiner de tolerantie-waarde, hoe meer overlap er is tussen deze variabele met de overige onafhankelijke variabelen. => aanvaardbaar minimum van 0.01 => er is een overlap van 99%

Betrouwbaarheid van de schatting : ANOVA : F-test => totale significantie t-test => partiële significantie standard error van de schatting R² ratio (aangepast naar aantal vrijheidsgraden) => neemt aantal waarnemingen en aantal onafhankelijke variabelen in rekening = betere maat voor de variatie verklaard door de regressie dan R²

t-test => partiële significantie t-test kan grebruikt worden om na te gaan of b=0 In geval van één onafhankelijke variabele is t-test gelijk aan F-test meer partiële significantie test voor elke onafhankelijke variabele apart t =(geschatte b - verwachte b) / SEb H0 b=0 Deze t waarde wordt vergeleken met een getabelleerde t-waarde van een Student’s t distributie met n-2 vrijheidsgraden. Indien t > t (tabel) => b is niet gelijk aan 0 => sigificante bijdrage van X < b is gelijk aan 0 => geen significante bijdrage van X

Selectie van de onafhankelijke variabelen : Stel groot aantal potentiële onafhankelijke variabelen => welke set van onafhankelijke variabelen geeft de beste voorspelling van Y? Voorwaartse selectie => F to enter Achterwaartse selectie => F to remove (al of niet stapsgewijze selectie) Diverse strategieën : Selectie-criteria: t-waarde tolerantie > 0.1 Voorwaarts : => selectie van de beste predictor (grootste F waarde) => vervolgens wordt de volgende onafhankelijke variabele geselecteerd die de F waarde het meest verhoogt; enzovoort to de selectie criteria niet langer voldaan zijn.

Voorbeeld : multiple lineaire regressie

Regression Summary for Dependent Variable: DIATOMS R= .88777217 R²= .78813943 Adjusted R²= .71751924 F(7,21)=11.160 p<.00001 Std.Error of estimate: 3.4519 St. Err. St. Err. BETA of BETA B of B t(21) p-level Intercpt 22.78330 28.83626 .79009 .438305 SALINITY -.578521 .139680 -.35938 .08677 -4.14177 .000463 SEDIMENT .619084 .364097 .00195 .00115 1.70033 .103833 PH .074262 .109559 2.49195 3.67641 .67782 .505284 NUTR_ -.196053 .217156 -.12619 .13977 -.90282 .376860 LICHT .595125 .238061 .15819 .06328 2.49988 .020784 TEMP -.175460 .116450 -.39707 .26353 -1.50674 .146772 POROSITE -.401487 .352781 -.00005 .00005 -1.13806 .267913 Analysis of Variance; DV: DIATOMS (regvb1.sta) Sums of Mean Squares df Squares F p-level Regress. 930.866 7 132.9808 11.16026 .000008 Residual 250.227 21 11.9156 Total 1181.092

Regression Summary for Dependent Variable: DIATOMS R= .87965612 R²= .77379490 Adjusted R²= .72461987 F(5,23)=15.736 p<.00000 Std.Error of estimate: 3.4082 St. Err. St. Err. BETA of BETA B of B t(23) p-level Intercpt 38.94460 12.81984 3.03784 .005846 NUTR_ -.139007 .204388 -.08947 .13155 -.68011 .503222 SALINITY -.624841 .128609 -.38815 .07989 -4.85844 .000066 LICHT .621241 .233754 .16513 .06213 2.65767 .014064 SEDIMENT .245783 .140607 .00077 .00044 1.74802 .093800 TEMP -.186670 .114585 -.42244 .25931 -1.62909 .116915 Voorwaartse selectie Regression Summary for Dependent Variable: DIATOMS R= .81954882 R²= .67166026 Adjusted R²= .64640336 F(2,26)=26.593 p<.00000 Std.Error of estimate: 3.8620 St. Err. St. Err. BETA of BETA B of B t(26) p-level Intercpt 23.04245 2.809975 8.20023 .000000 SALINITY -.633389 .112404 -.39346 .069825 -5.63491 .000006 LICHT .506128 .112404 .13453 .029878 4.50275 .000125 Achterwaartse selectie

Tolerantie waarde : 1 – R² Redundancy of Independent Variables; DV: DIATOMS (regvb1.sta) R-square column contains R-square of respective variable with all other independent variables Partial Semipart Toleran. R-square Cor. Cor. SALINITY .999502 .000498 -.741486 -.633231 LICHT .999502 .000498 .661920 .506002 PH .989593 .010407 .194202 .111279 NUTR_ .297700 .702300 -.353409 -.202506 POROSITE .672713 .327287 .351319 .201309 TEMP .872853 .127147 -.416310 -.238550 SEDIMENT .565097 .434903 .426678 .244491

Regression Summary for Dependent Variable: DIATOMS R= .81954882 R²= .67166026 Adjusted R²= .64640336 F(2,26)=26.593 p<.00000 Std.Error of estimate: 3.8620 St. Err. St. Err. BETA of BETA B of B t(26) p-level Intercpt 23.04245 2.809975 8.20023 .000000 SALINITY-.633389 .112404 -.39346 .069825 -5.63491 .000006 LICHT .506128 .112404 .13453 .029878 4.50275 .000125 Diatom. = 23.04 –0.393sal. -+ 0.134 licht Analysis of Variance; DV: DIATOMS (regvb1.sta) Sums of Mean Squares df Squares F p-level Regress. 793.293 2 396.6464 26.59314 .000001 Residual 387.800 26 14.9154 Total 1181.092

Residuelen normaal verdeeld ?

Geen residuele uitbijters ??

Gezien aan de assumpties is voldaan=> Besluit : - 64.6 % van de variatie in aantal diatomeeën wordt verklaard door de combinatie van licht en saliniteit. Adjusted R²= .64640336 • de regressie is significant (totaal F > Ftab • en partieel (t-testen) Diatom. = 23.04 –0.393sal. -+ 0.134 licht • het belang van beide onafhankelijke variabelen • is ongeveer even groot. BETA SALINITY-.633389 . LICHT .506128

Bemerkingen : - Y vertoont willekeurige variatie X niet (of voldoende klein) : Model I X wel : Model II - stel geen lineaire relatie tussen X en Y => transformatie (indien intrinsiek lineair) => andere dan lineaire functie

Gegevensverwerving en verwerking