1 / 26

Gegevensverwerving en verwerking

Gegevensverwerving en verwerking. Bibliotheek. Staalname. - aantal stalen/replicaten - grootte staal - apparatuur. Statistiek. - beschrijvend - variantie-analyse - correlatie - regressie - ordinatie - classificatie. Experimentele setup.

holly
Download Presentation

Gegevensverwerving en verwerking

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gegevensverwerving enverwerking Bibliotheek Staalname - aantal stalen/replicaten - grootte staal - apparatuur Statistiek - beschrijvend - variantie-analyse - correlatie - regressie - ordinatie - classificatie Experimentele setup Websites : www.statsoft.com => electronic statistic textbook allserv.rug.ac/ ~katdhond/ => reservatie PC zalen / ~gdsmet/MarBiolwebsite/ => lesnota’s

  2. Eenvoudige lineaire regressie Y = a + bX Vergelijking van een rechte : => residuelen zo klein mogelijk houden bij bepalen van a en b door de METHODE van de KLEINSTE KWADRATEN SSregr. SSY SSres Volgt bij benadering een F-distributie met 1 en n-2 vrijheidsgraden indien b=0 Regressie is significant Dus indien F > F tabel => SSregr. R² = -------- SSY R² geeft weer hoeveel % variatie in Y kan worden toegeschreven aan een lineaire relatie met X. De overige variatie is willekeurig.

  3. Voorwaarden : (zelfde als bij parametrische testen => F-test en t-test - alle variabelen zijn normaal verdeeld - er zijn geen residuele uitbijters => residuele analyse * e is een willekeurige variabele met een constante variantie * e ‘s zijn onderling onafhankelijk * e’s zijn normaal verdeeld. => op zoek naar uitbijters : sterke impact op regressielijn - wanneer e > gemiddelde e waarde ± 3 SD - ‘deleted residual’ = residuele van een waarneming, indien deze niet in de analyse zou zijn inbegrepen plot van residuelen tov ‘deleted residuals’

  4. Test van residuelen

  5. Voorbeeld : eenvoudige lineaire regressie

  6. Correlations (regvb1.sta) SALINITY SEDIMENT PH NUTR_ LICHT TEMP POROSITE DIATOMS SALINITY 1.000000 .052237 .100864 .369392 -.022323 -.174269 .126697 -.644688 SEDIMENT .052237 1.000000 .150468 .375451 -.658402 -.351110 .943332 -.182531 PH .100864 .150468 1.000000 -.091243 .013030 -.130438 .259497 .053407 NUTR_ .369392 .375451 -.091243 1.000000 -.760288 -.110341 .279120 -.729264 LICHT -.022323 -.658402 .013030 -.760288 1.000000 .314903 -.560574 .520268 TEMP -.174269 -.351110 -.130438 -.110341 .314903 1.000000 -.347578 .046892 POROSITE .126697 .943332 .259497 .279120 -.560574 -.347578 1.000000 -.198859 DIATOMS -.644688 -.182531 .053407 -.729264 .520268 .046892 -.198859 1.000000

  7. Y as X as

  8. Regression Summary for Dependent Variable: DIATOMS R= .64468754 R²= .41562202 Adjusted R²= .39397839 F(1,27)=19.203 p<.00016 Std.Error of estimate: 5.0560 St. Err. St. Err. BETA of BETA B of B t(27) p-level Intercpt 32.70604 2.374576 13.77342 .000000 SALINITY-.644688 .147118 -.40048 .091389 -4.38212 .000160 Besluit: 41.5 % van variatie in aantal diatomeeën wordt verklaard door saliniteit. Daar p <0.05 kan de regressielijn gezien worden als een betrouwbare schatting diat. = 32.7 - -0.40048 saliniteit. => model , voorspellingen ????

  9. Multiple lineaire regressie Twee of meer (k) onafhankelijke variabelen Y = a + b1X1+ b2X2+…….bkXk Vergelijking : Licht X1 temperatuurX2 nutrientenXk…….. Groei Y Onafhankelijke Afhankelijke variabelen

  10. Y = a + bX a en b zijn parameters of constanten a = waarde van Y als X = 0 ; = snijpunt Y as b = aantal eenheden dat Y verandert als X met één eenheid verandert; = helling of REGRESSIE-COEFFICIENT Y = a + b1X1+ b2X2+…….bkXk b1 = verwachte verandering in Y wanneer X1 met één eenheid verandert terwijl X2 constant is b2 =idem voor X2 met X1 constant => PARTIËLE REGRESSIE-COËFFICIENTEN

  11. Gestandardiseerde partiële regressie-coëfficienten , ’s Y en Xen uitgedrukt in verschillende eenheden=> a en b’s onderling niet vergelijkbaar. Daarom Y en Xen gestandardiseerd (naar dezelfde éénheid-variantie) ==> afgeleide regressie-coëfficienten zijn een maat voor relatief belang van elke onafhankelijke variabele op de afhankelijke variabele. =0 Y = 1X1+ 2X2+……. kXk

  12. Beperkingen - meer data dan onafhankelijke variabelen (10 tot 20 maal) - de onafhankelijke variabelen mogen niet overlappend zijn (‘redundancy’) Tolerantie-waarde : 1-R² R² van de regressie met één bepaalde onafhankelijke variabele als afhankelijke variabele, en de overige onafhankelijke variabelen als onafhankelijke variabelen Hoe kleiner de tolerantie-waarde, hoe meer overlap er is tussen deze variabele met de overige onafhankelijke variabelen. => aanvaardbaar minimum van 0.01 => er is een overlap van 99%

  13. Betrouwbaarheid van de schatting : ANOVA : F-test => totale significantie t-test => partiële significantie standard error van de schatting R² ratio (aangepast naar aantal vrijheidsgraden) => neemt aantal waarnemingen en aantal onafhankelijke variabelen in rekening = betere maat voor de variatie verklaard door de regressie dan R²

  14. t-test => partiële significantie t-test kan grebruikt worden om na te gaan of b=0 In geval van één onafhankelijke variabele is t-test gelijk aan F-test meer partiële significantie test voor elke onafhankelijke variabele apart t =(geschatte b - verwachte b) / SEb H0 b=0 Deze t waarde wordt vergeleken met een getabelleerde t-waarde van een Student’s t distributie met n-2 vrijheidsgraden. Indien t > t (tabel) => b is niet gelijk aan 0 => sigificante bijdrage van X < b is gelijk aan 0 => geen significante bijdrage van X

  15. Selectie van de onafhankelijke variabelen : Stel groot aantal potentiële onafhankelijke variabelen => welke set van onafhankelijke variabelen geeft de beste voorspelling van Y? Voorwaartse selectie => F to enter Achterwaartse selectie => F to remove (al of niet stapsgewijze selectie) Diverse strategieën : Selectie-criteria: t-waarde tolerantie > 0.1 Voorwaarts : => selectie van de beste predictor (grootste F waarde) => vervolgens wordt de volgende onafhankelijke variabele geselecteerd die de F waarde het meest verhoogt; enzovoort to de selectie criteria niet langer voldaan zijn.

  16. Voorbeeld : multiple lineaire regressie

  17. Regression Summary for Dependent Variable: DIATOMS R= .88777217 R²= .78813943 Adjusted R²= .71751924 F(7,21)=11.160 p<.00001 Std.Error of estimate: 3.4519 St. Err. St. Err. BETA of BETA B of B t(21) p-level Intercpt 22.78330 28.83626 .79009 .438305 SALINITY -.578521 .139680 -.35938 .08677 -4.14177 .000463 SEDIMENT .619084 .364097 .00195 .00115 1.70033 .103833 PH .074262 .109559 2.49195 3.67641 .67782 .505284 NUTR_ -.196053 .217156 -.12619 .13977 -.90282 .376860 LICHT .595125 .238061 .15819 .06328 2.49988 .020784 TEMP -.175460 .116450 -.39707 .26353 -1.50674 .146772 POROSITE -.401487 .352781 -.00005 .00005 -1.13806 .267913 Analysis of Variance; DV: DIATOMS (regvb1.sta) Sums of Mean Squares df Squares F p-level Regress. 930.866 7 132.9808 11.16026 .000008 Residual 250.227 21 11.9156 Total 1181.092

  18. Regression Summary for Dependent Variable: DIATOMS R= .87965612 R²= .77379490 Adjusted R²= .72461987 F(5,23)=15.736 p<.00000 Std.Error of estimate: 3.4082 St. Err. St. Err. BETA of BETA B of B t(23) p-level Intercpt 38.94460 12.81984 3.03784 .005846 NUTR_ -.139007 .204388 -.08947 .13155 -.68011 .503222 SALINITY -.624841 .128609 -.38815 .07989 -4.85844 .000066 LICHT .621241 .233754 .16513 .06213 2.65767 .014064 SEDIMENT .245783 .140607 .00077 .00044 1.74802 .093800 TEMP -.186670 .114585 -.42244 .25931 -1.62909 .116915 Voorwaartse selectie Regression Summary for Dependent Variable: DIATOMS R= .81954882 R²= .67166026 Adjusted R²= .64640336 F(2,26)=26.593 p<.00000 Std.Error of estimate: 3.8620 St. Err. St. Err. BETA of BETA B of B t(26) p-level Intercpt 23.04245 2.809975 8.20023 .000000 SALINITY -.633389 .112404 -.39346 .069825 -5.63491 .000006 LICHT .506128 .112404 .13453 .029878 4.50275 .000125 Achterwaartse selectie

  19. Tolerantie waarde : 1 – R² Redundancy of Independent Variables; DV: DIATOMS (regvb1.sta) R-square column contains R-square of respective variable with all other independent variables Partial Semipart Toleran. R-square Cor. Cor. SALINITY .999502 .000498 -.741486 -.633231 LICHT .999502 .000498 .661920 .506002 PH .989593 .010407 .194202 .111279 NUTR_ .297700 .702300 -.353409 -.202506 POROSITE .672713 .327287 .351319 .201309 TEMP .872853 .127147 -.416310 -.238550 SEDIMENT .565097 .434903 .426678 .244491

  20. Regression Summary for Dependent Variable: DIATOMS R= .81954882 R²= .67166026 Adjusted R²= .64640336 F(2,26)=26.593 p<.00000 Std.Error of estimate: 3.8620 St. Err. St. Err. BETA of BETA B of B t(26) p-level Intercpt 23.04245 2.809975 8.20023 .000000 SALINITY-.633389 .112404 -.39346 .069825 -5.63491 .000006 LICHT .506128 .112404 .13453 .029878 4.50275 .000125 Diatom. = 23.04 –0.393sal. -+ 0.134 licht Analysis of Variance; DV: DIATOMS (regvb1.sta) Sums of Mean Squares df Squares F p-level Regress. 793.293 2 396.6464 26.59314 .000001 Residual 387.800 26 14.9154 Total 1181.092

  21. Residuelen normaal verdeeld ?

  22. Geen residuele uitbijters ??

  23. Gezien aan de assumpties is voldaan=> Besluit : - 64.6 % van de variatie in aantal diatomeeën wordt verklaard door de combinatie van licht en saliniteit. Adjusted R²= .64640336 • de regressie is significant (totaal F > Ftab • en partieel (t-testen) Diatom. = 23.04 –0.393sal. -+ 0.134 licht • het belang van beide onafhankelijke variabelen • is ongeveer even groot. BETA SALINITY-.633389 . LICHT .506128

  24. Bemerkingen : - Y vertoont willekeurige variatie X niet (of voldoende klein) : Model I X wel : Model II - stel geen lineaire relatie tussen X en Y => transformatie (indien intrinsiek lineair) => andere dan lineaire functie

More Related