1 / 21

Gegevensverwerving en verwerking

Gegevensverwerving en verwerking. Bibliotheek. Staalname. - aantal stalen/replicaten - grootte staal - apparatuur. Statistiek. - beschrijvend - variantie-analyse - correlatie - regressie - ordinatie - classificatie. Experimentele setup.

Download Presentation

Gegevensverwerving en verwerking

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gegevensverwerving enverwerking Bibliotheek Staalname - aantal stalen/replicaten - grootte staal - apparatuur Statistiek - beschrijvend - variantie-analyse - correlatie - regressie - ordinatie - classificatie Experimentele setup Websites : www.statsoft.com => electronic statistic textbook allserv.rug.ac/ ~katdhond/ => reservatie PC zalen / ~gdsmet/MarBiolwebsite/ => lesnota’s

  2. Licht temperatuur nutrienten …….. Groei voedselaanbod verstoring …….. densiteiten Onafhankelijke Afhankelijke variabelen Correlatie = graad van associatie tussen 2 variabelen Regressie = beschrijving van verband Impliceert geen causaal verband Impliceert geen afhankelijkheid

  3. Parametrisch of niet-parametrische testen Spearman rank Kendall’s rank Product-moment Als een gekende distributie (normale of Poisson) als model voor data frequentie distributie kan gebruikt worden Niet-parametrische testen die niet uitgaan van deze voorwaarden, zijn minder krachtig doordat ze niet alle aanwezige informatie gebruiken => RANKING In het geval van kleine stalen en geen normale distributie van de data zijnze echter krachtiger dan parametrische testen.

  4. Parametrisch of niet-parametrische testen Product-moment voor N koppels van waarnemingen(x1,y1)…(xi,yi)... (xN,yN) R is maat voor sterkte van lineair verband (zegt niets over vorm) R varieert tussen -1 en +1 De significantietest is afgeleid van een student-t distributie met N-2 df Nulhypothese “ R=0 => geen associatie” HO

  5. Parametrisch of niet-parametrische testen Product-moment Partiële correlatie-berekening aan de hand van R : = berekening van graad van associatie waarbij het mogelijke effect van een derde factor wordt geneutraliseerd. Voorbeeld : berekening van correlatie tussen factor X en factor Y waarbij het effect van factor Z (die ook gecorreleerd is met X) constant wordt gehouden X Y Z

  6. Partiële correlatie-berekening aan de hand van R : = berekening van graad van associatie waarbij het mogelijke effect van een derde factor wordt geneutraliseerd. RXY = 1 X Y X Z Y RXY = 1 RXY.ZW => 1 X Z V Y W

  7. Parametrisch of niet-parametrische testen Spearman rank Kendall’s rank Voorbeeld:

  8. Gegevensverwerving enverwerking Bibliotheek Staalname - aantal stalen/replicaten - grootte staal - apparatuur Statistiek - beschrijvend - variantie-analyse - correlatie - regressie - ordinatie - classificatie Experimentele setup Websites : www.statsoft.com => electronic statistic textbook allserv.rug.ac/ ~katdhond/ => reservatie PC zalen / ~gdsmet/MarBiolwebsite/ => lesnota’s

  9. Licht temperatuur nutrienten …….. Groei voedselaanbod verstoring …….. densiteiten Onafhankelijke Afhankelijke variabelen Correlatie = graad van verband Regressie = beschrijving van verband

  10. Lineaire regressie-analyse - nagaan van effecten van sommige variabelen op andere variabelen - relatie tussen variabelen beschrijven met een (lineaire) functie 2 soorten variabelen : Predictor of onafhankelijke variabelen (X) Respons of afhankelijke variabelen (Y) Hoe bepalen veranderingen in de onafhankelijke variabelen de waarden van de afhankelijke variabelen??? Type 1 : relatie tussen 2 variabelen kan beschreven worden door een rechte lijn = LINEAIRE REGRESSIE Y = a + bX Vergelijking van een rechte :

  11. Lineaire regressie-analyse Vergelijking van een rechte : Y = a + bX X = onafhankelijke variabelen Y = afhankelijke variabelen a en b zijn parameters of constanten Y = a2 +b2X b2 Y = a1 +b1X b1 a1 a2 1 1 a = waarde van Y als X = 0 ; = snijpunt Y as b = aantal eenheden dat Y verandert als X met één eenheid verandert; = helling

  12. Residuelen (e) Y = a + bX + e

  13. e= residuele = afwijking van de geobserveerde y-waarden van de voorspelde y waarden Residuelen (e) Y = a + bX + e M.a.w. Y kan maar gedeeltelijk voorspeld worden op basis van X omdat Y een ariatie vertoont tengevolge van ongekende willekeurige factoren Zelden een rechte lijn door alle data ==> compromis van best passende rechte => residuelen zo klein mogelijk houden bij bepalen van a en b

  14. => residuelen zo klein mogelijk houden bij bepalen van a en b door de METHODE van de KLEINSTE KWADRATEN = minimalisatie van de som van de gekwadrateerde residuelen Voor n koppels van observaties (x1 , y1 ) ...(xi , yi )...(xn , yn) met y1 = a + b x1 + e1en i = 1, …n De som van de kwadraten van de residuelen is dan : (y1 - a - b x1 )² Dus a en b worden nu zo berekend dat een zo klein mogelijke waarde voor S wordt bekomen

  15. => residuelen zo klein mogelijk houden bij bepalen van a en b door de METHODE van de KLEINSTE KWADRATEN = minimalisatie van de som van de gekwadrateerde residuelen (yi - a - b xi )² Dus a en b worden nu zo berekend dat een zo klein mogelijke waarde voor S wordt bekomen Totale populatie Y = a + b X ==>Schatting S minimaal door differentiaties van S naar a en b gelijk te stellen aan 0 waaruit a en b kunnen berekend worden met als resultaat : wordt dan of Met b’ de enige onbekende die moet berekend worden om een schatting van Y te bekomen

  16. Betrouwbare schatting Onbetrouwbare schatting ????????????

  17. Significantie-test : Maat voor betrouwbaarheid van schatting Gebaseerd op de splitsing van de som der kwadraten (SS) cfr ANOVA Y as Variatie tussen groepen (effect) Tot. var. Variatie binnen groepen (error) = geobserveerde Y waarde = voorspelde of geschatte Y waarde = gemiddelde Y waarde X as SSregr. SSY SSres SSY SSregr. SSres = +

  18. SSY = SSregr. + SSres Bron van variatie Vrijheidsgraden (df) Som kwadraten SS Gemiddelde kwadraten MS = SS/df Variantie s² = MS = SS / df Totaal n-1 Tussen 1 tgv Regressie MSregr Binnen n-2 Residuele S ² = SS / n-2 Vrijheidsgraden is aantal onafhankelijke eenheden om SS te bekomen Volgt bij benadering een F-distributie met 1 en n-2 vrijheidsgraden indien b=0 Regressie is significant Dus indien F > F tabel =>

  19. R² ratio: Maat voor % variatie verklaard door regressieid van schatting Y as = geobserveerde Y waarde = voorspelde of geschatte Y waarde = gemiddelde Y waarde X as SSY SSregr. SSres = + SSregr. SSres R² = -------- Indien =0 => R² = 1 >>0 => R²=>0 SSY R² geeft weer hoeveel % variatie in Y kan worden toegeschreven aan een lineaire relatie met X. De overige variatie is willekeurig.

  20. Standard error van de schatting = standard deviatie van de geobserveerde Y waarden van de voorspelde Y waarden = gemiddelde fout in de voorspelling van Y op basis van de regressie Standard error van b’ = schatting van de variantie van b’ Indien de schattingen van b’ van verschillende staalnamen normaal verdeeld zijn kunnen betrouwbaarheidsintervallen berekend worden voor b’. De nulhypothese dat b=0 kan dan getoetst worden aan de hand van een t-test. Standard error van a’ = schatting van de variantie van a’

More Related