1 / 30

Tilastoanalyysien merkitys ekologiassa

Tilastoanalyysien merkitys ekologiassa. Tavoitteena luonnosta tehtyjen havaintojen selittäminen: Teorian testaus ja hypoteesien muodostaminen Ilmiöt monimutkaisia, mahdollisia syy-seuraussuhteita monia, mahdollisia selittäjiä paljon

pillan
Download Presentation

Tilastoanalyysien merkitys ekologiassa

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tilastoanalyysien merkitys ekologiassa • Tavoitteena luonnosta tehtyjen havaintojen selittäminen: Teorian testaus ja hypoteesien muodostaminen • Ilmiöt monimutkaisia, mahdollisia syy-seuraussuhteita monia, mahdollisia selittäjiä paljon • Tilastollisen analyysin vuoksi emme ole kokonaan toisten subjektiivisen käsityksen varassa

  2. Lineaarinen malli • Kuvaus siitä, miten eri tekijät (x1, x2 …xk) ovat vaikuttaneet yksilön i tulokseen yi • yi = bo + b1x1i +b2 x2i+…bk xki + ei • ei residuaali, jakautuu normaalisti • laskentamenetelmä tuottaa vakiokertoimet bo, b1 , b2 … bk niin että ei pienin mahdollinen • ennuste Yi = bo + b1x1i +b2 x2i+…bk xki

  3. Anova-mallien oletukset • Tilastollinen mallittaminen ekologiassa edellyttää lähes aina normaalisuusoletusta • Residuaalien normaalisuus • Vakiovarianssi • (Havaintojen riippumattomuus) • (Mallin additiivisuus eli lineaarisuus)

  4. Mitä tehdä ei-normaalille datalle? • Muunnokset toimivat usein jatkuville vasteille (Box-Cox) • Tärkeintä on miettiä biologisia syitä poikkeamalle • Ei-parametriset menetelmät eivät suositeltavia (mallinnusmahdollisuudet ja konservatiivisuus) • Frekvenssidatalle moniulotteisten taulukoiden analysointi

  5. Box-Cox muunnos • Tuottaa jatkuvalle muuttujalle parhaan normaalisuuden eli etsii sopivan l:n • Tavallisimmat muunnokset neliöjuuri (l=0.5), logarimi (l=0), käänteisluku (l= -1) voidaan esittää yhtälöillä y* = (yl - 1)/l jos l erisuuri kuin 0 y* = log (y) jos l on 0

  6. Lukumäärät • Havaitaan 0, 1, 2 … k yksilöä; k iso • Yksilöiden kokonaismäärät tuntemattomia • Yleensä suuri osa aineistosta 0 • Jakauma lähes aina vino (pitkä häntä) • Varianssi ei vakio - kasvu keskiarvon myötä • Neliöjuuri ja logaritmimuunnokset • Nollahavaintojen suuri määrä ongelma

  7. Osuudet • Aineistona osuuksia esim. 5 yksilön poikkueesta selvisi 3 kpl aikuiseksi: 3/5=0.6 • Esitetään usein prosentteina, mutta silloin menetetään tieto kokonaismäärästä • Jakauma vino, jos osuudet usein lähellä nollaa tai ykköstä • Varianssi ei vakio: pienin varianssi kun osuus noin 1/2, suurin lähellä 0 ja 1 • Parannuskeinona arcsin muunnos

  8. Moniluokkainen muuttuja • Tilanne sama kuin osuus-muuttujilla, mutta tulosvaihtoehtoja enemmän • esim. 25 seuratusta puusta 5 kuollut (20%) 10 sairaita (40%) ja 10 tervettä (40%) • usein samat tekijät selittävät koko ilmiön eli järkevä analysoida kaikkia luokkia kerralla • ei mahdollista ANOVA-menetelmillä

  9. on/ei vasteet • Edellä osuudet voitiin suoraan laskea (tunnettiin montako monestako) • Toinen tapa esittää 2 tai moniluokkainen aineisto on lähteä yksilötason datasta • Helpompi huomioida jatkuvat selittäjät • esim. miten hyvin lisääntymistulos ja talveentumisaika selittää säilyikö talven yli

  10. Yleistetty lineaarinen malli • Tavoitteena vasteen arvojen ymmärtäminen selittäjien avulla kuten ANOVA-malleissa • Selittäjien vakiokertoimet eli mallin lineaarisuus • Normaalijakaumaan pakottamisen sijaan todellinen jakauma vasteille ja virheille • Muunnoksen sijaan linkkifunktio vasteelle

  11. Lukumäärä osuus (2 luokkaa) osuus (useita luokkia) on/ei-muotoinen yksilötieto Poisson Negatiinen binomijakauma Binomijakauma Multinomijakauma (Bernulli) Jakaumat

  12. Linkkifunktio • lineaarinen osa Li = bo + b1x1i +b2 x2i+…bk xki • Linkkifunktio on yhteys vasteen odotusarvon (keskiarvon) ja mallin lineaarisen osan (selittäjien välillä) • Vasteen arvoja ei muunneta, vaan etsitään muunnos ENNUSTEELLE, niin että selittäjien osa säilyttää lineaarisuuden • Kanooninen linkki - eri jakaumille oletusarvoinen linkki, josta kannattaa tarkastelu aloittaa

  13. Log-linkki • lukumäärille (Poisson ja Negbin) log-linkki • Li = log (ni) = > ni = e Li • ennusteet aina positiivisia • joskus vastena lkm per pinta-ala tai aika -> offset • esim. vaste n/t -> muunnos log(n) ja selittäjäksi offset=t (aina log(t))

  14. Logit-linkki • OR=odds ratio riskisuhde pi/(1-pi) • logit (pi) = log (pi/(1-pi)) = log (OR) • osuuksille (Bin ja Mult) logit-linkki • Li = logit (pi) = > pi = e Li/ ( 1 + e Li ) • tulkinta mallissa: kun x kasvaa yhden yksikön, log(OR) kasvaa b yksikköä • Yli- tai alihajonta -> varianssiparametri mukaan

  15. Miten yleistettyjä lineaarisia malleja käytännössä tehdään • Tilasto-ohjelmapaketit SAS, GLIM jne sisältävät valmiit proseduurit • SAS proc genmod käytetään harjoituksissa • Malli kuten GLM, lisäksi jakaumaoletus • Residuaalit muunnettuina normaaleiksi

  16. Terminologiaa • yleistetty linearinen malli - lineaarinen malli • kontigenssitaulu • log-lineaarinen malli • logit-malli • logistinen regressio

  17. Suurimman uskottavuuden menetelmästä • Lineaarisissa malleissa käytetään yleensä pienimmän neliösumman menetelmää (pns)- etsitään selittäjille kertoimet (parametri-arvot), jotka tuottavat pienimmän poikkeaman havaituista • Maximum likelihood menetelmä tuottaa parametriarvot, jotka tuottavat todennäköisimmin havaitun datan • maksimin etsintä laskennallisesti raskas

  18. ML on yleisempi ja helpompi monimutkaisissa tapauksissa, laskennallisesti vaativampi • sopii myös ei-tasapainoiselle datalle • käytetään varianssikomponenttien ja yleistettyjen mallien yhteydessä lähes poikkeuksetta • REML on muunnos ML:sta; ero random-tekijöiden yhteydessä, tarkemmat estimaatit • REML ja ML tuottaavat samat parametriarvot pns kanssa (variansseissa eroa)

  19. Uskottavuusosamäärätesti • Log likelihood test • Testauksessa hierarkiset mallit : mallien log likehood erotus jakautuu c2 jakauman mukaan vapausasteinaan vapauasteiden ero (deviance) • Mallin sopivuuden ja yksittäisten selittäjien testauksessa c2 testit • Muilta osin testaus kuten ANOVAssa

  20. procgenmoddata=simo.sifo91; class alkup tausta; model pinfo=tausta alkup(tausta) pituus pit2 /dist=bin link=logit type1 type3 lrci aggregate=(tausta alkup pituus) dscale; estimate'villi vs laitos' tausta -11/exp; estimate'alk 2-5'alkup(tausta) 1 -10/exp; lsmeans tausta/cl; outputout=resi pred=pred resdev=resdev; run;

  21. LR Statistics For Type 3 Analysis Chi- Source DF DF Square Pr > ChiSq TAUSTA 1 323 67.07 <.0001 ALKUP(T) 2 323 54.12 <.0001 PITUUS 1 323 6.24 0.0125 PIT2 1 323 4.52 0.0334

  22. Contrast Estimate Results Chi Chi- Label Estimate Conf Lim Square Pr vi vs la 1.07 0.81 1.35 67.19 <.0001 Exp(vi-la) 2.93 2.26 3.79 alk 2-5 1.21 0.86 1.55 46.98 <.0001 Exp(alk 2-5)3.35 2.37 4.74 alk 2-6 0.36 0.09 0.63 7.17 0.0074 Exp(alk 2-6)1.43 1.10 1.87 alk 5-6 0.84 0.49 1.19 22.05 0.0001 Exp(alk 5-6)2.32 1.63 3.31

  23. Miksi yleistetyt lineaariset mallit ovat tärkeitä ekologeille • Luotettavat, helposti ymmärrettävät tulokset • ANOVA-mallien tavoin yleistyvät toistomittauksille ja satunnaistekijöille • Monet tärkeät biologiset ilmiöt ovat luonteeltaan muuta kuin normaalisia • Tutkimus välttää näiden luonnollisten vasteiden käyttöä vanhojen tilastollisten rajoitteiden vuoksi

More Related