300 likes | 537 Views
Tilastoanalyysien merkitys ekologiassa. Tavoitteena luonnosta tehtyjen havaintojen selittäminen: Teorian testaus ja hypoteesien muodostaminen Ilmiöt monimutkaisia, mahdollisia syy-seuraussuhteita monia, mahdollisia selittäjiä paljon
E N D
Tilastoanalyysien merkitys ekologiassa • Tavoitteena luonnosta tehtyjen havaintojen selittäminen: Teorian testaus ja hypoteesien muodostaminen • Ilmiöt monimutkaisia, mahdollisia syy-seuraussuhteita monia, mahdollisia selittäjiä paljon • Tilastollisen analyysin vuoksi emme ole kokonaan toisten subjektiivisen käsityksen varassa
Lineaarinen malli • Kuvaus siitä, miten eri tekijät (x1, x2 …xk) ovat vaikuttaneet yksilön i tulokseen yi • yi = bo + b1x1i +b2 x2i+…bk xki + ei • ei residuaali, jakautuu normaalisti • laskentamenetelmä tuottaa vakiokertoimet bo, b1 , b2 … bk niin että ei pienin mahdollinen • ennuste Yi = bo + b1x1i +b2 x2i+…bk xki
Anova-mallien oletukset • Tilastollinen mallittaminen ekologiassa edellyttää lähes aina normaalisuusoletusta • Residuaalien normaalisuus • Vakiovarianssi • (Havaintojen riippumattomuus) • (Mallin additiivisuus eli lineaarisuus)
Mitä tehdä ei-normaalille datalle? • Muunnokset toimivat usein jatkuville vasteille (Box-Cox) • Tärkeintä on miettiä biologisia syitä poikkeamalle • Ei-parametriset menetelmät eivät suositeltavia (mallinnusmahdollisuudet ja konservatiivisuus) • Frekvenssidatalle moniulotteisten taulukoiden analysointi
Box-Cox muunnos • Tuottaa jatkuvalle muuttujalle parhaan normaalisuuden eli etsii sopivan l:n • Tavallisimmat muunnokset neliöjuuri (l=0.5), logarimi (l=0), käänteisluku (l= -1) voidaan esittää yhtälöillä y* = (yl - 1)/l jos l erisuuri kuin 0 y* = log (y) jos l on 0
Lukumäärät • Havaitaan 0, 1, 2 … k yksilöä; k iso • Yksilöiden kokonaismäärät tuntemattomia • Yleensä suuri osa aineistosta 0 • Jakauma lähes aina vino (pitkä häntä) • Varianssi ei vakio - kasvu keskiarvon myötä • Neliöjuuri ja logaritmimuunnokset • Nollahavaintojen suuri määrä ongelma
Osuudet • Aineistona osuuksia esim. 5 yksilön poikkueesta selvisi 3 kpl aikuiseksi: 3/5=0.6 • Esitetään usein prosentteina, mutta silloin menetetään tieto kokonaismäärästä • Jakauma vino, jos osuudet usein lähellä nollaa tai ykköstä • Varianssi ei vakio: pienin varianssi kun osuus noin 1/2, suurin lähellä 0 ja 1 • Parannuskeinona arcsin muunnos
Moniluokkainen muuttuja • Tilanne sama kuin osuus-muuttujilla, mutta tulosvaihtoehtoja enemmän • esim. 25 seuratusta puusta 5 kuollut (20%) 10 sairaita (40%) ja 10 tervettä (40%) • usein samat tekijät selittävät koko ilmiön eli järkevä analysoida kaikkia luokkia kerralla • ei mahdollista ANOVA-menetelmillä
on/ei vasteet • Edellä osuudet voitiin suoraan laskea (tunnettiin montako monestako) • Toinen tapa esittää 2 tai moniluokkainen aineisto on lähteä yksilötason datasta • Helpompi huomioida jatkuvat selittäjät • esim. miten hyvin lisääntymistulos ja talveentumisaika selittää säilyikö talven yli
Yleistetty lineaarinen malli • Tavoitteena vasteen arvojen ymmärtäminen selittäjien avulla kuten ANOVA-malleissa • Selittäjien vakiokertoimet eli mallin lineaarisuus • Normaalijakaumaan pakottamisen sijaan todellinen jakauma vasteille ja virheille • Muunnoksen sijaan linkkifunktio vasteelle
Lukumäärä osuus (2 luokkaa) osuus (useita luokkia) on/ei-muotoinen yksilötieto Poisson Negatiinen binomijakauma Binomijakauma Multinomijakauma (Bernulli) Jakaumat
Linkkifunktio • lineaarinen osa Li = bo + b1x1i +b2 x2i+…bk xki • Linkkifunktio on yhteys vasteen odotusarvon (keskiarvon) ja mallin lineaarisen osan (selittäjien välillä) • Vasteen arvoja ei muunneta, vaan etsitään muunnos ENNUSTEELLE, niin että selittäjien osa säilyttää lineaarisuuden • Kanooninen linkki - eri jakaumille oletusarvoinen linkki, josta kannattaa tarkastelu aloittaa
Log-linkki • lukumäärille (Poisson ja Negbin) log-linkki • Li = log (ni) = > ni = e Li • ennusteet aina positiivisia • joskus vastena lkm per pinta-ala tai aika -> offset • esim. vaste n/t -> muunnos log(n) ja selittäjäksi offset=t (aina log(t))
Logit-linkki • OR=odds ratio riskisuhde pi/(1-pi) • logit (pi) = log (pi/(1-pi)) = log (OR) • osuuksille (Bin ja Mult) logit-linkki • Li = logit (pi) = > pi = e Li/ ( 1 + e Li ) • tulkinta mallissa: kun x kasvaa yhden yksikön, log(OR) kasvaa b yksikköä • Yli- tai alihajonta -> varianssiparametri mukaan
Miten yleistettyjä lineaarisia malleja käytännössä tehdään • Tilasto-ohjelmapaketit SAS, GLIM jne sisältävät valmiit proseduurit • SAS proc genmod käytetään harjoituksissa • Malli kuten GLM, lisäksi jakaumaoletus • Residuaalit muunnettuina normaaleiksi
Terminologiaa • yleistetty linearinen malli - lineaarinen malli • kontigenssitaulu • log-lineaarinen malli • logit-malli • logistinen regressio
Suurimman uskottavuuden menetelmästä • Lineaarisissa malleissa käytetään yleensä pienimmän neliösumman menetelmää (pns)- etsitään selittäjille kertoimet (parametri-arvot), jotka tuottavat pienimmän poikkeaman havaituista • Maximum likelihood menetelmä tuottaa parametriarvot, jotka tuottavat todennäköisimmin havaitun datan • maksimin etsintä laskennallisesti raskas
ML on yleisempi ja helpompi monimutkaisissa tapauksissa, laskennallisesti vaativampi • sopii myös ei-tasapainoiselle datalle • käytetään varianssikomponenttien ja yleistettyjen mallien yhteydessä lähes poikkeuksetta • REML on muunnos ML:sta; ero random-tekijöiden yhteydessä, tarkemmat estimaatit • REML ja ML tuottaavat samat parametriarvot pns kanssa (variansseissa eroa)
Uskottavuusosamäärätesti • Log likelihood test • Testauksessa hierarkiset mallit : mallien log likehood erotus jakautuu c2 jakauman mukaan vapausasteinaan vapauasteiden ero (deviance) • Mallin sopivuuden ja yksittäisten selittäjien testauksessa c2 testit • Muilta osin testaus kuten ANOVAssa
procgenmoddata=simo.sifo91; class alkup tausta; model pinfo=tausta alkup(tausta) pituus pit2 /dist=bin link=logit type1 type3 lrci aggregate=(tausta alkup pituus) dscale; estimate'villi vs laitos' tausta -11/exp; estimate'alk 2-5'alkup(tausta) 1 -10/exp; lsmeans tausta/cl; outputout=resi pred=pred resdev=resdev; run;
LR Statistics For Type 3 Analysis Chi- Source DF DF Square Pr > ChiSq TAUSTA 1 323 67.07 <.0001 ALKUP(T) 2 323 54.12 <.0001 PITUUS 1 323 6.24 0.0125 PIT2 1 323 4.52 0.0334
Contrast Estimate Results Chi Chi- Label Estimate Conf Lim Square Pr vi vs la 1.07 0.81 1.35 67.19 <.0001 Exp(vi-la) 2.93 2.26 3.79 alk 2-5 1.21 0.86 1.55 46.98 <.0001 Exp(alk 2-5)3.35 2.37 4.74 alk 2-6 0.36 0.09 0.63 7.17 0.0074 Exp(alk 2-6)1.43 1.10 1.87 alk 5-6 0.84 0.49 1.19 22.05 0.0001 Exp(alk 5-6)2.32 1.63 3.31
Miksi yleistetyt lineaariset mallit ovat tärkeitä ekologeille • Luotettavat, helposti ymmärrettävät tulokset • ANOVA-mallien tavoin yleistyvät toistomittauksille ja satunnaistekijöille • Monet tärkeät biologiset ilmiöt ovat luonteeltaan muuta kuin normaalisia • Tutkimus välttää näiden luonnollisten vasteiden käyttöä vanhojen tilastollisten rajoitteiden vuoksi