1.42k likes | 1.71k Views
Zpracov ání dat v ekologii společenstev. David Zelený. Osnova přednášky. Typy sbíraných dat kategoriální vs kvantitativní, pokryvnosti, frekvence Příprava dat pro numerické analýzy čištění dat, odlehlé body, transformace, standardizace, EDA Ekologick á podobnost
E N D
Zpracování datv ekologii společenstev David Zelený
Osnova přednášky • Typy sbíraných dat • kategoriální vs kvantitativní, pokryvnosti, frekvence • Příprava dat pro numerické analýzy • čištění dat, odlehlé body, transformace, standardizace, EDA • Ekologická podobnost • indexy podobnosti a vzdálenosti mezi vzorky • Ordinace • lineární vsunimodální, přímá vs nepřímá • Klasifikace • hierarchická vsnehierarchická, aglomerativnívsdivisivní • Regrese • zobecněné lineární modely, regresní a klasifikační stromy • Ellenbergovy indikační hodnoty • kalibrace • Indexy druhové bohatosti • alfa, beta a gammadiverzita, akumulační druhová křivka, rarefaction • Design ekologických experimentů • manipulativní experimenty vs přírodní experimenty (pozorování) • Případové studie na použití jednotlivých metod Zpracování dat v ekologii společenstev
Literatura Doporučená(najdetena bit.ly/zpradat v sekciStudijní materiály) • LepšJ. & Šmilauer P. (2001) Mnohorozměrná analýza ekologických dat • v anglické verzi vyšlo v nakladatelství Cambridge v roce 2003 jako MultivariateAnalysisofEcological Data using CANOCO • HerbenT. & Münzbergová Z. (2003) Zpracování geobotanických dat v příkladech. Část 1. Data o druhovém složení Pro fajnšmekry • WildiO. (2010) Data Analysis in VegetationEcology. Wiley-Blackwell. • GotelliN.J. & Ellison A.M. (2004) A Primer of Ecological Statistics. Sinauer Associates. • OksanenJ. (2004) MultivariateAnalysis in Ecology, Lecture Notes. • http://cc.oulu.fi/~jarioksa/opetus/metodi/notes.pdf • PalmerM. – Ordinationmethodsforecologists, website • http://ordination.okstate.edu/ • LegendreP. &Legendre L. (2012) NumericalEcology(ThirdEnglishEdition). Elsevier. Zpracování dat v ekologii společenstev
Software • CANOCO for Windows 4.5 – ordinační analýzy • CanoDrawfor Windows 4.0 – kreslení ordinačních diagramů a odpovědních křivek druhů • PC-ORD 5 – numerické klasifikace, ordinační analýzy, analýza odlehlých bodů • STATISTICA 9.0 – regrese, regresní a klasifikační stromy Kde co sehnat: • CANOCO, CanoDraw a PC-ORD – instalace z AVRUMELu nebo webových stránek předmětu (záložka Software) • STATISTICA – licenci je třeba získat po přihlášení na http://inet.sci.muni.cz v sekci Nabídka software Zpracování dat v ekologii společenstev
Další informace • Webové stránky předmětu: www.bit.ly/zpradat • přednášky, software, příklady ke cvičení, studijní materiály • některé sekce vyžadují přihlášení • Cvičení • probíhat bude v Bohunicích v druhé půlce semestru a zaměřené bude na analýzu dat v programu CANOCO a jejich vizualizaci v programu CanoDraw • tři čtyřhodinové bloky • v případě zájmu o program R je možné zapsat si souběžně předmět Analýza dat v ekologii společenstev v programu R (Bi7550) • Zkouška • vypracování závěrečné práce (pokyny viz webové stránky předmětu, sekce Závěrečná práce) • půlhodinová diskuze nad závěrečnou prací, doplněná o rozšiřující otázky týkající se probírané látky • možné dělat zároveň se zkouškou z předmětu Bi7550 Zpracování dat v ekologii společenstev
Typysbíraných datPříprava dat pro analýzy Zpracování dat v ekologii společenstev
Společenstvo je skupina druhů, které se vyskytují společně v prostoru a v čase. (Begon 2007) Data v ekologii společenstev • popisují společenstvo, případně i jeho prostředí • ekologická data obsahují více proměnných (multivariatedata) a dají se vyjádřit maticí dat (data matrix) • společenstvo je typicky sledováno na určité ploše (v případě rostlin a některých málo mobilních živočichů) nebo např. inventarizací jedinců (např. ulovených v pastech v případě mobilních živočichů) • složení živého společenstva je popsáno přítomností jednotlivých druhů daného typu organismů, na jedné ploše (v jedné pasti) se většinou vyskytuje více než jeden druh • prostředí je popisováno jednou nebo více proměnnými, o kterých se předpokládá, že ovlivňují studovaný typ organismů Zpracování dat v ekologii společenstev
Typy proměnných • Kategoriální (kvalitativní, nominální, prezenčně-absenční) • např. geologický substrát, půdní typy, binární proměnné (přítomnost-absence druhu) • kategorie jsou unikátní (každý jedinec/pozorování spadá právě do jedné z nich) a nelze je smysluplně seřadit • Ordinální (semikvantitativní) • např. Braun-Blanquetova stupnice pro odhad pokryvnosti druhů • jednotlivé stupně (kategorie) lze seřadit, rozdíly mezi stupni jsou různě velké • Kvantitativní • diskrétní (počty jedinců, měření s malou přesností) x kontinuální (přesná měření) • relativnístupnice (relative-scale) xintervalovástupnice(interval-scale) Zpracování dat v ekologii společenstev 0 0 30 intervalová stupnice – nula je stanovena arbitrárně relativní stupnice – nula znamená, že charakteristika chybí
Typy proměnnýchalternativní třídění Zpracování dat v ekologii společenstev Legendre& Legendre 1998
Primární data Zpracování dat v ekologii společenstev
Primární data Zpracování dat v ekologii společenstev
Primární data http://www.cggveritas.com/data//1/rec_imgs/5152_Tapes-small.jpg • Zadávání primárních dat • spreadsheet, metadata • Uchování a zpřístupnění primárních dat • problematika dlouhodobé archivace a nosičů dat (nejlepší je stále papír) • zpřístupnění primárních dat (některé časopisy to mají jako podmínku zveřejnění článku) • Kontrola a čištění dat • sloučení taxonomické nomenklatury • chyby a chybějící data (možnosti nahrazení chybějících dat) • analýza odlehlých bodů (outlieranalysis) • někdy i vyloučení vzácných druhů (odstranění šumu v datech) • EDA – exploratory data analysis Zpracování dat v ekologii společenstev
EDA – Exploratory Data Analysis • obecně: metoda pro odhalení různých vlastností dat (descriptionofpattern in data) • slouží také k tzv. „vytěžování“ dat (data mining, data dredging) – moderní, ale problematické metodě zpracování dat • věda založená na testování hypotéz vs. věda založená na vytěžování dat (hypothesis-drivenvs data-driven science) • grafická EDA slouží k • odhalení odlehlých bodů (outlieranalysis) • distribuce dat (normalita) a nutnost transformace • box-plot(krabicový graf) a histogram pro jednorozměrná data • scatterplot (bodový graf) pro dvou a vícerozměrná data John Tukey (1915-2000) Zpracování dat v ekologii společenstev
EDA – Exploratory Data Analysisanalýza odlehlých bodů – box-plot & histogram Zpracování dat v ekologii společenstev
EDA – Exploratory Data Analysisanalýza odlehlých bodů - scatterplot Zpracování dat v ekologii společenstev
Detaily ke krabicovým grafům (boxplot) Klasický boxplot (střední hodnota = medián) Definice odlehlých bodů a extrémů (STATISTICA) maximální hodnota Q3 – horní kvartil Q2 - medián Zpracování dat v ekologii společenstev Q1 – spodní kvartil minimální hodnota outlier
Příprava dat pro numerické analýzytransformace Transformace dat • mění relativní vzdálenosti mezi jednotlivými hodnotami a tím i tvar jejich distribuce Proč data transformovat? • protože škála měření je arbitrární a nemusí odpovídat ekologickému významu proměnné • deset prstů => používání desítkové soustavy • protože (některé) statistické testy vyžadují, aby data • byla normálně rozložená (normaldistribution) • měla homogenní varianci (homoskedasticita, mezi průměrem a směrodatnou odchylkou není žádný vztah) • protože lineární vztahy se interpretují lépe než vztahy nelineární Zpracování dat v ekologii společenstev
Příprava dat pro numerické analýzytransformace Na co si dát při transformaci pozor? • aby transformace rozložení dat ještě nezhoršila a nevytvořila nové odlehlé body • abychom při komentování výsledků používali netransformované hodnoty proměnných Typy transformace • lineární • přičtení konstanty nebo vynásobení konstantou • nemění výsledky statistického testování nulových hypotéz • např. převod teploty měřené ve stupních Celsia na stupně Fahrenheita • nelineární • log transformace, odmocninová transformace atd. • může změnit výsledky statistického testování Zpracování dat v ekologii společenstev
Rozdělení dat (data distribution) pozitivně (doprava) zešikmené* (rightskewed) symetrické (symetrical) Zpracování dat v ekologii společenstev negativně (doleva) zešikmené (leftskewed) * ekologická data jsou často zešikmená pozitivně (doprava), protože jsou omezená nulou na začátku
Příprava dat pro numerické analýzytransformace • Logaritmická transformace (log transformation) • pro data s výrazně pozitivně (doprava) šikmou distribucí (rightskewed), u kterých existuje vztah mezi směrodatnou odchylkou a průměrem (lognormální rozložení) Y* = log (Y), případně Y* = log (a*Y + c) • na základě logaritmu nezáleží (10, 2, e) • konstanta a = 1; pokud je Y z intervalu <0;1>, potoma > 1 • konstantac se přidává, pokud proměnná Y obsahuje nuly • c může být např. 1, nebo arbitrárně zvolené malé číslo (0,001) • na konstantě c může záležet výsledek analýz (ANOVA), a proto je dobré vybírat takové číslo, aby transformovaná proměnná byla co nejvíce symetrická Zpracování dat v ekologii společenstev zdroj: wikipedia.org
Příprava dat pro numerické analýzytransformace Odmocninová transformace (square-roottransformation) • vhodná pro mírně doprava zešikmená data (rightskewed), např. počty druhů (Poissondistribution) Y* = √ Y, případněY* = √ (Y+ c) • konstantac se přičítá, pokud soubor obsahuje nuly • c může být např. 0,5, nebo 3/8 (0,325) • třetí a vyšší odmocnina je účinnější na více zešikmená data (čtvrtá odmocnina se používá pro abundance druhů s mnoha nulami a několika vysokými hodnotami) Mocninná transformace (powertransformation) • vhodná pro data negativně (doleva) sešikmená (leftskewed) Y* = Yp • pokud p< 1 - odmocninová transformace (p = 0,5 – druhá odmocnina, p = 0,25 – čtvrtá odmocnina atd.) Zpracování dat v ekologii společenstev
Příprava dat pro numerické analýzytransformace odmocninová Zpracování dat v ekologii společenstev logaritmická Legendre& Legendre(1998)
Příprava dat pro numerické analýzytransformace Zpracování dat v ekologii společenstev Münch. Med. Wschr. 124, 1982
Příprava dat pro numerické analýzytransformace Transformace pomocí arcsin (angulartransformation) • vhodná pro procentické hodnoty (a obecně podíly) Y* = arcsin Y nebo Y* = arcsin√ Y • použitelná pro hodnoty v intervalu <-1; 1> • transformované hodnoty jsou v radiánech Reciproká transformace (reciprocaltransformation) • vhodná pro poměry (například výška/hmotnost, počet dětí v populaci na počet žen atd.) Y* = 1/Y Zpracování dat v ekologii společenstev
Příprava dat pro numerické analýzytransformace Box-Cox transformace (zobecněná mocniná transformace) • zobecněná parametrická transformace • iterativní hledání parametru λ (lambda), pro které je rozdělení transformované proměnné nejblíže normálnímu rozdělení • používá se v případě, že nemáme a priori představu, jakou transformaci použít Neparametrické metody transformace • např. metoda Omnibus pro ordinální data Zpracování dat v ekologii společenstev Legendre& Legendre 1998
Mají data normální rozdělení?grafická analýza Histogram s křivkou normálního rozdělení Q-Q diagram (Quantile-Quantile plot) • vizuální zhodnocení normality dat • Kolmogorovův-Smirnovův test • porovnání rozdělení dvou proměnných, vynáší proti sobě kvantily jednotlivých proměnných • jedna proměnná může být teoretická distribuce (v tomto případě normální rozdělení – rankitový diagram) • na stejném principu pracuje Shapiro-Wilk test Zpracování dat v ekologii společenstev
Mají data normální rozdělení?grafická analýza pozitivně zešikmené normální rozdělení negativně zešikmené Zpracování dat v ekologii společenstev
Bimodální data • transformace nepomůže, možnost rozdělit na dva podsoubory Zpracování dat v ekologii společenstev
Příprava dat pro numerické analýzystandardizace proměnných Centrování • výsledná proměnná má průměr roven nule Yi* = Yi – průměr (Y) Standardizace v úzkém slova smyslu • výsledná proměnná má průměr roven nule a směrodatnou odchylku rovnu jedné • „synchronizuje” proměnné měřené v různých jednotkách a na různých stupnicích Yi* = (Yi – průměr (Y)) / směrodatná odchylka (Y) Změna rozsahu hodnot (ranging) • výsledná proměnná je v rozsahu 0 až 1 Yi* = Yi / Ymax nebo Yi* = (Yi – Ymin) / (Ymax – Ymin) Zpracování dat v ekologii společenstev
Příprava dat pro numerické analýzystandardizace matice společenstva Standardizace v případě matice společenstva (vzorky x druhy) • standardizace podruzích (by species) • dává velkou váhu vzácným druhům • ne vždy smysluplná (pokud se druh vyskytuje vzácně v jednom snímku, standardizace po druzích dá tomuto snímku velkou váhu) • standardizace po vzorcích (by samples) • pokud je analýza zaměřená na relativní proporce mezi druhy, ne jejich absolutní abundance • vhodné v případě, že výsledné abundance závisí na důkladnosti, s jakou sbíráme data (např. při odchytu živočichů doba strávená na ploše nebo počet pastí) Zpracování dat v ekologii společenstev
Příprava dat pro numerické analýzystandardizace matice společenstva původní matice Zpracování dat v ekologii společenstev standardizace po druzích standardizace po vzorcích
Příprava dat pro numerické analýzy TRANSFORMACE STANDARDIZACE • matematická funkce, jejíž argumenty nejsou odvozené z dat, na která je transformace aplikovaná (data independent) • nejčastější důvod je změnit tvar rozložení proměnné, případně zajistit homoskedasticitu • mění data pomocí statistiky, která je spočtená na datech samotných, např. průměr, součet, rozsah aj. (data dependent) • nejčastější důvod použití je vyrovnat rozdíly v relativním významu (váze) jednotlivých ekologických proměnných, druhů nebo vzorků • ve své podstatě je to další typ transformace Zpracování dat v ekologii společenstev
Příprava dat pro numerické analýzykódování dat (data coding) • Dummy variables • metoda, jak převéstkvalitativní (kategoriální) proměnnou na kvantitativní (binární) proměnné použitelné v analýzách • pokud má kategoriální proměnná n stavů (hodnot), pro její vyjádření stačí n-1 dummy proměnných (jedna z proměnných je vždy lineárně závislá na ostatních) Zpracování dat v ekologii společenstev
Příprava dat pro numerické analýzykódování dat (data coding) • např. nahrazení kódů u alfa-numerických stupnic, např. Braun-Blanquetovy stupnice dominance-abundance • Br.-Bl.: r + 1 2 3 4 5 • ordinální hodnoty: 1 2 3 4 5 6 7 • střední hodnoty procent: 1 2 3 15 38 63 88 Zpracování dat v ekologii společenstev
Soubory s velkým počtem nul(aneb význam nuly v ekologii) • dva možné významy nuly: • hodnota může být ve skutečnosti nenulová, ale díky našim možnostem měření jsme ji naměřili jako nulovou (například koncentrace látky v roztoku) • hodnota je skutečná nula – například absence druhu • data obsahující „pravé nuly“ obsahují dva typy informace: • druh chybí nebo je přítomen? • pokud je druh přítomen, jaká je jeho abundance? • v datech obsahujících velké množství „pravých nul“ je většina informace prvního typu • problém „pravých“ nul při logaritmické transformaci – soubor s velkým počtem „pravých“ nul není vhodné logaritmicky transformovat (přičítat k nim konstantu c), ale lépe ji nahradit binární proměnnou (prezence-absence) Zpracování dat v ekologii společenstev
Matice„vzorky × druhy“v ekologiispolečenstev(sparse matrix, řídká matice) více než 90% hodnottvoří nuly, u velkých souborů až 99% Zpracování dat v ekologii společenstev vzorky druhy
Ekologická podobnost(EcologicalResemblance) Zpracování dat v ekologii společenstev
Ekologická podobnost Zpracování dat v ekologii společenstev
Ekologická podobnost Zpracování dat v ekologii společenstev
Ekologická podobnost Q vs R analýza vztahy mezi vzorky Q analýza Zpracování dat v ekologii společenstev vztahy mezi druhy (nebo obecně mezideskriptory) R analýza
Podobnosti x vzdálenosti(Q analýza) Indexy podobnosti • slouží k vyjádření podobnosti mezi vzorky, ne k jejich umístění do mnohorozměrného prostoru (například ordinace) • nejnižší hodnota 0 – vzorky nesdílejí žádný druh • nejvyšší hodnota (1 nebo jiná) – vzorky jsou identické Vzdálenosti mezi vzorky • slouží k umístění vzorků v mnohorozměrném prostoru • nejnižší hodnota 0 – vzorky jsou identické (ve stejné lokaci) • hodnota se zvyšuje se zvyšující se nepodobností mezi vzorky Zpracování dat v ekologii společenstev
Indexy podobnosti kvalitativní vs kvantitativní • kvalitativní – pro presenčně-absenční data • kvantitativní – pro data vyjadřující abundance, počty aj. symetrické vs asymetrické • dvojité nepřítomnosti („double-zero“) – počet druhů, které chybí zároveň v obou vzorcích, v kontrastu s počtem druhů které se vyskytují zároveň v obou vzorcích • symetrické – dvojité nepřítomnosti hodnotí stejně jako dvojité přítomnosti (totiž že vyjadřují podobnost mezi vzorky); v ekologii se prakticky nepoužívají • asymetrické – dvojité nepřítomnosti ignorují; nejčastější typ indexů podobnosti v ekologii Zpracování dat v ekologii společenstev
Problém dvojitých nepřítomností (double-zeros) Skutečnost, že druh chybí zároveň v obou snímcích, může znamenat, že: • vzorky leží mimo ekologickou niku druhu • nemůžeme ale říci, zda oba vzorky leží na stejné straně ekologického gradientu mimo niku druhu (a jsou sitedy docela podobné) nebo na stranách opačných (a jsou pak úplně odlišné) • vzorky leží uvnitř ekologické niky druhy, ale druh se ve vzorku nevyskytuje, protože • se tam nedostal (dispersallimitation) • jsme ho přehlédli a nezaznamenali (samplingbias) • nachází se právě v dormantním stadiu a není proto vidět (jednoletky, geofyty) Zpracování dat v ekologii společenstev
Problém dvojitých nepřítomností (double-zeros) • vzorky 1 až 3 jsou seřazeny podle vlhkosti stanoviště – vzorek 1 je nejvlhčí, vzorek 3 nejsušší • vzorek 1 a 3 neobsahují ani jeden mezický druh – vzorek 1 je pro tyto druhy příliš vlhký, vzorek 3 příliš suchý • symetrické indexy podobnosti: dvojitá nepřítomnost mezických druhů bude zvyšovat podobnost vzorků 1 a 3 • asymetrické indexy: dvojité nepřítomnosti budou ignorovány Zpracování dat v ekologii společenstev
Indexy podobnosti pro kvalitativní data a – počet druhů přítomných v obou vzorcích b, c – počet druhů přítomných jen v jednomvzorku d – počet druhů, které chybí v obou vzorcích („double zeros“) Zpracování dat v ekologii společenstev Pokud nebereme v úvahu druhy nepřítomné v obou vzorcích (d), lze zobrazit i pomocí Vennova diagramu c a b vzorek č. 1 vzorek č. 2
Indexy podobnosti pro kvalitativní data • Jaccardův koeficient J = a / (a + b + c) • Sørensenův koeficient S = 2a / (2a + b + c) • přítomnosti druhu v obou vzorcích (a) přisuzuje dvojnásobnou váhu • Simpsonův koeficient Si = a / [a + min (b,c)] • vhodný pro vzorky velmi odlišné počtem druhů Zpracování dat v ekologii společenstev c a b vzorek č. 1 vzorek č. 2
Indexy podobnosti pro kvantitativní data • např. zobecněný Sørensenův koeficient (procentická podobnost, percentagesimilarity) PS = [2 Σ min (xi, yi)] / Σ (xi + yi) • xi, yi ... kvantitai-tého druhu ve srovnávaných vzorcích • má rozsah od 0 do 1 • pro presenčně absenční data přechází v 2a / (2a + b + c) • velmi vhodný pro ekologická data • percentagedissimilarity (PD, Bray-Curtis index) = 1 – PS Zpracování dat v ekologii společenstev
Vzdálenosti mezi vzorky (distance measures) • všechny indexy podobnosti (kvalitativní i kvantitativní) lze převést na distance D = 1 – S, nebo D = √ (1 – S) • kde D je vzdálenost (distance) a S je podobnost (similarity) • odmocninový převod se používá například pro Sørensenův koeficient • neplatí obráceně (ne všechny vzdálenosti se dají převést na podobnosti – např. Euklidovská vzdálenost) Zpracování dat v ekologii společenstev
Vzdálenosti mezi vzorky (distance measures) • Euklidovská vzdálenost (Euclidean distance) ED = √ Σ (xi – yi)2 • rozsah: od 0 (identické vzorky), horní mez není dána • rozsah hodnot výrazně záleží na použitých jednotkách • míra citlivá na odlehlé body - nevhodná pro ekologická data • tětivová vzdálenost (chord distance, relativizedEuclidean distance) • Euklidovská vzdálenost použitá na datech standardizovaných přes vzorky (by sample norm) • rozsah: od 0 (identické vzorky) do √2 (vzorky nesdílí žádný druh) • Chi-kvadrát vzdálenost (chi-square distance) • málokdy se používá přímo na výpočet vzdálenosti mezi vzorky • vyjadřuje vzdálenost mezi vzorky v unimodálních ordinačních metodách (např. v korespondenční analýze, CA) Zpracování dat v ekologii společenstev
Euklidovská vzdálenostparadox • může se stát, že dva vzorky, které sdílejí některé druhy (vzorky 1 a 3), budou mít větší vzdálenost než dva vzorky, které nesdílí ani jeden druh (vzorky 1 a 2) Eucl (vzorek1, vzorek 2) = √ (0-1)2 + (1-0)2 + (1-0)2 = 1,732 Eucl (vzorek 1, vzorek 3) = √ (0-0)2 + (1-4)2 + (1-4)2 = 4,243 Zpracování dat v ekologii společenstev 1,732 4,243