250 likes | 415 Views
Klasifikace. Míry podobnosti Klastrová analýza Metoda TWINSPAN. Míry podobnosti I.
E N D
Klasifikace Míry podobnosti Klastrová analýza Metoda TWINSPAN
Míry podobnosti I. • Míry podobnosti (similarity measures, též resemblance functions) komplementárník mírám nepodobnosti (dissimilarity m.), nazývaným i jako vzdálenosti (distances):D = 1 – S nebo D = √(1 – S) nebo D = √(1 – S2) • Každá ordinační nebo klasifikační mnohorozměrná metoda založena na nějaké míře podobnosti (explicitně nebo je možné míru podobnosti zvolit) • Dualita zadání ordinačních metod
Míry podobnosti II. • V případě dat popisujících složení společenstva (řádky jsou vzorky, sloupce druhy) můžeme porovnávat vzorky (podobnost vzorků, sample similarity) nebo druhy (species similarity) • Zásadní rozdíl v těchto dvou typech podobností: • Podobnosti vzorků jsou založeny na kompletním výčtu druhů dané kategorie organismů (vyšší kytky, hmyz) –s výjimkou přehlédnutých • Podobnosti mezi druhy jsou závislé na vzorkované škále, druhy se vyskytují v širším rozsahu podmínek a v širším geografickém rozsahu • Podobnosti vzorků i druhů lze počítat z prezenčních i z kvantitativních dat, pro obojí existuje mnoho typů
Míry podobnosti III. • Existují jich desítky až stovky, zde si ukážeme jen nejvýznamnější zástupce
Podobnost vzorků, 0/1 data • Sørensen-ův koef.S = 2a / (2a +b+c) • Jaccard-ův koef.J = a / (a + b + c) d: počet druhů chybících v obou srovnávaných vzorcích (většinou se nepoužije)
Podobnost druhů, 0/1 data • Pearson’s f (= V) • Yule koeficient Q d: počet vzorků, ve kterých chybí obadruhy– většinou je třeba vzít v úvahu!
Míry podobnostipro kvantitativní data • Kvantitativní data obsahují více informací než 0-1 data • V zaznamenaných hodnotách se odráží přítomnost, relativní zastoupení, celková abundance (celková biomasa) • Tyto tři aspekty můžeme v různé míře zdůraznit či potlačit nejen volbou míry podobnosti ale i změnou dat před výpočtem
Úprava kvantitativních dat • Transformace: změna hodnot pomocí zvolené funkce Xij’ = f(Xij) pro každou hodnotu nezávisle na ostatních, např. log • Standardizace: úprava rozsahu hodnot uvažovaného buď přes hodnoty všech proměnných (druhů) v rámci vzorku nebo přes všechny hodnoty proměnné:standardize by sample X by species • Centrování: odečtení průměru proměnné (častěji) nebo vzorku od jednotlivých hodnot
Transformace odhadové stupnice • Braun-Blanquet-ova odhadová stupnice (r, +, 1, 2, 3, 4, 5), případně různá zjemnění • Transformace buď ordinální nebo logaritmus střední pokryvnosti Mezi oběma způsoby není podstatný rozdíl ...
Podobnost vzorků: kvantitativní data 1: Eukleidovská distance Chceme-li standardizovat, pak normou (√ΣXj2): ED34=1.41 ED12=1.41 ED34=0.82 ED12=1.41 ED12=14.14 ED34=12.25
Podobnost vzorků: kvantitativní data 2: Percentage similarity • Obdoba Sørensenova koeficientu pro kvantitativní data • Doplněk do jedné se nazývá Bray-Curtis distance a bývá často doporučována pro metodu nemetrického mnohorozměrného škálování (NMDS)
Podobnost druhů: kvantitativní data • Korelační koeficienty (Pearsonův lineární, neparametrické: Spearmanův, Kendallův) • c2 distance (i pro vzorky!) Si+ je součet hodnot všech druhů ve vzorku i S+j je součet hodnot druhu j přes všechny vzorky
Míry podobnosti: telegraficky 1 • Porovnávání podobnosti vzorků vs. podobnosti společenstev: NESS index (normalized expected species shared), jednodušší forma: Morisita index • Používáme tam, kdy je společenstvo jen částečně reprezentováno vzorky, a tos proměnlivou reprezentativností podle velikosti vzorku (počty jedinců)
Míry podobnosti: telegraficky 2 • Matice podobností (či nepodobností = vzdáleností) musíme zadat jako vstup nejen pro klastrovou analýzu, ale také pro mnohorozměrné škálování a Mantelův test • Multidimensional scaling: • Metric – principal coordinates analysis (PCO, PCoA) • Nonmetric – NMDS (kritérium stress) • Mantelův test – porovnání dvou (či více) matic vzdálenosti – test vztahu
Klasifikace • Je-li výsledkem skupina rovnocenných tříd, jde o nehierarchickou (nonhierarchical) klasifikaci, např. K-means clustering • Opakem zařazení klasifikovaných objektů do hierarchie tříd znázorňované dendrogramem • Způsobem vzniku této klasifikace se odlišují divisivní (rozdělující) metody – např. metoda TWINSPAN, a aglomerativní (spojující) metody – tj. klastrová analýza v užším významu
Rozhodnutí v klastrové analýze • Klastrová analýza nemůže být „objektivní“ metoda – každé z uvedených rozhodnutí odráží specifika kladené otázky a/nebo subjektivní pohled badatele • Je ale „opakovatelná“ (reproducible) • Jak zaznamenámzastoupení druhů? (2) Jak vyjádřím podobnostjednotlivých vzorků? (3) Jak vyjádřím podobnostskupin (klastrů)?
Klastrová analýza - spojování Vzdálenosti mezi objekty máme v zadané matici (ne)podobností. V hierarchické klasifikaci ale potřebujeme i vzdálenosti mezi shluky (klastry) nižšího řádu...
Klastrová analýza - metody • Single linkage (nejkratší cesta) vs. complete linkage (nejdelší cesta) • Další možné: average linkage (UPGMA), Wardova metoda, ... • Řetězení (chaining)
Klastrová analýza – pořadí objektů Pořadí objektů je do značné míry libovolné
TWINSPAN 1 • Two Way INdicator SPecies ANalysis, hierarchická divisivní metoda, vznikla pro hledání struktury ve vegetačních tabulkách • Při každém rozdělení (pod)souboru snímkůvychází z první osy korespondenční analýzy (CA), pozice snímků ale dále upravuje • Pracuje s 0/1 hodnotami (přítomnosti druhů),pro kvantitativní data používá koncept tzv. pseudospecies (definovány podle cut levels) • Současná klasifikace snímků i druhů
TWINSPAN 2 - pseudospecies • Vhodnou volbou hranic (cut levels) můžeme zdůraznit či potlačit vliv dominant
TWINSPAN 3 – uspořádání skupin Podobnost skupiny 01 se skupinou 1 je větší, než mezi skupinami 00 a 1. Vytváří se tak plynulá bloková struktura tabulky
TWINSPAN 4 - rozdělení Indikátory dělení, preferenční druhy