1 / 24

Klasifikace

Klasifikace. Míry podobnosti Klastrová analýza Metoda TWINSPAN. Míry podobnosti I.

brant
Download Presentation

Klasifikace

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Klasifikace Míry podobnosti Klastrová analýza Metoda TWINSPAN

  2. Míry podobnosti I. • Míry podobnosti (similarity measures, též resemblance functions) komplementárník mírám nepodobnosti (dissimilarity m.), nazývaným i jako vzdálenosti (distances):D = 1 – S nebo D = √(1 – S) nebo D = √(1 – S2) • Každá ordinační nebo klasifikační mnohorozměrná metoda založena na nějaké míře podobnosti (explicitně nebo je možné míru podobnosti zvolit) • Dualita zadání ordinačních metod

  3. Míry podobnosti II. • V případě dat popisujících složení společenstva (řádky jsou vzorky, sloupce druhy) můžeme porovnávat vzorky (podobnost vzorků, sample similarity) nebo druhy (species similarity) • Zásadní rozdíl v těchto dvou typech podobností: • Podobnosti vzorků jsou založeny na kompletním výčtu druhů dané kategorie organismů (vyšší kytky, hmyz) –s výjimkou přehlédnutých • Podobnosti mezi druhy jsou závislé na vzorkované škále, druhy se vyskytují v širším rozsahu podmínek a v širším geografickém rozsahu • Podobnosti vzorků i druhů lze počítat z prezenčních i z kvantitativních dat, pro obojí existuje mnoho typů

  4. Míry podobnosti III. • Existují jich desítky až stovky, zde si ukážeme jen nejvýznamnější zástupce

  5. Podobnost vzorků, 0/1 data • Sørensen-ův koef.S = 2a / (2a +b+c) • Jaccard-ův koef.J = a / (a + b + c) d: počet druhů chybících v obou srovnávaných vzorcích (většinou se nepoužije)

  6. Podobnost druhů, 0/1 data • Pearson’s f (= V) • Yule koeficient Q d: počet vzorků, ve kterých chybí obadruhy– většinou je třeba vzít v úvahu!

  7. Míry podobnostipro kvantitativní data • Kvantitativní data obsahují více informací než 0-1 data • V zaznamenaných hodnotách se odráží přítomnost, relativní zastoupení, celková abundance (celková biomasa) • Tyto tři aspekty můžeme v různé míře zdůraznit či potlačit nejen volbou míry podobnosti ale i změnou dat před výpočtem

  8. Úprava kvantitativních dat • Transformace: změna hodnot pomocí zvolené funkce Xij’ = f(Xij) pro každou hodnotu nezávisle na ostatních, např. log • Standardizace: úprava rozsahu hodnot uvažovaného buď přes hodnoty všech proměnných (druhů) v rámci vzorku nebo přes všechny hodnoty proměnné:standardize by sample X by species • Centrování: odečtení průměru proměnné (častěji) nebo vzorku od jednotlivých hodnot

  9. Transformace odhadové stupnice • Braun-Blanquet-ova odhadová stupnice (r, +, 1, 2, 3, 4, 5), případně různá zjemnění • Transformace buď ordinální nebo logaritmus střední pokryvnosti Mezi oběma způsoby není podstatný rozdíl ...

  10. Podobnost vzorků: kvantitativní data 1: Eukleidovská distance Chceme-li standardizovat, pak normou (√ΣXj2): ED34=1.41 ED12=1.41 ED34=0.82 ED12=1.41 ED12=14.14 ED34=12.25

  11. Podobnost vzorků: kvantitativní data 2: Percentage similarity • Obdoba Sørensenova koeficientu pro kvantitativní data • Doplněk do jedné se nazývá Bray-Curtis distance a bývá často doporučována pro metodu nemetrického mnohorozměrného škálování (NMDS)

  12. Podobnost druhů: kvantitativní data • Korelační koeficienty (Pearsonův lineární, neparametrické: Spearmanův, Kendallův) • c2 distance (i pro vzorky!) Si+ je součet hodnot všech druhů ve vzorku i S+j je součet hodnot druhu j přes všechny vzorky

  13. Míry podobnosti: telegraficky 1 • Porovnávání podobnosti vzorků vs. podobnosti společenstev: NESS index (normalized expected species shared), jednodušší forma: Morisita index • Používáme tam, kdy je společenstvo jen částečně reprezentováno vzorky, a tos proměnlivou reprezentativností podle velikosti vzorku (počty jedinců)

  14. Míry podobnosti: telegraficky 2 • Matice podobností (či nepodobností = vzdáleností) musíme zadat jako vstup nejen pro klastrovou analýzu, ale také pro mnohorozměrné škálování a Mantelův test • Multidimensional scaling: • Metric – principal coordinates analysis (PCO, PCoA) • Nonmetric – NMDS (kritérium stress) • Mantelův test – porovnání dvou (či více) matic vzdálenosti – test vztahu

  15. Klasifikace • Je-li výsledkem skupina rovnocenných tříd, jde o nehierarchickou (nonhierarchical) klasifikaci, např. K-means clustering • Opakem zařazení klasifikovaných objektů do hierarchie tříd znázorňované dendrogramem • Způsobem vzniku této klasifikace se odlišují divisivní (rozdělující) metody – např. metoda TWINSPAN, a aglomerativní (spojující) metody – tj. klastrová analýza v užším významu

  16. Rozhodnutí v klastrové analýze • Klastrová analýza nemůže být „objektivní“ metoda – každé z uvedených rozhodnutí odráží specifika kladené otázky a/nebo subjektivní pohled badatele • Je ale „opakovatelná“ (reproducible) • Jak zaznamenámzastoupení druhů? (2) Jak vyjádřím podobnostjednotlivých vzorků? (3) Jak vyjádřím podobnostskupin (klastrů)?

  17. Klastrová analýza - spojování Vzdálenosti mezi objekty máme v zadané matici (ne)podobností. V hierarchické klasifikaci ale potřebujeme i vzdálenosti mezi shluky (klastry) nižšího řádu...

  18. Klastrová analýza - metody • Single linkage (nejkratší cesta) vs. complete linkage (nejdelší cesta) • Další možné: average linkage (UPGMA), Wardova metoda, ... • Řetězení (chaining)

  19. Klastrová analýza – pořadí objektů Pořadí objektů je do značné míry libovolné

  20. TWINSPAN 1 • Two Way INdicator SPecies ANalysis, hierarchická divisivní metoda, vznikla pro hledání struktury ve vegetačních tabulkách • Při každém rozdělení (pod)souboru snímkůvychází z první osy korespondenční analýzy (CA), pozice snímků ale dále upravuje • Pracuje s 0/1 hodnotami (přítomnosti druhů),pro kvantitativní data používá koncept tzv. pseudospecies (definovány podle cut levels) • Současná klasifikace snímků i druhů

  21. TWINSPAN 2 - pseudospecies • Vhodnou volbou hranic (cut levels) můžeme zdůraznit či potlačit vliv dominant

  22. TWINSPAN 3 – uspořádání skupin Podobnost skupiny 01 se skupinou 1 je větší, než mezi skupinami 00 a 1. Vytváří se tak plynulá bloková struktura tabulky

  23. TWINSPAN 4 - rozdělení Indikátory dělení, preferenční druhy

  24. TWINSPAN 5 – další dělení

More Related