320 likes | 445 Views
Statistické metody a hodnocení morfologických dat. Pavel Trávníček BÚ AV ČR, PřF UK pavel.travnicek@ibot.cas.cz. Fenetické metody. Zpravidla mnohorozměrná data sestávající z předem definovaných znaků Studované objekty jsou posuzovány na základě podobnosti (resp. vzdálenosti) těchto znaků
E N D
Statistické metody a hodnocení morfologických dat Pavel Trávníček BÚ AV ČR, PřF UK pavel.travnicek@ibot.cas.cz
Fenetické metody • Zpravidla mnohorozměrná data sestávající z předem definovaných znaků • Studované objekty jsou posuzovány na základě podobnosti (resp. vzdálenosti) těchto znaků • Všechny znaky mají stejnou váhu a nejsou rozlišovány homologické a nehomologické znaky
Zpracování mnohorozměrných dat • Shlukové analýzy (UPGMA, SL, WARD) • Ordinační metody (PCA, PCoA) • Diskriminační analýzy (CDA, Klasifikační DA)
Znaky • Kvalitativní • binární • vícestavové • Semikvantitativní (odhadové stupnice) • Kvantitativní • nespojité (počty) • spojité (metriky)
Znaky – jaké zahrnout? • Čím více tím lépe • Všechny diagnostické • Pokud možno kvantitativní či binární • Nezávislé na prostředí • Znaky s normálním rozdělením
Transformace dat Logaritmická transformace(logarithmictransformation): Naměřené hodnoty se nahrazují jejich logaritmem x’ij = logcxijnebo x’ij = logc(xij + konst.)
Standardizace dat • Centrování (centring, standardizace na průměr rovný nule) x’ij = xij – xi Centrování nemění jednotky, ve kterých jsou znaky měřené, mění se jen poloha nulového bodu v soustavě souřadnic. • Standardizace směrodatnou odchylkou (standardization by standard deviation) kde si je směrodatná odchylka znaku i doporučuje se použít v případech, kdy jsou znaky měřené v odlišných škálách a jednotkách • Standardizace rozpětím (standardization by range, ranging) pro měření ve stejném měřítku, ale s velkými rozdíly hodnot (převod do intervalu [0,1])
Koeficienty vyjadřující vztahy mezi objekty nebo znaky (resemblance coefficients) • koeficienty vzdálenosti pro kvantitativní a binární znaky (metric distances) • koeficienty podobnosti pro binární znaky (binary similarity coefficients) • koeficienty pro smíšená data (coefficients for mixed data) • korelační koeficienty (correlation coefficients)
Metriky (vzdálenosti) • Euklidovská vzdálenost(Euclidean distance): EU=ckdexijje hodnota znakuipro objektj, xik je hodnota znakuipro objektk, n je celkový počet znaků • Manhattanská metrika • (City block) • CB=a+b
Koeficienty podobnosti pro binární data • Koeficient jednoduché shody (simple matching): • Jaccardůvkoeficient: • Nei & Li (1979): Link et al. (1995): genetické vzdálenosti podle Nei & Li (1979), Link et al. (1995) využívané při NJ, PCoA odpovídají také tomuto typu koeficientů
Koeficienty pro smíšená data i,j – objekty charakterizované znakemk, n – celkový počet znaků, wijk – váha – (1,0) je-li možné srovnat hodnoty znaku k u objektů i,jsijk – skóre pro znakk • Gowerůvkoeficient: • pro binární znaky:wijk = 1 a sijk= 0 pokudxik xjk (hodnoty znakukpro objektyiaj)wijk = sijk= 1 pokudxik= xjk = 1 nebopokudxik= xjk = 0 a negativní shoda se bere do úvahy (odpovídá koeficientu jednoduché shody)wijk = sijk= 0 pokudxik= xjk = 0 a negativní shoda se nebere do úvahy (odpovídá Jaccardovu koeficientu) • pro nominální znaky:wijk = 1 pokudxika xjk jsou známé; paksijk= 0 pokudxik xjk; sijk= 1 pokudxik= xjk (počet stavů se nebere do úvahy) • pro kvantitativní znaky:wijk = 1 pokudxika xjk jsou oba známé, a sijk= 1 – {|xik- xjk| / (rozpětí znakuk)}(odpovídá Manhattanské metrice s daty stadardizovanými na rozpětí)
Korelační koeficienty • Pearsonův korelační koeficient npočet objektů, xi1 hodnota znaku 1 pro objektilineární korelace, předpokládá normální rozdělení dat • Spearmanůvkorelačníkoeficient(rank koeficient, koeficient pořadí): do úvahy se neberou konkrétní hodnoty znaků ale pořadí objektů, kde dije rozdíl v pořadí mezi objekty • Kovariance kovariance je podobná korelačnímu koeficientu, ale není standardizovaná vzhledem k rozdílným měřítkům znaků
Shluková analýza • Shluk (klastr, cluster) je skupina objektů, které uvnitř nějaké větší skupiny nemají ani nahodilý ani rovnoměrný výskyt a jejich vzájemná vzdálenost resp. nepodobnost je menší než vzdálenost resp. nepodobnost s objekty, které patří do jiných shluků. • Těžiště (centroid) shluku je hypotetický (nikoliv nutně existující) prvek, jehož souřadnice ve znakovém prostoru jsou dány průměrnými hodnotami souřadnic jednotlivých objektů. • Metody (SAHN – sekvenční/simultánní, aglomerativní/divizivní, hierarchické/nehierarchické, nepřekrývající/překrývající se) • Minimalizace vzdáleností mezi shluky (SL, UPGMA) • Optimalizace homogenity shluků (Ward)
SL (single linkage), metoda nejbližšího souseda • Vzdálenost skupin (na počátku objektů) je definována jako vzdálenost mezi jejich nejbližšími objekty
UPGMA (unweighted pair-group method using arithmetic averages), metoda průměrné vzdálenosti • Vzdálenost skupin (na počátku objektů) je definována jako průměr vzdáleností mezi všemi páry OTU ve skupinách
Wardova metoda (Ward’s method) • Metoda založená na optimalizaci homogenity shluků – minimalizace přírůstku celkového vnitroskupinového součtu čtverců odchylek od shlukového průměru (centroidu)
SL – m. nejbližšího souseda A A B UPGMA – m. průměrné vzdálenosti B A Wardova metoda B A
Ordinační metody • Objekty (OTU) jsou charakterizované p znaky a jejich vzájemnou polohu (blízkost / podobnost) lze odvodit z jejich vzájemné polohy v p rozměrném prostoru (každý rozměr prostoru je dán jedním znakem) • Je-li znaků p > 3, pak je pro vizualizaci a interpretaci dat nutné snížit počet rozměrů p s co nejnižší ztrátou informace Ordinace v novém, redukovaném prostoru
PCA – Principal Component(s) Analysis, Analýza hlavních komponent • Původní soubor pozorovaných znaků je nahrazen souborem nových, vzájemně nekorelovaných znaků • První hlavní komponenta (PC1) je vedena ve směru největší variability mezi OTU, druhá (PC2) pak ve směru největší variability ve směru kolmém k PC1, třetí … • Vzájemná pozice objektů (OTU) je v původním i novém prostoru stejná – jsou zachovány Euklidovské distance
PCA – požadavky a typy • Lze použít kvantitativní, semikvantitativní i binární data • Jakkoli je lepší zajistit mnohorozměrné normální rozdělení, metoda je natolik robustní, že není striktně vyžadováno • Počet objektů (OTU) vždy alespoň o 1 větší než je počet znaků, obvykle se doporučuje aby počet OTU byl větší než druhá mocnina počtu znaků není-li splněno je lépe použít PCoA • Centrovaná PCA – vychází z kovarianční matice znaků (vyžaduje měření vestejných jednotkách) • Standardizovaná PCA – vychází z korelační matice znaků (přeškálování původních znaků na jednotkový rozptyl = standardizace) • Necentrovaná PCA – vychází ze skalárních součinů – používá se v některých ekologických aplikacích nikoli v taxonomii
PCA – výstupy • Komponentní skóre – souřadnice objektů v novém prostoru – lze je interpretovat z ordinačního diagramu, nebo použít pro další analýzy (např. shlukové) • Vlastní vektory – směr vektorů vyjadřující vliv původních znaků na hlavní komponenty (viz Biploty) • Vlastní čísla (eigenvalues) – míra variability původního souboru vyjádřená danou hlavní komponentou. Důležitější je procentní vyjádření – ukazuje na procento vyjádřené variability původního souboru danou komponentní osou (též kumulativní % pro více hlavních komponent) • Ordinace objektů – grafický výstup znázorňující OTU v novém prostoru z hlavních komponent • Biploty – společné znázornění objektů i vektorů původních znaků – čím ostřejší úhel a větší délka vektoru k hlavní komponentě, tím větší vliv daného znaku na variabilitu vysvětlenou touto komponentou • Odlehlé objekty (outliers) - PCA je dobré v prvním sledu využít k odhalení odlehlých, v souboru atypických objektů a zvážit jejich vyloučení (určit příčinu jejich odlehlosti)
PCoA – Principal Coordinate(s) Analysis, Analýza hlavních koordinát • Rozmístění objektů v novém prostoru je definováno hlavními koordinátami a jejich souřadnice v tomto prostoru nejsou lineárně závislé na původních znacích (na rozdíl od PCA) • Vzájemné (eulidovské) vzdálenosti objektů odrážejí vztahy mezi původními objekty, které jsou měřené libovolným koeficinetem podobnosti nebo vzdálenosti • Metodu je možné použít pro binární znaky, vícestavové kvalitativní znaky a smíšená data (nejčastější případ v taxonomii) • Lze použít i tehdy, převyšuje-li počet znaků počet objektů • Postup: primární matice dat sekundární matice vzdáleností symetrická matice (podobná kovarianční či korelační z PCA) výpočet vlastních čísel, vektorů a komponentních skóre
Diskriminační analýza (DA) • Zatímco ordinační a shlukovací metody jsou vhodné k vytváření hypotéz, diskriminační analýza umožňuje jejich testování • Interpretace rozdílů – kanonická DA (CDA) • Zda a jak dobře je možné předem stanovené skupiny odlišit na základě znaků, které máme k dispozici • Které znaky přispívají k tomuto odlišení největší mírou • Identifikace objektů – klasifikační DA • Odvození jedné či více rovnic za účelem identifikace objektů Zjištění znaků odlišujících skupiny, a nebo zařazení OTU do skupin
DA - požadavky • Kvantitativní nebo binární znaky (vícestavové nutné převést na binární) • Žádný ze znaků nesmí být lineární kombinací jiného či jiných znaků • Nelze současně použít 2 nebo více silně korelovaných znaků • Kovarianční matice pro jednotlivé skupiny musí být přibližně shodné • Znaky charakterizující každou skupinu by měly splňovat kritérium mnohorozměrného normálního rozdělení (nicméně lze použít i data kvalitativní, tj. binární či kvantitativní, které tento požadavek nesplňují – jen výsledky statistických testů je nutné brát s rezervou) • Počet dat: minimálně 2 skupiny, v každé skupině minimálně 2 objekty, počet znaků menší než počet objektů (nejlépe v každé skupině) • Žádný znak by neměl být v některé skupině konstantní
CDA – Canonical Discriminant Analysis, Kanonická diskriminační analýza • Umožňuje sledovat vztahy mezi objekty v prostoru definovaném kanonickými osami • Ordinační metoda, která maximalizuje rozdíly mezi skupinami PCA, PCoA DA Předem stanovené skupiny ne ano Vysvětlení maximální variability celkové meziskupinové Vážení znaků ne ano
CDA – Interpretace výstupů • Relativní pozice objektů
CDA – Interpretace výstupů • Celkové strukturní koeficienty (Total canonical structure) The CANDISC Procedure Total Canonical Structure Variable Can1 v4 0.117885 v5 0.346662 v6 -0.287614 v8 0.052686 v9 0.050521 v10 0.112037 v11 0.283950 v12 0.091190 v13 0.155711 v14 0.557724 v15 0.204874 v160.653946 v170.610899 v18 0.446755 v23 0.569472 v240.771032 v25 -0.340242 v26-0.686944 v27-0.746051 v28 -0.280575 v31 0.492997 v32 0.354392 v33 0.475133 v34 0.255562 v35 0.454197 v36 0.232812 v38 0.497403 v40 0.113318 v41 0.545646
CDA – Úskalí A C • Pozor na nejednoznačně zařaditelné objekty A B C B A C B
Klasifikační DA • Hledání identifikačního (klasifikačního) kritéria • Skupina objektů známého zařazení (training set) odvození klasifikačního kritéria (klas. funkce) zařazení objektů neznámého postavení • Zjištění účinnosti klasifikačního kritéria • Testuje se na stejném souboru dat jaký sloužil k odvození klasifikační funkce = resubstituce (resubstitution) • Máme-li menší počet objektů je vhodnější použití křížového ověření (cross-validation) – ze souboru o n objektech se vybere n-1 objektů, které použijeme jako tréninkový soubor klasifikační funkce se použije na zařazení vypuštěného případu. Celé se opakuje n-krát
Klasifikační DA – odvození klasifikačního pravidla • Kanonická diskriminační funkce • Objekty se klasifikují na základě jejich skóre na kanonické diskriminační funkci, nebo na základě jejich projekce do kanonického prostoru Klasifikační funkce: 12LFT + 2DFT-2LTW-23 kladné hodnoty = B. pendula záporné hodnoty = B. pubescens Klasifikovaný objekt se zobrazí do kanonického prostoru, který je vymezen na základě DA objektů o známé příslušnosti
Klasifikační DA – odvození klasifikačního pravidla • Výpočet lineární klasifikační funkce pro každou skupinu • Pro každou skupinu objektů se vypočítá samostatná lineární klasifikační funkce. • Dále se vypočítá klasifikační skóre neznámého (klasifikovaného) objektu pro každou z těchto funkcí. • Objekt bude zařazen do skupiny, pro kterou klasifikační skóre dosáhne nejvyšší hodnoty. • Klasifikační pravidla založená na pravděpodobnostních modelech • Lineární diskriminační funkce • Kvadratické diskriminační funkce • Neparametrické metody – např. k-nejbližších sousedů (k-nearest neighbors)