570 likes | 924 Views
Metody molekulární biologie v ekologii a systematice rostlin 5 . Sekvenování DNA – 2. část Petr Koutecký & Jiří Košnar, 201 3. Vytvořeno v rámci projektu Molekularizace biologických oborů PřF JU reg. č. CZ.1.07/2.2.00/15.0364. Fylogenetická analýza – konstrukce stromů.
E N D
Metody molekulární biologie v ekologii a systematice rostlin 5. Sekvenování DNA – 2. část Petr Koutecký & Jiří Košnar, 2013 Vytvořeno v rámci projektu Molekularizace biologických oborů PřF JU reg. č. CZ.1.07/2.2.00/15.0364
Fylogenetická analýza – konstrukce stromů Fylogenetické stromy - definice rootování stromu: - předpoklad: X je sesterské k A-F →společný předek skupin A-F a X je zde topologie = konkrétní uspořádání větví node (uzel)→ branch (větev)→ leaf (konkrétní sekvence) polytomie = jedna větev nese více sekvencí (DEF) nezakořeněný strom (unrooted tree): není z něj patrný směr evoluce zakořenění (rootování) stromu: sesterský taxon dané skupiny použijeme jako outgroup (OG) na větev mezi ním a zbytkem stromu umístíme kořen stromu (root) jak vybrat outgroup (OG): musí skutečně stát mimo zkoumanou skupinu neměl by být příliš vzdálený od zkoumané skupiny – aby byl zalignovatelný je vhodné zkoušet více různých outgroupů, sledovat, zda a jak ovlivní výsledek! zakořeněný strom:tree was rooted using X as an outgroup (na této informaci záleží, ne na tvaru stromu!)
Fylogenetická analýza – konstrukce stromů Fylogenetické stromy - definice Monofyletické skupiny (všechny sekvence dané větve = clade, monofylum) Polyfyletické skupiny (sekvence z různých větví) Parafyletické skupiny (rotace větví a změna pořadí sekvencí nemění význam) nezakořeněné stromy - více možných monofyl! (a ty výše uvedené jsou nesmyslné, pokud z předchozích výsledků víme, že X je prokazatelně sesterské ke zbytku)
Fylogenetická analýza – konstrukce stromů Definice – variabilní stavy znaku T AA T C A del. • pleziomorfie:původní znak • synpleziomorfie: sdílený původní znak skupina (X,A,B): GG na pozici 13-14; skupina (X,A,B,C): T na pozici 19) • apomorfie:odvozený znak • synapomorfie: sdílený odvozený znak; charakterizuje monofyl. skupiny skupina (C,D,E,F): AA na pozici 13-14; skupina (D,E,F): C na pozici 19 • autapomorfie: nesdílený (unikátní) odvozený znak – fylogeneticky neinformativní neovlivní topologii (pouze prodlouží větev) sekvence E: A na pozici 15.; sekvence F: delece na pozici 21-28 • homoplazie:nezávisle vzniklý znak, klamný signál! sekvence A a D: T na 3. pozici
Fylogenetická analýza – konstrukce stromů Metody konstrukce stromů - Maximum Parsimony (MP) • nejlepší strom = nejkratší strom s nejnižším počtem změn(most parsimonious tree); parsimony = úspornost, nebo skrblictví, skoupost, nemístná šetrnost... • změna = jakákoli mutace včetně indelů (pokud je zakódujeme!) se počítá jako 1 změna → žádné apriornípředpoklady, všechny změny považuje za stejně pravděpodobné • fylogram - délka jednotlivých větví nejkr. stromu odráží počet změn sekvence: stejný strom, ale zobrazený jako kladogram (pouze topologie, délka větví nic neznamená) fylogram
Fylogenetická analýza – konstrukce stromů Metody konstrukce stromů - Maximum Parsimony (MP) • jak najít nejkratší strom programy: Paup, TNT, Nona apod. • vyzkoušet všechny možné topologie = exhaustive search(Paup: alltrees) • zajišťuje nalezení nejkratšího stromu, ale technicky použitelné jen pro <12 sekvencí • heuristic search(hs) • není zaručeno, že se skutečně podaří nalézt nejkratší strom • různé algoritmy, lišící se výkonností a exhaustivitou, např.: • postupným přidáváním sekvencí do stromu(addseq=random)vytvoří startovací strom, a různými postupy(swap=tbr nebo spr, mni)u něj přehazuje větve (branch swapping) • celý postup tvorby startovacího stromu a prohazování větví lze několikrát zopakovat(addseq=randomnreps=[počet opak., např. 100 apod.; default je 10]) • volba Maxtrees (např. Paup) – celkový počet uložených nejkratších stromů • program TNT – freeware, rychlejší než Paup, používá tzv. new technology search
Fylogenetická analýza – konstrukce stromů Metody konstrukce stromů - Maximum Parsimony (MP) • často více stejně dobrých stromů → výsledný strom je vyjádřen pomocí consensus tree(Paup: contree; pro uložení: contree/treefile=[název].tre): • strict consensus tree – zahrne pouze monofyla přítomná na všech nejkratších stromech → bývá nejméně rozlišený, polytomie • semi-strict consensus tree – monofyla, která nejsou v rozporu s ostatními nejkr. stromy (např. pokud je skupina na jednom nejkratším stromě jako monofylum, a na jiném je nerozlišená v polytomii) • majority consensus tree – monofyla, která jsou přítomná u určitého min. % nejkratších stromů (např. 50 a více %); čísla na jeho větvích značí, v kolika nejkratších stromech se daný clade (monofylum) vyskytl • výsledky různých typů consensus tree se mohou lišit: analýza našla 3 nejkratší stromy s délkou 1325 změn... ... 2 různé typy consensus stromů, s odlišnou topologií!
Fylogenetická analýza – konstrukce stromů Metody konstrukce stromů - Maximum Parsimony (MP) • interpretovat radši jen strict consensus tree - stejně dlouhé stromy jsou rovnocenné hypotézy, nemá cenu některé vybírat na úkor jiných! • consensus tree nemá délky větví, pouze topologii • pokud chceme zobrazit délku větví, zobrazit pro ilustraci ještě např. jeden z nejkratších stromů (Paup: describetrees/plot=phylogram; pro uložení: savetree file=[název].tre brlens=yes) • nevýhody MP: • předpoklady MP příliš jednoduché: evoluce nemusí běžet nejkratší cestou (parsimoniálně) s jednotnou pravděpodobností změn x spíše ideologický spor, nikdy s jistotou nevíme, jak evoluce běží • long-branch attraction (LBA): tendence dávat k sobě sekvence s dlouhými větvemi, nebo dlouhé větve stahovány k outgroupu (protože OG je taky obvykle dlouhá větev) MP obecně funguje hůř u taxonů s nerovnoměrnou a rychlou evolucí
Fylogenetická analýza – konstrukce stromů Metody konstrukce stromů - Maximum Parsimony (MP) testování fylogenetického signálu: • Bootstrap Support (BS): použitelný i pro některé další metody konstrukce stromů • resampling: náhodně vybraná část sloupců matice (= pozic alignmentu) z matice vymazána, a nahrazena jinými náhodně vybranými sloupci • pro každou novou matici nalezeny nejkratší stromy • zopakováno aspoň 500x - 1000x • z resamplovaných stromů 50% majority consensus tree, který ukazuje BS jednotlivých monofyl. větví (protože je to 50% consensus tree, zobrazí pouze větve s BS>50)(Paup: bootstrap nreps= [počet opak.]; protože se prování velký počet replikací – tvorby stromů, u větších datasetů se často používá méně exhaustivní vyhledávání – např. méně nebo žádné replikace addseq, nižší hodnota Maxtrees) • Jackknife – resampling bez náhrady dat, matice se zmenšuje • vyjadřuje, jaké množství znaků podporuje danou monofyl. větev • no support: BS<50; poor support: BS=50-70; good support: BS>70
Fylogenetická analýza – konstrukce stromů Metody konstrukce stromů - Maximum Parsimony (MP) testování fylogenetického signálu: • Decay Index (DI, Bremer Support): lze použít pouze pro MP • testuje, o kolik kroků delší strom způsobí zkolabování dané větve do polytomie • např. pro větev (D,E,F): nejkratší strom, délka L=139 strom o 1 změnu delší (L=140) způsobí zkolabování větve → pro danou větev Decay index = 1 • asi se nedá říct, jaké hodnoty DI jsou dobré (nízké hodnoty typu DI = 1 jsou ale špatné)
Fylogenetická analýza – konstrukce stromů Metody konstrukce stromů – Maximum likelihood (ML) • využívají substituční modely: ne všechny změny a stavy znaků musí být stejně pravděpodobné, evoluce nemusí běžet nejkratší cestou • hledají strom (topologie + délky větví), který za platnosti vybraného substitučního modelu nejlépe odráží variabilitu daných sekvencí = strom s tzv. maximum likelihood(největší pravděpodobností) • vytvoří konkrétní strom, a spočítá jeho likelihood (L): vynásobí likelihoody všech konkrétních pozice alignmentu → aby výsledný likelihood stromu nebylo moc malé číslo, je vyjádřen logaritmicky (ln L) • který substituční model je správný? (např. program JModelTest) - ten, který dává stromy s nejvyšším likelihoodem • možné použít bootstrap (může být problém s uskutečnitelností počtu replikací - kvůli výpočetní náročnosti)
Fylogenetická analýza – konstrukce stromů Metody konstrukce stromů – Maximum likelihood (ML) substituční modely: substituční schéma: - pravděpodobnost substitucí - tranzicí a transverzí (, ;příp. každý typ substituce se specifickou pravděpodobností)
TMP1 (K2P) A=C=G=T různá frekvence tranzicí/transverzí (/) rozdílná frekvence bází JC A=C=G=T = HKY ACGT GTR ACGT a,b,c,d,e,f F81 ACGT = rozdílná frekvence bází různá frekvence tranzicí/transversí (/) Fylogenetická analýza – konstrukce stromů Metody konstrukce stromů – Maximum likelihood (ML) substituční modely: substituční schéma: - pravděpodobnost substitucí - tranzicí a transverzí (, ;příp. každý typ substituce se specifickou pravděpodobností) - frekvence bází () nejjednodušší model: všechny báze mají stejnou frekvenci (), všechny typy substitucí stejně pravděpodobné nejsložitější model: každá báze má specifickou frekvenci, každý typ substituce má specifickou pravděpodobnost, a-f) • nejjednodušší JC (Jukes-Cantor) → odpovídá předpokladu max. parsimonie → MP je nejjednodušším případem ML
Fylogenetická analýza – konstrukce stromů Metody konstrukce stromů – Maximum likelihood (ML) součástí substitučního modelu může být dále informace o: míře variability pozic alignmentu - substitution rates across sites → zohledňuje, že jednotlivé pozice se liší mutační rychlostí; používá se křivka gamma distribuce, její parametr α určuje tvar (shape): α > 1: většina pozic má ± střední hodnotu rychlosti substitucí (plocha ´píku´ distribuce), zbytek (´okraje´ křivky) představuje hodně nebo naopak málo rychlá místa α < 1: velká variabilita substitučních rychlostí můžeme předpokládat, že v alignmentu je určitá část pozic invariabilních: proportion of invariable sites(p-inv = [hodnota])
Fylogenetická analýza – konstrukce stromů Metody konstrukce stromů – Maximum likelihood (ML) • likelihood konkrétní pozice alignmentu (pro daný zvažovaný strom a substituční model): G, C, T, A, T – stavy znaku na dané pozici alignmentu A T • vybere pro danou pozici možný původní stav, např. A • spočítá jaká je pravděp. výskytu daného stavu A – z frekvence bází, • a tu dál násobí pravděp. pro její mutaci na stav v další úrovni stromu, např. na T – z pravděp. jednotlivých typů substitucí • tímto způsobem dopočítá likelihood pro celou topologii stromu
Fylogenetická analýza – konstrukce stromů Metody konstrukce stromů – Maximum likelihood (ML) • programy pro vlastní analýzu: Paup (set criterion=likelihood; hs - vlastní hledání stromu probíhá heuristickou metodou, obdobné jako u parsimonie - možné použít addseq, branch swapping, stejně tak ukládání stromů a bootstrap) Phyml – přepíná z distančního modu na ML, rychlejší analýza http://www.atgc-montpellier.fr/phyml/binaries.php • nevýhody ML: • výpočetně náročnější než MP a distanční metody • nelze použít indely • ideologický spor – zda je správné používat modely substitucí x jsou to modely které nemusí být správné... • najde pouze 1 nejlepší strom, a neukáže potenciálně dobré stromy s nepatrně menší hodnotou likelihoodu • asi už překonané Bayesovskou inferencí
Fylogenetická analýza – konstrukce stromů Metody konstrukce stromů – distanční metody • vymyšlené jako (překvapivě dobře fungující) náhražka ostatních, výpočetně náročnějších metod • v dnešní době překonané, uplatnění snad jen u příliš velkých souborů, které nejde technicky jinak zpracovat • základem je spočítání p-distancí pro každý pár sekvencí, případně jejich převedení na evolutionary distances – pomocí zvoleného substitučního modelu (JModelTest)
Fylogenetická analýza – konstrukce stromů Metody konstrukce stromů – distanční metody • distance použity k tvorbě stromu: a) pomocí optimalizačního kriteria – ME (Minimum Evolution) sestaví strom tak, aby topologie a délky větví nejvíce odpovídaly matici distancí → dávaly nejkratší strom; nejlepší distanční metoda, ale relativně výpočetně náročná b) pomocí klastrovacího algoritmu – UPGMA, NJ (Neighbor Joining) např. UPGMA – postupně přidává sekvence: do prvního monofyla spojí 2 sekvence s nejmenší distancí, k nim připojí další sekvenci která k nim má nejmenší distanci atd. • možné použít bootstrap Paup: set criterion=distance; NJ; UPGMA; případně použít blok s definicí substitučního modelu – viz dále; ukládání stromů a boostrap obdobně jako u MP)
Fylogenetická analýza – konstrukce stromů Metody konstrukce stromů – distanční metody • nevýhody distančních metod: • výsledkem jediný strom, který je silně rozlišený → nemáme šanci zjistit (jen o malinko horší) alternativní topologie • některé metody z principu takřka neumožňují detekovat určité topologie reálné fylogeneze, např. UPGMA: reálná fylogeneze UPGMA strom: nedá k sobě dlouhé větve A a D
Fylogenetická analýza – konstrukce stromů Bayesian Inference – program MrBayes http://mrbayes.sourceforge.net/download.php • založené na pravděpodobnosti podobně jako ML • složitá teorie... • lepší vyhledávač stromů než ML • nepoužívá se bootstrap, ale podpora větví vyjádřená jako tzv. posterior probability = clade credibility value (CC): • CC mívá vyšší hodnoty než BS, ale to neznamená, že Bayesovský strom je lepší než strom nalezený jinou metodou a testovaný BS! • poor support: CC<90, moderate support: CC 90-95, good support: CC>95
Fylogenetická analýza – konstrukce stromů Bayesian Inference – program MrBayes • výběr modelu (pokud JModelTest vybere model který nejde v MrBayes nastavit, tak se doporučuje použít nejbližší složitější model) • pro analýzu není třeba specifikovat číselné hodnoty parametrů modelu, pouze jeho typ = tj. konkrétní substituční schéma + zda předpokládat gamma distribution, proportion of invariable sites
Fylogenetická analýza – konstrukce stromů MrBayes princip analýzy: • heuristický typ analýzy • program běží (minimálně) 2 nezávislé běhy – runy, začínají vytvořením nějakého (např. náhodného) stromu • jednotkou runu je generace, během 1 generace program strom změní, dané řešení uloží → postupné vylepšování stromu • výsledné stromy z obou běhů jsou porovnávány, zda se běhy blíží ke shodě – tzv. konvergenci (shoda indikuje, že se pravděpodobně opravdu blíží nejlepší strom) • kriteriem konvergence je standard deviation of split frequencies = zda se výsledek obou běhů statisticky průkazně liší (používá se hladina průkaznosti 0.01, příp. u obtížných datasetů 0.05) • když S.D.<0.01, spočítá z uložených stromů 50% majority rule consensus tree → clade credibility values jednoduše odráží, v kolika uložených stromech se dané monofylum vyskytlo
Fylogenetická analýza – konstrukce stromů MrBayes 3D krajina potenciálních stromů:některé stromy s vyšším likelihoodem = vyšší píky → ty chceme samplovat likelihood • šplhání po píku: • během generace se pozmění topologie + délka větví + parametry substitučního modelu, a spočítá poměr: R = likelihood pozměněného stromu / likelihood původního stromu • když je R > náhodně vygenerované číslo 0-1, tak změna akceptována → vylepšení stromu vždy akceptováno; akceptovány obvykle i trochu horší stromy (které pak ale můžou sloužit jako mezikrok k ještě lepším...)
Fylogenetická analýza – konstrukce stromů MrBayes 3D krajina potenciálních stromů:zároveň riziko uvíznutí nasuboptimálním píku, neschopnost překonat údolí k dalšímu, potenciálně ještě vyššímu píku likelihood • řešení – cold a hot chains: • každý run z několika chains(default je 4), časem se pravděpodobně každý chain dostane na nějaký pík a stoupá po něm • ale pouze jeden z nich –cold chain – sampluje a ukládá stromy (defaultně v každé 100. generaci) • ostatní hot chains(defaultně 3)– vidí ´flattened´ krajinu, rozdíly mezi píky snížené → větší pravděpodobnost přeskoku z píků (přes údolí) • v závislosti na cold chain temperature (default 0.2) se mezi chains přepíná mezi cold a hot modem → umožní samplovat více píků
Fylogenetická analýza – konstrukce stromů MrBayes • když je S.D. (rozdíl mezi runy) stále vysoké, může pomoci: • přidání dalších generací • pustit novou analýzu se změněnou teplotou cold chain mcmc ngen=[hodnota] temp=[hodnota] • pustit novou analýzu a zvýšit celkový počet chainsmcmc ngen=[hodnota] temp=[hodnota] nchains=[hodnota] • celkově vzato to značí, že máme složitý dataset, nebo dataset s malou fylogenetickou informací... • nevýhody Bayesian Inference: • výpočetně náročné – zejména pro velké datasety, nebo pro datasety se slabým signálem • kritika použití substitučních modelů (viz ML) • gapy možné použít jedině s binárním kódováním (0/1 = absent/present)
Fylogenetická analýza – konstrukce stromů Vizualizace fylogenetických stromů • programy: TreeView, Dendroscope aj. – pracují s .tre formátem • na větve namapovat hodnoty BS, CC • k sekvencím vždy připojit accession numbers z veřejné databáze
Fylogenetická analýza – konstrukce stromů • Obecné zásady interpretace fylogenetických stromů • interpretovat radši jen topologie, které vycházejí stejně za použití různých metod • interpretovat jen statisticky podpořené topologie (BS, CC) • topologie může být ovlivněná i rozsahem samplingu – snažit se o co nejúplnější sampling • důkaz polyfylie urč. skupiny: nestačí jen detekovat polyfylii u nejlepšího stromu;je dobré porovnat marginal likelihoods (MrBayes) stromů s constraints na monofylii / polyfylii (polyfyletický constraint by měl mít výrazně vyšší likelihood) • u podezřelých sekvencí radši daný vzorek znova sekvenovat - možnost záměny vzorků, nevěřit úplně ani sekvencím z databází! • používat data z více úseků
Fylogenetická analýza – konstrukce stromů • Gene tree vs. Species tree • fylogenezi taxonů (species tree) rekonstruujeme na základě fylogeneze daného úseku DNA (gene tree získaný z molek. dat) • každý gen ale může mít trochu jinou evoluční historii – zásadně ji ovlivňují události jako: • incomplete lineage sorting (of ancestral polymorphism) (= deep coalescence) • duplikace / ztráty genů • hybridizace / horizontální přenos genů • rekombinace Maddison W.P. 1996. Gene trees in species trees. Systematic Biology 46: 523-536.
Fylogenetická analýza – konstrukce stromů • Gene tree vs. Species tree Incomplete lineage sorting of ancestral polymorphism (deep coalescence) • populace společného předka daných taxonů má určitý pool alel • deep coalescence: koalescence ancestrálních alel je starší než určitá speciační událost generations population size koalescence: bod v čase, ve kterém se alely spojují do nejbližšího společného předka (MRCA = most recent common ancestor); looking backward in time
Fylogenetická analýza – konstrukce stromů Gene tree vs. Species tree Complete lineage sorting of ancestral polymorphism ideální stav pro rekonstrukci fylogeneze: z původního poolu alel (= ancestral polymorphism) se vlivem genet. driftu a mutací zachovaly pouze alely reflektující fylogenezi taxonů A, B, C (= complete sorting) generations population size
Fylogenetická analýza – konstrukce stromů Gene tree vs. Species tree Incomplete lineage sorting of ancestral polymorphism gene tree ≠ species tree! generations population size
Fylogenetická analýza – konstrukce stromů • Gene tree vs. Species tree Co ovlivňuje incomplete lineage sorting (of ancestral polymorphism)? koalescenční teorie – modeluje čas koalescence alel do MRCA v závislosti na efektivní velikosti populace, počtu generací aj. parametrech pravděpodobnost ILS je vyšší: • u species trees s krátkými větvemi – rychlé/recentní speciace, množství generacíkteré u nich uběhlo je zatím nedostatečné pro kompletní sorting • u větších populací (= méně náchylných k ovlivnění genet. driftem) jsou alely sortovány obtížněji → vyšší pravděpodobnost ILS
Fylogenetická analýza – konstrukce stromů Gene tree vs. Species tree Rosenberg 2003. The shapes of neutral gene genealogies in two species: probabilities of monophyly, paraphyly, and polyphyly in a coalescent model. Evolution 57: 1465-1477. • bezprostředně po speciaci je nepravděpodobnější polyfylie • po ~1300N generacích je nejpravděpodobnější parafylie • po ~1665N generacích je teprve pravděpodobná reciproční mohofylie • a teprve po ~5298N generacích je monofylie detekovatelná u 99% lokusů (N = velikost populace) př.: evolučně mladý taxon (A) – může působit parafylii taxonu, ze kterého se recentně odštěpil (B) → paraphyletic speciation (na populační úrovni)
Fylogenetická analýza – konstrukce stromů • Gene tree vs. Species tree Rekonstrukce species tree z gene trees zatížených ILS/DC: • maximum parsimony přístup – hledá topologii, která minimalizuje počet deep coalescence / lineage sorting události (choose the tree minimizing the number of extra gene lineages that had to coexist along species lineages); programy MDC, SD • maximum likelihood – zohledňují také pravděpodobnostdeep coalescence / lineage sorting události(koalescenční modely); programy STEM, BEST, BEAST
Fylogenetická analýza – konstrukce stromů • Gene tree vs. Species tree Genové duplikace / ztráty • pokud dojde k duplikaci, oba ´dceřinné´ kopie genů by ± měly odrážet fylogenezi taxonů (pokud dokážeme určit homologii!): → • ... ale neplatí pokud dále dochází k ztrátám některých kopií: ≠ → species tree gene tree
Fylogenetická analýza – konstrukce stromů • Gene tree vs. Species tree Genové duplikace / ztráty • nebo může dojít k pseudogenizaci → vyšší mutační rychlost, nižší GC obsah, ztráta intronů → pseudogen je při PCR preferenčně amplifikován • Program GeneTree – reconciled gene trees: • ze zadaného species tree vytvoří pro daný dataset gene tree(s) tak, aby byl minimalizován počet duplikací / ztrát • nebo zadáme data z více genů a vytvoří species tree který minimalizuje počet duplikací / ztrát / případně i deep coalescent událostí
Fylogenetická analýza – konstrukce stromů Gene tree vs. Species tree Hybridizace (reticulations) • recentní hybridi mohou mít oba rodičovské haplotypy jako paralogy(A + B) • nebo náhodně přepnou na haplotyp jednoho z rodičů → polyfyletické • může docházet i k rekombinaci • typická je inkongruence signálu v cpDNA a jaderné DNA • někdy může být problém s odlišením od duplikace / ztráty genů • zohlednit další data (morfologie apod.)
Haplotypové sítě haplotyp = informace z 1 vlákna DNA; v praxi se termín používá pro označení konkrétního sekvenčního typu, ~ genotyp • program TCS http://darwin.uvigo.es/software/tcs.html vhodné pro řešení vztahů na populační úrovni: • na této úrovni nemusí být dostatečná variabilita sekvenčních dat, umožňující jednoznačnou rekonstrukci fylogeneze • v populaci se vyskytují ancestrální haplotypy • haplotypy můžou být ovlivněné rekombinací x fylogenetické stromy nepředpokládají ani neumožňují zohlednit!
Haplotypové sítě Maximum Parsimony strict consensus tree TCS haplotype network: • spočítá matici distancí • výsledkem je síť, ve které vzdálenosti mezi haplotypy odpovídají datům z matice distancí
Haplotypové sítě TCS haplotype network: • haplotypy propojí, pouze pokud tzv. pravděpodobnost parsimonie přesáhne 95% (event. lze použít i nižší cut-off) → tj. v praxi nespojí příliš diverzifikované sekvence • velikost symbolů haplotypů = četnost daného haplotypu • spoující čáry = jeden mutační krok • nody = hypotetické missing haplotypes • retikulace sítě = nejistoty parsimoniálních vztahů mezi sekvencemi, tj. různé evoluční scénáře, nebo ovlivnění rekombinací
Haplotypové sítě Fylogeografie Hercynikum + Z Karpaty: nižší diverzita postglaciální migrace z Alp? V Karpaty – potenciální refugium (větší diverzita haplotypů) Těšitel J, Malinová T, Štech M & Herbstová M. 2009. Variation in the Melampyrum sylvaticum group in the Carpathian and Hercynian region: two lineages with different evolutionary histories. Preslia 81: 1–22.
Haplotypové sítě Fylogeografie směrem na sever klesá diverzita haplotypů JV Evropa: potenciální refugium Beatty GE & Provan J. 2011. Comparative phylogeography of two related plant species with overlapping ranges in Europe, and the potential effects of climate change on their intraspecific genetic diversity. BMC Evolutionary Biology, 11: 29.
Fylogenetická analýza – praktické návody Metody konstrukce stromů – Maximum likelihood (ML) • výběr substitučního modelu: např. program JModelTest: • naloadujeme alignment (.nex);zvolíme, kolik typů modelů chceme testovat • program vezme náš alignment, a pro každý zvolený typ modelu zkouší měnit parametry modelu (= vlastní číselné hodnoty frekvence bází, pravděp. jednotlivých substitucí atd.) - aby dával stromy s nejlepším likelihoodem stromy dělá např. pomocí ML, nebo u velkých datasetů možné použít rychlé distanční metody (NJ) • pro každý typ modelu tedy vybere nejlepší parametry ... • ... a takto vyoptimalizované typy modelů dále vzájemně porovná, vybere ten s nejlepší (= nejnižší) hodnotou: AIC (Akaikovo informační kriterium) BIC (Bayesovo informační kriterium) → porovnává, zda zesložitění modelu povede k průkaznému zlepšení
Fylogenetická analýza – praktické návody Metody konstrukce stromů – Maximum likelihood (ML) • výběr substitučního modelu: např. program JModelTest: Analysis → Do AIC [nebo BIC] calculations... vytvoří definici modelu ve formátu pro Paup
Fylogenetická analýza – praktické návody Metody konstrukce stromů – Maximum likelihood (ML) nejlepší model podle AIC kritéria jeho definice pro Paup (tip: u parametrů ´Lset base´ a příp. ´rmat´ je z nějakého důvodu nutné vymazat poslední číslo před závorkou, jinak to Paup nevezme) celkové pořadí hodnocených modelů
Fylogenetická analýza – praktické návody MrBayes vlastní průběh analýzy: • .nex alignment, např. na jeho konec vložíme definici substitučního modelu jiné než pro Paup! - např. pro GTR+G+INV: • BEGIN MRBAYES; • Lset nst=6 rates=invgamma; • END; • .nex nakopírujeme do složky s programem a otevřeme execute [název souboru.nex] • spustíme analýzu a zadáme počet generací - stovky tisíc až několik milionů, mcmc ngen=[hodnota], program (defaultně po každé 1000. generaci) vypíše hodnotu S.D.: run 1 run 2
Fylogenetická analýza – praktické návody MrBayes vlastní průběh analýzy: • po uskutečnění zadaného počtu generací se zeptá, zda chceme pokračovat přidáním dalších generací – rozhodneme se podle hodnoty S.D. (<0.01 → ok, ukončíme hledání stromů: n;>0.01 → nutno přidat generace: y)
Fylogenetická analýza – praktické návody MrBayes vlastní průběh analýzy: • good mixing: řetězy daného runu se náhodně a ± často mění z hot ( na [ cold (předpoklad úspěšné analýzy) run 1 run 2
Fylogenetická analýza – praktické návody MrBayes sumarizace výsledků analýzy: • chain swap: zda se navzájem přepínají hot a cold chains ◄ čísla nad diagonálami by se u obou běhů měla pohybovat v rozmezí ~0.1-0.7
Fylogenetická analýza – praktické návody MrBayes sumarizace výsledků analýzy: • vizualizace nárůstu likelihoodu stromů během runu: sump ◄ burn-in phase: začátek analýzy, velké rozdíly mezi runy = sampluje horší stromy s nižším likelihoodem