200 likes | 368 Views
Metody molekulární biologie v ekologii a systematice rostlin 5 . Sekvenování DNA – 3. část. Petr Koutecký & Jiří Košnar, 2011. Fylogenetická analýza – konstrukce stromů. MrBayes. vlastní průběh analýzy: .nex alignment, např. na jeho konec vložíme definici substitučního modelu
E N D
Metody molekulární biologie v ekologii a systematice rostlin 5. Sekvenování DNA – 3. část Petr Koutecký & Jiří Košnar, 2011
Fylogenetická analýza – konstrukce stromů MrBayes vlastní průběh analýzy: • .nex alignment, např. na jeho konec vložíme definici substitučního modelu jiné než pro Paup! - např. pro GTR+G+INV: • BEGIN MRBAYES; • Lset nst=6 rates=invgamma; • END; • .nex nakopírujeme do složky s programem a otevřeme execute [název souboru.nex] • spustíme analýzu a zadáme počet generací - stovky tisíc až několik milionů, mcmc ngen=[hodnota], program (defaultně po každé 1000. generaci) vypíše hodnotu S.D.: run 1 run 2
Fylogenetická analýza – konstrukce stromů MrBayes vlastní průběh analýzy: • po uskutečnění zadaného počtu generací se zeptá, zda chceme pokračovat přidáním dalších generací – rozhodneme se podle hodnoty S.D. (<0.01 → ok, ukončíme hledání stromů: n;>0.01 → nutno přidat generace: y)
Fylogenetická analýza – konstrukce stromů MrBayes vlastní průběh analýzy: • good mixing: řetězy daného runu se náhodně a ± často mění z hot ( na [ cold (předpoklad úspěšné analýzy) run 1 run 2
Fylogenetická analýza – konstrukce stromů MrBayes sumarizace výsledků analýzy: • chain swap: zda se navzájem přepínají hot a cold chains ◄ čísla nad diagonálami by se u obou běhů měla pohybovat v rozmezí ~0.1-0.7
Fylogenetická analýza – konstrukce stromů MrBayes sumarizace výsledků analýzy: • vizualizace nárůstu likelihoodu stromů během runu: sump ◄ burn-in phase: začátek analýzy, velké rozdíly mezi runy = sampluje horší stromy s nižším likelihoodem
Fylogenetická analýza – konstrukce stromů MrBayes sumarizace výsledků analýzy: • odstranění dat z burn-in phase:sump burnin=[hodnota] ◄ likelihoody runu 1 a 2 by měly být srovnatelné = promíchané, bez zřetelného trendu • jak určit hodnotu burn-in: např. vyhodit první ¼ samplovaných stromů, tj.: ngen/100/4(100 = protože se nesampluje v každé generaci, ale jen v každé 100. generaci!) • má to logiku, protože S.D. program počítá právě s vyřazením první ¼ samplovaných stromů • ale údajně na to není konzistentní názor...
Fylogenetická analýza – konstrukce stromů MrBayes poté už jen vlastní sumarizace stromu:sumt burnin=[hodnota] ◄ kladogram s hodnotami podpory větví (CC) ◄ fylogram s délkou větví • strom uložen s koncovkou .con → stačí přepsat na .tre a dál zpracovat
Fylogenetická analýza – konstrukce stromů MrBayes • když je S.D. stále vysoké, může pomoci: • přidání dalších generací • pustit novou analýzu se změněnou teplotou cold chain mcmc ngen=[hodnota] temp=[hodnota] • pustit novou analýzu a zvýšit celkový počet chainsmcmc ngen=[hodnota] temp=[hodnota] nchains=[hodnota] • celkově vzato to značí, že máme složitý dataset, nebo dataset s malou fylogenetickou informací... • nevýhody Bayesian Inference: • výpočetně náročné – zejména pro velké datasety, nebo pro datasety se slabým signálem • kritika použití substitučních modelů (viz ML) • gapy možné použít jedině s binárním kódováním (0/1 = absent/present)
Fylogenetická analýza – konstrukce stromů Vizualizace fylogenetických stromů • programy: TreeView, Dendroscope aj. – pracují s .tre formátem • na větve namapovat hodnoty BS, CC • k sekvencím vždy připojit accession numbers z veřejné databáze
Fylogenetická analýza – konstrukce stromů • Obecné tipy pro interpretaci fylogenetických stromů • interpretovat radši jen topologie, které vycházejí stejně za použití různých metod • interpretovat radši jen statisticky podpořené topologie (BS, CC) • topologie může být ovlivněná i rozsahem samplingu – snažit se o co největší sampling • v případě jednotlivých podezřelých sekvencí radši daný vzorek znova sekvenovat - možnost záměny vzorků, nevěřit úplně ani sekvencím z databází! • používat raději data z více úseků • strom jednoho úseku = gene tree • gene tree se nemusí stoprocentně shodovat se species tree! • (horizontální přenos, ancestrální polymorfizmus, nedostatečná informativnost)
Fylogenetická analýza – konstrukce stromů • Obecné tipy pro interpretaci fylogenetických stromů • monofyletické skupiny • evolučně mladý taxon (A) – může působit parafylii taxonu, ze kterého se recentně odštěpil (B) → paraphyletic speciation (na populační úrovni)
Fylogenetická analýza – konstrukce stromů • Obecné tipy pro interpretaci fylogenetických stromů • problémy s hybridy: • recentní hybridi mohou mít oba rodičovské haplotypy jako paralogy(A + B) • nebo náhodně přepnou na haplotyp jednoho z rodičů → polyfyletické • typická je inkongruence signálu v cpDNA a jaderné DNA • zohlednit další data (morfologie apod.)
Haplotypové sítě haplotyp = informace z 1 vlákna DNA; v praxi se termín používá pro označení konkrétního sekvenčního typu, ~ genotyp • program TCS http://darwin.uvigo.es/software/tcs.html vhodné pro řešení vztahů na populační úrovni: • na této úrovni nemusí být dostatečná variabilita sekvenčních dat, umožňující jednoznačnou rekonstrukci fylogeneze • v populaci se vyskytují ancestrální haplotypy • haplotypy můžou být ovlivněné rekombinací x fylogenetické stromy nepředpokládají ani neumožňují zohlednit!
Haplotypové sítě Maximum Parsimony strict consensus tree TCS haplotype network: • spočítá matici distancí • výsledkem je síť, ve které vzdálenosti mezi haplotypy odpovídají datům z matice distancí
Haplotypové sítě TCS haplotype network: • haplotypy propojí, pouze pokud tzv. pravděpodobnost parsimonie přesáhne 95% (event. lze použít i nižší cut-off) → tj. v praxi nespojí příliš diverzifikované sekvence • velikost symbolů haplotypů = četnost daného haplotypu • spoující čáry = jeden mutační krok • nody = hypotetické missing haplotypes • retikulace sítě = nejistoty parsimoniálních vztahů mezi sekvencemi, tj. různé evoluční scénáře, nebo ovlivnění rekombinací
Haplotypové sítě Fylogeografie Hercynikum + Z Karpaty: nižší diverzita postglaciální migrace z Alp? V Karpaty – potenciální refugium (větší diverzita haplotypů) Těšitel J, Malinová T, Štech M & Herbstová M. 2009. Variation in the Melampyrum sylvaticum group in the Carpathian and Hercynian region: two lineages with different evolutionary histories. - Preslia 81: 1–22.
Haplotypové sítě Fylogeografie směrem na sever klesá diverzita haplotypů JV Evropa: potenciální refugium Beatty GE & Provan J. 2011. Comparative phylogeography of two related plant species with overlapping ranges in Europe, and the potential effects of climate change on their intraspecific genetic diversity. – BMC Evolutionary Biology, 11: 29.
Haplotypové sítě práce s TCS: • pro analýzu použít všechny sekvence– nekolabovat do haplotypů! pro stromové metody je naopak vhodné identické sekvence zkolabovat do haplotypů = daný sekvenční typ (haplotyp) použít v matici jen jednou (ostatní vymazat) - aby algoritmus hledání stromů nebyl zahlcen zbytečnými daty • .fas soubor převést na .phy – např. pomocí probramu Fabox http://users-birc.au.dk/biopv/php/fabox/index.php
Haplotypové sítě práce s TCS: otevřeme data spusíme analýzu