MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek

MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek • 23.2. - Zahájení kurzu, taxonomie a molekulárně biologické znaky, metody sekvenace DNA • 2.3. - Databáze sekvencí a vyhledávání v nich (Marián Novotný) • 9.3. - Alignment sekvencí (Marián Novotný) • 16.3. - Získávání nesekvenčních molekulárních dat - multilokusové metody (RAPD, RFPL aj.), mikrosatelity, minisatelity, izoenzymová a alozymová analýza, imunologické metody • Praktikum 19.3.: Získávání sekvencí, alignment, odečet výsledků RAPD/RFLP • 23.3. - Evoluce sekvencí, odhad evoluční vzálenosti (distance) • 30.3. - Fylogenetické stromy I. - anatomie stromů, konstrukce stromů z genetických vzdáleností, algoritmy a hledání stromu s nejlepším skóre • 6.4. - Fylogenetické stromy II. Metoda maximální parsimonie, artefakty konstrukce stromů • 13.4. - Fylogenetické stromy III. - Metoda maximum likelihood, Bayéská metoda • 20.4. - Fylogenetické stromy IV. - Multigenové analýzy, určení věrohodnosti větvení stromů, nalezení kořene, testy topologie, datování pomocí molekulárních hodin • Praktikum 23.4.: Konstrukce stromů ze sekvencí DNA a z RAPD/RFLP dat • 27.4. - Identifikace jedinců, určování rodičovství, DNA barkóding • Praktikum 30.4.: Konstrukce stromů ze sekvencí proteinů • 4.5. - Vnitrodruhová fylogeneze, struktura populace a genový tok, fylogeografie, příklady • 11.5. - Speciace a hybridizace, kryptické druhy, příklady – odevzdání nepovinného eseje • Praktikum 15.5.: Různé testy, zpracování dat získaných analýzou mikrosatelitů • 18.5. - Prezentace studentů

SITE HETEROGENEITY r1 r2 r3 r4 r5 r6 P(A|C,t)= eδt P(A|C,t)= erδt Taxon A C C C T G GTaxon B A C T T G A ∞ P(A|C,t)= ∫0 f(r) erδt P(A|C,t)= 1/4 er1δt+ 1/4 er2δt + 1/4 er3δt+ 1/4 er4δt

KONSEZUÁLNÍ STROM Stromy, které obsahují stejnou sadu OTU mohou být, je-li to třeba kombinovány do jednoho. Existuje několik způsobů, jak to udělat.

STRIKTNÍ KONSENZUS Obsahuje ty „bipartitions“, které se vyskytují ve všech stromech B B B A A A E E E C C C D D D B A E C D

STRIKTNÍ KONSENZUS Obsahuje ty „bipartitions“, které se vyskytují ve všech stromech B B A A E E C C D D B A E C D

MAJORITY RULE KONSENZUS Obsahuje „bipartitions“, které se vyskytují ve v nadpoloviční většině stromů. B B B A A A E E E C C C D D D B A E C D

EXTENDED MAJORITY RULE KONSENZUS Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) F F B B A A B B B B B A A A A A E E E E E E E C C C C D D C C C D D F F F D D D B F F F A E C 3/7 D

OTÁZKY, KTERÉ BYCHOM SI MĚLI KLÁST • Podporují moje data (ve většině případů alignment) pevně nebo slabě příbuzenské vztahy na stromu, který jsem získal? • Je můj strom skutečně lepší než nějaký jiný? • Je vůbec strom vhodné vysvětlovat příbuzenské vztahy mezi mými OTU pomocí stromu?

PROČ KLÁST TYTO NEPŘÍJENÉ OTÁZKY? Každá data nám totiž poskytnou strom 1 ACCGAGCAA 2 ACCGAGCAA 3 ACCGAGCAA 4 ACCGAGCAA 3 1 1 ACCGAATGA 2 ACCGAGCAG 3 GTTAGGCAG 4 GTTAGATGA 2 4

DATA MOHOU OBSAHOVAT MNOHO PROBLÉMŮ? • Přesycení (saturace) – příliš mnoho substitucí (a mmnohonásobných!), aby byly patrné příbuzenské vztahy • Nedostatek signálu – některé krátké větve stromu mohou být podpořeny jen několika málo znaky • Data mohou obsahovat zavádějící signál (artefakt).

STATISTICKÁ PODPORA VĚTVENÍ

POSTERIORNÍ PRAVDĚPODOBNOSTI Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu Rovnovážný stav T1 T2

POSTERIORNÍ PRAVDĚPODOBNOSTI UZLŮ

RESAMPLING METODY Základní princip • Vytvořit ze vzorku dat (sloupců alignmentu) nový vzorek a podívat se jestli dostaneme stejnou odpověď • Udělat to mnohokrát (100vky opakování) • Naznačit výsledek na původní strom.

BOOTSTRAP • Z původného vzorku vybíráme s vracením • Původní alignmnet: nsloupců • Bootstrappový alignment: nsloupců • Aleněkteré sloupce se tam budou vyskytovat několikrát a některé budou úplně chybět.

BOOTSTRAP Bootstrappované alignmenty Stromy Bootstrapové alignmenty (n opakování) Alignment 515621 123456 A catcga B ccgggt C gcggga D gaacgt 364122 615343 414436 Rekonstruovaný strom

BOOTSTRAP Namapovat hodnoty bootstrapu na původní strom. Bootstrap pro větev (“bipartition”) odpovídá frekvenci, s jakou se daná větev vyskytuje mezi bootstrapovými opakováními 70% je považováno za „dobrý“ bootstrap 65% (weak) 100% (absolutní podpora)

JACKKNIFE • Jiná resampling metoda • Místo vybírání s vracením vybere jen k % sloupců alignmentu bez vracení.

JACKKNIFE 50% jackknife Jackknifované alignmenty Stromy Jackknife alignmenty (n opakování) Alignment 342 123456 A catcga B ccgggt C gcggga D gaacgt 136 514 256 Rekonstruovaný strom Namapování hodnot jackknifu na originální strom provedeme stejně jako v případě bootstrapu

OMEZENÍ NEPARAMETRICKÝCH METOD • Neparametrické bootstrapování a jackknifování, o kterých jsme dosud mluvili je omezeno dostupností použitelných dat. • Rádi bychom více dat! Ale, kde je vzít?

PARAMETRICKÝ BOOTSTRAP • Pomocísimulacenagenerujeme vzorky dat, které odpovídají hypotéze (substitučnímu modelu a stromu s délkami větví), ke které jsme dospěli. • K takové simulaci potřebujeme parametry (model a strom), které jsme získali z empirických dat. • Jak probíhá simulace?

PARAMETRICKÝ BOOTSTRAP GAACCAAT GAATCAAC Simulujemesubstituce podél větví stromu podle substitučního modelu GAATCAGC TAGGCAAT TAAGCAAC Počáteční sekvuence (náhodná, odpovídající frekvenci nukleotidů) TAAGCAAC TAAGCAAC Simulaci opakujeme mnohokrát(100?), zaznamenáme sekvence na koncových uzlech a pokaždé z nich spočítáme strom

TESTY TOPOLOGICKÝCH HYPOTÉZ L1 L0 δ= ln L1-lnL0 Je L1 signifikantně vyšší než L0? Potřebujeme znát rozložení δ….

TESTY TOPOLOGICKÝCH HYPOTÉZ AU test L1L2L3L4L5L6 A catcga B ccgggt C gcggga Vypočteme „site likelihoods“ L1, L2, L3, L4, L5, L6 L1, L2, L3, L4, L5, L6 Provedeme permutaci „site likelihoods“ a vypočteme celkový Likelihood L1= L1*L2* L2* L3*L4* L2L0= L1*L1* L6* L3*L4* L5 Spočítáme δδ= lnL1-lnL0 Opakujeme mnohokrát Procento případů, kdy δ ≤ 0 je hodnota p s jakou můžeme H0 zavrhnout

VÝBĚR MODELU • Odměňuje nárůst likelihoodu, ale trestá za nadbytečné parametry Akaike Information Criterion AICi = -2lnLi + 2pi Abychom nalezli nejlepší rovnováhu mezi funkčností modelu a jeho složitostí musíme minimalizivat AIC Log-likelihood pro model i Počet parametrů pro model i

LIKELIHOOD RATIO TEST V rámci maximum likelihoodu je možné rozhodovat, jestli složitější model dává signifikantně lepší výsledek pomocí likelihood ratio testu (LRT). δ=2(ln L1-lnL0 ) lnL1….věrohodnost stromu podle složitějšího modelu lnL0….věrohodnost stromu podle jednoduššího modelu (nulová hypotéza) Hodnota statistiky δ je vždy větší než 0. Pokud je jednodušší model obsažen ve složitějším modelu, má tato statistika zhruba rozložení χ2 se stupni volnosti odpovídajícími rozdílu v počtu volných parametrů mezi modely. Program Modeltest

GENOVÝ STROM X DRUHOVÝ STROM Mohou se odlišovat, protože historie genu nemusí přesně kopírovat historii druhu. Gen může prodělat horizontální genový přenos.

GENOVÝ STROM X DRUHOVÝ STROM Rozdíl může způsobit také mezidruhový přenos polymorfismu t1 t2 X Y Z X Y Z X Y Z Průměrná doba (T) potřebná k eliminaci polymorfismu prostřednictvím genetického driftu 4Ne T = t1- t2 Ne: efektivní velikost¨populace.

JAK SPOJIT RŮZNÉ SADY DAT? ?

JAK SPOJIT RŮZNÉ SADY DAT? Mnoho stromů Mnoho alignmentů Jeden strom Jeden alignment

SUPER MATICE Gen 1 Gen 2 Gen 3 Gen 4 A B C D E ? Prostě je seřadíme za sebe. A co když někde gen chybí? Pokud množství chybějících genů nepřesahuje rozumnou míru, nevadí.

SUPER MATICE • Také se jim říká ‘konkatenace’ • Předpokládá, že geny sdílejí společnou evoluční minulost (hmmm…) • Je dobré, a schůdné, „dovolit“, aby pro každý gen platily jiné parametry substitučního modelu.

SUPERTREE Mnoho stromů Mnoho alignmentů Jeden strom Uděláme konsenzus, ale co když se jednotlivé stromy trochu liší zastoupením taxonů 33

SUPERTREE Matrix Representation with Parsimony(Baum and Ragan, 1992) • Uděláme ze stromů alignent (‽) • Každá „bipartition“ představuje v alignmentu jeden sloupec

SUPERTREE A C D A * * * *B * * * - C * . . * D * . . . E . . * - F . . * . Z tohoto alignmentu udělej strom podle maximální parsimonie F A B C D E F

SÍŤ Neighbor-net(Bryant and Moulton, 2004) • Je založena na neighbor-joining ale umožňuje spojovat více taxonů

SÍŤ Neighbor-net

ZAKOŘENĚNÍ STROMU

METODA OUTGROUPŮ Všechny zmíněné metody produkují nezakořeněný strom!!!Pro zakořenění se nejčastěji používá metoda „outgroupů“ – organismů/sekvencí nepatřících do skupiny kterou studujeme.

METODA OUTGROUPŮ Outgroup ukáže, kde je kořen vašeho stromu. Outgroup by měl být co možná nejbližší skupině, kterou studujete.

MIDPOINT ROOT Kořen umístí to poloviny nejdelší cesty stromem

SOFTWARE Software • Distační metody – PAUP (spíše DNA), PHYLIP, MEGA, Neighbor-net • Parsimonie– PAUP, PHYLIP, MEGA • Maximum likelihood – PAUP (jen DNA), RAxML, Phyml, IQPNNI, TreePuzzle, PHYLIP • Bayéská metoda –MrBayes Phylobayes

MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek