290 likes | 419 Views
Jak se pozná nejlepší strom?. Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií.
E N D
Jak se pozná nejlepší strom? Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. • Prohledávání stromového prostoru– heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. • Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza (distanční metody).
LONG BRANCH ATTRACTION Maximální parsimonie je nekonzistentní metoda A p B C q q A q D p p p C q q q A C B D p p q q q B D
PRINCIP LIKELIHOODU Rádi bychom věděli jaká je pravděpodobnost hypotézy (stromu) při datech (alignmentu), která pozorujeme. P (Hypotézy|Data) = P(H|D) Bayéský teorém říkáP(H|D) = P(H) x P (D|H) / P(D) P (D|H) …… to je likelihood hypotézy (pravděpodobnost, že bychom pozorovali skutečná data pokud by hypotéza byla pravdivá) Hmm, divný…. a nemůžeš nám to ukázat na příkladu
O PATRO VÝŠ SLYŠÍTE ZVUKY… • Co to ____ může být? • Kamarád povídá:„Máš na půdě skřítky a hrajou tam kuželky“. • Vy na to:„Skřítci jsou jen v pohádkách“. • On na to: „No jo, ale kdyby tam byli a hráli, znělo by to přesně takhle“. • Vy: „Monent, skočím si pro kalkulačku“
PRO SKŘÍTKOVOU HYPOTÉZU PLATÍ… P(H) = P(Skřítci co umí hrát kuželky) = velmi malá Předchozí znalosti nám říkají, že pravděpodobnost existence skřítků (natož aby hrávali kuželky) je velmi malá Přesto…. P(D|H) = P(Slyšet zvuky kdyby skřítci hráli) = velká Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… P(H|D) = P(H) x P (D|H) = malá x velká = malá Např.0,000001 x 1,0 = 0,000001
JEŠTĚ NĚCO O LIKELIHOODU… Pokud nemáme žádné informace o apriorních pravděpodobnostech hypotéz, které testujeme, pak likelihoodP(D|H) je způsob, jak porovnávat alternativní hypotézy. Pokud P(D|H1) > P(D|H2) potom dáme přednost hypotéze H1 Příklad: Pokud víte, že na půdě je hodně pavouků a kun [P(Hpavouci) ~P(Hkuny)] a slyšíte na půdě zvuky, pravděpodobnost, že byste slyšeli zvuky běhajících pavouků je MENŠÍ než pravděpodobnost, že byste slyšeli zvuky běhajících kun. Jinými slovy P(Hluky|Hpavouci) << P(Hluky|Hkuny) Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… Likelihood kun dělajících na půdě hluk je vyšší než likelihood pavouků dělajících hluk
JAK POČÍTAT LIKELIHOOD A POROVNÁVAT HYPOTÉZY Hypotéza…pravděpodobnost, že při hodu mincí padne panna je 0,4 (p=0,4) Potřebujeme data: PPOOPOPPOOO Spočítejme likelihood…. Pravděpodobnost že se stane A a B PA&B = PA x PB Pravděpodobnost že se stane A nebo B PA nebo B = PA + PB
KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: Taxon A CCCTGGTaxon B ACTTGA Vzdálenost (délka větve ) t A B L = P(A|C,t)
KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: Taxon A CCCTGGTaxon B ACTTGA Vzdálenost (délka větve ) t A B L = P(A|C,t) + P(C|C,t)
KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: Taxon A CCCTGGTaxon B ACTTGA Vzdálenost (délka větve ) t A B L = P(A|C,t) + P(C|C,t) + P(C|T,t)…..
KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: Jukes-Cantor Taxon A CCCTGGTaxon B ACTTGA Pii = ¼ + ¾ e-ut Pij = ¼ - ¼ e-ut Vzdálenost (délka větve ) t A B L = P(A|C,t) + P(C|C,t) + P(C|T,t)…..
KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: GTR Taxon A CCCTGGTaxon B ACTTGA A G ζ Vzdálenost (délka větve ) t β ε A B δ γ L = P(A|C,t) + P(C|C,t) + P(C|T,t)….. C T α
KONEČNĚ FYLOGENEZE HYPOTÉZA DATA Evoluční model: GTR Taxon A CCCTGGTaxon B ACTTGA P(A|C,t)= eδt P(C|C,t)= e-(ε+α+δ)t P(C|T,t)= eαt Vzdálenost (délka větve ) t A B L = P(A|C,t) aP(C|C,t) a P(C|T,t)…..
STROMY Velmizjednodušený příklad Jen dva znaky 0 a 1 a na větvích platí následující pravděpodobnosti P0->1 = 0.1a P0->0 = 0.9 P1->0 = 0.1a P1->1 = 0.9 Jaká je pravděpodobnost následujícího scénáře se 3 druhy a 2 pozicemi alignmentu. Druh A 0 0 Druh B 1 0 Druh C 1 0
Pravděpodobnost že se stane A a B PA&B = PA x PB Pravděpodobnost že se stane A nebo B PA nebo B = PA + PB Druh A 00 Druh B 1 0 Druh C 1 0 STROMY Pro jednoduchost předpokládejme, že předek měl 0 A B C A B C 0 1 1 0 1 1 0,9 0,1 0,1 0,9 nebo 1 0 0,9 0,9 0,1 0,9 0 0 Pcesta1= P0->0A aP0->1BC a P1->1B a P1->1C Pcesta1= 0,9x 0,1 x 0,9 x 0,9 = 0,0729 Pcesta2= P0->0A aP0->0BC a P0->1B a P0->1C Pcesta2= 0,9x 0,9 x 0,1 x 0,1 = 0,0081 Likelihood tohoto stromu pro pozici 1 je Pcesta1+ Pcesta2= 0,081
Druh A 0 0 Druh B 1 0 Druh C 1 0 STROMY Pro jednoduchost předpokládejme, že předek měl 0 A B C A B C 0 00 0 00 0,9 0,1 0,1 0,9 nebo 0 1 0,9 0,9 0,9 0,1 0 0 Pcesta1= P0->0A aP0->0BC a P0->0B a P0->0C Pcesta1= 0,9x 0,9 x 0,9 x 0,9 = 0,6561 Pcesta2= P0->0A aP0->1BC a P1->0B a P1->0C Pcesta2= 0,9x 0,1 x 0,1 x 0,1 = 0,0009 Likelihood tohoto stromu pro pozici 2 je Pcesta1+ Pcesta2= 0,657 Likelihood tohoto stromu pro cely alignment je L1xL2 =0,053217
SEKVENCE 1 A 2 A 3 C 4 C 5 G 1 2 3 4 5 δ γ β α
SEKVENCE Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu A G A A C C G = P(m= A) x P(n= A | m= A, B1) x … + P(m= C) x P(n= A | m= C, B1) x … …44členů! B8 B3 B4 B7 o p β ε γ B6 δ B5 ζ B2 B1 n m C T α πA πC πGπT P(A|C,B1)= eδt
ROZDÍLY OPROTI PARSIMONII • V parsimonii jsme brali v potaz pouze nevhodnější stavy na vnitřních uzlech.V likelihoodu musíme uvažovat všechny možnosti • Používáme pravděpodobnostní substituční modely, které korigují na substituční saturaci • Všímáme si délek větví (ovlivňuje pravděpodobnosti), pokaždé je musíme optimalizovat – to je velmi náročné
LONG BRANCH ATTRACTION Likelihood vs. parsimonie Swofford et al,. Systematic Biology, 2001
BAYÉSKÁ METODA Prob (H) Prob (D H) Prob (H D) = Prob (H) Prob (D H) H
MARCOV CHAIN MONTE CARLO Rovnovážný stav T1 T2 Prob (T2 D) Pravděpodobnost přechodu z T1 na T2 závisí na Prob (T1 D)
POSTERIORNÍ PRAVDĚPODOBNOSTI Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu Rovnovážný stav T1 T2
Rovnovážná distribuce hypotéz (stromů) Burn-in MARKOV CHAIN V AKCI • Postup lze hodnotit vynesením likelihoodů do grafu generace 0 200 lnL
MARKOV CHAIN V AKCI • Občas může nastat problém (zejména u složitějších modelů, které si musí hrát s větším množstvím parametrů) generace 0 sakra lnL