330 likes | 445 Views
ODHAD POČTU SUBSTITUCÍ. Sekvence A - A A TG T A G GAATCGC. Sekvence B - A C TG A A A GAATCGC. Zjištění rozdílů ( p ). Korekce na mnohonásobné substituce. Bereme nebo nebereme v potaz různou frekvenci různých typů záměn , frekvenci nukleotidů,
E N D
ODHAD POČTU SUBSTITUCÍ Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Zjištění rozdílů (p) Korekce na mnohonásobné substituce Beremenebonebereme v potaz různou frekvenci různých typů záměn, frekvenci nukleotidů, různou substituční rychlost v různých pozicích alignmentu… D = ut Sekvence A Sekvence B
PROTEINOVÉ MODELY Poissonův model: D = -19/20 ln(1- 20/19 p) p-procento rozdílných aminokyselin Obdoba nukleotidového Jukes-Cantorova modelu předpokládá stejnou frekvenci všech typů záměn a stejnou frekvenci aminokyselin. D = -3/4 ln(1- 4/3 p)
PROTEINOVÉ MODELY PAM 001 – rozdíly v sekvencích proteinů odpovídající D=0,01. Matice se dá přepočítat na vyšší D umocněním, např. D=0,1 ~ M10(PAM10)
PROTEINOVÉ MODELY Novější substituční matice odvozené ze skutečných proteinů • WAG • JTT • mtREV
JAKÉ DISTANCE POUŽÍVAT? Modely s větším počtem parametrů (GTR) jsou flexibilnější a většinou přesnější než metody jednoduché. Potřebují však velké množství parametrů a distance jimi vypočítané mají větší rozptyl. Pro kratší úseky proto dávají horší výsledky. Simulace ukázala, že pro D< 0,5 dávají poměrně přesné výsledky i nejjednoduší metody (Jukes-Cantor, Kimura). Pro větší distance (a dostatečně dlouhé sekvence) je lépe použít složitější modely (GTR).
Anatomie stromu Vnitřní větev Terminální větev Vnitřní uzel (poslední společný předek) Vrcholový uzel (současnost) A B C D E F
Zakořeněný a nezakořeněný F A E D B C A B C D E F
Co chceme u stromu zjistit Co chceme u stromu zjistit? • Jaký má tvar (topologii) • Jaké má délky větví • Jak věrohodné je jeho větvení • Kde je jeho kořen A B C D E F
Jak se pozná nejlepší strom? Strom, který „nejlépe vysvětlí“ naše data. • Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza UPGMA, Neighbour-joining (distanční metody). • Prohledávání stromového prostoru– heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií.
Vycházíme z matice distancí A-B jsou taxony nebo jiné OTU (operation taxonomic units). Nejjednodušší algoritmickou metodou je shlukovací analýza UPGMA (Unweighted Pair Group Method with Arithmetic mean)
UPGMA 1) Najdeme v tabulce nejmenší hodnotu (v tomto případě dBC) 2) Dvě OTU (druhy) s nejmenší vzájemnou vzdáleností spojíme do jedné OTU a vypočítáme vzdálenost této OTU od ostatních: D(BC)A = (DAB + DAC)/2 = (0,5 + 0,45)/2 = 0,475 D(BC)D = (DBD + DCD)/2 = (0,4 + 0,35)/2 = 0,375 (obecně: aritmetický průměr ze vzdáleností všech dvojic jednoduchých OTU (druhů) kde každý člen dvojice pochází z jedné ze spojovaných OTU) B C
UPGMA 3) Z přepočítaných hodnot vytvoříme novou tabulku. 4) Celý postup opakujeme. Nejmenší distance je tentokrát mezi D a BC. Proto D připojíme k BC. Vypočítáme vzdálenost BCD od A. D(BCD)A = (DAB + DAC + DAD)/3 = (0,5 + 0,45 + 0,55)/3 = 0,5 B C D A
UPGMA Výpočet délek větví: DBC = 0,15 DBC/2 D(BC)D = 0,375 D(BCD)A = 0,5 B D(BC)D/2 - DBC/2 DBC/2 C D(BCD)A/2 - D(BC)D/2 D(BC)D/2 D D(BCD)A/2 A
UPGMA Výpočet délek větví: DBC = 0,15 0,075 D(BC)D = 0,375 D(BCD)A = 0,5 B D(BC)D/2 - DBC/2 0,075 C D(BCD)A/2 - D(BC)D/2 D(BC)D/2 D D(BCD)A/2 A
UPGMA Výpočet délek větví: DBC = 0,15 0,075 D(BC)D = 0,375 D(BCD)A = 0,5 B 0,1125 0,075 C D(BCD)A/2 - D(BC)D/2 0,1875 D D(BCD)A/2 A
UPGMA Výpočet délek větví: DBC = 0,15 0,075 D(BC)D = 0,375 D(BCD)A = 0,5 B 0,1125 0,075 C 0,0625 0,1875 D 0,25 A
UPGMA • Je to nejjednodužší metoda konstrukce fylogenetických stromů umí strom zakořenit • Předpokládá, že substituční rychlost je konstantní, takže distance (D) je přímo úměrná času (T), naprosto přesně platí molekulární hodiny • Proto předpokládá, že distance a strom je ultramerický, všechny dnešní taxony „domutovaly“ stejně daleko B C D A
UPGMA • Tyto předpoklady jsou však téměř vždy porušeny • Pokud jsou předpoklady porušeny výrazně metoda se prostě splete a vytvoří nesprávný strom • Má tendenci posouvat divergentnější sekvence blíže ke kořeni stromu – artefakt přitahování dlouhých větví (LBA) • LBA je jedno z největších úskalí molekulární fylogenetiky
UPGMA 0,2 B 0,1 0,3 C 0,1 0,1 D 0,4 A
UPGMA 0,2 0,2 B B 0,1 0,05 0,3 0,2 C D 0,1 0,13 0,1 0,25 D C 0,4 0,383 A A
Distanční metod nejprve změří distance pro všechny páry a pak vyberou topologii, do které se jim distance povede nejlépe napasovat. Skóre jsou třeba nejmenší čtverce. Nejmenší čtverce (leastsquares) 1. Známe genetickou vzdálenost pro všechny páry sekvencí. A B A C A D B C B D C D
Nejmenší čtverce (leastsquares) A B 2. Vezmeme první topologii a vyzkoušíme, jak dobře do ní distance pasují. Měníme délky větví topologie tak aby pasovali co nejlépe. Nejlepší skóre si zapamatujeme. A C A D B C B D C D A C D B n n Q = ∑ ∑wij (Dij- dij)2 Skóre i=1j=1
Nejmenší čtverce (leastsquares) 3. Vezmeme další topologii a určíme její skóre. A B A C A D 4. Projdeme všechny topologie, co nás napadnou. Tu s celkově nejlepším skóre vybereme. B C B D C D B D A C n n Q = ∑ ∑wij (Dij- dij)2 Skóre i=1j=1
Nejmenší čtverce (leastsquares) 0,2 1 2 0,2 B B 0,1 0,05 0,3 0,1 0,2 C D 0,13 0,1 0,25 D C 0,4 0,383 A A Q1= (0,8-0,8)2+(0,9-0,9)2+(0,6-0,6)2+(0,5-0,5)2+(0,4-0,4)2+(0,5-0,5)2= 0,0 Q2= (0,8-0,763)2+(0,9-0,763)2+(0,6-0,763)2+(0,5-0,5)2+(0,4-0,4)2+(0,5-0,5)2= 0,046707 Nejmenší čtvercegarantují nalezení správného stromu jsou-li dobře spočítané distance.
Minimální evoluce (minimum evolution) Délky větví na topologiích optimalizujeme úplně stejně jako v případě „nejmenších čtverců“, ale topologie vzájemně porovnáváme podle součtu délek všech větví. Vybereme tu s nejmenším součtem. n n Q = ∑ ∑Dij i=1j=1
Minimální evoluce (minimum evolution) 0,2 1 2 0,2 B B 0,1 0,05 0,3 0,1 0,2 C D 0,13 0,1 0,25 D C 0,4 0,383 A A Q1= 0,2+0,3+0,1+0,1+0,1+0,4= 1,2 Q2= 0,2+0,2+0,05+0,25+0,13+0,383=1,1213 n n Q = ∑ ∑Dij i=1j=1
Neighbor-joining Algoritmizovaná „minimum evolution“ postupně rozkládáme hvězdicový strom (star decomposition) shlukováním nejbližších taxonů tak, aby se v každém kroku co maximálně zmenšila celková délka stromu.
Neighbor-joining B A C D uA = 0,8/2+0,9/2+0,6/2=1,15 uB = 0,8/2+0,5/2+0,4/2=0,85 nDAB= DAB- uA – uB = 0,8-1,15-0,85=-1,2 n ui = ∑ Dij /(n-2) j: j ≠1
Neighbor-joining B A X C D vB = ½ DBC+1/2(uB - uC) = ½ 0,5+1/2(0,85 – 0,95) = 0,2 B A 0,2 X BC vc = ½ DBC+1/2(uC - uB) = ½ 0,5+1/2(0,95 – 0,85) = 0,3 0,3 C D DA(BC) = (DAB + DAC - DBC)/2 = 0,6
Neighbor-joining B A 0,1 0,2 0,5 X BC 0,3 C 0,1 D vA = ½ DAD+1/2(uA - uD) = ½ 0,6+1/2(1,2 – 0,8) = 0,5 uA = 0,6/1+0,6/1=1,2 uBC = 0,6/1+0,2/1=0,8 uD = 0,6/1+0,2/1=0,8 vD = ½ DAD+1/2(uD - uA) = ½ 0,6+1/2(0,8 – 1,2) = 0,1 n ui = ∑ Dij /(n-2) j: j ≠1
Neighbor-joining 0,2 B B A 0,1 = 0,3 0,2 0,1 C 0,1 0,5 0,3 0,1 D 0,1 C D 0,4 A Neighbor-joining stejně jako nejmenší čtverce garantuje nalezení správného stromu jsou-li dobře spočítané distance.