370 likes | 503 Views
SUBSTITUČNÍ SATURACE. 0,95 PROTEINY. Počet pozorovaných rozdílů. 0,75 DNA. p. Skutečný počet substitucí na jednu pozici. ODHAD POČTU SUBSTITUCÍ. Sekvence A - A A TG T A G GAATCGC. Sekvence B - A C TG A A A GAATCGC. Zjištění rozdílů ( p ). Korekce na mnohonásobné substituce.
E N D
SUBSTITUČNÍ SATURACE 0,95 PROTEINY Počet pozorovaných rozdílů 0,75 DNA p Skutečný počet substitucí na jednu pozici
ODHAD POČTU SUBSTITUCÍ Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Zjištění rozdílů (p) Korekce na mnohonásobné substituce Beremenebonebereme v potaz různou frekvenci různých typů záměn, frekvenci nukleotidů, D = ut Sekvence A Sekvence B
Jukes-Cantor Obecně použitelné odvození G C T A -u u/3 u/3 u/3 A u/3 G u/3 -u u/3 C -u u/3 u/3 u/3 -u u/3 u/3 u/3 T 4/3 ut 4/3 ut JC K2P D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q) D =ut = -3/4 ln(1- 4/3 p)
DALŠÍ MODELY GTR General time reversible + ζ A G Rovnovážné frekvence nukleotidů πA πC πGπT Parametry: frekvence(rychlost) záměn (αβγδεζ) a frekvencenukleotidů (πA πC πGπT) se odvozují z analyzovaných sekvencí zároveň s výpočtem D metodou maximum likelihood (přednáška 4. 4.). β ε δ γ C T α P(t)=eQt, celková rychlost=1 pak D=t
PROTEINOVÉ MODELY Poissonův model: D = -19/20 ln(1- 20/19 p) p-procento rozdílných aminokyselin Obdoba nukleotidového Jukes-Cantorova modelu předpokládá stejnou frekvenci všech typů záměn a stejnou frekvenci aminokyselin. D = -3/4 ln(1- 4/3 p)
PROTEINOVÉ MODELY PAM 001 – rozdíly v sekvencích proteinů odpovídající D=0,01. Matice se dá přepočítat na vyšší D umocněním, např. D=0,1 ~ M10(PAM10) P=eD Px=exD Q = lnP
PROTEINOVÉ MODELY Novější substituční matice (Q) odvozené ze skutečných proteinů • LG (LG-F) • WAG (WAG-F) • JTT (JTT-F) • mtREV (mtREV-F)
ODKUD SE BEROU RELATIVNÍ RYCHLOSTI SUBSTITUCÍ DNA– z počtu pozorovaných záměn v našich sekvencích Proteiny– z velkých empirických souborů sekvecí Sekvence A Sekvence B Proč se to dělá pokaždé jinak?
Anatomie stromu Vnitřní větev Terminální větev Vnitřní uzel (poslední společný předek) Vrcholový uzel (současnost) A B C D E F
Zakořeněný a nezakořeněný F A E D B C A B C D E F
Co chceme u stromu zjistit Co chceme u stromu zjistit? • Jaký má tvar (topologii) • Jaké má délky větví • Jak věrohodné je jeho větvení • Kde je jeho kořen A B C D E F
Jak se pozná nejlepší strom? Strom, který „nejlépe vysvětlí“ naše data. • Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza UPGMA, Neighbour-joining (distanční metody). • Prohledávání stromového prostoru– heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií.
Vycházíme z matice distancí A-B jsou taxony nebo jiné OTU (operation taxonomic units). Nejjednodušší algoritmickou metodou je shlukovací analýza UPGMA (Unweighted Pair Group Method with Arithmetic mean)
UPGMA 1) Najdeme v tabulce nejmenší hodnotu (v tomto případě dBC) 2) Dvě OTU (druhy) s nejmenší vzájemnou vzdáleností spojíme do jedné OTU a vypočítáme vzdálenost této OTU od ostatních: D(BC)A = (DAB + DAC)/2 = (0,5 + 0,45)/2 = 0,475 D(BC)D = (DBD + DCD)/2 = (0,4 + 0,35)/2 = 0,375 (obecně: aritmetický průměr ze vzdáleností všech dvojic jednoduchých OTU (druhů), kde každý člen dvojice pochází z jedné ze spojovaných OTU) B C
UPGMA 3) Z přepočítaných hodnot vytvoříme novou tabulku. 4) Celý postup opakujeme. Nejmenší distance je tentokrát mezi D a BC. Proto D připojíme k BC. Vypočítáme vzdálenost BCD od A. D(BCD)A = (DAB + DAC + DAD)/3 = (0,5 + 0,45 + 0,55)/3 = 0,5 B C D A
UPGMA Výpočet délek větví: DBC = 0,15 DBC/2 D(BC)D = 0,375 D(BCD)A = 0,5 B D(BC)D/2 - DBC/2 DBC/2 C D(BCD)A/2 - D(BC)D/2 D(BC)D/2 D D(BCD)A/2 A
UPGMA Výpočet délek větví: DBC = 0,15 0,075 D(BC)D = 0,375 D(BCD)A = 0,5 B D(BC)D/2 - DBC/2 0,075 C D(BCD)A/2 - D(BC)D/2 D(BC)D/2 D D(BCD)A/2 A
UPGMA Výpočet délek větví: DBC = 0,15 0,075 D(BC)D = 0,375 D(BCD)A = 0,5 B 0,1125 0,075 C D(BCD)A/2 - D(BC)D/2 0,1875 D D(BCD)A/2 A
UPGMA Výpočet délek větví: DBC = 0,15 0,075 D(BC)D = 0,375 D(BCD)A = 0,5 B 0,1125 0,075 C 0,0625 0,1875 D 0,25 A
UPGMA • Je to nejjednodužší metoda konstrukce fylogenetických stromů umí strom zakořenit • Předpokládá, že substituční rychlost je konstantní, takže distance (D) je přímo úměrná času (T), naprosto přesně platí molekulární hodiny • Proto předpokládá, že distance a strom je ultramerický, všechny dnešní taxony „dosubstituovaly“ stejně daleko B C D A
UPGMA • Tyto předpoklady jsou však téměř vždy porušeny • Pokud jsou předpoklady porušeny výrazně metoda se prostě splete a vytvoří nesprávný strom • Má tendenci posouvat divergentnější sekvence blíže ke kořeni stromu – artefakt přitahování dlouhých větví (LBA) • LBA je jedno z největších úskalí molekulární fylogenetiky
UPGMA 0,2 B 0,1 0,3 C 0,1 0,1 D 0,4 A
UPGMA 0,2 0,2 B B 0,1 0,05 0,3 0,2 C D 0,1 0,13 0,1 0,25 D C 0,4 0,383 A A
Nejmenší čtverce (leastsquares) 1. Známe genetickou vzdálenost pro všechny páry sekvencí. A B A C A D B C B D C D
Nejmenší čtverce (leastsquares) A B 2. Vezmeme první topologii a vyzkoušíme, jak dobře do ní distance pasují. Měníme délky větví topologie tak aby pasovali co nejlépe. Nejlepší skóre si zapamatujeme. A C A D B C B D C D A C D B n n Q = ∑ ∑wij (Dij- dij)2 Skóre i=1j=1
Nejmenší čtverce (leastsquares) 3. Vezmeme další topologii a určíme její skóre. A B A C A D 4. Projdeme všechny topologie, co nás napadnou. Tu s celkově nejlepším skóre vybereme. B C B D C D B D A C n n Q = ∑ ∑wij (Dij- dij)2 Skóre i=1j=1
Nejmenší čtverce (leastsquares) 0,2 1 2 0,2 B B 0,1 0,05 0,3 0,1 0,2 C D 0,13 0,1 0,25 D C 0,4 0,383 A A Q1= (0,8-0,8)2+(0,9-0,9)2+(0,6-0,6)2+(0,5-0,5)2+(0,4-0,4)2+(0,5-0,5)2= 0,0 Q2= (0,8-0,763)2+(0,9-0,763)2+(0,6-0,763)2+(0,5-0,5)2+(0,4-0,4)2+(0,5-0,5)2= 0,046707 Nejmenší čtvercegarantují nalezení správného stromu jsou-li dobře spočítané distance.
Minimální evoluce (minimum evolution) Délky větví na topologiích optimalizujeme úplně stejně jako v případě „nejmenších čtverců“, ale topologie vzájemně porovnáváme podle součtu délek všech větví. Vybereme tu s nejmenším součtem. n n Q = ∑ ∑Dij i=1j=1
Minimální evoluce (minimum evolution) 0,2 1 2 0,2 B B 0,1 0,05 0,3 0,1 0,2 C D 0,13 0,1 0,25 D C 0,4 0,383 A A Q1= 0,2+0,3+0,1+0,1+0,1+0,4= 1,2 Q2= 0,2+0,2+0,05+0,25+0,13+0,383=1,213 n n Q = ∑ ∑Dij i=1j=1
Neighbor-joining Algoritmizovaná „minimum evolution“ postupně rozkládáme hvězdicový strom (star decomposition) shlukováním nejbližších taxonů tak, aby se v každém kroku co maximálně zmenšila celková délka stromu.
Neighbor-joining B A C D uA = 0,8/2+0,9/2+0,6/2=1,15 uB = 0,8/2+0,5/2+0,4/2=0,85 nDAB= DAB- uA – uB = 0,8-1,15-0,85=-1,2 n ui = ∑ Dij /(n-2) j: j ≠1
Neighbor-joining B A X C D vB = ½ DBC+1/2(uB - uC) = ½ 0,5+1/2(0,85 – 0,95) = 0,2 B A 0,2 X BC vc = ½ DBC+1/2(uC - uB) = ½ 0,5+1/2(0,95 – 0,85) = 0,3 0,3 C D DA(BC) = (DAB + DAC - DBC)/2 = 0,6
Neighbor-joining B A 0,2 0,5 X BC 0,3 0,1 C 0,1 D vA = ½ DAD+1/2(uA - uD) = ½ 0,6+1/2(1,2 – 0,8) = 0,5 uA = 0,6/1+0,6/1=1,2 uD = 0,6/1+0,2/1=0,8 vD = ½ DAD+1/2(uD - uA) = ½ 0,6+1/2(0,8 – 1,2) = 0,1 n ui = ∑ Dij /(n-2) vX(BC) = (DA(BC) + DD(BC) - DAD)/2 = 0,1 j: j ≠1
Neighbor-joining 0,2 B B A 0,1 = 0,3 0,2 0,1 C 0,1 0,5 0,3 0,1 D 0,1 C D 0,4 A Neighbor-joining stejně jako nejmenší čtverce garantuje nalezení správného stromu jsou-li dobře spočítané distance.