1 / 47

metóda t yp dát tvorby DNA sekvencie stromov vzdialenosti (alebo iné znaky)

Metódy tvorby evolučných stromov. metóda t yp dát tvorby DNA sekvencie stromov vzdialenosti (alebo iné znaky) zhlukovací UPGMA algoritmus neighbor-joining tree optimalizačné minimum parsimónia kritérium evolution tree maximum likelihood

alyn
Download Presentation

metóda t yp dát tvorby DNA sekvencie stromov vzdialenosti (alebo iné znaky)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Metódy tvorby evolučných stromov metóda typ dát tvorby DNA sekvencie stromovvzdialenosti (alebo iné znaky) zhlukovací UPGMA algoritmus neighbor-joining tree optimalizačné minimum parsimónia kritérium evolution tree maximum likelihood Bayesova analýza

  2. Metóda najväčšej vierohodnosti (maximum likelihood (ML)method) Vierohodnosť evolučného stromu (L) je pravdepodobnosť, že sa vyvinú pozorované sekvencie DNA pri danej topológii stromu a pri danom evolučnom modeli. Cieľom metódy najväčšej vierohodnosti je nájsť strom s čo najväčšou hodnotou L. Pri tejto metóde sa zostrojí východiskový strom parsimonickou metódou alebo metódou najbližšieho suseda a potom sa prehľadávajú blízke stromy a hľadá sa pravdepodobnejší strom než ten, ktorý máme k dispozícii. Je možné aj prehľadanie všetkých možných stromov ale to, podobne ako pri parsimonických stromoch je časove náročné a realistické len pri menšom počte sekvencií. Metóda je časovo náročná. Chybný evolučný model môže viesť k chybným výsledkom.

  3. A G T C Modely zmeny (evolúcie) sekvencií DNA Parametre, ktoré vplývajú na evolúciu sekvencií: - frekvencie báz - typy substitúcie (tranzície, tranzverzie) - heterogenita rýchlosti substitúcií puríny pyrimidíny Klasické substitučné modely: Jukes-Cantor (1969) Kimura 2 parameter (1980) Felsenstein (1981) Hasegawa, Kishino & Yano (1985) General time-reversible model (Lavane et al. 1984) Každý model vychádza z iných predpokladov

  4. a a a a A A G G a a T T C C a A G a a a a T C a Substitučné modely JC – rovnaké rýchlosti substitúcie; rovnaké frekvencie báz ti b K2P – dve rôzne rýchlosti substitúcie; rovnaké frekvencie báz a a tv a Zvyšujúci sa počet parametrov modelu a b F81 – rovnaké rýchlosti substitúcie; nerovnaké frekvencie báz b A G a HKY – dve rôzne rýchlosti substitúcie; nerovnaké frekvencie báz a a a T C b a A G c GTR – 6 rôznych rýchlostí substitúcie; nerovnaké frekvencie báz e b d T C f

  5. Funkcia gama distribúcie ()f(r) rýchlosti substitúcie na pozíciách sekvencie DNA • – parameter tvaru,  1 – funkcia má tvar L,   1 – funkcia má zvonovitý tvar – parameter škály proporcia pozícií f(r) Yang, Z., 1996, Trends Ecol. Evol. 11: 367-372. rýchlosť substitúcií (r)

  6. W W W X Y Z Y X X Z Z Y strom 1 strom 2 strom 3 Metóda najväčšej vierohodnosti (maximum likelihood (ML)method) Niektoré z možných stromov Sekvencia W:A C G C GT TG G GSekvencia X:A C G C GT TG G GSekvencia Y:A C G C A ATGA ASekvencia Z:A C A C A G G GA A

  7. T T A G T A T G T G T A strom 1 strom 2 strom 3 Metóda najväčšej vierohodnosti (maximum likelihood (ML)method) Niektoré z možných stromov Sekvencia W:A C G C GT TG G GSekvencia X:A C G C GT TG G GSekvencia Y:A C G C A ATGA ASekvencia Z:A C A C A G G GA A

  8. T T T T T T T T A A A A G G G G T T A G T T A T A G A C G T G A Metóda najväčšej vierohodnosti (maximum likelihood (ML)method) Niektoré z možných evolučných ciest k jednému zo stromov (rôzne topológie)

  9. T T A G ATGC ATGC ATGC Metóda najväčšej vierohodnosti (maximum likelihood (ML)method) Možné evolučné cesty k jednému zo stromov počet evol. ciest k jednému stromu / 1 pozícia: (počet stavov)(počet uzlov) = (počet stavov)(počet taxónov -1) = 43 = 64

  10. T T A G T G G Metóda najväčšej vierohodnosti (maximum likelihood (ML)method) Vierohodnosť (likelihood) jednej evolučnej cesty L = L(koreň/root) x P L(konáre/branches) závisí od konkrétneho modelu

  11. T T A G Metóda najväčšej vierohodnosti (maximum likelihood (ML)method) Vierohodnosť (likelihood) jedného stromu z jednej pozície DNA sekvencie L(strom z jednej pozície) = S L(všetky evolučné cesty k stromu z jednej pozície) = L(strom 1) + L(strom 2) + L(strom 3) + … + L(strom 64) - stromy rovnakej topológie čo do taxónov na koncoch vetiev ale s inými nukleotidmi v uzloch

  12. W X Y Z Metóda najväčšej vierohodnosti (maximum likelihood (ML)method) Vierohodnosť (likelihood) jedného stromu z celej DNA sekvencie L(strom za celú sekvenciu) = P L(strom za určitú pozíciu)

  13. Metóda najväčšej vierohodnosti (maximum likelihood (ML)method) ML analýza začína stromom vytvoreným napr. NJ a potom sa prehľadávajú blízke stromy a hľadajú sa tie, ktoré majú vyššiu vierohodnosť. Pre väčšie dátové súbory heuristická analýza ML je počítačovo veľmi náročná, navyše podpora jednotlivých clades by mala byť overená metódou bootstrapu, čo násobí potrebný čas na analýzu. Pokiaľ ML analýza nájde lokálne optimum, ešte to neznamená, že ide zároveň aj o globálne optimum v stromovom priestore.

  14. Metóda najväčšej vierohodnosti (maximum likelihood, ML) • ML analýza zahŕňa: • testovanie evolučných modelov pre daný dátový súbor, výpočet skóre (log likelihood scores) vzhľadom na model a dáta - PAUP-výber vhodného modelu na základe log likelihood scores podľa určitých testovacích kritérií - MODELTEST- výpočet (hľadanie) najpravdepodobnejšieho stromu podľa vybraného modelu – PAUP • podrobné a jednoduché inštrukcie pre výpočet: http://www.rhizobia.co.nz/phylogenetics/modeltest.html MODELTEST (http://darwin.uvigo.es/software/modeltest.html) • program na porovnanielog likelihood scores testovaných modelov, výber vhodného evolučného modelu pre daný dátový súbor- príručka: modeltest3.6.pdf • Posada D and Crandall KA 1998. Modeltest: testing the model of DNA substitution. Bioinformatics 14 (9): 817-818.Posada D and Buckley TR. 2004. Model selection and model averaging in phylogenetics: advantages of the AIC and Bayesian approaches over likelihood ratio tests. Systematic Biology 53: 793-808

  15. MODELTESThttp://darwin.uvigo.es/software/modeltest.html

  16. modely sú vyjadrené parametrami: - frekvencia báz, - typy substitúcie a ich rýchlosti, - homogenita/heterogenita mutačných rýchlostí na rôznych pozíciách, - podiel invariabilných pozícií rýchlosti mutácií a(A-C), b(A-G), c(A-T), d(C-G), e(C-T), f(G-T)

  17. 1. nexus súbor s pridaným textovým blokom (príkazmi) na hodnotenie 56 evolučných modelova výpočet skóre (výpočet v PAUP-e)

  18. 1. nexus súbor s pridaným textovým blokom (príkazmi) na hodnotenie 56 evolučných modelova výpočet skóre (výpočet v PAUP-e) výpočet počiatočného stromu (NJ)

  19. 1. nexus súbor s pridaným textovým blokom (príkazmi) na hodnotenie 56 evolučných modelova výpočet skóre (výpočet v PAUP-e) výpočet log likelihood scores pre NJ strom vzhľadom na dáta a model

  20. Lscores 1... výpočet log likelihood score pre NJ strom pre daný model, vyjadrený: nst...number of substitution types (1-6)base...frekvencia bázrates...heterogenita mutačnej rýchlosti na rôznych pozíciáchshape...alfa parameter funkcie gamma distribúciepinv...proporcia invariabilných pozícií

  21. 2. načítanie nexus súboru v programe PAUP a výpočetskóre (log likelihood scores) pre jednotlivé modely

  22. 2. výpočetlikelihoodskóre (log likelihood scores) pre jednotlivé modely -> model.scores

  23. 2. výpočetlikelihoodskóre (log likelihood scores) pre jednotlivé modely -> model.scores

  24. 2. model.scores

  25. 3. načítanie súboru model.scores v programe MODELTESTvzájomné testovanie modelov na základe log likelihood scores, výber vhodného modelu podľa dvoch testovacích kritérií

  26. 3. načítanie súboru model.scores v programe MODELTEST - definovanie cesty a adresára, kde je uložený spúšťací súbor Modeltest3.6.exe(cd – change directory) - príkaz na spustenie programu MODELTEST a výpočet -> výstup v súbore *.outfile

  27. 4. súbor *.outfileobsahuje vzájomné testovanie modelov na základe log likelihood scores, výber vhodného modelu podľa dvoch testovacích kritérií – AIC (Akaike information criterion), hLRT (hierarchical likelihood ratio test) hLRT – vzájomné porovnávanie dvoch modelovAIC – simultánne porovnanievšetkých modelov nie model s najvyšším skóre, ale s najoptimálnejším (t.j. ak pridanie parametrov, zvýšenie komplexity len nepatrne zvýši skóre, vyberá sa menej komplexný model) niekedy navrhnú odlišné modely, je na užívateľovi, ktorý si vyberie, preferované AIC

  28. 4. súbor *.outfileobsahuje vzájomné testovanie modelov na základe log likelihood scores, výber vhodného modelu podľa dvoch testovacích kritérií – AIC, hLRT

  29. 4. súbor *.outfile špecifikované parametre vybraného modelu pre ML výpočet lset...špecifikácia vybraného modelu Base...frekvencia báz A, C, G (T)Nst... počet typov substitúciíRmat... rýchlosti mutácií a(A-C), b(A-G), c(A-T), d(C-G), e(C-T), f(G-T)Rates...funkcia gama distribúcie (rýchlosť mutácií na nukleotidových pozíciách)Shape...parameter tvaru fumkciePinvar...proporcia invariabilných pozícií

  30. 5. nexus súbor s pridanou špecifikáciou vybraného modelu a príkazmi na ML výpočet

  31. 6. výpočet samotnej ML analýzy v programe PAUP

  32. 6. výpočet samotnej ML analýzy v programe PAUP

  33. 6. výpočet samotnej ML analýzy v programe PAUP

  34. MrMTgui http://www.genedrift.org/mtgui.php

  35. http://www.bio.utexas.edu/faculty/antisense/garli/Garli.html http://www.nescent.org/informatics/download.php?software_id=4

  36. program TCS http://darwin.uvigo.es/software/tcs.html Clement M, Posada D and Crandall K. 2000. TCS: a computer program to estimate gene genealogies. Molecular Ecology 9(10): 1657-1660 tvorba siete haplotypov (cpDNA dáta) - štatistická parsimónia Templeton, A.R., Crandall, K.A., Sing, C.F., 1992. A cladistic analysis of the phenotypic associations with haplotypes inferred from restriction endonuclease mapping and DNA sequence data. III. Cladogram estimation. Genetics 132, 619–633Templeton, A.R., 1998. Nested clade analyses of phylogeographic data: testing hypotheses about gene flow and population history. Mol. Ecol. 7, 381–397.

  37. program TCS

  38. TCS Connection limit: percentuálne 90-95% počet mutačných krokov Gaps = missing Gaps = 5th state

  39. TCS

  40. TCS

  41. TCS

  42. TCS uloženie siete haplotypov ako - *.gml súbor ako - *.ai súbor

  43. TCS log súbor:

More Related