390 likes | 602 Views
puu rekonstrueerimise meetodid. UPGMA - unweighted pair group method with arithmetic means. üldkujul. Li 1998. i. j. k. m. n. TD - transformed distance method. UPGMA - (Sokal, Michener 1958). x. y. 2. z. 3. puu harupikkuste hindamine. 1.
E N D
üldkujul Li 1998 i j k m n
TD - transformed distance method
x y 2 z 3 puu harupikkuste hindamine 1 Fitch-Margoliash’i meetod (1967)
890 bp mtDNA HC: 73 transitsiooni 5 transversiooni (Brown et al. 1982)
distantsid K2 mudeli j’rgi antud näite korral 6.2
vähimruutude (least squares, LS) meetod mittenegatiivsete haru pikkuste piiranguga d - vaadeldud kaugused e - patristilised (hinnangulised) kaugused kaalutud LS Fitch-Margoliash’i puhul
LS harupikkuste hinnangud, Nei, Rzhetsky (1992, 1993) algoritm
G O H b6 b4 b1 B C b3 b5 b2 b7 minimum evolution (ME) • kõigi võimalikke puude seast (optimummeetod) valitakse väikseima S-ga puu • Arvutatavuse probleem kui järjestuste arv m suur • Suure m-i korral leidub ja leitakse miinimumpuu, mis on lühem kui tõeline, Sm<Sc • Sobib kui on vähe järjestusi ent tunnuste arv on suur
Neighbor Joining (NJ) meetod naabrid klastermeetod, mis ‘naabrite’ tuvastamisega miniseerib puu pikkust
NJ meetod • konstrueerib vaid ühe puu • Kumar (1996) modifikatsioon käsitleb ka miinimumilähedasi Sij-sid • Võrreldes ME-ga NJ kiire algoritm ja sobilik suurte andmestike jaoks
MP puude otsingud Ockham’s razor Henning 1966 morfoloogilistele tunnustele Eck, Dayhoff 1966 aminohappelised järjestused arendused: Fitch 1971 Wiley 1981 Felsenstein 1982 PHYLIP Maddison 1992 Swofford, Begle 1993 PAUP, PAUP*
klastermeetod optimummeetod
Maximum Parsimony (MP) - säästu meetod sõlmedes tunnusseisundite (character states) rekonstrueerimine minimaalse sammude arvuga
igas positsioonis antud seisundite sobitamine etteantud puule
MP eksimused: • kui halvad (kvaliteedilt) andmed (informatiivsete positsioonide arv) või kui liiga vähe neid • ka suure informatsiooni hulgal aga väikese tippude arvu korral ‘telefoniposti’ ehk pika haru probleem, mille avastas Joe Felsenstein
MP probleem - ‘long branch attraction’ - leebem suurte puude korral
MP-informatiivsed positsioonid hunt A AC C G C ACA karu A G CTAC A T T rebane A G T C AC ACC siil A G T C G T G T G jänes A G T C G T G T G mittevarieeruv positsioon (invariable site) mitteinformatiivne positsioon (non-informative site) hunt C G C AC ...+ A C A karu CAC A T ... + G T T rebane T AC AC ...+ G C C siil T A T G T ... + G C G jänes T A T G T ... + G C G vähemalt kaks vähemalt kahest erinevast
MP hinnagud R R S S H H J K K J hunt C G C AC ...+ A C A karu CAC A T ... + G T T rebane T AC AC ...+ G C C siil T A T G T ... + G C G jänes T A T G T ... + G C G consistency index: ci=mi /si kus mi on minimaalne võimalik asenduste arv i-ndas positsioonis antud positsioonile kõige säästlikuma topoloogia korral si on minimaalne võimalik asenduste arv i-ndas positsioonis antud topoloogia korral Tunnuste konflikt 1 5 5 5 3 2 5 2 4 2 4 1 3 1 3 4 CI=5/9=0.55 CI=5/7=0.71 Probleemiks long branch attraction
MP hinnagud R R S S H H J K K J hunt C G C AC ...+ A C A karu CAC A T ... + G T T rebane T AC AC ...+ G C C siil T A T G T ... + G C G jänes T A T G T ... + G C G consistency index: alumine piir pole 0, retention index: rescaled RI: gi on maksimaalne asenduste arv positsioonis, vastavlt täht- topoloogiale, kui keskel on kõige sagedasem täht 1 5 5 5 3 2 5 2 4 2 4 1 3 1 3 4 RI=10-7/10-5=0.6 RC=RI x CI=0.43 RI=10-9/10-5=0.2 RC=0.11
Maximum Likelihood (ML) - suurima tõepära meetod otsib lähimat lahendit mudeli poolt eeldatavale
ML meetod • Olgu Pij(t) tõenäosus, et ühes antud positsioonis nukleotiid i asendub nukleotiidiga j hulgast {A,C,G,T} • Oodatud haru pikkus (v) on võrdeline aja (t) ja mutatsioonikiiruse (r) korrutisega v=rt • Haru pikkused on parameetrid mida hinnatakse tõepära maksimeerimisel vastavalt andmestiku nukleotiidsele koostisele ja asendusmustrile, vastavalt mudelile (JC, K2, HKY, etc)
Maximum Likelihood (ML) - suurima tõepära meetod erinevalt MP meetodist vaadeldakse (mitte ei rekonstrueerita) kõiki võimalikke eellasseisundeid, nelja tipu korral 16 varianti
Maximum Likelihood (ML) - suurima tõepära meetod likelihood (tõepära): L=Pr(D/H) teoreetiliselt parim lnL=-2064.80 lnL=-2691.76 lnL=-2424.79 lnL=-2075.41
Maximum Parsimony (MP) - säästu meetod sõlmedes tunnusseisundite (character states) rekonstrueerimine minimaalse sammude arvuga igale positsioonile v gx5 – tõenäosus, et 5ndas sõlmes esines nukleotiid x; enamasti vastavalt järjestuse üldisele nukl. kompositsioonile. (5) (6) F81: Maximum Likelihood (ML) - tõepära meetod
puid iseloomustavad efficiency - kiirus, arvutusaja suhtes power - võimsus, kui palju andmeid vajab consistency - kooskõlasus ‘õige’ puuga; ja suunitlus sellele andmete juurde toomisel robustness- tundlikkus kõrvalekallete suhtes esitatatvatele eeldustele falsifiability - ümberlükatavus, kontrollitavus n. kella eeldus