1 / 24

H idden M arkov M odel

H idden M arkov M odel. A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak

onaona
Download Presentation

H idden M arkov M odel

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Hidden Markov Model • A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak • A matematkai módszer alkalmazható szekvencia-illesztésre, homológia-keresésre, gén-keresésre, stb.

  2. A Hidden Markov Model általános szerkezete • A modellt fázisok,átmenetek és valószínűségek alkotják • Minden fázist sorban meglátogatunk • Az egyes fázisok egy-egy jelet bocsátanak ki • Mindenátmenetnekéskibocsátott jelnek meghatározott valószínűsége van; Σpi=1 • A kibocsátott jelek láthatóak, míg a meglátogatott fázisok sorrendje rejtett • A felhasznált lépések valószínűségének szorzata adja annak a valószínűségét, hogy a modell a kibocsátott jelek megfigyelhető sorrendjét szolgáltatja • A valószínűségek az egyes fázisokban a többi fázistól függetlenek (távoli hatásokat nem vesz figyelembe)

  3. 1. példa:“Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?” Megfigyelések: • A DNS szekvenciának kétFÉLE szakasza van: • AT-gazdag (1) és • GC-gazdag (2) • AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) • AT-gazdag szakaszban is lehet G/C (és ford.) • A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) • A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok Markov-lánc Megfigyeltszekvencia Ezek alapján három dolgot rendelünk egymáshoz: A megfigyelt szekvenciát A DNS szakasz „tulajdonságát” (1 v. 2) (AT v. GC) A modellt (Ezek közül kettőből TÖBB KÜLÖNBÖZŐ harmadik lenne származtatható) Modell

  4. Két fázis Fázis-átmeneti valószínűségek Jelek és kibocsátási valószínűségeik A Modell Egy lehetséges„Markov-chain” A megfigyeltszekvencia Ezen valószínűségek szorzata adja meg annak a valószínűségét, hogy ez a HMM ezzel a fázis-sorrenddel ezta szimbólum-szekvenciát generálja 1. példa:“Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?”

  5. A megválaszolható kérdések • Az adott HMM milyen valószínűséggel generálja az adott szekvenciát? (Scoring) • Melyik az optimális fázis szekvencia, amit a HMM használna az adott szekvencia generálásához? (Alignment) • Egy nagy adathalmazt milyen paraméterekkel határozna meg legjobban az adott HMM? (Training) Két fázis Fázis-átmenetivalószínűségek Jelek és kibocsátási valószínűségeik A Modell Egy lehetséges„Markov-chain” A megfigyeltszekvencia

  6. Minden lehetséges út kiszámítása rendkívül időigényes lenne,emiatt itt is speciális algoritmusokat alkalmazunk • Scoring: Forward algoritmusA megelőző valószínűségek összege • Alignment: Viterbi algoritmusA megelőző valószínűségek legnagyobbika + back-tracking • Training Forward-Backward algoritmusMultiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”)

  7. 2. példa:“5’ prime splice site”

  8. Profile-HMM

  9. Példa: Profile vs.HMM Vezérelv: Több adattal és alaposabb módszerrel pontosabb eredményt lehet kapni PROFILE HMM

  10. HMMER2 A jelenleg talán legjobb program homológia keresésre és hasonló feladatokra

  11. Az evolúció során fellépő mutációk a fehérje szerkezetében nem okoznak azonnal változásokat • Bizonyos szintű homológia mellett az adott funkciót hasonló szerkezet tartja • (kivétel: konvergens evolúció!!!) • Emiatt a szerkezet felderítése segíthet a funkció megtalálásában

  12. Hasonló funkció Hasonló szerkezet Hogyan határozhatjuk meg a szerkezetet a szekvenciából? 3D szerkezet G=H-TS a priori fizikai-kémiai módszerekkel (még) nem tudjuk meghatározni (kiszámolni) a fehérjék szerkezetét VIGYÁZAT!!! A fehérje szerkezetek nem nagyon stabilak Ált. 20-60kJ/mol (5-15kcal/mol) stabilabbak, mint a denaturált foma (1-2 H2O-H2O H-H kötés)

  13. Közeli homológgal nem rendelkező fehérjék funkciójának meghatározása homológia alapján 15000 protein szerkezete ismert A hasonlóság elve alapján következtethetünk egyes sajátságokra Fold recognition szekvencia Másodlagos szerkezet SCOP, ... PSI-BLAST, HMM FASTA, BLAST CASP Vélt funkció KÍSÉRLET Mol.biol, Biochem

  14. A fehérje molekula több doménből épülhet fel • A domének szerkezetileg és részben funkcionálisan független egységek • Szerkezetük ill. funkciójuk külön-külön vizsgálandó • Egy domén: gyakran több motif • A domének független evoluciója következtében az egyes domének magasabb homológiát mutathatnak, mint a teljes fehérje • A fehérjéket domének szerint csoportosíthatjukConserved Domain Database (CDD) (NCBI)Simple Modular Architecture Research Tool (SMART)

  15. Sasisekharan-Ramakrishnan-Ramchandran plot • A peptid kötés ált. sík (ált. trans ill a prolinnál cis) • Az elvileg szabadon forgatható kötések energetikailag kedvező konformációi kijelölik kedvező másodlagos szerkezetet • 6-20 αR konformáció: α hélix • többβ-konformáció: „extended szerkezet” – β strand 2 v. több β strand: β sheet

  16. Másodlagos szerkezeti elemek előrejelzése • Hidrofil- és hidrofób oldalláncok váltakozása 2(β) ill. 3,5(α) aminoavanként • α helix hidrofil- és hidrofób oldala: Helical wheel • Hosszabb (15-30 aa) hidrofób régió: TM • Az egyes aminosavaknak az egyes másodlagos szerkezetekben való eloszlási valószínűsége különbözik • Sok egyéb

  17. Másodlagos szerkezeti elemek előrejelzése • A kicsiny energetikai különbségek miatt pontosan nem lehet megjósolni (a határokat különösen) • A megbízhatóság növelése érdekében minden lehetséges információt fel kell használni • Új modellek, új algoritmusok • Homológ fehérjeszekvenciák (Multiple Alignment) • Hasonló célú programok eredményei • JPRED • A módszerek értékelése • CASP

  18. A harmadlagos szerkezet meghatározására több független megközelítést alkalmaznak • (Ismert szerkezetű homológ esetén: homológia modellezés) • 3D profiles (Adott szerkezetekben az egyes aminosavak környezete nem véletlen szerű. Az oldalláncok csoportosítása 6 csoportba, és a másodlagos szerkezetek 3 csoportba sorolása lehetővé teszi az aminosavak kódolását. Ezek között ezután „Folding Pattern” keresést lehet végezni) • Threading (készítsünk szerkezeteket a kérdéses molekulából, majd „gap”-ek közbeiktatásával illesszük ezeket az ismert 3D szerkezetekre) • ...

  19. Harmadlagos szerkezetek osztályozása (egymásra kereszthivatkozó) speciális adatbázisokkal történik • SCOP: (Structural Classification of Proteins) • Domains (a PDB adatbázisból) • Families (Homológ domének. Szekveniájuk, szerkezetük ill. funkciójuk hasonlósága közös őst valószínűsít) • Superfamilies (Hasomló szerkezetű és funkciójú fehérjék családjai, ahol a rokonság valószínűsíthető, de nem bizonyított) • Folds (hasonló topológiájú „Superfamilies” • CLASS (all-α; all-β; α/β; α+β, multi-domén;membrán- és sejtfelszín; egyéb kis proteinek, peptidek;) • CATH: protein domain szerkezetek hierarchikus osztályozása négy szinten: Class(C), Architecture(A), Topology(T) and Homologous superfamily (H). • ...

  20. Protein: Flavodoxin from Anabaena • Lineage: • Root: scop • Class: Alpha and beta proteins (a/b) [51349] Mainly parallel beta sheets (beta-alpha-beta units) • Fold: Flavodoxin-like [52171] 3 layers, a/b/a; parallel beta-sheet of 5 strand, order 21345 • Superfamily: Flavoproteins [52218] • Family: Flavodoxin-related [52219] binds FMN • Protein: Flavodoxin [52220] • Species: Anabaena, pcc 7119 and 7120 [52223] • PDB Entry Domains: • 1obocomplexed with fmn, so4; mutant • chain a [86776] • chain b [86777] • 1rcf [31170] complexed with fmn, so4 • 1dx9apo formcomplexed with so4; mutant • chain a [31171] • chain b [31172] • chain c [31173]

  21. A bioinformatika is kísérletes tudomány • Kizárólag ab inito módszerekkel (energetikai minimalizálással) a teljes molekulák szerkezetének meghatározása nem megoldható • „Knowledge-based” módszereket alkalmazunk • A „knowledge” egyre bűvül  az ezen alapuló módszerek is folyamatosan fejlődnek • A módszereket tesztelni kell (in silico KÍSÉRLET) • CASP: Critical Assessment of Techniques for Protein Structure Prediction • 2 évente végzett „blind test” • Különböző nehézségi kategóriákban meghirdetett szekvenciák • Titokban tartott, újonnan meghatározott szerkezetekkel

  22. példa: HMMSPECTR A CASP4 eredményekkel összehasonlítva igen jó teljesítményt mutat Két, hasonló funkciójú de nagyon különböző szekvenciájú fehérje hasonló szerkezeti elemeinek kimutatása:

  23. PERL Ezzel foglalkozunk a következő órán • A bioinformatikában igen gyakran • több különálló programnak • sok szekvenciával, • sokszori futtatása során keletkező • rengeteg, jellemzően szöveges file-t kell • értelmezni, • értékelni, ezek alapján • dönteni a továbi lépésekről. Ez a tevékenység maga is egy számítógépes felhasználás Többek között az ilyen feladatok ellátásának is széles körben elterjedt eszköze a

More Related