240 likes | 439 Views
H idden M arkov M odel. A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak
E N D
Hidden Markov Model • A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak • A matematkai módszer alkalmazható szekvencia-illesztésre, homológia-keresésre, gén-keresésre, stb.
A Hidden Markov Model általános szerkezete • A modellt fázisok,átmenetek és valószínűségek alkotják • Minden fázist sorban meglátogatunk • Az egyes fázisok egy-egy jelet bocsátanak ki • Mindenátmenetnekéskibocsátott jelnek meghatározott valószínűsége van; Σpi=1 • A kibocsátott jelek láthatóak, míg a meglátogatott fázisok sorrendje rejtett • A felhasznált lépések valószínűségének szorzata adja annak a valószínűségét, hogy a modell a kibocsátott jelek megfigyelhető sorrendjét szolgáltatja • A valószínűségek az egyes fázisokban a többi fázistól függetlenek (távoli hatásokat nem vesz figyelembe)
1. példa:“Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?” Megfigyelések: • A DNS szekvenciának kétFÉLE szakasza van: • AT-gazdag (1) és • GC-gazdag (2) • AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) • AT-gazdag szakaszban is lehet G/C (és ford.) • A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) • A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok Markov-lánc Megfigyeltszekvencia Ezek alapján három dolgot rendelünk egymáshoz: A megfigyelt szekvenciát A DNS szakasz „tulajdonságát” (1 v. 2) (AT v. GC) A modellt (Ezek közül kettőből TÖBB KÜLÖNBÖZŐ harmadik lenne származtatható) Modell
Két fázis Fázis-átmeneti valószínűségek Jelek és kibocsátási valószínűségeik A Modell Egy lehetséges„Markov-chain” A megfigyeltszekvencia Ezen valószínűségek szorzata adja meg annak a valószínűségét, hogy ez a HMM ezzel a fázis-sorrenddel ezta szimbólum-szekvenciát generálja 1. példa:“Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?”
A megválaszolható kérdések • Az adott HMM milyen valószínűséggel generálja az adott szekvenciát? (Scoring) • Melyik az optimális fázis szekvencia, amit a HMM használna az adott szekvencia generálásához? (Alignment) • Egy nagy adathalmazt milyen paraméterekkel határozna meg legjobban az adott HMM? (Training) Két fázis Fázis-átmenetivalószínűségek Jelek és kibocsátási valószínűségeik A Modell Egy lehetséges„Markov-chain” A megfigyeltszekvencia
Minden lehetséges út kiszámítása rendkívül időigényes lenne,emiatt itt is speciális algoritmusokat alkalmazunk • Scoring: Forward algoritmusA megelőző valószínűségek összege • Alignment: Viterbi algoritmusA megelőző valószínűségek legnagyobbika + back-tracking • Training Forward-Backward algoritmusMultiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”)
Példa: Profile vs.HMM Vezérelv: Több adattal és alaposabb módszerrel pontosabb eredményt lehet kapni PROFILE HMM
HMMER2 A jelenleg talán legjobb program homológia keresésre és hasonló feladatokra
Az evolúció során fellépő mutációk a fehérje szerkezetében nem okoznak azonnal változásokat • Bizonyos szintű homológia mellett az adott funkciót hasonló szerkezet tartja • (kivétel: konvergens evolúció!!!) • Emiatt a szerkezet felderítése segíthet a funkció megtalálásában
Hasonló funkció Hasonló szerkezet Hogyan határozhatjuk meg a szerkezetet a szekvenciából? 3D szerkezet G=H-TS a priori fizikai-kémiai módszerekkel (még) nem tudjuk meghatározni (kiszámolni) a fehérjék szerkezetét VIGYÁZAT!!! A fehérje szerkezetek nem nagyon stabilak Ált. 20-60kJ/mol (5-15kcal/mol) stabilabbak, mint a denaturált foma (1-2 H2O-H2O H-H kötés)
Közeli homológgal nem rendelkező fehérjék funkciójának meghatározása homológia alapján 15000 protein szerkezete ismert A hasonlóság elve alapján következtethetünk egyes sajátságokra Fold recognition szekvencia Másodlagos szerkezet SCOP, ... PSI-BLAST, HMM FASTA, BLAST CASP Vélt funkció KÍSÉRLET Mol.biol, Biochem
A fehérje molekula több doménből épülhet fel • A domének szerkezetileg és részben funkcionálisan független egységek • Szerkezetük ill. funkciójuk külön-külön vizsgálandó • Egy domén: gyakran több motif • A domének független evoluciója következtében az egyes domének magasabb homológiát mutathatnak, mint a teljes fehérje • A fehérjéket domének szerint csoportosíthatjukConserved Domain Database (CDD) (NCBI)Simple Modular Architecture Research Tool (SMART)
Sasisekharan-Ramakrishnan-Ramchandran plot • A peptid kötés ált. sík (ált. trans ill a prolinnál cis) • Az elvileg szabadon forgatható kötések energetikailag kedvező konformációi kijelölik kedvező másodlagos szerkezetet • 6-20 αR konformáció: α hélix • többβ-konformáció: „extended szerkezet” – β strand 2 v. több β strand: β sheet
Másodlagos szerkezeti elemek előrejelzése • Hidrofil- és hidrofób oldalláncok váltakozása 2(β) ill. 3,5(α) aminoavanként • α helix hidrofil- és hidrofób oldala: Helical wheel • Hosszabb (15-30 aa) hidrofób régió: TM • Az egyes aminosavaknak az egyes másodlagos szerkezetekben való eloszlási valószínűsége különbözik • Sok egyéb
Másodlagos szerkezeti elemek előrejelzése • A kicsiny energetikai különbségek miatt pontosan nem lehet megjósolni (a határokat különösen) • A megbízhatóság növelése érdekében minden lehetséges információt fel kell használni • Új modellek, új algoritmusok • Homológ fehérjeszekvenciák (Multiple Alignment) • Hasonló célú programok eredményei • JPRED • A módszerek értékelése • CASP
A harmadlagos szerkezet meghatározására több független megközelítést alkalmaznak • (Ismert szerkezetű homológ esetén: homológia modellezés) • 3D profiles (Adott szerkezetekben az egyes aminosavak környezete nem véletlen szerű. Az oldalláncok csoportosítása 6 csoportba, és a másodlagos szerkezetek 3 csoportba sorolása lehetővé teszi az aminosavak kódolását. Ezek között ezután „Folding Pattern” keresést lehet végezni) • Threading (készítsünk szerkezeteket a kérdéses molekulából, majd „gap”-ek közbeiktatásával illesszük ezeket az ismert 3D szerkezetekre) • ...
Harmadlagos szerkezetek osztályozása (egymásra kereszthivatkozó) speciális adatbázisokkal történik • SCOP: (Structural Classification of Proteins) • Domains (a PDB adatbázisból) • Families (Homológ domének. Szekveniájuk, szerkezetük ill. funkciójuk hasonlósága közös őst valószínűsít) • Superfamilies (Hasomló szerkezetű és funkciójú fehérjék családjai, ahol a rokonság valószínűsíthető, de nem bizonyított) • Folds (hasonló topológiájú „Superfamilies” • CLASS (all-α; all-β; α/β; α+β, multi-domén;membrán- és sejtfelszín; egyéb kis proteinek, peptidek;) • CATH: protein domain szerkezetek hierarchikus osztályozása négy szinten: Class(C), Architecture(A), Topology(T) and Homologous superfamily (H). • ...
Protein: Flavodoxin from Anabaena • Lineage: • Root: scop • Class: Alpha and beta proteins (a/b) [51349] Mainly parallel beta sheets (beta-alpha-beta units) • Fold: Flavodoxin-like [52171] 3 layers, a/b/a; parallel beta-sheet of 5 strand, order 21345 • Superfamily: Flavoproteins [52218] • Family: Flavodoxin-related [52219] binds FMN • Protein: Flavodoxin [52220] • Species: Anabaena, pcc 7119 and 7120 [52223] • PDB Entry Domains: • 1obocomplexed with fmn, so4; mutant • chain a [86776] • chain b [86777] • 1rcf [31170] complexed with fmn, so4 • 1dx9apo formcomplexed with so4; mutant • chain a [31171] • chain b [31172] • chain c [31173]
A bioinformatika is kísérletes tudomány • Kizárólag ab inito módszerekkel (energetikai minimalizálással) a teljes molekulák szerkezetének meghatározása nem megoldható • „Knowledge-based” módszereket alkalmazunk • A „knowledge” egyre bűvül az ezen alapuló módszerek is folyamatosan fejlődnek • A módszereket tesztelni kell (in silico KÍSÉRLET) • CASP: Critical Assessment of Techniques for Protein Structure Prediction • 2 évente végzett „blind test” • Különböző nehézségi kategóriákban meghirdetett szekvenciák • Titokban tartott, újonnan meghatározott szerkezetekkel
példa: HMMSPECTR A CASP4 eredményekkel összehasonlítva igen jó teljesítményt mutat Két, hasonló funkciójú de nagyon különböző szekvenciájú fehérje hasonló szerkezeti elemeinek kimutatása:
PERL Ezzel foglalkozunk a következő órán • A bioinformatikában igen gyakran • több különálló programnak • sok szekvenciával, • sokszori futtatása során keletkező • rengeteg, jellemzően szöveges file-t kell • értelmezni, • értékelni, ezek alapján • dönteni a továbi lépésekről. Ez a tevékenység maga is egy számítógépes felhasználás Többek között az ilyen feladatok ellátásának is széles körben elterjedt eszköze a