1 / 65

Bioinformatika

Bioinformatika. Szekvenc iák és biológiai funkciók ill. genotipusok és fenotipusok egymáshoz rendelése. Kós Péter 2009.XI. A BLAST korlátai. A BLAST tár- ill. időigénye O (n x m) Nagyon hosszú szekvenciák (teljes genomok) összehasonlítására nem alkalmas

cindy
Download Presentation

Bioinformatika

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bioinformatika Szekvenciák és biológiai funkciók ill. genotipusok és fenotipusok egymáshoz rendelése Kós Péter2009.XI.

  2. A BLAST korlátai • A BLAST tár- ill. időigénye O (nxm) • Nagyon hosszú szekvenciák (teljes genomok) összehasonlítására nem alkalmas • Figyelembe veszi a vizsgált szekvenciák minden elemét • Az egyes régiók súlyozására nincs lehetőség, így az esetleg „felhígult” információt nem találja meg 1 2 Aktív helyek,molekula részek Genomok, kromoszómák Egyes molekulák hasonlósága BLAST, FASTA

  3. Összehasonlító genomika • A genomok géntartalma, szerveződése rengeteg információval szolgál gén e a b d c genom

  4. Genomok összehasonlítása: MegaBLAST • „Fösvény algoritmus” (Greedy algorithm) • csak ott használ dinamikus programozást, ahol az elkerülhetetlen • Összefűzött kérdő szekvenciák • a keresést egyszerre végzi, majd az eredményből kiválogatja az egyes szekvenciákra vonatkozó adatokat

  5. Genomok összehasonlítása: MUMmer • A szekvencia ábrázolása toldalékfa (suffix tree) formájában • uvw : u-prefix (előtag), v-szöveg, w-suffix (toldalék) • O (n) időigény • Maximal Unique Matches (MUM) meghatározása • Szomszédos MUM-ok összekötése • MUMer2 : • Streaming query : 1 fa + sok kis kérdés sebesség, genom szekvenálás • Nucmer, prommer (nem 100%-s azonosság megtalálása) • MUMmer3 • Tetszőleges ABC  miniproteome • javított nucmer, prommer, grafikus interfész

  6. Genomok összehasonlítása: MUMmer Delcher et al, 1999.NAR v. 27

  7. Az agcgacgag toldalékfájanak felépítése

  8. MUMmer2: 1 suffix tree, streaming query

  9. Genomok összehasonlítása a MUM meghatározás után 5: Transzpozíció3: Véletlen illeszkedés6: MUM meghosszabbítás

  10. genomok összehasonlítása MUMmerrel Fasta 25-mers MUMmer

  11. genomok összehasonlítása promerrel nucmer promer

  12. 2. probléma: • Egyes esetekben a rokon molekulák szekvenciájának csak egy része mutat homológiát. • Ilyenkor a teljes szekvenciára kiterjedő homológia-keresés hibás eredményeket szolgáltathat

  13. Mi a teendő nagy evolúciós távolságok esetén? Ekkor azonos funkció mellett is alacsony szintű a homológia. Mikor tekinjük szignifikánsnak a homológiát? E() Hasonlóság mértéke: % azonos aminosavak Mikor mondhatjuk, hogy az adott pontszám, %-os hasonlóság, vagy egyéb matematikai jellemző biológiai jelentőséggel bír?

  14. TheTwilight Zone • Elvileg 2 tetszőleges AA szekvencia minden 20 aminosava „passzol”: 5% azonosság • A gyakorlatban, az aminosavak különböző gyakorisága következtében „minden-mindennel” átlag 8%-ban azonos: Midnight Zone • kb. 45-50% AA azonosság mellett a szerkezetek ált. hasonlóak (backbone rms<1Å): rokon funkciókhomológ szekvenciák (közös ős) • ~25% aminosav azonosság alatt: • a “true positive” és „false positive” találatok különválasztása lehetetlen • a közös ős nemigen határozható meg puszán szekvencia-adatok alapján: Twilight Zone Segítség: • Szakértői módszerek • Automatizálható módszerek • További információk bevonása

  15. „Több hasonló mint azonos” Automatizálható módszerek alacsony homológiájú fehérje-párok közül a „false nagativ”-ok elvetésére „Sequence-space-hopping”

  16. Az evolúció során csökkenő szekvencia-homológia nem egyenletesen oszlik el a molekulában • Aktív molekula: 3D • Részei: • Aktív hely(ek) • TÉRBEN közeli aminosavak Minden számít • Szerkezeti elemek • Az egyes aktív helyeketmegfelelő pozícióban tartják (α, β, C-C) A szerkezet számít • Egyéb Szelekciós nyomás konzerváltság

  17. Pontosan illeszkedő, AZONOSaminosavak az aktív helyen A szerkezet megtartását eredményező esetleges mutációk Máshol jelentős különbségek

  18. Továbbra is 1D Látható, vagy láthatatlan motívumok felkutatása a primer szekvenciában profile, Pfam/Rfam, BLOCKS, CDD, COD Kb 2D A másodlagos szerkezet előrejelzése: alfa, beta, ACC, TM, ... PHD..., Jpred, Threader Többszintű megoldásokEgyenként, vagy integráltan • 3D Harmadlagos szerkezetek hasonlósága DALI/FSSP PROCAT(A database of 3D enzyme active site templates ) SCOP (Structural Classification of Proteins) CATH(Class, Architectre, Topology and Homologous superfamily) CDART (protein homology by domain architecture ) HMM

  19. Azonos funkcióhoz jobbára hasonló szerkezet járul Először csak azt vegyük figyelembembe, hogy nem minden egymást követő aminosav homológiája egyformán fontos a szerkezet és funkció szempontjából. Szerkezeti információk megbízhatóbbá teszik a homológok azonosítását Melyik fontos?

  20. A pontozásnál ne (ne nagyon)vegyük figyelembe a biológiaifunkcióban részt nem vevő aminosavakat, és a konzerváltságnak megfelelő mértékben pontozzuk vagy súlyozzuk a lényegeseket! DNS-kötő fehérjék AT-hook motívuma Hogy tudhatjuk meg, hogy melyek a fontos aminosavak?

  21. Egy fehérje: túl szemérmes. Néhány: súg egy keveset. Hogyha mindet megkérdezed, hangos lesz a felelet. Multiple Alignment !

  22. Multiple Alignment Szimultán módszerek (m szekvencia összehasonlítása m dimenziós mátrixban) rendkívül időigényesek lennének: O (nm) Heurisztikus módszereket alkalmazunk

  23. Heurisztikus többszörös rendezők(Multiple alignment) • ClustalW, clustalv, clustalx (PC)(Thompson, Higgins, Gibson 1994) • A szekvenciákból páronként távolságokat számít A távolságok alapján filogenetikai törzsfát (vezérfát) készít. • A vezérfa szerinti távolságok alapján állapítja meg a többszörös rendezés sorrendjét • A közeli szekvenciákat kisebb súllyal veszi figyelembe • A BLOSUM mátrixok közül a távolságok alapján választ • Oldallánc- és pozícióspecifikus pontozás • MultAlin: (Corpet, 1988) • Rekurzív eljárás: • a kapott eredménybõl újraszámolja a vezérfát, • ezzel új rendezést végez • ezt addig ismétli, amíg a pontszám javul

  24. Multiple Alignment ! E. coli tioredoxin

  25. http://weblogo.berkeley.edu/

  26. pl ATP/GTP-bontó fehérjék foszfátkötő helye: P-loop Multiple Alignment ! Egy adott funkcióval kapcsolatba hozott állandó (?) aminosavak együttese:motif PROFILE Tioredoxin: WCGPC–[KR] + Kis adatbázis letölthető, tárolható; Egyszerű keresés (grep, regex) (FPAT, SCANPROSITE@ExPasy)- nem hordoz elég információt Genbank mérete > 3x108 !! 8000 találat

  27. Új homológok megtalálásához nem célszerű megkövetelni, hogy azok az ismert szekvenciákhoz tökéletesen hasonlítsanak: • Valószínűségi módszereket kell alkalmaznunk, és • Megfelelően nagy evolúciós távolságot átfogó, reprezentatív mintából származó aminosav-gyakoriságokat kell figyelembe venni PSSM: Position Speific Scoring Matrix Előfordulási valószínűség az adott pozícióban Előfordulási valószínűség az adott pozícióban × Subst.Mátrix (PAM/BLOSUM) Előfordulási valószínűség az adott pozícióban × Subst.Mátrix (PAM/BLOSUM) × AA gyakoriság Számos adatbázis elérhető: COD, CDD, BLOCKS, Pfam, Rfam, ...

  28. A profile-ok használata megkönnyíti: • Távoli homológok illesztését • Az aktív helyek és a funkció meghatárzását • Újabb homológok felkutatását • A homológok osztályozását alcsoportokra • Változékony aminosavak meghatározását (Ab) • Térbeli szerkezetek meghatározását Kár, hogy a mátrixot a keresés előtt meg kell adni  Rekurzió

  29. Dinamikusan változtatott, menet közben automatikusan származtatott scoring mátrix használata: PSI-Blast • Gapped BLAST az adatbázisban, egymástól függetlenül • „Multiple Alignment” táblázat • „Profile” előállítása ez utóbbiból • Újra vizsgálja az adatbázist a Profile-lal • Megtartja a szignifikáns találatokat • Vissza a 2-es ponthoz, míg van változás, vagy a maximáils ciklusszámig (Position-Specifc Iterated BLAST)

  30. További BLAST-rokon programok: • blastpgp – protein profile előállítása • formatrpsdb – profile adatbázis előállítása • PHI-BLAST – Pattern-Hit-Initiated BLAST • rpsblast, impala – reverse position-specific BLAST • Keresés PSSM adatbázisban CDD • Ungapped találatok kiterjesztése • PSI-BLAST-nál kevésbé hatékony, de a BLAST-nál 100x gyorsabb lehet • blastclust – automatikus szekvencia-”klaszterezés” • bl2seq – két szekvencia között az optimális lokális illesztés A módszer, ami a BLAST-nál érzékenyebben talál rokonságot távoli homológok között tisztán szekvencia-adatok alapján: HMM

  31. E. coli tioredoxin

  32. Hidden Markov Model • A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak • A matematkai módszer alkalmazható szekvencia-illesztésre, homológia-keresésre, gén-keresésre, …... beszéd- ill. írás felismerésre, rádiózavarszűrésre, stb.

  33. A Hidden Markov Model általános szerkezete • A modellt fázisok,átmenetek és valószínűségek alkotják • Minden fázist sorban meglátogatunk • Az egyes fázisok egy-egy jelet bocsátanak ki • Mindenátmenetnekéskibocsátott jelnek meghatározott valószínűsége van; Σpi=1 • A kibocsátott jelek láthatóak, míg a meglátogatott fázisok sorrendje rejtett • A felhasznált lépések valószínűségének szorzata adja annak a valószínűségét, hogy a modell a kibocsátott jelek megfigyelhető sorrendjét szolgáltatja • A valószínűségek az egyes fázisokban a többi fázistól függetlenek (távoli hatásokat nem vesz figyelembe)

  34. 1. példa:“Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?” Megfigyelések: • A DNS szekvenciának kétFÉLE szakasza van: • AT-gazdag (1) és • GC-gazdag (2) • AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) • AT-gazdag szakaszban is lehet G/C (és ford.) • A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) • A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok Markov-lánc Megfigyeltszekvencia Ezek alapján három dolgot rendelünk egymáshoz: A megfigyelt szekvenciát A DNS szakasz „tulajdonságát” (1 v. 2) (AT v. GC) A modellt (Ezek közül kettőből TÖBB KÜLÖNBÖZŐ harmadik lenne származtatható) Modell

  35. Két fázis Fázis-átmeneti valószínűségek Jelek és kibocsátási valószínűségeik A Modell Egy lehetséges„Markov-chain” A megfigyeltszekvencia Ezen valószínűségek szorzata adja meg annak a valószínűségét, hogy ez a HMM ezzel a fázis-sorrenddel ezta szimbólum-szekvenciát generálja 1. példa:“Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?” Kétféle szakasz: AT-gazdag (1) és GC-gazdag (2) Hasonló hasonlót követ … AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok

  36. A megválaszolható kérdések • Az adott HMM milyen valószínűséggel generálja az adott szekvenciát? (Scoring) • Melyik az optimális fázis szekvencia, amit a HMM használna az adott szekvencia generálásához? (Alignment) • Egy nagy adathalmazt milyen paraméterekkel határozna meg legjobban az adott HMM? (Training) Két fázis Fázis-átmenetivalószínűségek Jelek és kibocsátási valószínűségeik A Modell Egy lehetséges„Markov-chain” A megfigyeltszekvencia

  37. A kibocsátási és átmeneti valószínűségek meghatározása pl. többszörös összerendezés (multiplealignment) alapján lehetséges

  38. Az előző péda paraméterei • A DNS szekvenciának kétFÉLE szakasza van: • AT-gazdag (1) és • GC-gazdag (2) • AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) • AT-gazdag szakaszban is lehet G/C (és ford.) • A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) • A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok Két fázis Fázis-átmenetivalószínűségek Jelek és kibocsátási valószínűségeik A Modell Egy lehetséges„Markov-chain” A megfigyeltszekvencia

  39. Scoring 2. példa:“5’ prime splice site” Alignment

  40. Minden lehetséges út kiszámítása rendkívül időigényes lenne,emiatt itt is speciális algoritmusokat alkalmazunk • Scoring: Forward algoritmusA megelőző valószínűségek összege • Alignment: Viterbi algoritmusA megelőző valószínűségek legnagyobbika + back-tracking • Training Forward-Backward algoritmusMultiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”)

  41. Példa: Profile vs.HMM Vezérelv: Több adattal és alaposabb módszerrel pontosabb eredményt lehet kapni PROFILE HMM

  42. 3. példa: gén keresés

  43. (ungapped) Néhány alapvető HMM

  44. Főbb HMM-en alapuló programok és rokon web szolgáltatások

  45. A HMM hiányossága • Az átmeneti- és kibocsátási valószínűségek csak az aktuális fázis függvényei • Emiatt távoli összefüggésekkel kapcsolatban nem használható • RNS másodlagos szerkezet • korrelált mutáció, pl. C-C További információt kell bevonni a távoli homológiák felderítesére:másodlagos, harmadlagos szerkezet

  46. Az evolúció során fellépő mutációk a fehérje szerkezetében nem okoznak azonnal változásokat • Bizonyos szintű homológia mellett az adott funkciót hasonló szerkezet tartja • (kivétel: konvergens evolúció!!!) • Így a szerkezet felderítése segíthet a funkció megtalálásában

  47. Hasonló funkció Hasonló szerkezet Hogyan határozhatjuk meg a szerkezetet a szekvenciából? 3D szerkezet G=H-TS a priori fizikai-kémiai módszerekkel (még) nem tudjuk meghatározni (kiszámolni) a fehérjék szerkezetét VIGYÁZAT!!! A fehérje szerkezetek nem nagyon stabilak Ált. 20-60kJ/mol (5-15kcal/mol) stabilabbak, mint a denaturált foma (1-2 H2O-H2O H-H kötés)

  48. Közeli homológgal nem rendelkező fehérjék funkciójának meghatározása homológia alapján ~50507 protein szerkezet ismert (2008dec. 11.) A hasonlóság elve alapján következtethetünk egyes sajátságokra Fold recognition szekvencia Másodlagos szerkezet SCOP, ... PSI-BLAST, HMM FASTA, BLAST CASP Vélt funkció KÍSÉRLET Mol.biol, Biochem

More Related