A BLAST korlátai

A BLAST korlátai • A BLAST tár- ill. időigénye O (nxm) • Nagyon hosszú szekvenciák (teljes genomok) összehasonlítására nem alkalmas • Figyelembe veszi a vizsgált szekvenciák minden elemét • Az egyes régiók súlyozására nincs lehetőség, így az esetleg „felhígult” információt nem találja meg 1 2 Aktív helyek,molekula részek Genomok, kromoszómák Egyes molekulák hasonlósága BLAST, FASTA

Összehasonlító genomika • A genomok géntartalma, szerveződése rengeteg információval szolgál gén e a b d c genom

1., Genomok összehasonlítása: MegaBLAST • „Fösvény algoritmus” (Greedy algorithm) • csak ott használ dinamikus programozást, ahol az elkerülhetetlen • Összefűzött kérdő szekvenciák • a keresést egyszerre végzi, majd az eredményből kiválogatja az egyes szekvenciákra vonatkozó adatokat

1., Genomok összehasonlítása: MUMmer • A szekvencia ábrázolása toldalékfa (suffix tree) formájában • uvw : u-prefix (előtag), v-szöveg, w-suffix (toldalék) • O (n) időigény • Maximal Unique Matches (MUM) meghatározása • Szomszédos MUM-ok összekötése • MUMer2 : • Streaming query : 1 fa + sok kis kérdés sebesség, genom szekvenálás • Nucmer, prommer (nem 100%-s azonosság megtalálása) • MUMmer3 • Tetszőleges ABC  miniproteome • javított nucmer, prommer, grafikus interfész

1., Genomok összehasonlítása: MUMmer Delcher et al, 1999.NAR v. 27

Az agcgacgag toldalékfájanak felépítése

MUMmer2: 1 suffix tree, streaming query

Genomok összehasonlítása a MUM meghatározás után 5: Transzpozíció3: Véletlen illeszkedés6: MUM meghosszabbítás

genomok összehasonlítása MUMmerrel Fasta 25-mers MUMmer

genomok összehasonlítása promerrel nucmer promer

2. probléma: • Egyes esetekben a rokon molekulák szekvenciájának csak egy része mutat homológiát. • Ilyenkor a teljes szekvenciára kiterjedő homológia-keresés hibás eredményeket szolgáltathat

Mi a teendő nagy evolúciós távolságok esetén? Ekkor azonos funkció mellett is alacsony szintű a homológia. Mikor tekinjük szignifikánsnak a homológiát? E() Hasonlóság mértéke: % azonos aminosavak Mikor mondhatjuk, hogy az adott pontszám, %-os hasonlóság, vagy egyéb matematikai jellemző biológiai jelentősggel bír?

TheTwilight Zone • Elvileg 2 tetszőleges AA szekvencia minden 20 aminosava „passzol”: 5% azonosság • A gyakorlatban, az aminosavak különböző gyakorisága következtében „minden-mindennel” átlag 8%-ban azonos: Midnight Zone • kb. 45-50% AA azonosság mellett a szerkezetek ált. hasonlóak (backbone rms<1Å): rokon funkciókhomológ szekvenciák (közös ős) • ~25% aminosav azonosság alatt: • a “true positive” és „false positive” találatok különválasztása lehetetlen • a közös ős nemigen határozható meg puszán szekvencia-adatok alapján: Twilight Zone Segítség: • Szakértői módszerek • Automatizálható módszerek • További információk bevonása

„Több hasonló mint azonos” Automatizálható módszerek alacsony homológiájú fehérje-párok közül a „false nagativ”-ok elvetésére „Sequence-space-hopping”

Az evolúció során csökkenő szekvencia-homológia nem egyenletesen oszlik el a molekulában • Aktív molekula: 3D • Részei: • Aktív hely(ek) • TÉRBEN közeli aminosavak Minden számít • Szerkezeti elemek • Az egyes aktív helyeketmegfelelő pozícióban tartják (α, β, C-C) A szerkezet számít • Egyéb Szelekciós nyomás konzerváltság

Pontosan illeszkedő, AZONOSaminosavak az aktív helyen A szerkezet megtartását eredményező esetleges mutációk Máshol jelentős különbségek

Továbbra is 1D Látható, vagy láthatatlan motívumok felkutatása a primer szekvenciában profile, Pfam/Rfam, BLOCKS, CDD, COD Kb 2D A másodlagos szerkezet előrejelzése: alfa, beta, ACC, TM, ... PHD..., Jpred, Threader Többszintű megoldásokEgyenként, vagy integráltan • 3D Harmadlagos szerkezetek hasonlósága DALI/FSSP PROCAT(A database of 3D enzyme active site templates ) SCOP (Structural Classification of Proteins) CATH(Class, Architectre, Topology and Homologous superfamily) CDART (protein homology by domain architecture ) HMM

Azonos funkcióhoz jobbára hasonló szerkezet járul Először csak azt vegyük figyelembembe, hogy nem minden egymást követő aminosav homológiája egyformán fontos a szerkezet és funkció szempontjából. Szerkezeti információk megbízhatóbbá teszik a homológok azonosítását Melyik fontos?

A pontozásnál ne (ne nagyon)vegyük figyelembe a biológiaifunkcióban részt nem vevő aminosavakat, és a konzerváltságnak megfelelő mértékben pontozzuk vagy súlyozzuk a lényegeseket! DNS-kötő fehérjék AT-hook motívuma Hogy tudhatjuk meg, hogy melyek a fontos aminosavak?

Egy fehérje: túl szemérmes. Néhány: súg egy keveset. Hogyha mindet megkérdezed, hangos lesz a felelet. Multiple Alignment !

Multiple Alignment Szimultán módszerek (m szekvencia összehasonlítása m dimenziós mátrixban) rendkívül időigényesek lennének: O (nm) Heurisztikus módszereket alkalmazunk

Heurisztikus többszörös rendezők(Multiple alignment) • ClustalW, clustalv, clustalx (PC)(Thompson, Higgins, Gibson 1994) • A szekvenciákból páronként távolságokat számít A távolságok alapján filogenetikai törzsfát (vezérfát) készít. • A vezérfa szerinti távolságok alapján állapítja meg a többszörös rendezés sorrendjét • A közeli szekvenciákat kisebb súllyal veszi figyelembe • A BLOSUM mátrixok közül a távolságok alapján választ • Oldallánc- és pozícióspecifikus pontozás • MultAlin: (Corpet, 1988) • Rekurzív eljárás: • a kapott eredménybõl újraszámolja a vezérfát, • ezzel új rendezést végez • ezt addig ismétli, amíg a pontszám javul

Multiple Alignment ! E. coli tioredoxin

http://weblogo.berkeley.edu/

pl ATP/GTP-bontó fehérjék foszfátkötő helye: P-loop Multiple Alignment ! Egy adott funkcióval kapcsolatba hozott állandó (?) aminosavak együttese:motif PROFILE Tioredoxin: WCGPC–[KR] + Kis adatbázis letölthető, tárolható; Egyszerű keresés (grep, regex) (FPAT, SCANPROSITE@ExPasy)- nem hordoz elég információt Genbank mérete > 3x108 !! 8000 találat

Új homológok megtalálásához nem célszerű megkövetelni, hogy azok az ismert szekvenciákhoz tökéletesen hasonlítsanak: • Valószínűségi módszereket kell alkalmaznunk, és • Megfelelően nagy evolúciós távolságot átfogó, reprezentatív mintából származó aminosav-gyakoriságokat kell figyelembe venni PSSM: Position Speific Scoring Matrix Előfordulási valószínűség az adott pozícióban Előfordulási valószínűség az adott pozícióban × Subst.Mátrix (PAM/BLOSUM) Előfordulási valószínűség az adott pozícióban × Subst.Mátrix (PAM/BLOSUM) × AA gyakoriság Számos adatbázis elérhető: COD, CDD, BLOCKS, Pfam, Rfam, ...

A profile-ok használata megkönnyíti: • Távoli homológok illesztését • Az aktív helyek és a funkció meghatárzását • Újabb homológok felkutatását • A homológok osztályozását alcsoportokra • Változékony aminosavak meghatározását (Ab) • Térbeli szerkezetek meghatározását Kár, hogy a mátrixot a keresés előtt meg kell adni  Rekurzió

Dinamikusan változtatott, menet közben automatikusan származtatott scoring mátrix használata: PSI-Blast • Gapped BLAST az adatbázisban, egymástól függetlenül • „Multiple Alignment” táblázat • „Profile” előállítása ez utóbbiból • Újra vizsgálja az adatbázist a Profile-lal • Megtartja a szignifikáns találatokat • Vissza a 2-es ponthoz, míg van változás, vagy a maximáils ciklusszámig (Position-Specifc Iterated BLAST)

További BLAST-rokon programok: • blastpgp – protein profile előállítása • formatrpsdb – profile adatbázis előállítása • PHI-BLAST – Pattern-Hit-Initiated BLAST • rpsblast, impala – reverse position-specific BLAST • Keresés PSSM adatbázisban CDD • Ungapped találatok kiterjesztése • PSI-BLAST-nál kevésbé hatékony, de a BLAST-nál 100x gyorsabb lehet • blastcust – automatikus szekvencia-”klaszterezés” • bl2seq – két szekvencia között az optimális lokális illesztés Az egyetlen módszer, ami a BLAST-nál érzékenyebben talál rokonságot távoli homológok között tisztán szekvencia-adatok alapján: HMM

E. coli tioredoxin

Hidden Markov Model • A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak • A matematkai módszer alkalmazható szekvencia-illesztésre, homológia-keresésre, gén-keresésre, …... beszéd- ill. írás felismerésre, rádiózavarszűrésre, stb.

A Hidden Markov Model általános szerkezete • A modellt fázisok,átmenetek és valószínűségek alkotják • Minden fázist sorban meglátogatunk • Az egyes fázisok egy-egy jelet bocsátanak ki • Mindenátmenetnekéskibocsátott jelnek meghatározott valószínűsége van; Σpi=1 • A kibocsátott jelek láthatóak, míg a meglátogatott fázisok sorrendje rejtett • A felhasznált lépések valószínűségének szorzata adja annak a valószínűségét, hogy a modell a kibocsátott jelek megfigyelhető sorrendjét szolgáltatja • A valószínűségek az egyes fázisokban a többi fázistól függetlenek (távoli hatásokat nem vesz figyelembe)

1. példa:“Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?” Megfigyelések: • A DNS szekvenciának kétFÉLE szakasza van: • AT-gazdag (1) és • GC-gazdag (2) • AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) • AT-gazdag szakaszban is lehet G/C (és ford.) • A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) • A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok Markov-lánc Megfigyeltszekvencia Ezek alapján három dolgot rendelünk egymáshoz: A megfigyelt szekvenciát A DNS szakasz „tulajdonságát” (1 v. 2) (AT v. GC) A modellt (Ezek közül kettőből TÖBB KÜLÖNBÖZŐ harmadik lenne származtatható) Modell

Két fázis Fázis-átmeneti valószínűségek Jelek és kibocsátási valószínűségeik A Modell Egy lehetséges„Markov-chain” A megfigyeltszekvencia Ezen valószínűségek szorzata adja meg annak a valószínűségét, hogy ez a HMM ezzel a fázis-sorrenddel ezta szimbólum-szekvenciát generálja 1. példa:“Egy (végtelen) szekvencia adott része AT-gazdag vagy GC-gazdag?”

A megválaszolható kérdések • Az adott HMM milyen valószínűséggel generálja az adott szekvenciát? (Scoring) • Melyik az optimális fázis szekvencia, amit a HMM használna az adott szekvencia generálásához? (Alignment) • Egy nagy adathalmazt milyen paraméterekkel határozna meg legjobban az adott HMM? (Training) Két fázis Fázis-átmenetivalószínűségek Jelek és kibocsátási valószínűségeik A Modell Egy lehetséges„Markov-chain” A megfigyeltszekvencia

A kibocsátási és átmeneti valószínűségek meghatározása pl. többszörös összerendezés alapján lehetséges

Az előző péda paraméterei • A DNS szekvenciának kétFÉLE szakasza van: • AT-gazdag (1) és • GC-gazdag (2) • AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”) • AT-gazdag szakaszban is lehet G/C (és ford.) • A GC-gazdag régiókban kicsit több a G, mint a C (ebben a kitalált esetben, ezen DNS-nek ezen a láncán) • A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok Két fázis Fázis-átmenetivalószínűségek Jelek és kibocsátási valószínűségeik A Modell Egy lehetséges„Markov-chain” A megfigyeltszekvencia

Scoring 2. példa:“5’ prime splice site” Alignment

Minden lehetséges út kiszámítása rendkívül időigényes lenne,emiatt itt is speciális algoritmusokat alkalmazunk • Scoring: Forward algoritmusA megelőző valószínűségek összege • Alignment: Viterbi algoritmusA megelőző valószínűségek legnagyobbika + back-tracking • Training Forward-Backward algoritmusMultiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”)

Példa: Profile vs.HMM Vezérelv: Több adattal és alaposabb módszerrel pontosabb eredményt lehet kapni PROFILE HMM

3. példa: gén keresés

(ungapped) Néhány alapvető HMM

Főbb HMM-en alapuló programok és rokon web szolgáltatások

A HMM hiányossága • Az átmeneti- és kibocsátási valószínűségek csak az aktuális fázis függvényei • Emiatt távoli összefüggésekkel kapcsolatban nem használható • RNS másodlagos szerkezet • korrelált mutáció, pl. C-C További információt kell bevonni a távoli homológiák felderítesére:másodlagos, harmadlagos szerkezet

Az evolúció során fellépő mutációk a fehérje szerkezetében nem okoznak azonnal változásokat • Bizonyos szintű homológia mellett az adott funkciót hasonló szerkezet tartja • (kivétel: konvergens evolúció!!!) • Így a szerkezet felderítése segíthet a funkció megtalálásában

Hasonló funkció Hasonló szerkezet Hogyan határozhatjuk meg a szerkezetet a szekvenciából? 3D szerkezet G=H-TS a priori fizikai-kémiai módszerekkel (még) nem tudjuk meghatározni (kiszámolni) a fehérjék szerkezetét VIGYÁZAT!!! A fehérje szerkezetek nem nagyon stabilak Ált. 20-60kJ/mol (5-15kcal/mol) stabilabbak, mint a denaturált foma (1-2 H2O-H2O H-H kötés)

Közeli homológgal nem rendelkező fehérjék funkciójának meghatározása homológia alapján ~40261 protein szerkezet ismert (2006 nov 28) A hasonlóság elve alapján következtethetünk egyes sajátságokra Fold recognition szekvencia Másodlagos szerkezet SCOP, ... PSI-BLAST, HMM FASTA, BLAST CASP Vélt funkció KÍSÉRLET Mol.biol, Biochem

A fehérje molekula több doménből épülhet fel • A domének szerkezetileg és részben funkcionálisan független egységek • Szerkezetük ill. funkciójuk külön-külön vizsgálandó • Egy domén: gyakran több motif • A domének független evoluciója következtében az egyes domének magasabb homológiát mutathatnak, mint a teljes fehérje • A fehérjéket domének szerint csoportosíthatjuk (ld. később)Conserved Domain Database (CDD) (NCBI) ...Simple Modular Architecture Research Tool (SMART) ...

A BLAST korlátai