240 likes | 353 Views
eScience Régionális Egyetemi Tudásközpont Projekt neve: Genom - annotáció Projekt vezető: Patthy László Partner cég : DELTA Elektronik Kft. eScience Tudom ányos Nap Budapest, 200 7 . február 27. A jelenleg használatos gyógyszer e k kevesebb mint 500 humán célfehérjére hatnak.
E N D
eScience Régionális Egyetemi Tudásközpont Projekt neve: Genom-annotáció Projekt vezető: Patthy László Partner cég: DELTA Elektronik Kft. eScience Tudományos Nap Budapest, 2007. február 27
A jelenleg használatosgyógyszerek kevesebb mint 500 humán célfehérjére hatnak. A Humán Genom Projekt egyik fontos motivációja az volt, hogy a teljes genom-szekvencia meghatározása révén azonosítani lehessen a teljes humán génkészletet és a sokezer, korábban nem ismert gén közül ki lehessen választani azokat, amelyek új gyógyszercélpontként szolgálhatnak.
Egy új-típusú gyógyszer kifejlesztése általában 10-16 évet vesz igénybe és átlagosan 500-800 millióUSA dollárba kerül. A gyógyszerfejlesztésigen gyakransokévi kutatómunka (és sok millió USD) invesztálását követően fullad kudarcba, így rendkívül fontos a gyógyszercélpont megfelelő kiválasztása. 9 10 11 12 13 14 15 0 1 2 3 4 5 6 7 8 ÉV BETEGSÉG OKAINAK TISZTÁZÁSA CÉLFEHÉRJÉK AZONOSÍTÁSA CÉLFEHÉRJÉK VALIDÁLÁSA AKTÍV VEGYÜLETEK AZONOSÍTÁSA ÉS OPTIMALIZÁLÁSA PRE- KLINIKAI VIZSGÁLATOK KLINIKAIVOZSGÁLATOK ENGEDÉ- LYEZÉS GYÓGYSZER FÁZIS I FÁZIS II FÁZIS III
A ‘genotypic drug discovery’a genom-annotáció és a funkcionális genomika eszköztárát alkalmazza annak érdekében, hogy a genomban azonosított génekáltal kódolt fehérjék funkcióját, biológiai szerepét és betegségek kialakulásában játszott szerepét meghatározza és kiválassza azokat, melyek alkalmasak gyógyszer-célpontnak.
A genom-szekvencia értelmezésének, a genom annotációnak, első és alapvető lépése a gének bioinformatikai úton történő azonosítása. A génazonosítás még mindig meglévő problémáit illusztrálhatjuk azzal, hogy 5 évvel az emberi genom szekvenciájának meghatározása után még mindig bizonytalan (20.000-25.000 közé tehető) az emberi genomban található fehérje-kódoló gének száma.
Ennél is súlyosabb problémát jelent, hogy az azonosított gének jelentős hányadának(cca. 50 %-ának) a bioinformatikai módszerekkel megjósolt szerkezete téves. A jelenlegi génpredikciós módszerek jelentős bizonytalanságaígy komoly problémákat okoza (tévesen) megjósolt gének/fehérjékfunkciójának meghatározásában, gyógyszercélpontként való hasznosíthatóságuk megítélésében.
Az eScience Régionális Egyetemi Tudásközpont „Genom-annotáció” projektjének célkitűzése: • a jelenleg alkalmazott génpredikciós módszerek hibáinak kiderítése, a hibásan megjósolt gének azonosítása. • megbízhatóbb génpredikciós eljárások kidolgozása. • a rosszul predikált humán gének helyes szerkezetének meghatározása, funkciójának predikciója és a gyógyszercélpontként felhasználható gének azonosítása.
A tévesen megjósolt szerkezetű és/vagy abnormális fehérjék azonosítására szolgáló MisPred projektalapja az az általános megfontolás, hogy egy fehérje-kódoló gén megjósolt szerkezete téves, ha a jósolt gén és/vagy fehérje valamely tulajdonsága nem egyeztethető össze a fehérjekódoló génekre és/vagy fehérjékre jellemző törvényszerűségek valamelyikével.
A MisPred projekt jelenlegi verziója öt szabályt alkalmazott különböző élőlények hibás fehérjéinek azonosítására az EnsEMBL, UniProt Swiss-Prot és UniProt TrEMBL adatbázisokban.
TM SP killer cell lectin-like receptor complement factor masp-3 SP TM TM SP leukocyte activation antigen m6 receptor tyrosine kinase-like orphan receptor 2 1. Konfliktus a fehérje szubcelluláris lokalizációja és a lokalizációs jelek megléte vagy hiánya között. Szabály: azok a fehérjék, melyek az extracelluláris térre korlátozott fehérjedoméneket tartalmaznak (pl. szekretált fehérjék, membránfehérjék) szignál peptidet és/vagy transzmembrán szegmentet is kell, hogy tartalmazzanak. Másszóval, azok a fehérjék, melyek extracelluláris doméneket tartalmaznak, de sem szignál peptidjük, sem transzmembrán szegmentjük nincs, abnormálisnak tekinthetők. TM SP latrophilin-2
enst00000359637.1.pep UNI_TREMBL:Q8N708 ID Q8N708 PRELIMINARY; PRT; 449 AA. AC Q8N708; DT 01-OCT-2002 (TrEMBLrel. 22, Created) DT 01-OCT-2002 (TrEMBLrel. 22, Last sequence update) DT 01-MAR-2003 (TrEMBLrel. 23, Last annotation update) DE HF1 protein. . . . SCORES Init1: 3167 Initn: 3167 Opt: 3167 z-score: 3657.9 E(): 1.1e-195 >>UNI_TREMBL:Q8N708 (449 aa) initn: 3167 init1: 3167 opt: 3167 Z-score: 3657.9 expect(): 1.1e-195 Smith-Waterman score: 3167; 99.5% identity in 430 aa overlap (1-430:20-449) 10 20 30 40 enst00000359 DCNELPPRRNTEILTGSWSDQTYPEGTQAIYKCRPGYRSLG ||||||||||||||||||||||||||||||||||||||||| Q8N708 MRLLAKIICLMLWAICVAEDCNELPPRRNTEILTGSWSDQTYPEGTQAIYKCRPGYRSLG 10 20 30 40 50 60 50 60 70 80 90 100 enst00000359 NVIMVCRKGEWVALNPLRKCQKRPCGHPGDTPFGTFTLTGGNVFEYGVKAVYTCNEGYQL |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Q8N708 NVIMVCRKGEWVALNPLRKCQKRPCGHPGDTPFGTFTLTGGNVFEYGVKAVYTCNEGYQL 70 80 90 100 110 120 110 120 130 140 150 160 enst00000359 LGEINYRECDTDGWTNDIPICEVVKCLPVTAPENGKIVSSAMEPDREYHFGQAVRFVCNS |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Q8N708 LGEINYRECDTDGWTNDIPICEVVKCLPVTAPENGKIVSSAMEPDREYHFGQAVRFVCNS 130 140 150 160 170 180 170 180 190 200 210 220 enst00000359 GYKIEGDEEMHCSDDGFWSKEKPKCVEISCKSPDVINGSPISQKIIYKENERFQYKCNMG |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Q8N708 GYKIEGDEEMHCSDDGFWSKEKPKCVEISCKSPDVINGSPISQKIIYKENERFQYKCNMG 190 200 210 220 230 240 230 240 250 260 270 280 enst00000359 YEYSERGDAVCTESGWRPLPSCEEKSCDNPYIPNGDYSPLRIKHRTGDEITYQCRNGFYP |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Q8N708 YEYSERGDAVCTESGWRPLPSCEEKSCDNPYIPNGDYSPLRIKHRTGDEITYQCRNGFYP 250 260 270 280 290 300 290 300 310 320 330 340 enst00000359 ATRGNTAKCTSTGWIPAPRCTLKPCDYPDIKHGGLYHENMRRPYFPVAVGKYYSYYCDEH |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Q8N708 ATRGNTAKCTSTGWIPAPRCTLKPCDYPDIKHGGLYHENMRRPYFPVAVGKYYSYYCDEH 310 320 330 340 350 360 350 360 370 380 390 400 enst00000359 FETPSGSYWDHIHCTQDGWSPAVPCLRKCYFPYLENGYNQNHGRKFVQGKSIDVACHPGY |||||||||||||||||||||||||||||||||||||||||:|||||||||||||||||| Q8N708 FETPSGSYWDHIHCTQDGWSPAVPCLRKCYFPYLENGYNQNYGRKFVQGKSIDVACHPGY 370 380 390 400 410 420 410 420 430 enst00000359 ALPKAQTTVTCMENGWSPTPRCIRVKFTL |||||||||||||||||||||||||:||| Q8N708 ALPKAQTTVTCMENGWSPTPRCIRVSFTL 430 440
Szignál peptid Q8N708 ENSP00000352658.1
KR TM SP receptor tyrosine kinase-like orphan receptor 2 2. Konfliktus. Extracelluláris és intracelluláris domének együttes jelenléte és transzmembránszegmentek hiánya. Szabály: extracelluláris és intracelluláris domének multidomén fehérjékben csak akkor fordulhatnak együtt elő, ha transzmembránszegmentek választják el egymástól a két domén típust. Másszóval,azok a fehérjék, melyek mind extracelluláris, mind intracelluláris doméneket tartalmaznak, de nem tartlmaznak transzmembrán szegmentet, abnormálisnak tekinthetők.
3. Konfliktus. Extracellulárisés nukleáris domének együttes előfordulása. Szabály: nukleáris és extracelluláris doméneknem fordulnak elő egyetlen fehérjében. Másszóval, azok a fehérjék, melyek mind extracelluláris, mind nukleáris domént tartalmaznak abnormálisnak tekinthetők.
4. Konfliktus. Domén méret deviáció. Szabály: egy adott fehérje-domén családba tartozó domének mérete a családra jellemző, szűk határok között mozog. A domén méretének jelentős megváltozása (inszerció vagy deléció révén) nagy valószínűséggel olyan fehérjét eredményez, mely nem képes a domén-családra jellemző stabil térszerkezet kialakítására. Másszóval, azok fehérjék, melyek olyan doméneket tartalmaznak, melyek mérete lényegesen eltér a rokon doménekétől abnormálisnak tekinthetők.
Query= RP11-247A12.5-001 [544 aa] deléció Subject= CACP_HUMAN, Carnitine O-acetyltransferase [626 residues] 1 100 cacp_human MLAFAARTVV KPLGFLKPFS LMKASSRFKA HQDALPRLPV PPLQQSLDHY LKALQPIVSE EEWAHTKQLV DEFQASGGVG ERLQKGLERR ARKTENWLSE rp11-247a12 MLAFAARTVV KPLGFLKPFS LMKASSRFKA HQDALPRLPV PPLQQSLDHY LKALQPIVSE EEWAHTKQLV DEFQASGGVG ERLQKGLERR ARKTENWLSE 101 200 cacp_human WWLKTAYLQY RQPVVIYSSP GVMLPKQDFV DLQGQLRFAA KLIEGVLDFK VMIDNETLPV EYLGGKPLCM NQYYQILSSC RVPGPKQDTV SNFSKTKKPP rp11-247a12 WWLKTAYLQY RQPVVIYSSP GVMLPKQDFV DLQGQLRFAA KLIEGVLDFK VMIDNETLPV EYLGGKPLCM NQYYQILSSC RVPGPKQDTV SNFSKTKKPP 201 300 cacp_human THITVVHNYQ FFELDVYHSD GTPLTADQIF VQLEKIWNSS LQTNKEPVGI LTSNHRNSWA KAYNTLIKDK VNRDSVRSIQ KSIFTVCLDA TMPRVSEDVY rp11-247a12 THITVVHNYQ FFELDVYHSD GTPLTADQIF VQLEKIWNSS LQTNKEPVGI LTSNHRNSWA KAYNTLIKDK VNRDSVRSIQ .......... .......... 301 400 cacp_human RSHVAGQMLH GGGSRLNSGN RWFDKTLQFI VAEDGSCGLV YEHAAAEGFP IVTLLDYVIEYTKKPELVRS PMVPLPMPKK LRFNITPEIK SDIEKAKQNL rp11-247a12 .......... .......... .......... .......... .......... .......... ..KKPELVRS PLVPLPMPKK LRFNITPEIK SDIEKAKQNL 401 500 cacp_human SIMIQDLDIT VMVFHHFGKD FPKSEKLSPD AFIQMALQLA YYRIYGQACA TYESASLRMF HLGRTDTIRS ASMDSLTFVK AMDDSSVTEH QKVELLRKAV rp11-247a12 SIMIQDLDIT VMVFHHFGKD FPKSEKLSPD AFIQMALQLA YYRIYGQACA TYESASLRMF HLGRTDTIRS ASMDSLTFVK AMDDSSVTEH QKVELLRKAV 501 600 cacp_human QAHRGYTDRA IRGEAFDRHL LGLKLQAIED LVSMPDIFMD TSYAIAMHFH LSTSQVPAKT DCVMFFGPVV PDGYGVCYNP MEAHINFSLS AYNSCAETNA rp11-247a12 QAHRGYTDRA IRGEAFDRHL LGLKLQAIED LVSMPDIFMD TSYAIAMHFH LSTSQVPAKT DCVMFFGPVV PDGYGVCYNP MEAHINFSLS AYNSCAETNA 601 626 cacp_human ARLAHYLEKA LLDMRALLQS HPRAKL rp11-247a12 ARLAHYLEKA LLDMRALLQS HPRAKL
His 343 STRUCTURE OF HUMAN CARNITINE ACETYLTRANSFERASE 1NM8.pdb A Carnitine O-acetyltransferase térszekezete
5. Konfliktus. Kimérikusfehérjék. Szabály: egy-egy fehérjét egyetlen kromoszómán található gén kódol. Másszóval, azok a fehérjék, melyek különböző részeit különböző kromoszómán található gének kódolják abnormálisnak tekinthetők.
A BioSapiens Network of Excellence, az Európai Virtuális Genom Annotációs Intézet feladatai között jelentős hangsúllyal szerepel a génpredikciós eljárások továbbfejlesztése.
Az ENCODE (the ENCyclopedia Of DNA Elements) projektet 2003-ban indította el a National Human Genome Research Institute, National Institute of Health azzal a céllal, hogy a humán genom valamennyi funkcionális elemét azonosítsa. Ehhez a projekthez a BioSapiens konzorcium tagjaként csoportunk is csatlakozott.
Az eScience Régionális Egyetemi Tudásközpont „Genom-annotáció” projektjének célkitűzése: • a jelenleg alkalmazott génpredikciós módszerek hibáinak kiderítése, a hibásan megjósolt gének azonosítása. • megbízhatóbb génpredikciós eljárások kidolgozása. • a rosszul predikált humán gének helyes szerkezetének meghatározása, funkciójának predikciója és a gyógyszercélpontként felhasználható gének azonosítása.
A munka a BioSapiensprojekt és az eScience projekt keretében folyik. A BioSapiens projektet a European Commission finanszírozzaa FP6 Program "Life sciences, genomics and biotechnology for health” téma keretében (szerződésszám: LHSG-CT-2003-503265). Az eScienceprojektet az NKTH finanszírozza (RET14/2005). Balogh Sándor Keresztessy Attila Máris József Molnár Sándor Molnár Zoltán Oláh Zoltán Rákóczi Béla Szentgyörgyi Andor Szoboszlai Lajos Sztopen Erzsébet Szűcs Norbert Gulyás Ferenc Seffer Tamás Bányai László Farkas Krisztina Hegyi Hédi Kozma Evelin Nagy Alinda Tordai Hedvig