1 / 44

Primääritietokannat

Primääritietokannat. DNA sekvenssit ja proteiinit merkkijonoina primääritietokannoissa. 3. Proteiinitietokannat. Tarkastellaan vain loogista tietoa ei talletustapaa. Tasot. Primääri- ja sekundääritason tietokannat sekä yhdistelmätietokannat. Proteiinien primääritietokannat.

irish
Download Presentation

Primääritietokannat

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Primääritietokannat • DNA sekvenssit ja proteiinit merkkijonoina primääritietokannoissa T. Pasanen / Johdatus bioinformatiikkaan

  2. 3. Proteiinitietokannat • Tarkastellaan vain loogista tietoa ei talletustapaa T. Pasanen / Johdatus bioinformatiikkaan

  3. Tasot • Primääri- ja sekundääritason tietokannat sekä yhdistelmätietokannat T. Pasanen / Johdatus bioinformatiikkaan

  4. Proteiinien primääritietokannat • Keskittyminen alkoi 80-luvun alussa • Proteiinidatan keräysyhdistys PIR-international sisältää tietokannat: PIR (Protein Information Resource)JIPID (Protein Information Database of Japan)MIPS (Martinsried Institute for Protein Sequences) T. Pasanen / Johdatus bioinformatiikkaan

  5. Neljä luokkaa perustuen laatuun ja kommenttien määrään PIR1: täydellisesti luokitellut ja kommentoidut PIR2: alustavat sekvenssit joita ei ole vielä täysin tarkastettu PIR3: sekvenssit joita ei ole tarkastettu (MIPS) PIR4: tekotranslaatiot mRNA:sta, tekotranslaatiot tekomRNA:sta,geneettisesti muokatut,koodaamattomat jonot joita ei ole tuotettu ribosomissa PIR-internationalOOSH T. Pasanen / Johdatus bioinformatiikkaan

  6. MIPS • Martinsried Institute for Protein Sequences • Kerää tarkastamattomia ulkoisistä lähteistä saatuja proteiineja PIR-international tietokantaan T. Pasanen / Johdatus bioinformatiikkaan

  7. SWISS-PROT (1986) P02700 • Ylläpitäjinä SIB ja EBI/EMBLSwiss Institute of BioinformaticsEuropean Bioinformatics InstituteEuropean Molecular Biology Laboratory • Laadukkaat kommentoinnit: toiminnan kuvaukset, itsenäiset osalaskostukset (domain), translaation jälkeiset muutokset ja proteiinin muunnelmat (jne). • Minimiredundanssi T. Pasanen / Johdatus bioinformatiikkaan

  8. TrEMBL 1996 • Automaattisesti kommentoitu tietokanta joka täydentää SWISS-PROT:ia(Translated EMBL) • Genomiprojektien data heti käyttöön rakenteellisessa muodossa ilman että SWISS-PROT laatu huononisi • Sisältää proteiinit joille on olemassa koodaava DNA jono (EMBL) T. Pasanen / Johdatus bioinformatiikkaan

  9. NRL-3D 1990 • PIRin tuottama, perustuu Brookhaven Protein Databank (PDB) • Hakukohteina avainsanojen/nimien lisäksi paljon muita biologiseen tietoon liityviä yksityiskohtia kuten sekundäärirakenteet, toiminnalliset alueet, kommentit, etc • Etsintäsysteeminä ATLAS T. Pasanen / Johdatus bioinformatiikkaan

  10. Paras primääritietokanta? • NRL-3D on suppein perustuen vain PDB:en, mutta mahdollistaa monipuoliset haut erilaisilla biologisilla yksityiskohdilla • PIR(1-4) laajin mutta ei niin laadukas kuin SWISS-PROT, ei edes PIR1 • SWISS-PROT kommenttien ja rakenteen suhteen laadukkain mutta suppea kuin PIR T. Pasanen / Johdatus bioinformatiikkaan

  11. Yhdistelmätietokannat • SWISS-PROTupdate: lisäykset viikottain • GenPeptupdate: lisäykset päivittäiset T. Pasanen / Johdatus bioinformatiikkaan

  12. NRDB Non-Redundant Database • NCBI:n (USA) ylläpitämä, lähteinä PDB, SWISS-PROT/update, PIR, GenPept/update • GenPept tuotetaan automaattisesti DNA tietokannasta GenBank (USA) käyttämällä tietoa koodaavista osajonoista • Vain identtiset jonot poistetaan, ongelmia: polymorfismi, virheet, GenPept sisältää jonoja jotka on hylätty SWISS-PROT:sta T. Pasanen / Johdatus bioinformatiikkaan

  13. OWL • Ylläpito: Univ Leeds ja Daresbury Laboratory in Warrington, lähteinä SWISS-PROT, PIR, GenBank(aut. muunnokset) ja NRL-3D • S-P vertailukohteena poistettaessa samanlaisia, pienet virheet huomioidaan, kuitenkin samoja ongelmia kuin edellisessä • päivitys 6-8 viikon välein T. Pasanen / Johdatus bioinformatiikkaan

  14. MIPSX • Ylläpito: Max-Planck Institute in Martinsried, lähteinä PIR, alustavat MIPS versiot eli MIPSOwn, alustavat MIPS/PIR versiot eli PIRMOD, alustavat MIPS translaatiot eli MIPSTrn, MIPS hiivaproteiinit eli MIPSSH, NRL-3D SWISS-PROT, Aut. Translaation EMBL:stä eli EMTrans, Translaatiot GenBank:stä eli GBTrans, Kabat, PSeqIP • Dublikaatit ja yhtenäiset alisekvenssit poistetaan edellä mainitussa järjestyksessä T. Pasanen / Johdatus bioinformatiikkaan

  15. SWISS-PROT+TrEMBL • Ylläpito EBI, kattava ja “minimaalisesti” redundanssia sisältävä • 1997 arvioitiin että kanta sisältää 30% dublikaatteja • Redundanssin vähentämiseksi tarvittaisiin enemmän asiantuntemusta tai parempia tietokanta-asiantuntijajärjestelmiä T. Pasanen / Johdatus bioinformatiikkaan

  16. Paras yhdistelmätietokanta? • OWL on kokonaan indeksoitu eli voidaan tehdä monimutkaisia kyselyjä mutta se ei aina ole ajan tasalla • NRDB on ajan tasalla perustuen kantojen GenPept ja SWISS-PROT päivityksiin mutta monimutkaisten kyselyjen tekeminen ei ole mahdollista • Yhdistelemällä parhaaseen tulokseen? T. Pasanen / Johdatus bioinformatiikkaan

  17. Proteiinien sekundääritietokannat • Kannat sisältävät primäärikantojen analyysien tulokset • Eri tietokannat edustavat erilaisia informaation tallennustapoja T. Pasanen / Johdatus bioinformatiikkaan

  18. Säilyneet osajonot eli motiivit • Homologisten jonojen monirinnastuksessa havaitaan säilyneet osajonot eli motiivit (aiheet) jotka esiintyvät lähes samanlaisina • Motiiveilla tärkeä biologinen merkitys T. Pasanen / Johdatus bioinformatiikkaan

  19. T. Pasanen / Johdatus bioinformatiikkaan

  20. Informaation tallentaminen • “Säännölliset ilmaisut” • Kirjainten frekvenssit paikkakohtaisesti • Sormenjälki: joukko motiiveja frekvenssien avulla esitettynä • Blocks: painotus frekvenssitaulukoille • Profiili: rinnastuksen kaikki tieto (aukot) • Markovin malli: profiilin todennäköisyysmalli T. Pasanen / Johdatus bioinformatiikkaan

  21. T. Pasanen / Johdatus bioinformatiikkaan

  22. Kannat • Koska käytetty hyväksi useita jonoja voidaan kaukaisetkin sukulaiset tunnistaa paremmin kun etsimällä suoraan primääritietokannoista • Käyttö primääritie-tokantojen lisänä T. Pasanen / Johdatus bioinformatiikkaan

  23. T. Pasanen / Johdatus bioinformatiikkaan

  24. T. Pasanen / Johdatus bioinformatiikkaan

  25. PROSITE • Ensimmäinen (SWISS-PROT) • Homologisten proteiinien eli proteiiniperheen luokittelu monirinnastuksen parhaiten säilyneen motiivin perusteella (tärkeä biologinen toiminta) • Säännölliset ilmaus (hahmo) • Tuntematon proteiini koetetaan luokitella vertaamalla siihen tunnettuja motiiveja T. Pasanen / Johdatus bioinformatiikkaan

  26. PROSITE kannan muokkaaminen www.expazy.ch/sprot PS00238 • Säilyneiden alueiden etsiminen käsin automaattisesti tuotetusta rinnastuksesta • Saatuja ilmauksia testataan SWISS-PROT kantaan vastaan (oikeita/vääriä positiivisia) • Jos tulokset eivät tarpeeksi hyviä niin ilmauksia tarkennetaan ja testausta jatketaan • Jotkut perheet täytyy jäsentään usealla ilmauksella T. Pasanen / Johdatus bioinformatiikkaan

  27. PRINTS • Proteiiniperheen tunnistamiseen tarvitaan yleensä useita motiiveja • Perheen kaikki motiivit talletetaan (sormenjälki) • Vaikka tuntematon proteiini ei sisällä kaikkia proteiineja niin silti voidaan tehdä suhteellisen varmoja diagnooseja • Tallentaa kaiken informaation joten soveltuu automaattisen tertiäärikannan luomiseen T. Pasanen / Johdatus bioinformatiikkaan

  28. PRINTS kannan muokkaaminenwww.bioinf.man.ac.uk/dbbrowser/PRINTSN • Tehdään pienelle joukolle proteiineja monirinnastus josta haetaan käsin motiivit • Etsitään OWL-kannasta proteiinit jotka täsmäävät kaikkiin motiiveihin • Jos löydetään uusia proteiineja niin näistä saatava informaation lisätään motiivijoukkoon • Etsintää toistetaan kunnes ei löydetä uusia proteiineja jotka täsmäävät kaikkiin motiiveihin T. Pasanen / Johdatus bioinformatiikkaan

  29. PROSITE & PRINTS • Proteiiniperheisiin lisätty tietoa käsinhelpottaa ymmärtämään motiivien merkitystä proteiinin rakenteessa tai toiminnassa; lisätietoa käytetään arvioitaessa täsmäyksien biologista merkitystä • Muut sekundääritietokannat tuotetaan automaat-tisesti joten ne sisältävät hyvin vähän lisätietoa; osa perustuu PRINTS/PROSITE kantoihin T. Pasanen / Johdatus bioinformatiikkaan

  30. BLOCKS • Perustuu PROSITEN, missä määritetään proteiiniperheen parhaiten säilyneet motiivit • Jokaisesta motiivista valitaan kolme parhaiten säilynyttä aminohappoa (ei peräkkäisiä); lohkot talletetaan sellaisenaan (blocks = motif) • Positioiden avulla arvioidaan samankaltaisuuden arvoja (score) oikeille negatiivisille ja oikeille positiivisille täsmäyksille, vrt laatikko 3.6 T. Pasanen / Johdatus bioinformatiikkaan

  31. BLOCKS kannan tulkinta www.blocks.fhcrc.org • 99.5% = samankaltaisuudelle rajan missä oikeiden negatiivisten määrä on 99,5 prosenttia • Strength = lohkon jonojen samankaltaisuuksien mediaaniarvo kerrottuna 1000/99,5 • Lohkon erottelukyky riippuu kenttien 99.5% ja strength erosta; eri lohkojen erottelukykyä voidaan vertailla strength kenttien arvoilla • Kanta tuotetaan automaattisesti T. Pasanen / Johdatus bioinformatiikkaan

  32. Profileswww.expasy.ch/cgi-bin/prosite-search-ac?PS50002 • Profiilit eli painotusmatriisit • Idea: huomioidaan myös motiivien väliset alueet • Painotus sekvenssin kaikille positioille: lisäykset ja poistot (indels), vaihdot, parhaiten säilyneet motiivit • Perheille tehdään profiilit ja kommmentit T. Pasanen / Johdatus bioinformatiikkaan

  33. Pfamwww.sanger.ac.uk/Software/Pfam 7tm • Monirinnastuksen tulos talletetaan Kätketyihin Markovin malleihin (Hidden Markov models, HMM) • Tilastollisia automaatteja; jokaisesta tilasta seuraavaan tilaan on tietty todennäköisyys • Tilat: tuhoa, lisää, vaihda ja hyväksy (samat) • Käsin tehdyt rinnastukset (Pfam-A) • Aut. SWISS-PROT klusterointi (Pfam-B) T. Pasanen / Johdatus bioinformatiikkaan

  34. Kätketty Markovin malli T. Pasanen / Johdatus bioinformatiikkaan

  35. Aminohappojen karkea jako T. Pasanen / Johdatus bioinformatiikkaan

  36. Ominaisuuksien päällekkäisyys T. Pasanen / Johdatus bioinformatiikkaan

  37. IDENTIFY • Sumea lähtökohta (fuzzy): aminohapot ryhmitellään ominaisuuksien mukaan päällekkäisiin luokkiin • Pyrkimys löytää enemmän oikeita positiivisia jonoja kuin mitä säännöllisillä ilmauksilla saadaan • Normaalisti tarvitaan lisäsääntöjä jotta ei saataisi liikaa vääriä positiivisia sekvenssejä T. Pasanen / Johdatus bioinformatiikkaan

  38. Luokittelu eMOTIF ohjelmassaeMOTIF dna.stanford.edu/identify T. Pasanen / Johdatus bioinformatiikkaan

  39. Yhdistetyt sekundääritietokannat • Pyrkimys luoda yhtenäinen käyttöliittymä kaikkiin sekundäärikantoihin PROSITE, PRINTS, Profiles, Pfam ja BLOCKS • Johdettuihin tietokantoihin linkit niihin kantoihin joissa kommentteja sekä tulevaisuudessa lisäksi animaatiota T. Pasanen / Johdatus bioinformatiikkaan

  40. Rakenneluokittelu (vrt tasot) • 3D rakenteita vähän (käsin löytäminen) • Relaation (rakenne, sekvenssi) ei varma? • Proteiineilla sama rakenne: sama esi-isä? • Evoluutio toimii DNA- ja aminohappotasolla sekä laskostumistasolla (orthologia) • Proteiinien säilyneet toiminnat merkitsevät että kriittisten aktiivisten tähteiden (residues) rakenteellinen ympäristö on myös säilynyt T. Pasanen / Johdatus bioinformatiikkaan

  41. SCOP Structural Classification of Proteinshttp://scop.mrc-lmb.cam.ac.uk/scop • Perhe: proteiinit joiden samankaltaisuus on yleensä vähintään 30% (joitakin poikkeuksia) • Superperhe: proteiinit joiden rakenne ja toiminta viittaa yhteiseen esi-isään vaikka sekvenssi-tasolla proteiinien samankaltaisuus ei ole suuri • Laskostuminen: suurimpien sekundääri-rakenteiden järjestys ja topologia on sama; saattavat johtua fyysisistä ja kemiallisista syistä T. Pasanen / Johdatus bioinformatiikkaan

  42. CATHClass, Architecture, Topology, Homology • Luokka perustuu karkeaan jaotteluun: -kierteiset, -levyt,  rakenteet ja sekvenssit joilla ei juurikaan ole toisen asteen rakenteita • Arkkitehtuuri kuvaa sekundäärirakenteiden karkean aseman suhteessa toisiinsa, liityntöjä ei kuvata (esim. tynnyri, rulla, kerrosleipä) • Topologia kuvaa sekä asemat että liitynnät T. Pasanen / Johdatus bioinformatiikkaan

  43. http://www.biochem.ucl.ac.uk/bsm/cath_new • Homologia kuvaa samanlaisi rakenteita sisältäviä proteiineja kun proteiinien lineaarisen tason samankaltaisuuden alaraja on 35% ja • Sekvenssitasolla edellisen tason proteiiniluokat jaotellaan vielä tarkemmin rakenteen perusteella T. Pasanen / Johdatus bioinformatiikkaan

  44. PDBsumhttp://www.biochem.ucl.ac.uk/bsm/pdbsum/ • Suurin rakennetiedon keräyspaikka • Jokaisesta PDB:n sekvenssistä on luotu yhteenveto mikä sisältää mm. tuloksien luotettavuusarvion, proteiiniketjujen määrän, metalli-ionit, sekundäärirakenteet, laskostumispiirustuksen jne. • Näitä käytetään kun yhdistetään proteiinin 1D, 2D ja 3D tietoa T. Pasanen / Johdatus bioinformatiikkaan

More Related