1 / 41

Bevezetés a bioinformatikába

Bevezetés a bioinformatikába. Medzihradszky-F ölkl Katalin SzBK & UCSF folkl@cgl.ucsf.edu. Zajlik az eredeti adatfelhalmozás. Megszekvenáltunk egy csomó fehérjét Megszekvenáltunk (úgy, ahogy) néhány genomot És most már a proteomikai laborok/centrumok is adatot adatra halmoznak.

faris
Download Presentation

Bevezetés a bioinformatikába

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF folkl@cgl.ucsf.edu

  2. Zajlik az eredeti adatfelhalmozás • Megszekvenáltunk egy csomó fehérjét • Megszekvenáltunk (úgy, ahogy) néhány genomot • És most már a proteomikai laborok/centrumok is adatot adatra halmoznak

  3. Zajlik az eredeti adatfelhalmozás • vannak 2D-gél adatbázisok • Röntgen-krisztallográfián és NMR-en alapuló térszerkezetek • fehérje-komplex és fehérje-hálózat leírások • mindenfélét megjósoló (de hogy?!) szoftverek Iránytűt, nyomolvasót, varázslót, szoftvert, komputert ide !!!

  4. Proteomikához komputer kell • Lehet (csináltam) ismeretlen fehérjét alaposan kiismerni MS-alapon és adatértelmező szoftver nélkül – csak minta-, munka- és időigényes • A korszerű analízishez lekereső program és adatbázis szükségeltetik Összevetjük a mért adatokat a már katalogizált tudásanyaggal

  5. Lekereső programok elé • „peak picking” programok • Kezdetben vala, hogy az analitikus maga mazsolázta végig a spektrumokat • Mostanság ezt az MS-cég által biztosított szoftver teszi • Az eredeti jel többszörös átalakításon esik keresztül • Felbontás? küszöb? Kalibráció?

  6. Lekereső programok • Olyan ez, mint az operációs rendszerek – egységes és tökéletes kellene • Helyette több van • A leggyakrabban használatosakat NEM a készülékgyártó cégek produkálták

  7. SEQUEST I • J. Yates, LCQ ioncsapdára írta • nyilván tökéletes, mert nem fejlesztik • nagyon lassú, drága, és túl sok mindent talál meg • Jellemző módon a féltriptikus peptid az alapbeállítása • Csak házon belül

  8. SEQUEST II • Viszont a Systems biology atyjai és meg sokan ioncsapdákat használnak, és esküsznek rá • Eredményeinek finomítására, rendszerezésére született meg a Peptide és Protein Prophet Keller, A.; Nesvizhskii, A. I.; Kolker, E.; Aebersold, R. Anal. Chem. 2002, 74, 5383-5392. Nesvizhskii AI, Keller A, Kolker E, Aebersold R. Anal. Chem. 2003, 75, 4646-4658.

  9. Mascot (www.matrixscience.com) • John Cottrell, kicsi, de lelkes csapat • állandó megújulás • Ingyen a neten is elérhető – limitációkkal • Saját verzióért CPUnként kell fizetni ABI, Agilent – script a Mascothoz Mascot Destiller – mindent „megemészt”

  10. ProteinProspector • Almost my baby • Nincs ipari háttere • Ingyen hozzáférhető ősverzió, csak egyedi spektrumokra, PMF-re http://prospector.ucsf.edu • Új LC-MS/MS verzió, b-site –meghívásos • megvásárolható az új verzió • belső verzió egyedi, kvantira - tesztelt

  11. Futottak még • Spektrum-Mill – Prospector „ága” (Agilent Technologies) • készülék-gyártók bágyatag próbálkozásai • SwissProt és egyebek kísérletei Lehetnek előnyeik, különleges opcióik, nem használják őket elegen... Mint PC vs MAC?

  12. Fehérje „lerakat” vs adatbázis • Szimpla szekvencia lista vs. • Kimerítő információ raktár

  13. Fehérje „lerakat” vs adatbázis • MS-alapú „azonosításra” az első is megteszi • De ez így elég agytalan: • „hypothetical” protein • „predicted” protein Kiindulási alapnak azért jó

  14. Milyen az ideális adatbázis? • Minden fehérje benne van • Hibátlanul • Olyan formában, ahogy előfordul • Csak egyszer

  15. Milyen az ideális adatbázis? • Benne van, minden, amit már tudunk a fehérjéről (referenciákkal!)  Poszt-transzlációs módosítások  Térszerkezet  Protein-komplexek/hálózatok, aminek a fehérjénk része  Funkció

  16. Milyen az ideális adatbázis? • Benne van az is, amit még csak sejtünk • Predikciós programok • Szintén referenciákkal És mindez, könnyen, gyorsan hasznosítható/lekereshető

  17. Valóságos „lerakatok” (repositories) • GenPept • NCBI’s Entrez Protein • NCBI’s RefSeq

  18. GenPept (NCBI ez is) • GenBank Gene Products Data Bank • CSAK lefordított nukleotid szekvenciák • Forrás: kombinált nukleotid adatbázisok  DNA Data Bank of Japan (DDBJ)  European Molecular Biology Laboratory (EMBL) Nucleotide Sequence Databas  GenBank

  19. GenPept • Egy fehérje több „kópiája” • Csupán nukleotid-szekvenciákon alapuló információk • Semmi egyéb rendszerezés A lekereső programok nem használják (így magában)

  20. NCBI’s Entrez Protein • Ebbe aztán beletettek apait, anyait  GenPept  SwissProt  PIR  RefSeq  Protein Data Bank

  21. NCBI káoszra példa: idézet egy jelentésből 16. A spektrumban 15 csúcsot detektáltunk 13/15 matches (86%). Acc. #: 24664391 Species: UNREADABLE Name: gi|24664391|ref|NP_524076.2| Proteasome beta2 subunit CG3329-PA [Drosophila melanogaster] Acc. #: 7294336 Species: DROSOPHILA MELANOGASTER Name: CG3329-PA Acc. #: 15292263 Species: DROSOPHILA MELANOGASTER Name: LD44234p MW: 29827 Da pI: 8,9 Cov: 42% 12/15 matches (80%). Acc. #: 2582506 Species: DROSOPHILA MELANOGASTER Name: 20S proteasome beta2 subunit MW: 29883 Da pI: 8.7 Cov: 33% 12/15 matches (80%). Acc. #: 2582504 Species: DROSOPHILA MELANOGASTER Name: 20S proteasome beta2 subunit MW: 29895 Da pI: 8.7 Cov: 33% A fenti szekvenciák néhány (4-5) aminosavban különböznek egymástól.

  22. NCBI káoszra példa: Mascot találat Mindenféle mesterséges konstrukciót is listáznak

  23. Van azért igazi változatosság is Példa fehérje-variánsok azonosításra (S. mansoni)

  24. NCBI’s Entrez Protein • Ez redundáns csak igazán • De néha az egyedüli forrás • Valami plusz információt már tartalmaz A lekereső programok opciói között többnyire szerepel http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=search&DB=protein

  25. Reference Sequence collection • „Each RefSeq represents a single, naturally occurring molecule from a particular organism.” • „RefSeq is a synthesis of information, is an interpretation by a particular group at a particular time. http://www.ncbi.nlm.nih.gov/RefSeq/

  26. Adatbázisok • Swiss-Prot • TrEMBL • PIR • UniProt

  27. Swiss-Prot • a legalaposabb (nem hiába, svájci!) • egy fehérjéhez egy azonosító • Részletes bibliográfia – szekvencia-variációk, funkció, térszerkezet, poszt-transzlációs módosítások, asszociáció betegségekkel, fejlődéssel, hálózatokkal stb. Ami nincs benne, még létezhet, fehérje, variáció, poszt-transzlációs módosítás

  28. SwissProt → Sokan abszolút megbízható forrásnak tekintik. Igaz ez?

  29. SWISSPROT Marha fetuin √ Foszforilációról semmi! √ 296 is O-glikozilált, de innen hiányzik Valós variánsok vagy hibák?!

  30. TrEMBL • Translation from EMBL (DDBJ/GenBank) • hogy az új szekvenciák mielőbb elérhetőek legyenek • csak azok a nukleotid szekvenciák, amik még nincsenek a Swiss-Protban

  31. PIR-PSD • Protein Information Resource Protein Sequence Database http://pir.georgetown.edu/ Ha ezt beütöd, a UniProt-hoz jutsz • Egy fehérje „ID – „családokba” szervezve, mindenféle információval ellátva, a genetikai és bibliográfiai adatbázisokhoz keresztreferenciákkal

  32. UniProt (http://www.expasy.uniprot.org/index.shtml) • Swiss-Prot és PIR-PSD és TrEMBL  Naponta változik, viszonylag komplett, gondosan gyomlált Talán ezt a legpraktikusabb használni

  33. UniProt (http://www.expasy.uniprot.org/index.shtml) • UniProt Archive (UniParc), a comprehensive non-redundant collection of the protein sequences • UniProt Knowledgebase (UniProtKB), database with rich annotation and extensive cross-referencing • UniProt Reference Clusters databases (UniRef), clustered sets of UniProt proteins based on 100% (UniRef100), 90% (UniRef90) or 50% (UniRef50) sequence identity.

  34. Addig jó, míg lúdfűvel meg egérrel dolgozunk... • Sok minden hiányzik a nagy adatbázisokból... Pl. a rizs (felteszem, a Monsanto ül rajta)

  35. Addig jó, míg lúdfűvel meg egérrel dolgozunk... • segíthet „the Institute of Genomic Research” - http://www.tigr.org/ • meg a kismillió maszek genomiális adatbázis, feltéve, hogy akarnak együttműködni • ha van saját lekeresőd, és az adatbázis letölthető – finom • ha tudsz de novo szekvenálni - BLAST

  36. Áradat • Nőnek az adathalmazok • Rengeteg különböző adatlerakat, adatbázis keletkezett mostanában • Próbáljuk gátak közé szorítani őket • egységesítés • Egyszerűsítés Ez utóbbi néha csak szőnyeg alásöpri a szemetet (problémát)

  37. Nagy adathalmazok • MudPIT kísérlet, SCX, LCMS – 55 ezer CID • ezt már csak a gép „nézi végig” • automatizált adat-analízis – pontozás, hol a hihetőségi határ • STATISZTIKA! - nagyobb adatbázis jobb • Random adatbázisok ellenőrzésre

  38. Nagy adathalmazok • Nemcsak az analízis, a jelentés/dokumentáció is komplikált • Peptideket azonosítunk • De azonosítjuk-e a fehérjéket?

  39. Rank D Acc # Shared Species 1 Q8N175 23 HUMAN 1-1 0 P13645 23 HUMAN 1-2 0 Q14664 17 HUMAN 1-3 14 P35527 15 HUMAN 1-13 0 Q7Z3Y7 3 HUMAN 1-14 0 Q7Z3Y8 3 HUMAN 1-15 0 Q7Z3Z0 3 HUMAN 1-18 0 Q6ZP84 3 HUMAN 1-21 0 P08779 3 HUMAN 1-22 0 P02533 3 HUMAN 1-29 0 Q7Z3Y9 2 HUMAN 1-38 0 Q6ZPD6 2 HUMAN 1-46 0 Q2M2I5 1 HUMAN 1-47 0 P13646 1 HUMAN 1-48 0 Q9NXG7 1 HUMAN 1-52 1 Q04695 2 HUMAN 1-56 1 Q8N1P6 2 HUMAN 1-71 0 Q99456 1 HUMAN 1-73 0 Q2TAZ7 1 HUMAN 1-75 0 P08727 1 HUMAN 1-76 0 P19012 1 HUMAN Rank Acc # Num Unique Species 1 Q8N175 23 HUMAN Azonosítjuk-e a fehérjéket? Csak a nyertest Mindent felsorolunk

  40. Mit adjunk meg? • Nem egyértelmű • Viták és egyeztetés tárgya Egyáltalán, mi is az a humán/egér, agyi/máj/plazma proteom?!

  41. HUPO • Vannak/lesznek nemzetközi standard követelmények az adatok dokumentálására • Remélhetőleg az eszközöket is biztosítják majd hozzá

More Related