1 / 23

Datenbanken in der Bioinformatik Thorsten Denhard

Datenbanken in der Bioinformatik Thorsten Denhard. Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement, Prof. Dr. Kneisel. FH Giessen-Friedberg, Fachbereich MNI. Einführung Bioinformatik Genetischer Code Proteine

grazia
Download Presentation

Datenbanken in der Bioinformatik Thorsten Denhard

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Datenbanken in der BioinformatikThorsten Denhard Seminarvortrag im Studienschwerpunkt technisch-wissenschaftliche Anwendungen Sommersemester 2003 Prof. Dr. Klement, Prof. Dr. Kneisel FH Giessen-Friedberg, Fachbereich MNI TWA-Seminar Thorsten Denhard, SS2003

  2. Einführung BioinformatikGenetischer CodeProteine Einsatzgebiete für Datenbanken in der BISequenzdatenbankenDynamische Prozesse, etc. Datenmodellierung und ManagementKonventionelle DBMSSpezielle Systeme für biologische DBn Datenbank-RetrievalWWW-SchnittstellenMeta-Suchen DB-Pflege und QualitätssicherungDatenintegrationAnnotationen Inhalt TWA-Seminar Thorsten Denhard, SS2003

  3. Fachgebiet im Wandel:von der „klassischen“hin zur Molekularbiologie Heute erhobene Daten:Gensequenzen, Proteinstrukturen Scharfe, quantifizierbare Größen Große Datenmenge Algorithmen zur Analyse Methoden aus der Informatik immer stärker gefordert Einführung Bioinformatik TWA-Seminar Thorsten Denhard, SS2003

  4. DNS: linearer Doppelstrang Nucleotide: Träger der Information, eine von vier Basen (A,T,C,G)Verbinden sich paarweise Anzahl Basenpaare von ca.0,172 * 106 (Virus) bis3200 * 106 (Mensch) „Gen“: ein Sequenzabschnitt, der ein Protein codiert Genetischer Code TWA-Seminar Thorsten Denhard, SS2003

  5. Aufbau Bestehen aus Aminosäuren (20 verschiedene) Lineare unverzweigte Kette Länge: 50-3000 Elemente, im Mittel etwa 200 Gene codieren Proteine Codierungsschema: 3 Nucleotide (Codon) codieren eine AminosäureGenetischer Standardcode gleich über Artgrenzen Benennung der Aminosäuren: drei oder ein Buchstabe (Glycin: Gly / G) Proteine TWA-Seminar Thorsten Denhard, SS2003

  6. Hierarchische Struktur Primärstruktur: Abfolge der Aminosäuren, linear Sekundärstruktur: -Helix, -Faltblatt Tertiärstruktur: Faltung d. Sekundärstruktur- elemente im Raum Proteine Maßgebend für die Funktionalität des Proteins! TWA-Seminar Thorsten Denhard, SS2003

  7. Sequenzdatenbanken Protein-Raumstrukturen Evolutionäre Entwicklungen (Phylogenetik) Genexpression (Aktivität von Genen) Stoffwechsel-Vorgänge (Metabolische Pfade) Literaturdatenbanken Einsatzfelder für Datenbanken TWA-Seminar Thorsten Denhard, SS2003

  8. Gene: Nucleotidsequenzen z.B. GenBank, Human Genome DB Proteine: Aminosäuresequenzen z.B. SWISS-PROT Sequenzierung: Codierende Sequenzen identifizieren Analyse: Sequenz-Alignment Ähnlichkeit zw. Sequenzen bestimmen In DB integriert oder separate Prog. Sequenzdatenbanken ExponentiellesWachstum TWA-Seminar Thorsten Denhard, SS2003

  9. Strukturdatenbanken z.B. Protein Data Bank (PDB) 3D-Koordinaten aller Atome Zuordnung v. Sekundärstrukturen Rel. wenige Moleküle untersucht Einordnung neuer Sequenzen Homologieansatz: ähnliche Sequenzen  ähnliche Struktur Proteinstrukturen • Vorhersage der Proteinfaltung wichtiges Forschungsthema! TWA-Seminar Thorsten Denhard, SS2003

  10. Verwandtschaftsbeziehungen zwischen Arten Heute auf genetischer Basis Erstellung phylogenetischer Bäume auf dieser Basis Algorithmen, Zugriff auf genetische Daten Archivieren erstellter Bäume in Datenbanken Bsp.: Tree Of Life - DB:WWW-Projekt, ca. 350 teilnehmende Wissenschaftler Phylogenetische DBn TWA-Seminar Thorsten Denhard, SS2003

  11. Bsp.: Tree Of Life - DB TWA-Seminar Thorsten Denhard, SS2003

  12. Stoffwechsel-Vorgängein Zellen Codiert als XML-Dokument Über Java-Applet zugänglich Verknüpungen mit z.B. chemischer Datenbank(per Mausklick) Metabolische Pfade Beispiel: KEGG PATHWAY-DB TWA-Seminar Thorsten Denhard, SS2003

  13. Genexpression Genom: statischer „Bauplan“ Aber: Gene sind unterschiedlich aktiv DNA-Chips erlauben Messungen d. Aktivität Große Datenmengen, Analyse z.B. für neue diagnostische u. therapeutische Verfahren Literaturdatenbanken Bsp.: MEDLINE-DB für Medizin und Lebenswissenschaften Sonstige Einsatzgebiete TWA-Seminar Thorsten Denhard, SS2003

  14. Implementierungsalternativen ASCII-Dateien (Flat Files) 40 % Relationales DBMS 38% Objektorientiertes / objektrelationales DBMS 9 % ACEDB 5 % OPM (Object Protocol Model) 2 % ( Daten von 2001 aus einer Studie von Bry & Kröger ) Modellierung u. Datenmanagement TWA-Seminar Thorsten Denhard, SS2003

  15. ASCII-Dateien noch immer weit verbreitet Zum Datenaustausch u. Analyse de facto Standard Explizite Strukturierung: Tags, erlauben komplexe Strukturen und unvollständige Daten Bsp.: Auszug aus der SWISS-PROT-DB (Proteine) Implementierung: Flat Files ID PILI_PSEAE STANDARD; PRT; 178 AA. AC P43502; DT 01-NOV-1995 (Rel. 32, Created) DT 01-NOV-1995 (Rel. 32, Last sequence update) DE Protein pilI. GN PILI OR PA0410. OS Pseudomonas aeruginosa. SQ SEQUENCE 178 AA; 19934 MW; 634A1A4B135A7E77 CRC64; MSDVQTPFQL LVDIDQRCRR LAAGLPAQQE AVQSWSGIGF [...] TWA-Seminar Thorsten Denhard, SS2003

  16. Relationale DBMS in anderen Feldern lange erprobt Für wissenschaftliche Daten nicht optimal Komplexe Struktur führt zu uneinsichtigem Tabellenverbund Administration und Abfragen daher unnötig kompliziert Effiziente Speicherung u. Suche von Sequenzdaten nicht hinreichend untersucht Trotzdem rund 38 % der DBn mit relationalem DBMS Implementierung: relationale DBMS TWA-Seminar Thorsten Denhard, SS2003

  17. AC. elegans DataBase Speziell für wissenschaftliches Umfeld entworfen Objektorientiertes Datenmodell, aber: Keine Vererbung möglich Baumstruktur von Objekten u. Attributen Semistrukturierter Ansatz Erlaubt Ausnahmen i.d. Datenstruktur Query-Sprache AQL: SQL-ähnlich, Pfad-Ausdrücke Implementierung: ACEDB TWA-Seminar Thorsten Denhard, SS2003

  18. Klassendefinition Tags, Objekte, Basistypen, Modifizierer 1:N-Beziehungen problemlos modellierbar Bsp. Abfrage:Alle Co-Autoren in allen Aufsätzen von Hr. Lesk finden Implementierung: ACEDB ?Author Name UNIQUE Text Paper ?Paper ?Paper Title UNIQUE Text Author ?Author Abstract ?LongText select a->Paper->Authorfrom a in class Author where a->Name like "*lesk*" TWA-Seminar Thorsten Denhard, SS2003

  19. Object Protocol Model Objektorientiertes Modell mit spezieller Unterstützung für wissenschaftliche Daten/Prozesse Kein DBMS, nur Datenmodell Protokoll-Klassen modellieren Experimente mit Input und Output Tool-Suite zur Modellierung/Benutzung Schema Editor: Erlaubt Transformation in relationale Schemata Browse & Query: Anfragen u. Transaktionen in z.B. SQL umwandeln Implementierung: OPM TWA-Seminar Thorsten Denhard, SS2003

  20. Heterogenität Vielzahl existierender DBnwelche enthält relevante Daten?unterschiedliche Abfragearten Ansatz: „Meta-Suchen“z.B. SRS (Sequence Retrieval System)Zugriff auf ca. 500 DBn Folgt Hypertext-Links in Einträgen Abfrage über WWW-Standardformular oderQuery-Language [swissprot-id:acha-human] > prosite > swissprot Datenbank-Retrieval TWA-Seminar Thorsten Denhard, SS2003

  21. Akquisition neuer Daten aus anderen DBn Voll- oder semiautomatischKonflikte möglich, Einteilung insemantische, deskriptive, strukturelle Forschergruppen dürfen Daten einbringen Qualität d. Daten, Validierungsprozess? Übernahme aus der Literatur Meist manuell, arbeitsintensiv Datenintegration TWA-Seminar Thorsten Denhard, SS2003

  22. Annotationen Meta-Daten, z.B. Literaturreferenzen Verknüpfungen zu anderen Datensätzen Herkunft der Daten, experimentelle Methoden Feature-Tables: biol. Bedeutung v. Sequenzen Neuannotation von Einträgen Macht Datenbestand „dynamisch“ Qualität d. Einträge, Bsp. EMBL-DBohne Annotation vorläufig  ungeprüft  Standard Annotationen geben den Daten Bedeutung Qualitätssicherung TWA-Seminar Thorsten Denhard, SS2003

  23. Molekularbiologische Daten enorme Schärfe und Quantität oft komplexe Strukturen Datenbanken bewährte DBMS bereits in Verwendung spezielle Ansätze verfügbar, aber noch nicht verbreitet Heterogenität von Datenbeständen Verteiltheit und unterschiedliche Datenhaltung Integration notwendig Informatik-Expertise bei Biologen erforderlich Zusammenfassung TWA-Seminar Thorsten Denhard, SS2003

More Related