1 / 114

Vorlesung Bioinformatik Teil II

Vorlesung Bioinformatik Teil II. Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser Sequenzvergleich (Rainer Merkl) 25.06.: Multipler Sequenzvergleich, Anwendungen (Rainer Merkl). Genome und Gene.

raeanne
Download Presentation

Vorlesung Bioinformatik Teil II

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser Sequenzvergleich (Rainer Merkl) 25.06.: Multipler Sequenzvergleich, Anwendungen (Rainer Merkl)

  2. Genome und Gene Genom-Sequenzierung und Auswertung der Daten

  3. Genomstrukturen Unterschiede zwischen Pro- und Eukaryonten: • Prokaryonten haben keinen Zellkern und keine Organelle • Eukaryonten können bis zu zwei, vom Kern unabhängige, Genome aufweisen • Mitochondrien: 16 bis 100 kb; bei Pflanzen bis 2.000 kb • Chloroplasten: 100 bis 300 kb

  4. Genomgrößen und Genanzahl

  5. Evolution der Genomgröße

  6. Bakterien-Genome • Genom ist meist eine ringförmige DNA • im Nucleoid lokalisiert • viele, manchmal überlappende Gene • z. B. E. coli: ca. 1 Gen pro kb • Gene selbst sind nicht unterbrochen, ca. 1 kb groß • Operons: mehrere Gene hinter einem Promotor • Haushaltsgene bis zu Säugern konserviert

  7. Eukaryonten-Genome • Genom ist im Kern lokalisiert • meist in mehreren Chromosomen • Gene oft weit getrennt • z. B. H. sapiens: ca. 9 Gene pro Mb, ca. 10-15 kb groß • Gene selbst sind oft unterbrochen (Introns) • viele Bereiche nicht-kodierend

  8. Eukaryonten-Genstruktur Gen primäres Transkript fertige mRNA Unterschiede beim Prokaryonten (Bakterien):- andere Promotorstruktur- UTRs sehr kurz- keine Introns- andere Termination (kein polyA)

  9. Eukaryonten-Genome 30000-40000

  10. 30.000 Gene beim Menschen • Größe der Gene: ca. 10 - 15 kb • Abstand zwischen Genen: ca. 60 - 70 kb • "Rekordhalter": Dystrophin-Gen mit über 2,4 Mb (79 Exons) • Größe der Exons: ca. 170 bp, aber auch Ausnahmen bis zu 7,6 kb • Anzahl der Introns: 0 (z. B. Histon H4) bis 118 (Typ7-Collagen, 31 kb) • Größe der Introns: bis hin zu 150 kb • Größe der mRNAs: ca. 2,2 kb mit großer Variabilität • Gen ist nicht gleich Gen: • Benutzung alternativer Promotoren (z. B. 7 beim Dystrophin-Gen) • alternatives Spleißen • alternative Polyadenylierung

  11. Von der Karte zum Genom Chromosomenkarte des X-Chromosoms

  12. Von der Karte zum Genom

  13. Strategien zur Genomsequenzierung • ESTs (expressed sequence tags) für exprimierte Gene (cDNA) • Shot gun- oder Primer Walk-Methode (genomisch) • Klonierung in Cosmide, BACs (Bacterial Artificial Chromosomes), PACs (P1-derived artificial chromosome) Phagemide, P1-Phagen Insert-Größenverteilung in BACs

  14. Shot gun - Sequenzierung • Zufällig fragmentierte DNA durch "Nebulizer" • Klonierung in Standard-Vektoren • High-throughput-Sequenzierung durch automatische Sequencer (z. B. ABI377) und Fluoreszenz-markierte Terminatoren (ddNTPs); Standard-Primer • Zusammenfügen der Sequenzstücke durch Assembly-Programme • Untersuchung auf biologisch relevante DNA-Sequenzen durch Datenbankabfragen • Klone werden nach Analyse aufbewahrt

  15. Das "Assembly"-Problem • Das Ergebnis einer Shot gun - Sequenzierung ist vergleichbar mit einem Puzzle:- Viele, viele Teile- Vorder- und Rückseite- Einige sind schmutzig oder unkenntlich- Teile anderer Puzzle sind mit drin • Multiplizität der Probleme:- 99% Lesegenauigkeit bei der Sequenzierung, d. h. Ø 1 Fehler pro 100 bp- Häufung der Fehler am Ende der Sequenz- genau diese Regionen sind für das Assembly wichtig- repetitive Sequenzen in der DNA, gleiche Sequenzen können auf verschiedenen Chromosomen auftreten •  Assembly der Sequenzen ist der Flaschenhals der Genomprojekte

  16. Das "Assembly"-Problem • Fehlertolerante Algorithmen zum Alignment zweier und mehrerer Sequenzen • Fehlerquellen:- primäre Fehler: chemisch, d. h. bei der DNA-Gewinnung (v. a. PCR) oder bei der Sequenzreaktion- sekundäre Fehler: beim Lesen des Chromatogramms (suboptimale Signalqualität; Lösung: menschliche Erfahrung und bessere Chemie, v. a. Dyes)- tertiäre Fehler: Klonierungsvektorsequenzen müssen entfernt werden • Probleme: Effizienz und Automatisierung • Effizienz: Das Ausgabeformat (SCF: Standard Chromatography Format) der Sequenzer benötigt relativ viel Speicherkapazität (ca. 100 byte pro Base, d. h. 1.000 Reaktionen mit je 1.000 gelesenen Basen benötigen 100 MB) geeigneteres Format (CAF: Common Assembly Format, standardisiert) • Automatisierung: Kombination des Alignment-Reject-Editing-Verfahrens in silicio

  17. Das "Assembly"-Problem • Alignment:Alphabet  mit allen Zeichen, die im Alignment vorkommen (können): = {A,C,G,T,*,~} Die Sequenz S ist eine geordnete Folge von Charakteren aus dem Alphabet : S = {s1,...,sn} mit n = |S| und si   Durch die Einführung von "end-gaps" (~) in das Alignment wird das Problem umgangen, daß alle Sequenzen die gleiche Länge haben müssen.Bsp.: Sequenz 1: ACGTACGTACGTACGTACGTACGT~~~~ Sequenz 2: ~~~~~CG*ACGT*CGTACGTACGTACGT

  18. Das "Assembly"-Problem • Bewertung des Alignments:Der numerische Vergleich zweier Elemente in einem Alignment wird als Score bezeichnet: score(s1, s2) Der Score-Wert einer Spalte in einem Alignment ist die Summe der Scores der Permutation von Elementen dieser Spalte: k k score(s1,...,sk) =   score(sj,sm)j=1m=j Der Score-Wert des Gesamt-Alignments ist demnach die Summe aller Spalten-Scores: nk k score(S1,...,Sk) =    score(sj,sm)i j m

  19. Das "Assembly"-Problem • Accept/Reject des Alignments:Für jede Art von Abweichungen können "Strafpunkte" vergeben werden:- Direkte Abweichung: „mismatch“ (z. B. T-A, C-T etc.)- Einfügen von Lücken- Verlängerung von Lücken- Lücken am EndeErreichen die Strafpunkte einen Schwellenwert (threshold), so wird das Alignment abgelehnt; ansonsten wird das Ergebnis gespeichert und mit anderen Alignments weiter verglichen.

  20. Einfachster Algorithmus für Alignments:Dotplot Gegeben: A = a1,a2,a3,...,an Sequenz A der Länge n B = b1,b2,b3,...,bm Sequenz B der Länge m Für alle i, j mit 1  i  n, 1  j  m soll gelten: M [i,j] = 1 für ai = bj score für match M [i,j] = 0 für aj  bj score für mismatch M [i,j] wird als 2-dimensionale Matrix dargestellt

  21. Einfachster Algorithmus für Alignments:Dotplot Gegeben: A = a1,a2,a3,...,an Sequenz A der Länge n B = b1,b2,b3,...,bm Sequenz B der Länge m Für alle i, j mit 1  i  n, 1  j  m soll gelten: M [i,j] = 1 für ai = bj score für match M [i,j] = 0 für aj  bj score für mismatch M [i,j] wird als 2-dimensionale Matrix dargestellt

  22. Einfachster Algorithmus für Alignments:Dotplot Gegeben: A = a1,a2,a3,...,an Sequenz A der Länge n B = b1,b2,b3,...,bm Sequenz B der Länge m Für alle i, j mit 1  i  n, 1  j  m soll gelten: M [i,j] = 1 für ai = bj score für match M [i,j] = 0 für aj  bj score für mismatch M [i,j] wird als 2-dimensionale Matrix dargestellt Längste Diagonale ohne Unterbrechung Markiert das beste Teilalignment

  23. Sequenz A Sequenz B Dotplot-Beispiel:Sequenzassembly Sequenz A Sequenz B Grafische Darstellungsmöglichkeit: 1 (match)  weißer Punkt 0 (mismatch)  schwarzer Punkt

  24. Accept/Reject des Alignments

  25. „Feinheiten“ des Assembly-Problems

  26. genom. DNA Dotplot-Beispiel:Vergleich cDNA (mRNA) – genom. DNA t r a t t s r s a n t s o i s t n p G i Polyadenylierungs- o r i T k t A a stelle s Stopcodon l n s a AAUAAA TAG n 1 r a mRNA(cDNA) + T r genom. DNA Promotor Exon Intron T 3’ UTR 5’ UTR Transkription Spleißen mRNA Cap AAAAA

  27. Notwendigkeit von Scoring-Matrizen Nukleotid-Sequenzalignments können über scoring-Kritierien wie scorematch = 1 scoremismatch = 0 bewertet werden. Bei Protein-Sequenzen ist dies nicht mehr realistisch: Ein Austausch einer Aminosäure gegen eine ähnliche ist anders zu bewerten als ein Austausch gegen eine unähnliche.

  28. Ähnlichkeitsmatrizen BLOSUM45 Amino Acid Similarity Matrix (BLOcks SUbstituition Matrix) Gly 7 Pro -2 9 Asp -1 -1 7 Glu -2 0 2 6 Asn 0 -2 2 0 6 His -2 -2 0 0 1 10 Gln -2 -1 0 2 0 1 6 Lys -2 -1 0 1 0 -1 1 5 Arg -2 -2 -1 0 0 0 1 3 7 Ser 0 -1 0 0 1 -1 0 -1 -1 4 Thr -2 -1 -1 -1 0 -2 -1 -1 -1 2 5 Ala 0 -1 -2 -1 -1 -2 -1 -1 -2 1 0 5 Met -2 -2 -3 -2 -2 0 0 -1 -1 -2 -1 -1 6 Val -3 -3 -3 -3 -3 -3 -3 -2 -2 -1 0 0 1 5 Ile -4 -2 -4 -3 -2 -3 -2 -3 -3 -2 -1 -1 2 3 5 Leu -3 -3 -3 -2 -3 -2 -2 -3 -2 -3 -1 -1 2 1 2 5 Phe -3 -3 -4 -3 -2 -2 -4 -3 -2 -2 -1 -2 0 0 0 1 8 Tyr -3 -3 -2 -2 -2 2 -1 -1 -1 -2 -1 -2 0 -1 0 0 3 8 Trp -2 -3 -4 -3 -4 -3 -2 -2 -2 -4 -3 -2 -2 -3 -2 -2 1 3 15 Cys -3 -4 -3 -3 -2 -3 -3 -3 -3 -1 -1 -1 -2 -1 -3 -2 -2 -3 -5 12 Gly Pro Asp Glu Asn His Gln Lys Arg Ser Thr Ala Met Val Ile Leu Phe Tyr Trp Cys

  29. Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser Sequenzvergleich (Rainer Merkl) 25.06.: Multipler Sequenzvergleich, Anwendungen (Rainer Merkl)

  30. Historisches zu Datenbanken "Zuerst war das Protein" Dayhoff, Anfang der 60er Jahre: Sammlung von allen bekannten Aminosäuresequenzen  Atlas of Protein Sequences and Structures (Dayhoff et al., 1965)  Grundlage für die PIR-Datenbank (Protein Information Resource) • EMBL-Nukleotiddatenbank (1982) • erste DNA-Sequenzdatenbank am European Molecular Biology Laboratoryin Hinxton, England • - mit DDBJ (Mishima, Japan) und NCBI (Bethesda, USA) in der "International Nucleotide Sequence Database Collaboration" (1988) • - separate Eingabe möglich, aber täglicher Datenabgleich- Updates nur bei der Stelle möglich, bei der der Record erzeugt wurde

  31. Wachstum der EMBL-Datenbank Stand 10.06.2004: This morning the EMBL Database contained 66,139,788,831 nucleotides in 40,066,073 entries. Quelle: http://www3.ebi.ac.uk/Services/DBStats/

  32. Datenbankformate • GenBank: • Genetische Sequenz-Datenbank • gepflegt durch das NCBI (National Center for Biotechnology Information)am NIH (National Institutes of Health), Bethesda, Maryland, USA • annotierte Sammlung aller öffentlich verfügbarer Nukleotid- und Proteinsequenzen • einzelne Datensätze repräsentieren zusammenhängende DNA- oder RNA-Bereiche mit weiteren Daten (die sogenannte Annotation)

  33. NCBI's Entrez • Nukleotiddaten als "Sprungbrett" für weitere Informationen, vor allem CDS • CDS = Coding Sequence(s), also Translationsinformation von Proteinen • Co-Management von DNA- und Proteindaten Analoges System am EBI: Sequence Retrieval System (SRS)

  34. Primäre und sekundäre Datenbanken Primäre Datenbanken: - experimentelle Ergebnisse - mit einigen Interpretationen (s. u.) - aber ohne kritischen "Review“ - normalerweise direkt von den Forschern mit Daten versorgt Annotation: - CDS (meist abgeleitet von DNA-Sequenz, nicht experimentell) - (mögliche) Funktion (meist durch subjektive Interpretation von Ähnlichkeitsanalysen) - regulatorische Elemente - ...

  35. Primäre und sekundäre Datenbanken Sekundäre Datenbanken: - abgeleitete Eigenschaften als Haupteintrag - Proteindatenbanken PIR, SWISS-PROT, PDB - abgeleitet aus DNA-Datenbanken - oder direkt eingegeben - oder aus Publikationen übernommen - aber immer soweit wie möglich überprüft

  36. Format und Inhalt - Datenbankeinträge: Rohdaten und Annotation - Verarbeitungseffizienz im Computer und die Verständlichkeit stehen im Widerspruch Beispiel: GenBank-Flatfile bzw. EMBL-Record vs. ASN.1-Record

  37. GenBank-Flatfile: LOCUS LISOD 756 bp DNA BCT 30-JUN-1993 DEFINITION L.ivanovii sod gene for superoxide dismutase. ACCESSION X64011 S78972 NID g44010 VERSION X64011.1 GI:44010 KEYWORDS sod gene; superoxide dismutase. SOURCE Listeria ivanovii. ORGANISM Listeria ivanovii Bacteria; Firmicutes; Bacillus/Clostridium group; Bacillaceae; Listeria. REFERENCE 1 (bases 1 to 756) AUTHORS Haas,A. and Goebel,W. TITLE Cloning of a superoxide dismutase gene from Listeria ivanovii by functional complementation in Escherichia coli and characterization of the gene product JOURNAL Mol. Gen. Genet. 231 (2), 313-322 (1992) MEDLINE 92140371 FEATURES Location/Qualifiers source 1..756 /organism="Listeria ivanovii" /strain="ATCC 19119" /db_xref="taxon:1638" RBS 95..100 /gene="sod" gene 95..746 /gene="sod" . . .

  38. Aufbau des GenBank-Flatfiles 1. Header: Informationen, die den gesamten Eintrag betreffen - LOCUS (einmalige accession number, z. B. AF010325 / Länge / Molekülart / Klassifizierung / Datum der letzten Änderung) - DEFINITION (Information, die u. a. bei BLAST mitausgegeben wird) - ACCESSION (primäre und sekundäre accession numbers) - NID (gi number: GenInfo Identifier, wird bei update erneuert) - VERSION (updates) - KEYWORDS (Schlüsselwörter; "historischer Ballast") - SOURCE (gebräuchlicher Name des Organismus, z. B. fruit fly) - ORGANISM (lateinischer Name der Art, z. B. Drosophila melanogaster) - REFERENCE (Publikation, soweit vorhanden, und GenBank-Submission)

  39. Aufbau des GenBank-Flatfiles 2. Feature Table: Eigenschaften der Sequenz (FEATURES) - biologische Information - Annotation - z. B. SOURCE / CDS - genaue Übersicht über alle möglichen Einträge in die Feature Table: http://www.ncbi.nlm.nih.gov/collab/FT/index.html#feature_key_ref

  40. FEATURES Location/Qualifiers source 1..1509 /organism="Mus musculus" /strain="CD1" promoter <1..9 /gene="ubc42" mRNA join(10..567,789..1320) /gene="ubc42" CDS join(54..567,789..1254) /gene="ubc42" /product="ubiquitin conjugating enzyme" /function="cell division control" /translation="MVSSFLLAEYKNLIVNPSEHFKISVNEDNLTEGPPDTLY QKIDTVLLSVISLLNEPNPDSPANVDAAKSYRKYLYKEDLESYPMEKSLDECS AEDIEYFKNVPVNVLPVPSDDYEDEEMEDGTYILTYDDEDEEEDEEMDDE" exon 10..567 /gene="ubc42" /number=1 intron 568..788 /gene="ubc42" /number=1 exon 789..1320 /gene="ubc42" /number=2 polyA_signal 1310..1317 /gene="ubc42"

  41. Aufbau des GenBank-Flatfiles 3. Sequenz: - Formatierte DNA-Sequenz (10er Blöcke zur Übersichtlichkeit) - mit Basenzählung - durchnummeriert - Bsp.: BASE COUNT 1510 a 1074 c 835 g 1609 t 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa . . .

  42. ID LISOD standard; DNA; PRO; 756 BP. XX AC X64011; S78972; XX DT 28-APR-1992 (Rel. 31, Created) XX DE L.ivanovii sod gene for superoxide dismutase XX KW sod gene; superoxide dismutase. XX OS Listeria ivanovii OC Bacteria; Firmicutes; Bacillus/Clostridium group; OC Bacillus/Staphylococcus group; Listeria. XX RN [1] RX MEDLINE; 92140371. RA Haas A., Goebel W.; RT "Cloning of a superoxide dismutase gene"; RL Mol. Gen. Genet. 231:313-322(1992). XX XX FH Key Location/Qualifiers FH FT source 1..756 FT /db_xref="taxon:1638" FT /organism="Listeria ivanovii" FT /strain="ATCC 19119" FT RBS 95..100 FT /gene="sod" FT terminator 723..746 FT /gene="sod" FT CDS 109..717 FT /db_xref="SWISS-PROT:P28763" FT /transl_table=11 FT /gene="sod" EMBL-Record: . . .

  43. ASN.1-Record: (Abstract Syntax Notation) . . . seq-set { seq { id { local str "VCREGA" } , descr { title "Volvox carteri f. nagariensis regA gene, genomic locus" , molinfo { biomol genomic } , create-date std { year 1998 , month 11 , day 16 } } , inst { repr raw , mol dna , length 15322 , seq-data ncbi2na 'FB07EFB13EDBE6FA215F5C3E07BF010CE891D3257E7306CD7E7BD F2F116F887486DE2BFBA54841CFF264F52F3F7823C07F2F8CA4E6FA9E7A7C5D9DB30640305446B 41B69C81FE8094CF2FF52801D411F243A6CD7E717E03F9E7A07A041BA2CF992F40ACAB416919AD . . .

  44. Annotation • Aufgaben: • Umwandlung in Datenbankformate • Veröffentlichung der Sequenzdaten • Kommentierung • Verbindung mit weiteren Informationen • z. B. Genstrukturen, regulatorische Elemente

  45. Annotation • Automatische Annotation im Rahmen von Sequenzprojekten • Manuelle Annotation: Überprüfung der automatisch generierten Daten • Verbindung von: • Gen-Vorhersage (codierender Bereich) • Promotor- und enhancer-Vorhersage • Datenbankvergleiche (homologe Sequenzen),EST-Datenbanken

More Related