1.16k likes | 1.4k Views
Vorlesung Bioinformatik Teil II. Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser Sequenzvergleich (Rainer Merkl) 25.06.: Multipler Sequenzvergleich, Anwendungen (Rainer Merkl). Genome und Gene.
E N D
Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser Sequenzvergleich (Rainer Merkl) 25.06.: Multipler Sequenzvergleich, Anwendungen (Rainer Merkl)
Genome und Gene Genom-Sequenzierung und Auswertung der Daten
Genomstrukturen Unterschiede zwischen Pro- und Eukaryonten: • Prokaryonten haben keinen Zellkern und keine Organelle • Eukaryonten können bis zu zwei, vom Kern unabhängige, Genome aufweisen • Mitochondrien: 16 bis 100 kb; bei Pflanzen bis 2.000 kb • Chloroplasten: 100 bis 300 kb
Bakterien-Genome • Genom ist meist eine ringförmige DNA • im Nucleoid lokalisiert • viele, manchmal überlappende Gene • z. B. E. coli: ca. 1 Gen pro kb • Gene selbst sind nicht unterbrochen, ca. 1 kb groß • Operons: mehrere Gene hinter einem Promotor • Haushaltsgene bis zu Säugern konserviert
Eukaryonten-Genome • Genom ist im Kern lokalisiert • meist in mehreren Chromosomen • Gene oft weit getrennt • z. B. H. sapiens: ca. 9 Gene pro Mb, ca. 10-15 kb groß • Gene selbst sind oft unterbrochen (Introns) • viele Bereiche nicht-kodierend
Eukaryonten-Genstruktur Gen primäres Transkript fertige mRNA Unterschiede beim Prokaryonten (Bakterien):- andere Promotorstruktur- UTRs sehr kurz- keine Introns- andere Termination (kein polyA)
Eukaryonten-Genome 30000-40000
30.000 Gene beim Menschen • Größe der Gene: ca. 10 - 15 kb • Abstand zwischen Genen: ca. 60 - 70 kb • "Rekordhalter": Dystrophin-Gen mit über 2,4 Mb (79 Exons) • Größe der Exons: ca. 170 bp, aber auch Ausnahmen bis zu 7,6 kb • Anzahl der Introns: 0 (z. B. Histon H4) bis 118 (Typ7-Collagen, 31 kb) • Größe der Introns: bis hin zu 150 kb • Größe der mRNAs: ca. 2,2 kb mit großer Variabilität • Gen ist nicht gleich Gen: • Benutzung alternativer Promotoren (z. B. 7 beim Dystrophin-Gen) • alternatives Spleißen • alternative Polyadenylierung
Von der Karte zum Genom Chromosomenkarte des X-Chromosoms
Strategien zur Genomsequenzierung • ESTs (expressed sequence tags) für exprimierte Gene (cDNA) • Shot gun- oder Primer Walk-Methode (genomisch) • Klonierung in Cosmide, BACs (Bacterial Artificial Chromosomes), PACs (P1-derived artificial chromosome) Phagemide, P1-Phagen Insert-Größenverteilung in BACs
Shot gun - Sequenzierung • Zufällig fragmentierte DNA durch "Nebulizer" • Klonierung in Standard-Vektoren • High-throughput-Sequenzierung durch automatische Sequencer (z. B. ABI377) und Fluoreszenz-markierte Terminatoren (ddNTPs); Standard-Primer • Zusammenfügen der Sequenzstücke durch Assembly-Programme • Untersuchung auf biologisch relevante DNA-Sequenzen durch Datenbankabfragen • Klone werden nach Analyse aufbewahrt
Das "Assembly"-Problem • Das Ergebnis einer Shot gun - Sequenzierung ist vergleichbar mit einem Puzzle:- Viele, viele Teile- Vorder- und Rückseite- Einige sind schmutzig oder unkenntlich- Teile anderer Puzzle sind mit drin • Multiplizität der Probleme:- 99% Lesegenauigkeit bei der Sequenzierung, d. h. Ø 1 Fehler pro 100 bp- Häufung der Fehler am Ende der Sequenz- genau diese Regionen sind für das Assembly wichtig- repetitive Sequenzen in der DNA, gleiche Sequenzen können auf verschiedenen Chromosomen auftreten • Assembly der Sequenzen ist der Flaschenhals der Genomprojekte
Das "Assembly"-Problem • Fehlertolerante Algorithmen zum Alignment zweier und mehrerer Sequenzen • Fehlerquellen:- primäre Fehler: chemisch, d. h. bei der DNA-Gewinnung (v. a. PCR) oder bei der Sequenzreaktion- sekundäre Fehler: beim Lesen des Chromatogramms (suboptimale Signalqualität; Lösung: menschliche Erfahrung und bessere Chemie, v. a. Dyes)- tertiäre Fehler: Klonierungsvektorsequenzen müssen entfernt werden • Probleme: Effizienz und Automatisierung • Effizienz: Das Ausgabeformat (SCF: Standard Chromatography Format) der Sequenzer benötigt relativ viel Speicherkapazität (ca. 100 byte pro Base, d. h. 1.000 Reaktionen mit je 1.000 gelesenen Basen benötigen 100 MB) geeigneteres Format (CAF: Common Assembly Format, standardisiert) • Automatisierung: Kombination des Alignment-Reject-Editing-Verfahrens in silicio
Das "Assembly"-Problem • Alignment:Alphabet mit allen Zeichen, die im Alignment vorkommen (können): = {A,C,G,T,*,~} Die Sequenz S ist eine geordnete Folge von Charakteren aus dem Alphabet : S = {s1,...,sn} mit n = |S| und si Durch die Einführung von "end-gaps" (~) in das Alignment wird das Problem umgangen, daß alle Sequenzen die gleiche Länge haben müssen.Bsp.: Sequenz 1: ACGTACGTACGTACGTACGTACGT~~~~ Sequenz 2: ~~~~~CG*ACGT*CGTACGTACGTACGT
Das "Assembly"-Problem • Bewertung des Alignments:Der numerische Vergleich zweier Elemente in einem Alignment wird als Score bezeichnet: score(s1, s2) Der Score-Wert einer Spalte in einem Alignment ist die Summe der Scores der Permutation von Elementen dieser Spalte: k k score(s1,...,sk) = score(sj,sm)j=1m=j Der Score-Wert des Gesamt-Alignments ist demnach die Summe aller Spalten-Scores: nk k score(S1,...,Sk) = score(sj,sm)i j m
Das "Assembly"-Problem • Accept/Reject des Alignments:Für jede Art von Abweichungen können "Strafpunkte" vergeben werden:- Direkte Abweichung: „mismatch“ (z. B. T-A, C-T etc.)- Einfügen von Lücken- Verlängerung von Lücken- Lücken am EndeErreichen die Strafpunkte einen Schwellenwert (threshold), so wird das Alignment abgelehnt; ansonsten wird das Ergebnis gespeichert und mit anderen Alignments weiter verglichen.
Einfachster Algorithmus für Alignments:Dotplot Gegeben: A = a1,a2,a3,...,an Sequenz A der Länge n B = b1,b2,b3,...,bm Sequenz B der Länge m Für alle i, j mit 1 i n, 1 j m soll gelten: M [i,j] = 1 für ai = bj score für match M [i,j] = 0 für aj bj score für mismatch M [i,j] wird als 2-dimensionale Matrix dargestellt
Einfachster Algorithmus für Alignments:Dotplot Gegeben: A = a1,a2,a3,...,an Sequenz A der Länge n B = b1,b2,b3,...,bm Sequenz B der Länge m Für alle i, j mit 1 i n, 1 j m soll gelten: M [i,j] = 1 für ai = bj score für match M [i,j] = 0 für aj bj score für mismatch M [i,j] wird als 2-dimensionale Matrix dargestellt
Einfachster Algorithmus für Alignments:Dotplot Gegeben: A = a1,a2,a3,...,an Sequenz A der Länge n B = b1,b2,b3,...,bm Sequenz B der Länge m Für alle i, j mit 1 i n, 1 j m soll gelten: M [i,j] = 1 für ai = bj score für match M [i,j] = 0 für aj bj score für mismatch M [i,j] wird als 2-dimensionale Matrix dargestellt Längste Diagonale ohne Unterbrechung Markiert das beste Teilalignment
Sequenz A Sequenz B Dotplot-Beispiel:Sequenzassembly Sequenz A Sequenz B Grafische Darstellungsmöglichkeit: 1 (match) weißer Punkt 0 (mismatch) schwarzer Punkt
genom. DNA Dotplot-Beispiel:Vergleich cDNA (mRNA) – genom. DNA t r a t t s r s a n t s o i s t n p G i Polyadenylierungs- o r i T k t A a stelle s Stopcodon l n s a AAUAAA TAG n 1 r a mRNA(cDNA) + T r genom. DNA Promotor Exon Intron T 3’ UTR 5’ UTR Transkription Spleißen mRNA Cap AAAAA
Notwendigkeit von Scoring-Matrizen Nukleotid-Sequenzalignments können über scoring-Kritierien wie scorematch = 1 scoremismatch = 0 bewertet werden. Bei Protein-Sequenzen ist dies nicht mehr realistisch: Ein Austausch einer Aminosäure gegen eine ähnliche ist anders zu bewerten als ein Austausch gegen eine unähnliche.
Ähnlichkeitsmatrizen BLOSUM45 Amino Acid Similarity Matrix (BLOcks SUbstituition Matrix) Gly 7 Pro -2 9 Asp -1 -1 7 Glu -2 0 2 6 Asn 0 -2 2 0 6 His -2 -2 0 0 1 10 Gln -2 -1 0 2 0 1 6 Lys -2 -1 0 1 0 -1 1 5 Arg -2 -2 -1 0 0 0 1 3 7 Ser 0 -1 0 0 1 -1 0 -1 -1 4 Thr -2 -1 -1 -1 0 -2 -1 -1 -1 2 5 Ala 0 -1 -2 -1 -1 -2 -1 -1 -2 1 0 5 Met -2 -2 -3 -2 -2 0 0 -1 -1 -2 -1 -1 6 Val -3 -3 -3 -3 -3 -3 -3 -2 -2 -1 0 0 1 5 Ile -4 -2 -4 -3 -2 -3 -2 -3 -3 -2 -1 -1 2 3 5 Leu -3 -3 -3 -2 -3 -2 -2 -3 -2 -3 -1 -1 2 1 2 5 Phe -3 -3 -4 -3 -2 -2 -4 -3 -2 -2 -1 -2 0 0 0 1 8 Tyr -3 -3 -2 -2 -2 2 -1 -1 -1 -2 -1 -2 0 -1 0 0 3 8 Trp -2 -3 -4 -3 -4 -3 -2 -2 -2 -4 -3 -2 -2 -3 -2 -2 1 3 15 Cys -3 -4 -3 -3 -2 -3 -3 -3 -3 -1 -1 -1 -2 -1 -3 -2 -2 -3 -5 12 Gly Pro Asp Glu Asn His Gln Lys Arg Ser Thr Ala Met Val Ile Leu Phe Tyr Trp Cys
Vorlesung Bioinformatik Teil II Genomics 04.06.: Genomstrukturen, Sequenzierprojekte 11.06.: Annotation, Datenbanken und Datenbanksuche 18.06.: Paarweiser Sequenzvergleich (Rainer Merkl) 25.06.: Multipler Sequenzvergleich, Anwendungen (Rainer Merkl)
Historisches zu Datenbanken "Zuerst war das Protein" Dayhoff, Anfang der 60er Jahre: Sammlung von allen bekannten Aminosäuresequenzen Atlas of Protein Sequences and Structures (Dayhoff et al., 1965) Grundlage für die PIR-Datenbank (Protein Information Resource) • EMBL-Nukleotiddatenbank (1982) • erste DNA-Sequenzdatenbank am European Molecular Biology Laboratoryin Hinxton, England • - mit DDBJ (Mishima, Japan) und NCBI (Bethesda, USA) in der "International Nucleotide Sequence Database Collaboration" (1988) • - separate Eingabe möglich, aber täglicher Datenabgleich- Updates nur bei der Stelle möglich, bei der der Record erzeugt wurde
Wachstum der EMBL-Datenbank Stand 10.06.2004: This morning the EMBL Database contained 66,139,788,831 nucleotides in 40,066,073 entries. Quelle: http://www3.ebi.ac.uk/Services/DBStats/
Datenbankformate • GenBank: • Genetische Sequenz-Datenbank • gepflegt durch das NCBI (National Center for Biotechnology Information)am NIH (National Institutes of Health), Bethesda, Maryland, USA • annotierte Sammlung aller öffentlich verfügbarer Nukleotid- und Proteinsequenzen • einzelne Datensätze repräsentieren zusammenhängende DNA- oder RNA-Bereiche mit weiteren Daten (die sogenannte Annotation)
NCBI's Entrez • Nukleotiddaten als "Sprungbrett" für weitere Informationen, vor allem CDS • CDS = Coding Sequence(s), also Translationsinformation von Proteinen • Co-Management von DNA- und Proteindaten Analoges System am EBI: Sequence Retrieval System (SRS)
Primäre und sekundäre Datenbanken Primäre Datenbanken: - experimentelle Ergebnisse - mit einigen Interpretationen (s. u.) - aber ohne kritischen "Review“ - normalerweise direkt von den Forschern mit Daten versorgt Annotation: - CDS (meist abgeleitet von DNA-Sequenz, nicht experimentell) - (mögliche) Funktion (meist durch subjektive Interpretation von Ähnlichkeitsanalysen) - regulatorische Elemente - ...
Primäre und sekundäre Datenbanken Sekundäre Datenbanken: - abgeleitete Eigenschaften als Haupteintrag - Proteindatenbanken PIR, SWISS-PROT, PDB - abgeleitet aus DNA-Datenbanken - oder direkt eingegeben - oder aus Publikationen übernommen - aber immer soweit wie möglich überprüft
Format und Inhalt - Datenbankeinträge: Rohdaten und Annotation - Verarbeitungseffizienz im Computer und die Verständlichkeit stehen im Widerspruch Beispiel: GenBank-Flatfile bzw. EMBL-Record vs. ASN.1-Record
GenBank-Flatfile: LOCUS LISOD 756 bp DNA BCT 30-JUN-1993 DEFINITION L.ivanovii sod gene for superoxide dismutase. ACCESSION X64011 S78972 NID g44010 VERSION X64011.1 GI:44010 KEYWORDS sod gene; superoxide dismutase. SOURCE Listeria ivanovii. ORGANISM Listeria ivanovii Bacteria; Firmicutes; Bacillus/Clostridium group; Bacillaceae; Listeria. REFERENCE 1 (bases 1 to 756) AUTHORS Haas,A. and Goebel,W. TITLE Cloning of a superoxide dismutase gene from Listeria ivanovii by functional complementation in Escherichia coli and characterization of the gene product JOURNAL Mol. Gen. Genet. 231 (2), 313-322 (1992) MEDLINE 92140371 FEATURES Location/Qualifiers source 1..756 /organism="Listeria ivanovii" /strain="ATCC 19119" /db_xref="taxon:1638" RBS 95..100 /gene="sod" gene 95..746 /gene="sod" . . .
Aufbau des GenBank-Flatfiles 1. Header: Informationen, die den gesamten Eintrag betreffen - LOCUS (einmalige accession number, z. B. AF010325 / Länge / Molekülart / Klassifizierung / Datum der letzten Änderung) - DEFINITION (Information, die u. a. bei BLAST mitausgegeben wird) - ACCESSION (primäre und sekundäre accession numbers) - NID (gi number: GenInfo Identifier, wird bei update erneuert) - VERSION (updates) - KEYWORDS (Schlüsselwörter; "historischer Ballast") - SOURCE (gebräuchlicher Name des Organismus, z. B. fruit fly) - ORGANISM (lateinischer Name der Art, z. B. Drosophila melanogaster) - REFERENCE (Publikation, soweit vorhanden, und GenBank-Submission)
Aufbau des GenBank-Flatfiles 2. Feature Table: Eigenschaften der Sequenz (FEATURES) - biologische Information - Annotation - z. B. SOURCE / CDS - genaue Übersicht über alle möglichen Einträge in die Feature Table: http://www.ncbi.nlm.nih.gov/collab/FT/index.html#feature_key_ref
FEATURES Location/Qualifiers source 1..1509 /organism="Mus musculus" /strain="CD1" promoter <1..9 /gene="ubc42" mRNA join(10..567,789..1320) /gene="ubc42" CDS join(54..567,789..1254) /gene="ubc42" /product="ubiquitin conjugating enzyme" /function="cell division control" /translation="MVSSFLLAEYKNLIVNPSEHFKISVNEDNLTEGPPDTLY QKIDTVLLSVISLLNEPNPDSPANVDAAKSYRKYLYKEDLESYPMEKSLDECS AEDIEYFKNVPVNVLPVPSDDYEDEEMEDGTYILTYDDEDEEEDEEMDDE" exon 10..567 /gene="ubc42" /number=1 intron 568..788 /gene="ubc42" /number=1 exon 789..1320 /gene="ubc42" /number=2 polyA_signal 1310..1317 /gene="ubc42"
Aufbau des GenBank-Flatfiles 3. Sequenz: - Formatierte DNA-Sequenz (10er Blöcke zur Übersichtlichkeit) - mit Basenzählung - durchnummeriert - Bsp.: BASE COUNT 1510 a 1074 c 835 g 1609 t 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa . . .
ID LISOD standard; DNA; PRO; 756 BP. XX AC X64011; S78972; XX DT 28-APR-1992 (Rel. 31, Created) XX DE L.ivanovii sod gene for superoxide dismutase XX KW sod gene; superoxide dismutase. XX OS Listeria ivanovii OC Bacteria; Firmicutes; Bacillus/Clostridium group; OC Bacillus/Staphylococcus group; Listeria. XX RN [1] RX MEDLINE; 92140371. RA Haas A., Goebel W.; RT "Cloning of a superoxide dismutase gene"; RL Mol. Gen. Genet. 231:313-322(1992). XX XX FH Key Location/Qualifiers FH FT source 1..756 FT /db_xref="taxon:1638" FT /organism="Listeria ivanovii" FT /strain="ATCC 19119" FT RBS 95..100 FT /gene="sod" FT terminator 723..746 FT /gene="sod" FT CDS 109..717 FT /db_xref="SWISS-PROT:P28763" FT /transl_table=11 FT /gene="sod" EMBL-Record: . . .
ASN.1-Record: (Abstract Syntax Notation) . . . seq-set { seq { id { local str "VCREGA" } , descr { title "Volvox carteri f. nagariensis regA gene, genomic locus" , molinfo { biomol genomic } , create-date std { year 1998 , month 11 , day 16 } } , inst { repr raw , mol dna , length 15322 , seq-data ncbi2na 'FB07EFB13EDBE6FA215F5C3E07BF010CE891D3257E7306CD7E7BD F2F116F887486DE2BFBA54841CFF264F52F3F7823C07F2F8CA4E6FA9E7A7C5D9DB30640305446B 41B69C81FE8094CF2FF52801D411F243A6CD7E717E03F9E7A07A041BA2CF992F40ACAB416919AD . . .
Annotation • Aufgaben: • Umwandlung in Datenbankformate • Veröffentlichung der Sequenzdaten • Kommentierung • Verbindung mit weiteren Informationen • z. B. Genstrukturen, regulatorische Elemente
Annotation • Automatische Annotation im Rahmen von Sequenzprojekten • Manuelle Annotation: Überprüfung der automatisch generierten Daten • Verbindung von: • Gen-Vorhersage (codierender Bereich) • Promotor- und enhancer-Vorhersage • Datenbankvergleiche (homologe Sequenzen),EST-Datenbanken