E N D
1. SeminarvortragZOOM! - Zillions of Oligos Mapped von
Konstantin Postlep
und
Andreas Moritz
2. Index
Grundlagen
DNA-Sequenzierung
Genom
Sequenzierungsmethoden
Mapping
ZOOM!
Seeds , Space Seeds , Multiple Space Seeds
Designing Spaced Seeds
Komplexität , Hash Tables
Ergebnisse und Effizienz
Resultate
Effizienzvergleich
3. DNA-Sequenz- Nukleotidsequenz- Bei der DNA ist das eine Sequenz aus den Basen : Adenin , Guanin , Thymin , Cytosin , abgekürzt als A G T C
4. DNA-Sequenz- Nukleotidsequenz- Bei der DNA ist das eine Sequenz aus den Basen : Adenin , Guanin , Thymin , Cytosin , abgekürzt als A G T CDNA-Sequenzierung- Die Bestimmung der DNA-Sequenz- Mitte der 70er Jahre Biochemische Verfahren zur Sequenzierung entwickelt- Technische Beschränkungen ? Jede Sequenzierreaktion ermöglicht nur das Ablesen eines kleinen DNA-Abschnittes mit unter 1000 Basenpaaren ? „read“
5. Genom- Erbgut eines Lebewesens- Alle vererbbaren Informationen- Diese Informationen stecken in der Basensequenz der DNA
6. Genom- Erbgut eines Lebewesens- Alle vererbbaren Informationen- Diese Informationen stecken in der Basensequenz der DNASequenzierte Organismen- Organismen, dessen DNA-Sequenz des Genoms vollständig entschlüsselt wurde.- ein Grossteil der bisher sequenzierten Genome sind die von bakteriellen Mikroorganismen (aufgrund der Genomgröße)- Humangenomprojekt ? Entschlüsselung des menschlichen Genoms. Es enthält 3Milliarden Basenpaare- Begonnen 1990 , Beendet 2004
8. Mapping- Vergleich der Sequenzierten DNA mit einem Referenz-Genom, um Rückschlüsse gewinnen zu können- Alte Mapping-Methoden : Z.B. BLAST,RMAP- Errors sind beim Mapping-Prozess einzuplanen, aufgrund von Sequenzierungs-Fehlern und Variationen zum Referenz-GenomFormalisierung des Problems Eine Menge R an reads ist gegeben. Für jedes Read r aus der Menge R finde die Zielregionen auf dem ReferenzGenom G, so das für jede Zielregon t maximal k Fehler zischen r und der Zielregion t liegen.
9. Seeds und Spaced Seeds- Seeds : Folgen von übereinstimmenden Zeichen an den Sequenzpositionen.- Der Vergleich jeder einzelnen Position ist zu Zeitaufwendig ? Idee der Spaced Seeds- Spaced Seeds nutzen keine aneinanderhängende Sequenz von Buchstaben, die wichtigen Positionen wo ein „Match“ nötig ist, werden mit einer „1“ gekennzeichnet, die unwichtigen mit einer „0“. - Die Gewichtung des Seed ist die Anzahl der 1en .- „001100011“ wäre ein Spaced Seed mit weight 4 und der Länge 9Beispiel
10. Vorteil Spaced Seeds- Selektivität : Höhere Seed-Gewichtung ? weniger Matches- Sensitivität : Qualität der Suche. Nicht alle Übereinstimmungen können von einem Seed gefunden werden. Im letzten Beispiel z.B. hätte das Seed „11111111111“ die Übereinstimmung nicht entdeckt- Ein normales Seed „111111“ findet dieselbe Übereinstimmung mehrmals (ein Feld nach Rechts verschoben isdt die wahrscheinlichkeit sehr gross).- Spaced Seeds sind „unabhängiger“ und produzieren so nicht soviele doppelte Treffer ? Geschwindigkeitsverbesserung.Beispiel
11. Multiple Space Seeds- Jedes Seed kann Übereinstimmungen übersehen- Unterschiedliche Seeds verfehlen unterschiedliche Übereinstimmungen- Das gleichzeitige Verwenden von mehreren, unterschiedlichen Spaced Seeds kann die Trefferrate verbessern.- Dabei wird eine gute Abstimmung zwischen den verschiedenen Seeds benötigt, um den Vorgang zu optimieren.
12. ZOOM !- Zoom verwendet verschiedene Spaced Seeds- Jedes genutzte Spaced Seed wird auf die Länge des Reads erweitert, so dass es auch durch seine Position am Read definiert ist.- „000111010110000“ wäre z.B. das Seed „11101011“ an der 4. Stelle des Reads mit der Länge 15- Durch ein optimales Design dieser Spaced Seeds kann eine minimal nötige Anzahl Seeds gefunden werden, die ausreicht, um 100% Sensitivität zu erreichen- Jedes Spaced Seed wird so nur einmalig genutzt um den Read zu indexen.- m und k gegeben, designe eine minimale Anzahl an Spaced Seeds mit weight w , so dass wir 100% Sensitivität für alle (m,k) Regionen finden
13. Ein Beispiel- Diese 4 Designten Spaced Seeds mit Weight 13 können bei 2 erlaubten Fehlern 100% Sensitivität bei Reads der Länge 33 gewährleisten. - Bei grösserer Read-Länge müssen mehr Fehler erlaubt werden, z.B. 4 Fehler bei länge 50. - Wieviele Spaced Seeds bei bestimmter Gewichtung und Read Länge benötigt werden bei 2 Fehlern für 100% Sensitivtät in 2. Grafik
14. Hash Tables
15. Hash Tables
16. Hash Tables - Die Designed Spaced Seeds werden genutzt, um Input Reads in Hash Tables zu platzieren
- Reads mit gleicher Base an allen 1-Positionen des Seeds in einer Zeile der Hash Table
- Hash Key kommt von den Nucleotid-Buchstaben AGCT
- in unserem Beispiel wäre das „CATA“ für die erste Zeile.
- Beim Mapping-Prozess wird jeder generierte Hash Key mit dem Eintrag verglichen und jeder dort vorhandene Read überprüft
17. Komplexitätohne hash tables :? O ( n * ( 4^w + N ))mit hash tables :? O ( 4^w + n*N ))
18. Ein paar Resultate Effizienzvergleich:
- ZOOM bietet 100% Sensitivität bei maximal 2 Missmatches.
- Für den BAC Datensatz benötigte Mapping-Zeit in obiger Tabelle
19. Seed-weight und Effizienz
- Man sieht, dass höher gewichtete Seeds länger brauchen, um die Hash tables zu erstellen, dafür insgesamt weniger Zeit bei einem grossen Referenz-Genom benötigen.
- Ausserdem wird mehr Speicher benötigt.
20. Resumeé - Die heutigen Sequenzierungsmethoden erfordern ein schnelles Mappen von kleinen DNA-Bruchstücken (reads) zu einem Referenz-Genom.
- Zoom ist eine Erweiterung der Multiple Space Seeds auf Seeds, die an verschiedenen Positionen des Read designed werden.
- Dies hat die Anzahl der Indexe von jedem Read gesenkt, die nötig sind, 100% Sensitivität zu erreichen.
- Dadurch wurde sowohl die Geschwindigkeit, als auch der Speicher-Gebrauch drastisch gesenkt.
- Zoom ermöglicht so, den grossen Berg an sequenzierter, zu mappender DNA in kürzerer Zeit zu bewältigen.
21. Vielen DANK für ihre Aufmerksamkeit !! Verwendete Quellen :
http://upload.wikimedia.org/wikipedia/commons/1/16/DNA_orbit_animated.gif
http://www.bioinformaticssolutions.com/products/ph/approach.php
http://de.wikipedia.org/w/index.php?title=Datei:DNA-Sequencers_from_Flickr_57080968.jpg&filetimestamp=20070111154214
http://www2.in.tu-clausthal.de/~hammer/lectures/biosem08/Lin.pdf