E N D
1. SeminarvortragZOOM! - Zillions of Oligos Mapped von
Konstantin Postlep
und
Andreas Moritz
2. Index
Grundlagen
DNA-Sequenzierung
Genom
Sequenzierungsmethoden
Mapping
ZOOM!
Seeds , Space Seeds , Multiple Space Seeds
Designing Spaced Seeds
Komplexit�t , Hash Tables
Ergebnisse und Effizienz
Resultate
Effizienzvergleich
3. DNA-Sequenz- Nukleotidsequenz- Bei der DNA ist das eine Sequenz aus den Basen : Adenin , Guanin , Thymin , Cytosin , abgek�rzt als A G T C
4. DNA-Sequenz- Nukleotidsequenz- Bei der DNA ist das eine Sequenz aus den Basen : Adenin , Guanin , Thymin , Cytosin , abgek�rzt als A G T CDNA-Sequenzierung- Die Bestimmung der DNA-Sequenz- Mitte der 70er Jahre Biochemische Verfahren zur Sequenzierung entwickelt- Technische Beschr�nkungen ? Jede Sequenzierreaktion erm�glicht nur das Ablesen eines kleinen DNA-Abschnittes mit unter 1000 Basenpaaren ? �read�
5. Genom- Erbgut eines Lebewesens- Alle vererbbaren Informationen- Diese Informationen stecken in der Basensequenz der DNA
6. Genom- Erbgut eines Lebewesens- Alle vererbbaren Informationen- Diese Informationen stecken in der Basensequenz der DNASequenzierte Organismen- Organismen, dessen DNA-Sequenz des Genoms vollst�ndig entschl�sselt wurde.- ein Grossteil der bisher sequenzierten Genome sind die von bakteriellen Mikroorganismen (aufgrund der Genomgr��e)- Humangenomprojekt ? Entschl�sselung des menschlichen Genoms. Es enth�lt 3Milliarden Basenpaare- Begonnen 1990 , Beendet 2004
8. Mapping- Vergleich der Sequenzierten DNA mit einem Referenz-Genom, um R�ckschl�sse gewinnen zu k�nnen- Alte Mapping-Methoden : Z.B. BLAST,RMAP- Errors sind beim Mapping-Prozess einzuplanen, aufgrund von Sequenzierungs-Fehlern und Variationen zum Referenz-GenomFormalisierung des Problems Eine Menge R an reads ist gegeben. F�r jedes Read r aus der Menge R finde die Zielregionen auf dem ReferenzGenom G, so das f�r jede Zielregon t maximal k Fehler zischen r und der Zielregion t liegen.
9. Seeds und Spaced Seeds- Seeds : Folgen von �bereinstimmenden Zeichen an den Sequenzpositionen.- Der Vergleich jeder einzelnen Position ist zu Zeitaufwendig ? Idee der Spaced Seeds- Spaced Seeds nutzen keine aneinanderh�ngende Sequenz von Buchstaben, die wichtigen Positionen wo ein �Match� n�tig ist, werden mit einer �1� gekennzeichnet, die unwichtigen mit einer �0�. - Die Gewichtung des Seed ist die Anzahl der 1en .- �001100011� w�re ein Spaced Seed mit weight 4 und der L�nge 9Beispiel
10. Vorteil Spaced Seeds- Selektivit�t : H�here Seed-Gewichtung ? weniger Matches- Sensitivit�t : Qualit�t der Suche. Nicht alle �bereinstimmungen k�nnen von einem Seed gefunden werden. Im letzten Beispiel z.B. h�tte das Seed �11111111111� die �bereinstimmung nicht entdeckt- Ein normales Seed �111111� findet dieselbe �bereinstimmung mehrmals (ein Feld nach Rechts verschoben isdt die wahrscheinlichkeit sehr gross).- Spaced Seeds sind �unabh�ngiger� und produzieren so nicht soviele doppelte Treffer ? Geschwindigkeitsverbesserung.Beispiel
11. Multiple Space Seeds- Jedes Seed kann �bereinstimmungen �bersehen- Unterschiedliche Seeds verfehlen unterschiedliche �bereinstimmungen- Das gleichzeitige Verwenden von mehreren, unterschiedlichen Spaced Seeds kann die Trefferrate verbessern.- Dabei wird eine gute Abstimmung zwischen den verschiedenen Seeds ben�tigt, um den Vorgang zu optimieren.
12. ZOOM !- Zoom verwendet verschiedene Spaced Seeds- Jedes genutzte Spaced Seed wird auf die L�nge des Reads erweitert, so dass es auch durch seine Position am Read definiert ist.- �000111010110000� w�re z.B. das Seed �11101011� an der 4. Stelle des Reads mit der L�nge 15- Durch ein optimales Design dieser Spaced Seeds kann eine minimal n�tige Anzahl Seeds gefunden werden, die ausreicht, um 100% Sensitivit�t zu erreichen- Jedes Spaced Seed wird so nur einmalig genutzt um den Read zu indexen.- m und k gegeben, designe eine minimale Anzahl an Spaced Seeds mit weight w , so dass wir 100% Sensitivit�t f�r alle (m,k) Regionen finden
13. Ein Beispiel- Diese 4 Designten Spaced Seeds mit Weight 13 k�nnen bei 2 erlaubten Fehlern 100% Sensitivit�t bei Reads der L�nge 33 gew�hrleisten. - Bei gr�sserer Read-L�nge m�ssen mehr Fehler erlaubt werden, z.B. 4 Fehler bei l�nge 50. - Wieviele Spaced Seeds bei bestimmter Gewichtung und Read L�nge ben�tigt werden bei 2 Fehlern f�r 100% Sensitivt�t in 2. Grafik
14. Hash Tables
15. Hash Tables
16. Hash Tables - Die Designed Spaced Seeds werden genutzt, um Input Reads in Hash Tables zu platzieren
- Reads mit gleicher Base an allen 1-Positionen des Seeds in einer Zeile der Hash Table
- Hash Key kommt von den Nucleotid-Buchstaben AGCT
- in unserem Beispiel w�re das �CATA� f�r die erste Zeile.
- Beim Mapping-Prozess wird jeder generierte Hash Key mit dem Eintrag verglichen und jeder dort vorhandene Read �berpr�ft
17. Komplexit�tohne hash tables :? O ( n * ( 4^w + N ))mit hash tables :? O ( 4^w + n*N ))
18. Ein paar Resultate Effizienzvergleich:
- ZOOM bietet 100% Sensitivit�t bei maximal 2 Missmatches.
- F�r den BAC Datensatz ben�tigte Mapping-Zeit in obiger Tabelle
19. Seed-weight und Effizienz
- Man sieht, dass h�her gewichtete Seeds l�nger brauchen, um die Hash tables zu erstellen, daf�r insgesamt weniger Zeit bei einem grossen Referenz-Genom ben�tigen.
- Ausserdem wird mehr Speicher ben�tigt.
20. Resume� - Die heutigen Sequenzierungsmethoden erfordern ein schnelles Mappen von kleinen DNA-Bruchst�cken (reads) zu einem Referenz-Genom.
- Zoom ist eine Erweiterung der Multiple Space Seeds auf Seeds, die an verschiedenen Positionen des Read designed werden.
- Dies hat die Anzahl der Indexe von jedem Read gesenkt, die n�tig sind, 100% Sensitivit�t zu erreichen.
- Dadurch wurde sowohl die Geschwindigkeit, als auch der Speicher-Gebrauch drastisch gesenkt.
- Zoom erm�glicht so, den grossen Berg an sequenzierter, zu mappender DNA in k�rzerer Zeit zu bew�ltigen.
21. Vielen DANK f�r ihre Aufmerksamkeit !! Verwendete Quellen :
http://upload.wikimedia.org/wikipedia/commons/1/16/DNA_orbit_animated.gif
http://www.bioinformaticssolutions.com/products/ph/approach.php
http://de.wikipedia.org/w/index.php?title=Datei:DNA-Sequencers_from_Flickr_57080968.jpg&filetimestamp=20070111154214
http://www2.in.tu-clausthal.de/~hammer/lectures/biosem08/Lin.pdf