1 / 21

Seminarvortrag ZOOM - Zillions of Oligos Mapped

red
Download Presentation

Seminarvortrag ZOOM - Zillions of Oligos Mapped

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    1. Seminarvortrag ZOOM! - Zillions of Oligos Mapped von Konstantin Postlep und Andreas Moritz

    2. Index Grundlagen DNA-Sequenzierung Genom Sequenzierungsmethoden Mapping ZOOM! Seeds , Space Seeds , Multiple Space Seeds Designing Spaced Seeds Komplexit�t , Hash Tables Ergebnisse und Effizienz Resultate Effizienzvergleich

    3. DNA-Sequenz - Nukleotidsequenz - Bei der DNA ist das eine Sequenz aus den Basen : Adenin , Guanin , Thymin , Cytosin , abgek�rzt als A G T C

    4. DNA-Sequenz - Nukleotidsequenz - Bei der DNA ist das eine Sequenz aus den Basen : Adenin , Guanin , Thymin , Cytosin , abgek�rzt als A G T C DNA-Sequenzierung - Die Bestimmung der DNA-Sequenz - Mitte der 70er Jahre Biochemische Verfahren zur Sequenzierung entwickelt - Technische Beschr�nkungen ? Jede Sequenzierreaktion erm�glicht nur das Ablesen eines kleinen DNA-Abschnittes mit unter 1000 Basenpaaren ? �read�

    5. Genom - Erbgut eines Lebewesens - Alle vererbbaren Informationen - Diese Informationen stecken in der Basensequenz der DNA

    6. Genom - Erbgut eines Lebewesens - Alle vererbbaren Informationen - Diese Informationen stecken in der Basensequenz der DNA Sequenzierte Organismen - Organismen, dessen DNA-Sequenz des Genoms vollst�ndig entschl�sselt wurde. - ein Grossteil der bisher sequenzierten Genome sind die von bakteriellen Mikroorganismen (aufgrund der Genomgr��e) - Humangenomprojekt ? Entschl�sselung des menschlichen Genoms. Es enth�lt 3Milliarden Basenpaare - Begonnen 1990 , Beendet 2004

    8. Mapping - Vergleich der Sequenzierten DNA mit einem Referenz-Genom, um R�ckschl�sse gewinnen zu k�nnen - Alte Mapping-Methoden : Z.B. BLAST,RMAP - Errors sind beim Mapping-Prozess einzuplanen, aufgrund von Sequenzierungs-Fehlern und Variationen zum Referenz-Genom Formalisierung des Problems Eine Menge R an reads ist gegeben. F�r jedes Read r aus der Menge R finde die Zielregionen auf dem ReferenzGenom G, so das f�r jede Zielregon t maximal k Fehler zischen r und der Zielregion t liegen.

    9. Seeds und Spaced Seeds - Seeds : Folgen von �bereinstimmenden Zeichen an den Sequenzpositionen. - Der Vergleich jeder einzelnen Position ist zu Zeitaufwendig ? Idee der Spaced Seeds - Spaced Seeds nutzen keine aneinanderh�ngende Sequenz von Buchstaben, die wichtigen Positionen wo ein �Match� n�tig ist, werden mit einer �1� gekennzeichnet, die unwichtigen mit einer �0�. - Die Gewichtung des Seed ist die Anzahl der 1en . - �001100011� w�re ein Spaced Seed mit weight 4 und der L�nge 9 Beispiel

    10. Vorteil Spaced Seeds - Selektivit�t : H�here Seed-Gewichtung ? weniger Matches - Sensitivit�t : Qualit�t der Suche. Nicht alle �bereinstimmungen k�nnen von einem Seed gefunden werden. Im letzten Beispiel z.B. h�tte das Seed �11111111111� die �bereinstimmung nicht entdeckt - Ein normales Seed �111111� findet dieselbe �bereinstimmung mehrmals (ein Feld nach Rechts verschoben isdt die wahrscheinlichkeit sehr gross). - Spaced Seeds sind �unabh�ngiger� und produzieren so nicht soviele doppelte Treffer ? Geschwindigkeitsverbesserung. Beispiel

    11. Multiple Space Seeds - Jedes Seed kann �bereinstimmungen �bersehen - Unterschiedliche Seeds verfehlen unterschiedliche �bereinstimmungen - Das gleichzeitige Verwenden von mehreren, unterschiedlichen Spaced Seeds kann die Trefferrate verbessern. - Dabei wird eine gute Abstimmung zwischen den verschiedenen Seeds ben�tigt, um den Vorgang zu optimieren.

    12. ZOOM ! - Zoom verwendet verschiedene Spaced Seeds - Jedes genutzte Spaced Seed wird auf die L�nge des Reads erweitert, so dass es auch durch seine Position am Read definiert ist. - �000111010110000� w�re z.B. das Seed �11101011� an der 4. Stelle des Reads mit der L�nge 15 - Durch ein optimales Design dieser Spaced Seeds kann eine minimal n�tige Anzahl Seeds gefunden werden, die ausreicht, um 100% Sensitivit�t zu erreichen - Jedes Spaced Seed wird so nur einmalig genutzt um den Read zu indexen. - m und k gegeben, designe eine minimale Anzahl an Spaced Seeds mit weight w , so dass wir 100% Sensitivit�t f�r alle (m,k) Regionen finden

    13. Ein Beispiel - Diese 4 Designten Spaced Seeds mit Weight 13 k�nnen bei 2 erlaubten Fehlern 100% Sensitivit�t bei Reads der L�nge 33 gew�hrleisten. - Bei gr�sserer Read-L�nge m�ssen mehr Fehler erlaubt werden, z.B. 4 Fehler bei l�nge 50. - Wieviele Spaced Seeds bei bestimmter Gewichtung und Read L�nge ben�tigt werden bei 2 Fehlern f�r 100% Sensitivt�t in 2. Grafik

    14. Hash Tables

    15. Hash Tables

    16. Hash Tables - Die Designed Spaced Seeds werden genutzt, um Input Reads in Hash Tables zu platzieren - Reads mit gleicher Base an allen 1-Positionen des Seeds in einer Zeile der Hash Table - Hash Key kommt von den Nucleotid-Buchstaben AGCT - in unserem Beispiel w�re das �CATA� f�r die erste Zeile. - Beim Mapping-Prozess wird jeder generierte Hash Key mit dem Eintrag verglichen und jeder dort vorhandene Read �berpr�ft

    17. Komplexit�t ohne hash tables : ? O ( n * ( 4^w + N )) mit hash tables : ? O ( 4^w + n*N ))

    18. Ein paar Resultate Effizienzvergleich: - ZOOM bietet 100% Sensitivit�t bei maximal 2 Missmatches. - F�r den BAC Datensatz ben�tigte Mapping-Zeit in obiger Tabelle

    19. Seed-weight und Effizienz - Man sieht, dass h�her gewichtete Seeds l�nger brauchen, um die Hash tables zu erstellen, daf�r insgesamt weniger Zeit bei einem grossen Referenz-Genom ben�tigen. - Ausserdem wird mehr Speicher ben�tigt.

    20. Resume� - Die heutigen Sequenzierungsmethoden erfordern ein schnelles Mappen von kleinen DNA-Bruchst�cken (reads) zu einem Referenz-Genom. - Zoom ist eine Erweiterung der Multiple Space Seeds auf Seeds, die an verschiedenen Positionen des Read designed werden. - Dies hat die Anzahl der Indexe von jedem Read gesenkt, die n�tig sind, 100% Sensitivit�t zu erreichen. - Dadurch wurde sowohl die Geschwindigkeit, als auch der Speicher-Gebrauch drastisch gesenkt. - Zoom erm�glicht so, den grossen Berg an sequenzierter, zu mappender DNA in k�rzerer Zeit zu bew�ltigen.

    21. Vielen DANK f�r ihre Aufmerksamkeit !! Verwendete Quellen : http://upload.wikimedia.org/wikipedia/commons/1/16/DNA_orbit_animated.gif http://www.bioinformaticssolutions.com/products/ph/approach.php http://de.wikipedia.org/w/index.php?title=Datei:DNA-Sequencers_from_Flickr_57080968.jpg&filetimestamp=20070111154214 http://www2.in.tu-clausthal.de/~hammer/lectures/biosem08/Lin.pdf

More Related