1 / 21

Seminarvortrag ZOOM - Zillions of Oligos Mapped

red
Download Presentation

Seminarvortrag ZOOM - Zillions of Oligos Mapped

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    1. Seminarvortrag ZOOM! - Zillions of Oligos Mapped von Konstantin Postlep und Andreas Moritz

    2. Index Grundlagen DNA-Sequenzierung Genom Sequenzierungsmethoden Mapping ZOOM! Seeds , Space Seeds , Multiple Space Seeds Designing Spaced Seeds Komplexität , Hash Tables Ergebnisse und Effizienz Resultate Effizienzvergleich

    3. DNA-Sequenz - Nukleotidsequenz - Bei der DNA ist das eine Sequenz aus den Basen : Adenin , Guanin , Thymin , Cytosin , abgekürzt als A G T C

    4. DNA-Sequenz - Nukleotidsequenz - Bei der DNA ist das eine Sequenz aus den Basen : Adenin , Guanin , Thymin , Cytosin , abgekürzt als A G T C DNA-Sequenzierung - Die Bestimmung der DNA-Sequenz - Mitte der 70er Jahre Biochemische Verfahren zur Sequenzierung entwickelt - Technische Beschränkungen ? Jede Sequenzierreaktion ermöglicht nur das Ablesen eines kleinen DNA-Abschnittes mit unter 1000 Basenpaaren ? „read“

    5. Genom - Erbgut eines Lebewesens - Alle vererbbaren Informationen - Diese Informationen stecken in der Basensequenz der DNA

    6. Genom - Erbgut eines Lebewesens - Alle vererbbaren Informationen - Diese Informationen stecken in der Basensequenz der DNA Sequenzierte Organismen - Organismen, dessen DNA-Sequenz des Genoms vollständig entschlüsselt wurde. - ein Grossteil der bisher sequenzierten Genome sind die von bakteriellen Mikroorganismen (aufgrund der Genomgröße) - Humangenomprojekt ? Entschlüsselung des menschlichen Genoms. Es enthält 3Milliarden Basenpaare - Begonnen 1990 , Beendet 2004

    8. Mapping - Vergleich der Sequenzierten DNA mit einem Referenz-Genom, um Rückschlüsse gewinnen zu können - Alte Mapping-Methoden : Z.B. BLAST,RMAP - Errors sind beim Mapping-Prozess einzuplanen, aufgrund von Sequenzierungs-Fehlern und Variationen zum Referenz-Genom Formalisierung des Problems Eine Menge R an reads ist gegeben. Für jedes Read r aus der Menge R finde die Zielregionen auf dem ReferenzGenom G, so das für jede Zielregon t maximal k Fehler zischen r und der Zielregion t liegen.

    9. Seeds und Spaced Seeds - Seeds : Folgen von übereinstimmenden Zeichen an den Sequenzpositionen. - Der Vergleich jeder einzelnen Position ist zu Zeitaufwendig ? Idee der Spaced Seeds - Spaced Seeds nutzen keine aneinanderhängende Sequenz von Buchstaben, die wichtigen Positionen wo ein „Match“ nötig ist, werden mit einer „1“ gekennzeichnet, die unwichtigen mit einer „0“. - Die Gewichtung des Seed ist die Anzahl der 1en . - „001100011“ wäre ein Spaced Seed mit weight 4 und der Länge 9 Beispiel

    10. Vorteil Spaced Seeds - Selektivität : Höhere Seed-Gewichtung ? weniger Matches - Sensitivität : Qualität der Suche. Nicht alle Übereinstimmungen können von einem Seed gefunden werden. Im letzten Beispiel z.B. hätte das Seed „11111111111“ die Übereinstimmung nicht entdeckt - Ein normales Seed „111111“ findet dieselbe Übereinstimmung mehrmals (ein Feld nach Rechts verschoben isdt die wahrscheinlichkeit sehr gross). - Spaced Seeds sind „unabhängiger“ und produzieren so nicht soviele doppelte Treffer ? Geschwindigkeitsverbesserung. Beispiel

    11. Multiple Space Seeds - Jedes Seed kann Übereinstimmungen übersehen - Unterschiedliche Seeds verfehlen unterschiedliche Übereinstimmungen - Das gleichzeitige Verwenden von mehreren, unterschiedlichen Spaced Seeds kann die Trefferrate verbessern. - Dabei wird eine gute Abstimmung zwischen den verschiedenen Seeds benötigt, um den Vorgang zu optimieren.

    12. ZOOM ! - Zoom verwendet verschiedene Spaced Seeds - Jedes genutzte Spaced Seed wird auf die Länge des Reads erweitert, so dass es auch durch seine Position am Read definiert ist. - „000111010110000“ wäre z.B. das Seed „11101011“ an der 4. Stelle des Reads mit der Länge 15 - Durch ein optimales Design dieser Spaced Seeds kann eine minimal nötige Anzahl Seeds gefunden werden, die ausreicht, um 100% Sensitivität zu erreichen - Jedes Spaced Seed wird so nur einmalig genutzt um den Read zu indexen. - m und k gegeben, designe eine minimale Anzahl an Spaced Seeds mit weight w , so dass wir 100% Sensitivität für alle (m,k) Regionen finden

    13. Ein Beispiel - Diese 4 Designten Spaced Seeds mit Weight 13 können bei 2 erlaubten Fehlern 100% Sensitivität bei Reads der Länge 33 gewährleisten. - Bei grösserer Read-Länge müssen mehr Fehler erlaubt werden, z.B. 4 Fehler bei länge 50. - Wieviele Spaced Seeds bei bestimmter Gewichtung und Read Länge benötigt werden bei 2 Fehlern für 100% Sensitivtät in 2. Grafik

    14. Hash Tables

    15. Hash Tables

    16. Hash Tables - Die Designed Spaced Seeds werden genutzt, um Input Reads in Hash Tables zu platzieren - Reads mit gleicher Base an allen 1-Positionen des Seeds in einer Zeile der Hash Table - Hash Key kommt von den Nucleotid-Buchstaben AGCT - in unserem Beispiel wäre das „CATA“ für die erste Zeile. - Beim Mapping-Prozess wird jeder generierte Hash Key mit dem Eintrag verglichen und jeder dort vorhandene Read überprüft

    17. Komplexität ohne hash tables : ? O ( n * ( 4^w + N )) mit hash tables : ? O ( 4^w + n*N ))

    18. Ein paar Resultate Effizienzvergleich: - ZOOM bietet 100% Sensitivität bei maximal 2 Missmatches. - Für den BAC Datensatz benötigte Mapping-Zeit in obiger Tabelle

    19. Seed-weight und Effizienz - Man sieht, dass höher gewichtete Seeds länger brauchen, um die Hash tables zu erstellen, dafür insgesamt weniger Zeit bei einem grossen Referenz-Genom benötigen. - Ausserdem wird mehr Speicher benötigt.

    20. Resumeé - Die heutigen Sequenzierungsmethoden erfordern ein schnelles Mappen von kleinen DNA-Bruchstücken (reads) zu einem Referenz-Genom. - Zoom ist eine Erweiterung der Multiple Space Seeds auf Seeds, die an verschiedenen Positionen des Read designed werden. - Dies hat die Anzahl der Indexe von jedem Read gesenkt, die nötig sind, 100% Sensitivität zu erreichen. - Dadurch wurde sowohl die Geschwindigkeit, als auch der Speicher-Gebrauch drastisch gesenkt. - Zoom ermöglicht so, den grossen Berg an sequenzierter, zu mappender DNA in kürzerer Zeit zu bewältigen.

    21. Vielen DANK für ihre Aufmerksamkeit !! Verwendete Quellen : http://upload.wikimedia.org/wikipedia/commons/1/16/DNA_orbit_animated.gif http://www.bioinformaticssolutions.com/products/ph/approach.php http://de.wikipedia.org/w/index.php?title=Datei:DNA-Sequencers_from_Flickr_57080968.jpg&filetimestamp=20070111154214 http://www2.in.tu-clausthal.de/~hammer/lectures/biosem08/Lin.pdf

More Related