290 likes | 409 Views
Seminar Fortgeschrittene Algorithmische Bioinformatik Oligodesignprobleme von Oliver Arnold & Jan Hendrik Nielsen. Gliederung. Erster Teil : Einführung in DNA-Chip Design Einleitung DNA-Chips Aufbau von cDNA-Chips Aufbau von Oligo-Chips Beobachtung der Genexpression
E N D
Seminar Fortgeschrittene Algorithmische Bioinformatik Oligodesignprobleme von Oliver Arnold & Jan Hendrik Nielsen
Gliederung Erster Teil: Einführung in DNA-Chip Design • Einleitung • DNA-Chips • Aufbau von cDNA-Chips • Aufbau von Oligo-Chips • Beobachtung der Genexpression • Synthese der Oligonukleotide • Merkmale der Oligo-Chips • Kriterien für optimale Oligos • Anwendungsgebiete Zweiter Teil: Algorithmen zur Konstruktion von Oligos • später ... Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
DNA-Chips • werden allgemein benutzt um zu ermitteln ob Gene exprimiert sind (kodieren für Proteine) • hauptsächlich 2 Arten von Chips: • cDNA Microarrays (Incyte Inc.) • Oligonucleotide Microarrays (Affymetrix) • Spots auf dem Chip müssen einzigartig für ein Gen sein (Spezifität) • Spots müssen dieses Gen entdecken (Sensitivität) • alle Spots sollten unter den gleichen Bedingungen funktionieren, z.B. Temperatur (Einheitlichkeit) Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
Aufbau von cDNA-Chips • 10000 Gene auf einem Chip • Oberfläche ist aus beschichtetem Glas • hohe Sensitivität, wegen langer Probe-Sequenzen • aber niedrige Spezifität, wegen vieler Fehl-Hybridisierungen • Probes können nicht zwischen ähnlichen oder gleichen Subsequenzen unterscheiden • dadurch auch nicht zwischen Gen-Familien • mehrere cDNAs für ein Gen (Fehl-Hybridisierung!) Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
Aufbau von Oligo-Chips • 9000 Gene auf einem Chip • Oberfläche für Oligos ist aus beschichtetem Glas oder Silizium • Oligos sind in Arrays angeordnet (65000-500000 auf einem Chip) • jedes Array (Spot) "erkennt" ein Gen • extrahierte Gene (targets) lagern sich an Oligos (probes) an Hybridisierung [2] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
Beobachtung der Genexpression (1) • Extrahieren der Gene (mRNA) aus einem Referenz- und einem Mutationstyp • Reverse Transkription um cDNAs zu erzeugen • Vervielfältigung der cDNAs durch PCR • Markierung der Gene mit unterschiedlich fluoreszierenden Farbstoffen (z.B. rot und grün) • "Fluten" des Chips mit markierten cDNAs [2] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
Beobachtung der Genexpression (2) • Temperatur-Erhöhung um Fehl-Hybridisierungen zu denaturieren • Waschen des Chips Beseitigung von ungebundener cDNA • Auswertung der Daten, bzw. Messen der Intensität der Farbstoffe [2] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
Synthese der Oligonukleotide • benutzte Methode: Photolitographie • Oligos können parallel erzeugt werden • Maske mit Löchern wird benutzt • ultraviolettes Licht tritt nur durch die Löcher • beschienene Oligos werden "aktiviert" • Basen/Nukleotide können sich anlagern • Chip wird mit Nukleotiden einer Art "geflutet" • ungebundene Basen werden abgewaschen • nächste Maske wird benutzt • Wiederholung der einzelnen Schritte (ca. 70 mal) [2] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
Merkmale der Oligo-Chips (1) • Oligos werden nur durch bekannte Sequenz-Informationen produziert • jedes Oligo wird mit einem Mismatch-Oligo gepaart, unterscheiden sich nur im Zentrum (durch eine Base) • typischerweise werden 20 Paare von Oligonukleotiden zur Erkennung eines Gens verwendet (ein Spot) • Fehl-Hybridisierungen können erkannt werden • Oligos, die weniger (oder gleich) hybridisieren als Mismatch-Oligos, implizieren geringe Spezifität Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
Merkmale der Oligo-Chips (2) • es gibt zwei Typen von Oligo-Chips • short Oligo-Chips (Länge: 20-25 bp) • long Oligo-Chips (Länge: 50-70 bp) • oft wird nur ein Oligonukleotide gebraucht, um ein Gen zu erkennen • weniger Fehl-Hybridisierungen • mögliche sich wiederholende oder ähnliche Sequenzen vermeidbar • dadurch höhere Spezifität • Chips noch relativ teuer • gute Methoden/Algorithmen werden benötigt, um Oligos zu erzeugen Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
Kriterien für optimale Oligos • 6 Kriterien • Base Composition Limit: keine der Basen sollte 50% eines Oligos ausmachen • Base Distribution Limit: Folge eines Basentypes sollte nicht 25% eines Oligos überschreiten • GC-Content: sollte zwischen 30% und 70% liegen • Sekundärstruktur: Oligos sollten keine Dimers oder Hairpins ausbilden • Länge eines zusammenhängenden, komplementären Match zu non-targets sollte kleiner als 15 bp sein • Anteil der komplementären Nukleotide im Verhältnis zu non-targets sollte kleiner als 75% sein • Kriterien 1, 2 und 4 sind implizit in den anderen Bedingungen enthalten Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
Anwendungsgebiete (1) • Erkennen von SNP‘s (Single Nucleotide Polymorphism) • die zusammenhängende Gensequenz wird durch sich überschneidene Oligos der Länge 25 bp repräsentiert • drei Permutationen von jedem Oligo werden mit auf den Chip gepackt • unterscheiden sich bloß im zentralen Nukleotid • dadurch können alle SNP‘s eines Gens durch den Chip erkannt werden Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
Anwendungsgebiete (2) • Beobachtung der Effekte, Effizienz und Metabolismus von Medikamenten • Leber = Hauptwirkungsstätte bei der Umwandlung von Medikamenten und Hormonen • Untersuchung der Gene aus dem Leber-Gewebe daher repräsentativ für den ganzen Organismus • Vergleiche der Genexpressionen können helfen die Wirkung von Medikamenten festzustellen • Verstehen von Krankheitsverläufen • Bestimmen, welche Gene verschiedene Gewebe- und Zell-Typen exprimieren Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
Es geht weiter ... Zweiter Teil: Algorithmen zur Konstruktion von Oligos • Einleitung • Worum geht es? • Methoden der DNA-Array-Synthese • SADP – Synchronous Array Design Problem • der Epitaxial-Algorithmus • der Row-Epitaxial-AlgorithmusMatching • AADP – Asynchronous Array Design Problem • Algorithmen für „in-place Optimierung“: • Batched Greedy, Chessboard & der Sequential Algorithmus Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
Einleitung - Worum geht es? (1) • Oligodesignproblem (siehe vorheriger Teil) • Heute 500.000 Proben pro Chip (Tendenz steigend) • Prozess der Beleuchtung zur Verkettung von Nukleotiden fehleranfällig • optische Effekte (Beugung, Brechung, etc.) können unbeabsichtigte Beleuchtung verursachen • als Folge: unvorhergesehene Synthese (und vieles mehr…) • Lösung: Auswahl der Platzierung von Nukleotiden • Border Minimization Problem (BMP) Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
Einleitung - Worum geht es? (2) • Border: Grenze zwischen zwei benachbarten Proben • maskiert / unmaskiert • Anzahl wird als conflicts bezeichnet • Minimization: Verteilung der Proben mit möglichst kleiner Border Length (Summe der Border über alle Masken) [1] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
Methoden der DNA-Array-Synthese (1) • Synchrone Synthese: • Jede Periode der Supersequenz S (= ACGT) synthetisiert ein einzelnes Nukleotid • Asynchrone Synthese: • Erlaubt willkürliches Einsetzen der Nukleotide [1] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
Methoden der DNA-Array-Synthese (2) • Synchrones, sowie asynchrones Array-Design kann durch Angabe einer mutmaßlichen unteren Grenze errechnet werden. Basierend auf: • dem Hammingabstand bei synchroner Synthese • dem LCS bei asynchroner Synthese • Aber: • sehr langsam • exakt • deshalb nur Verwendung zum Vergleich der später vorgestellten Heuristiken Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
SADP – Synchronous Array Design Problem • Ursprüngliche Vorgehensweise: • Berechnung der Konflikt-Distanz: d(p, p‘) = 2h(p, p‘), wobei p ≡ Proben und 2h ≡ zweifacher Hammingabstand • danach TSP-Heuristik, um die Nukleotide mit minimiertem Hammingabstand auf einer Site anzuordnen (Hannenhalli et al., 2002; erstes Arraydesign bei Affymetrix) • Aber: es geht "besser" (dieser Ansatz optimiert nur etwa die Hälfte der benachbarten Paare) … Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
SADP Der "epitaxial placement approach": • Ursprung in der VLSI (Very Large Scale Integration) • Idee: Zweidimensionale Anordnung von Proben um einen einzelnen (zufällig gewählten und zentralen) Startpunkt (seed) • Epitaxial-Algorithmus ist nur bis zu einer Chipgröße von 300 x 300 Proben praktikabel • daher: Skalierung durch Aufteilung in K Subsets (chunks) • Nachteil: • begrenzte Platzierungsmöglichkeit; Probe kann nicht überall auf dem Array angelegt werden (nur in ihrem Subset) • keine Optimierung der Grenzen zwischen den chunks Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
SADP Der Epitaxial-Algorithmus [1] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
SADP Verbesserung (Kahng et al.): row-epitaxial-algorithm • Drei Haupteigenschaften: • Umstrukturierung einer vorab optimierten, bestehenden Anordnung - erste Platzierung kann durch verschiedene Algorithmen erfolgen (z.B. Gray Code) • muss sehr schnell sein - TSP (Hannenhalli et al.) braucht zu lange • gute initial-Anordnung: lexikographische Sortierung der Proben (radix sort) Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
SADP • Auffüllung der leeren Flächen mit Proben, in einer vordefinierten Reihenfolge (von links nach rechts, Reihe für Reihe) • die Proben werden aus den nächsten k0 Reihen gewählt • k0 = Lookahead beim Algorithmus • dadurch Geschwindigkeit des Algorithmus erhöht • je größer k0,desto besser ist das Ergebnis • jedoch schlechtere Laufzeit Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
SADP Vergleich der bisher vorgestellten Algorithmen [1] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
AADP – Asynchronous Array Design Problem Algorithmen für "in-place Optimierung" • Der Batched Greedy Algorithmus: • sucht die Probe mit höchstem "Gewinn" nach Umsetzung und aktualisiert seine "Gewinnliste" [1] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
AADP • Die Chessboard Optimization • Idee: Maximiere Anzahl unabhängiger Nukleotide • Ein Nukleotid ist unabhängig, wenn das Vertauschen Eines die optimale Einbettung des Anderen nicht beeinflusst. • Zweifärben der Array-site (Schachbrett); alle weißen/schwarzen Felder können untereinander neu angeordnet werden [1] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
AADP • Der Sequential Algorithmus • ermöglicht optimale Umsortierung der Nukleotide • geht Array Reihe für Reihe durch • Nachteil von Batched Greedy, Chessboard: • nur unabhängige Nukleotide werden vertauscht • Auswirkungen verbreiten sich langsam • Das wird durch die sequentielle Abarbeitung gelöst [1] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
AADP [1] Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
Quellenangabe Paper: • [1]Scalable Heuristics for Design of DNA Probe Arrays - Andrew B. Kahng, Ion I. Măndoiu, Pavel A. Pevzner, Sherief Reda and Alexander Z. Zelikovsky • DNA chips: promising toys have become powerful tools - David Gerhold, Thomas Rushmore and C. Thomas Caskey • Picky: oligo microarray design for large genomes - Hui-Hsien Chou, An-Ping Hsia, Denise L. Mooney and Patrick S. Schnable Links: • [2]http://www.affymetrix.com • http://www.charite.de/molbiol/bioinf/tumbiol/Microarrayanalysis/Introduction/ • http://www.math.tau.ac.il/~rshamir/algmb/00/scribe00/html/lec11/node11.html • http://www.stat.berkeley.edu/users/terry/Classes/s260.1998/Week9b/week9b/node1.html • http://www.lshtm.ac.uk/itd/grf/microarrayoverview.htm • http://www.hhmi.org/biointeractive/genomics/microarray.html Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme