670 likes | 810 Views
Aktuelle Themen der Bioinformatik. Thema:. RNA-Sekundärstruktur-vorhersage mit Pseudoknots. Vortragender: Timo Drick. Johann-Wolfgang-Goethe Universität Frankfurt am Main. Einleitung 1.1. Biologische Aspekte 1.2. Überblick 2. Algorithmen 2.1. Ohne Pseudoknots 2.2. Mit Pseudoknots
E N D
Aktuelle Themen der Bioinformatik Thema: RNA-Sekundärstruktur-vorhersage mit Pseudoknots Vortragender: Timo Drick Johann-Wolfgang-Goethe Universität Frankfurt am Main Johann-Wolfgang-Goethe Universität Frankfurt am Main
Einleitung 1.1. Biologische Aspekte 1.2. Überblick 2. Algorithmen 2.1. Ohne Pseudoknots 2.2. Mit Pseudoknots 2.3. Vorstellung anderer Ansätze 3. Komplexität 4. Zusammenfassung Johann-Wolfgang-Goethe Universität Frankfurt am Main
Einführung - Biologische Aspekte • RNA, was ist das? Johann-Wolfgang-Goethe Universität Frankfurt am Main
Einführung - Biologische Aspekte Johann-Wolfgang-Goethe Universität Frankfurt am Main
Einführung - Biologische Aspekte Warum RNA? • RNA ist eine universell einsetzbare Struktur in der Biologie. Sie erfüllt sehr viele verschiedenen Aufgaben: • mRNA (Vorlage der Proteinsynthese) • tRNA (Bereitstellung von Aminosäuren für Proteinsynthese) • rRNA (Synthese von Proteinen) • snRNA (Splicing es gibt auch Selbstsplicende RNA) • Allgemein wird angenommen das Ursprünglich das Leben mit RNA-Strukturen begonnen hat und daraus alles weitere Entstanden ist. Johann-Wolfgang-Goethe Universität Frankfurt am Main
Einführung - Überblick Warum Sekundärstrukturvorhersage? • Struktur ist wichtig um auf Funktionen zu schließen. • 3D-Struktur ist zu komplex um Basenpaarungen vorherzusagen. • Die Sekundärstuktur ist im Prinzip eine Menge von Basenpaarungen in der 3D-Struktur. • Die Sekundärstruktur kann als Grundlage für die 3D Vorhersage benutzt werden. Johann-Wolfgang-Goethe Universität Frankfurt am Main
Einführung - Überblick Johann-Wolfgang-Goethe Universität Frankfurt am Main
Einführung - Überblick Johann-Wolfgang-Goethe Universität Frankfurt am Main
Einführung - Überblick Johann-Wolfgang-Goethe Universität Frankfurt am Main
1. Einleitung 2. Algorithmen 2.1. Ohne Pseudoknots 2.2. Mit Pseudoknots 2.3. Vorstellung anderer Ansätze 3. Komplexität 4. Zusammenfassung Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen • Prozess der Rechnergestützten Sekundärstrukturvorhersage ist sehr Komplex. Es müssen Kompromisse eingegangen werden. • Um Methoden zu entwickeln müssen Modelle der Realität herangezogen werden. • Üblicherweise werden Gesetze aus der Thermodynamik verwendet. Es wird die Energie für eine Struktur berechnet. • Wenn Energie niedrig bzw. minimal dann ist die Struktur stabil. Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots Energiefunktion: • Maximierung der Anzahl von „stacking pairs“ minimiert Energie. Stacking Pair: Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots • P ist eine Sekundärstruktur der RNA-Sequenz • P ist als Menge von Basenpaaren definiert. • Stacking Pairs werden so abgekürzt: Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots Erstellen eines Graphen: • Der ungerichtete Graph G(P) besteht aus n Knoten die den Basen in S entsprechen. • Basen (i,j) bilden Kanten in G(P) falls:j=i+1 oder (i·j) є P • Eine Sekundärstruktur ist planar wenn ihr Graph planar ist. Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots Pseudoknot: • Wenn P zwei Basenpaare (i·j) und (i‘·j’) enthält, verursachen sie einen Pseudoknot falls gilt: i<i’<j<j’ Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots • P enthält einen „Interleaving Block“ wenn P drei SPs(i,i+1;j-1,j),(i',i'+1;j'-1,j'),(i'',i''+1;j''-1,j'') enthält für die gilt: i<i'<i''<j<j'<j''‚ Wenn P einen Interleaving Block enthält ist P nicht planar. Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots Stacking Pair Embedding (SPE) • SPE von S auf ein Gitter: • Die Basen S werden als n aufeinander folgende Gitterpunkte auf einer horizontalen Gitterlinie L gezeichnet. • i und i+1 sind verbunden. • Wenn (i,i+1;j-1,j) ein SP ist dann sind i und i+1 mit j-1 und j verbunden. Beide Kanten müssen über oder unter L liegen. Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots • Eine SPE ist planar wenn sie ohne Kantenüberschneidungen gezeichnet werden kann. • Annahme: P ist eine Sekundärstruktur von S.E ist eine SPE von P. Wenn P planar ist dann muss auch E planar sein. Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots Beweis: • Wenn P keine planare SPE hat nehmen wir an das P einen „Interleaving Block“ enthält und das E SPs hat die sich über L kreuzen. • Wenn sich kein weiteres SP unter L befindet können wir eins der SPs nach unten klappen. Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots • Folgerung: Es muss sich mindestens noch ein SP unter L befinden. • Probieren aller möglichen Anordnungen zeigt das E nur dann nicht ohne Überschneidungen gezeichnet werden kann wenn es sich um einen „Interleaving Block“ handelt. Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots MaxSP • MaxSP berechnet max # von SPs ohne Pseudoknots. • Zwei Arrays V und W: • V(i,j):(j>=i) enthält die max # SPs ohne Pseudoknots die mit i,...,j gebildet werden können, wenn gilt i und j bilden Watson-Crick paar. • W(i,j):(j>=i) enthält die max # SPs ohne Pseudoknots die mit i,...,j gebildet werden können. • W(1,n) ist die max # SP die S bilden kann. Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots MaxSP • Basis: Wenn j=i, j=i+1, j=i+2, j=i+3 für die gilt (j<=n) • V(i,j)=0|i und j sind ein WC paar. • W(i,j)=0 • Rekursion: Wenn j>i+3 Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots • Der Algorithmus zählt SPs nur dann: • Wenn nach einem Basenpaar ein weiteres folgt. • D.h. viele SPs hintereinander zählen mehr als einzelne SPs. • Beispiel an Tafel: Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots Annahme: • Gegeben ist eine RNA-Sequenz S. • N* ist die max # SPs die mit einer planaren Sekondärstruktur von S gebildet werden kann. • W ist die max # an SPs die mit S ohne Pseudoknots gebildet werden können. • Dann gilt W>=N* / 2 Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots Beweis: • P* ist eine planare Sekundärstruktur von S mit N* SPs. • Solange P* planar ist sind alle SPEs von P* auch planar Lemma 3.1. • E ist ein SPE von P* so dass keine Linien im Gitter sich überschneidet. • n1 und n2 sind die # SPs über und unter L. Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots • Der Algorithmus MaxSP findet mindestens ½ der möglichen SPs einer Sekondärstruktur für eine RNA-Sequenz S. • Resourcen: • Laufzeit O(n3) • Platz O(n2) • Es gibt O(n2) Einträge in V(i,j) und W(i,j) zu füllen. • Pro Eintrag brauchen wir bei W(i,j) O(n) zeit und bei V(i,j) O(1) zeit. Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots MaxSP • Basis: Wenn j=i, j=i+1, j=i+2, j=i+3 für die gilt (j<=n) • V(i,j)=0|i und j sind ein WC paar. • W(i,j)=0 • Rekursion: Wenn j>i+3 Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots mfold • Berechnet minimale Energie ohne Pseudoknots. • Drei Arrays V, WM und W: • V(i,j) enthält die minimale Energie eine Sekundärsturktur die mit i,...,j gebildet werden kann, wenn gilt i und j bilden Watson-Crick paar. • WM(i,j) enthält die minimale Energie eine Sekundärsturktur die mit i,...,j gebildet werden kann, wenn sie Teil eines multibranched loop ist. • W(i,j) enthält die minimale Energie der Struktur i...j Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots Hairpin loop Stacking Basepairs Internal loops bulges Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - ohne Pseudoknots mfold • Resourcen: • Laufzeit O(n3) evtl. O(cn3) • Platz O(n2) Johann-Wolfgang-Goethe Universität Frankfurt am Main
1. Einleitung 2. Algorithmen 2.1. Ohne Pseudoknots 2.2. Mit Pseudoknots 2.3. Vorstellung anderer Ansätze 3. Komplexität 4. Zusammenfassung Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - mit Pseudoknots GreedySP(S,i) : i>=3 • Finde die linkesten SPs mit i aufeinander folgenden Basenpaaren die nicht markiert sind.Füge die Bassenpaare zu E hinzu und markiere sie.Wiederhole 1. bis keine mehr gefunden werden. • Für k=i-1 bis 2, Finde alle SPs mit k aufeinander folgenden Basenpaaren.Füge sie E hinzu und markiere sie. • Finde das linkeste SP.Füge es E hinzu und markiere es.Wiederhole bis keine weiteren vorhanden. Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - mit Pseudoknots • Algorithmus erzeugt eine Sekundärstruktur die mindestens 1/3 der maximal möglichen SPs enthält. • Es werden Strukturen mit vielen aufeinander folgenden Basenpaaren bevorzugt. • Ressourcen: • Laufzeit O(ni) • Platz O(n) Johann-Wolfgang-Goethe Universität Frankfurt am Main
1. Einleitung 2. Algorithmen 2.1. Ohne Pseudoknots 2.2. Mit Pseudoknots 2.3. Vorstellung anderer Ansätze 3. Komplexität 4. Zusammenfassung Johann-Wolfgang-Goethe Universität Frankfurt am Main
Algorithmen - mit Pseudoknots Andere Herangehensweisen für Sekundärstruktur Vorhersage: • Verwendung von Stochastischen Kontextfreien Grammatiken. • Genetische Algorithmen • Anregung: Ansätze mit anderen Bioinformatischen methoden (Neuronale Netze, Schwarmalgorithmen, ...) Johann-Wolfgang-Goethe Universität Frankfurt am Main
Kurze PAUSE Johann-Wolfgang-Goethe Universität Frankfurt am Main
1. Einleitung 2. Algorithmen 3. Komplexität 3.1. Energiefunktion 3.2. Idee 3.3. Alphabet 3.4. RNA-Konstuktion 3.5. Beweis 4. Zusammenfassung Johann-Wolfgang-Goethe Universität Frankfurt am Main
Komplexität • Problem:Berechnung einer RNA-Sekondärstruktur mit minimaler Energie. • NP-Vollständigkeit ist bewiesen. • Einfache Energiefunktion als grundlage. Johann-Wolfgang-Goethe Universität Frankfurt am Main
Komplexität - Energiefunktion Nearest Neighbour Pseudoknot Model S ist eine Sekundärstruktur der Sequenz s. S ist eine Menge von Basenpaaren. Es gilt: Johann-Wolfgang-Goethe Universität Frankfurt am Main
Komplexität - Energiefunktion • Folgerungen: • Die Energie hängt ab von der Basenpaarung selbst und von den beiden Nachbarbasen bzw. dessen Paarungen. • Dieses Modell erlaubt alle Arten von Pseudoknots. (Es gibt keinerlei Restriktionen im bezug auf die Sekondärstruktur). Johann-Wolfgang-Goethe Universität Frankfurt am Main
1. Einleitung 2. Algorithmen 3. Komplexität 3.1. Energiefunktion 3.2. Idee 3.3. Alphabet 3.4. RNA-Konstuktion 3.5. Beweis 4. Zusammenfassung Johann-Wolfgang-Goethe Universität Frankfurt am Main
Komplexität – Idee NP-Vollständig • Klasse P: • Efizient entscheidbare Sprachen. (Entscheidbar in Polynomialzeit) • Klasse NP: • Sprachen die in polynomieller Laufzeit von einer Nichtdeterministischen Turingmaschine entschieden werden können. • Sprachen die in polynomieller Laufzeit verifiziert werden können Johann-Wolfgang-Goethe Universität Frankfurt am Main
Komplexität – Idee • Klasse NP-hart • Eine Sprache L ist NP-hart wenn alle Sprachen in NP auf sie Reduziert werden können. • Reduktion muss in polynomieller Laufzeit möglich sein. • Gilt P=NP ? Johann-Wolfgang-Goethe Universität Frankfurt am Main
Komplexität – Idee Annahme 1 Entscheidung ob eine optimale Sekundärstruktur in dem NNPM eine geringere Energie als E hat, ist NP-Vollständig. Beweis: NP: Trivial – Verifizierer kann in p-Zeit Energie berechnen. NP-hart : Folgt. Johann-Wolfgang-Goethe Universität Frankfurt am Main
Komplexität – Idee Wie wird NP-hart Komplexität bewiesen? Reduktion auf 3SAT 3SAT: • Literal: Variable x oder x negiert. • Klausel: Disjunktion von Literalen. • Variante: Jedes Literal darf maximal 2x auftauchen. Johann-Wolfgang-Goethe Universität Frankfurt am Main
Komplexität – Idee • Für den Beweis sind nur Watson-Crick Basenpaarungen erlaubt.(Technische Einschränkung um die Komplexität des Beweises zu reduzieren.) • Es wird ein Unendliches Alphabet aus Basen konstruiert. Dieses Konstrukt wird dann als Symbol betrachtet. Johann-Wolfgang-Goethe Universität Frankfurt am Main
1. Einleitung 2. Algorithmen 3. Komplexität 3.1. Energiefunktion 3.2. Idee 3.3. Alphabet 3.4. RNA-Konstruktion 3.5. Beweis 4. Zusammenfassung Johann-Wolfgang-Goethe Universität Frankfurt am Main
Komplexität – Alphabet Konstruktion eines unendlichen Alphabets mit Basen: • Ein Symbol entspricht der d stelligen binären Darstellung von k • wobei gilt: 0<=k<=2d-1 über das Alphabet {A,U} ist. • Der String b{A,U}(k,d) der Länge d wird als binär Zahl interpretiert. A = 0 und U = 1. Das gleiche für C,G Johann-Wolfgang-Goethe Universität Frankfurt am Main
Komplexität – Alphabet • Das k'te eindeutige {A,U} Muster das d Binärstellen benutzt ist der String: • A...AUb{A,U}(k,d)AUAb{A,U}(k,d)UA...A. • wobei A...A=d+2 stellen. • Gleiche gilt für GC Muster. • BSP: • k=2; d=2 • A(UA)AU AUA UA(UA)A Johann-Wolfgang-Goethe Universität Frankfurt am Main