1 / 67

Aktuelle Themen der Bioinformatik

Aktuelle Themen der Bioinformatik. Thema:. RNA-Sekundärstruktur-vorhersage mit Pseudoknots. Vortragender: Timo Drick. Johann-Wolfgang-Goethe Universität Frankfurt am Main. Einleitung 1.1. Biologische Aspekte 1.2. Überblick 2. Algorithmen 2.1. Ohne Pseudoknots 2.2. Mit Pseudoknots

dalit
Download Presentation

Aktuelle Themen der Bioinformatik

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Aktuelle Themen der Bioinformatik Thema: RNA-Sekundärstruktur-vorhersage mit Pseudoknots Vortragender: Timo Drick Johann-Wolfgang-Goethe Universität Frankfurt am Main Johann-Wolfgang-Goethe Universität Frankfurt am Main

  2. Einleitung 1.1. Biologische Aspekte 1.2. Überblick 2. Algorithmen 2.1. Ohne Pseudoknots 2.2. Mit Pseudoknots 2.3. Vorstellung anderer Ansätze 3. Komplexität 4. Zusammenfassung Johann-Wolfgang-Goethe Universität Frankfurt am Main

  3. Einführung - Biologische Aspekte • RNA, was ist das? Johann-Wolfgang-Goethe Universität Frankfurt am Main

  4. Einführung - Biologische Aspekte Johann-Wolfgang-Goethe Universität Frankfurt am Main

  5. Einführung - Biologische Aspekte Warum RNA? • RNA ist eine universell einsetzbare Struktur in der Biologie. Sie erfüllt sehr viele verschiedenen Aufgaben: • mRNA (Vorlage der Proteinsynthese) • tRNA (Bereitstellung von Aminosäuren für Proteinsynthese) • rRNA (Synthese von Proteinen) • snRNA (Splicing es gibt auch Selbstsplicende RNA) • Allgemein wird angenommen das Ursprünglich das Leben mit RNA-Strukturen begonnen hat und daraus alles weitere Entstanden ist. Johann-Wolfgang-Goethe Universität Frankfurt am Main

  6. Einführung - Überblick Warum Sekundärstrukturvorhersage? • Struktur ist wichtig um auf Funktionen zu schließen. • 3D-Struktur ist zu komplex um Basenpaarungen vorherzusagen. • Die Sekundärstuktur ist im Prinzip eine Menge von Basenpaarungen in der 3D-Struktur. • Die Sekundärstruktur kann als Grundlage für die 3D Vorhersage benutzt werden. Johann-Wolfgang-Goethe Universität Frankfurt am Main

  7. Einführung - Überblick Johann-Wolfgang-Goethe Universität Frankfurt am Main

  8. Einführung - Überblick Johann-Wolfgang-Goethe Universität Frankfurt am Main

  9. Einführung - Überblick Johann-Wolfgang-Goethe Universität Frankfurt am Main

  10. 1. Einleitung 2. Algorithmen 2.1. Ohne Pseudoknots 2.2. Mit Pseudoknots 2.3. Vorstellung anderer Ansätze 3. Komplexität 4. Zusammenfassung Johann-Wolfgang-Goethe Universität Frankfurt am Main

  11. Algorithmen • Prozess der Rechnergestützten Sekundärstrukturvorhersage ist sehr Komplex. Es müssen Kompromisse eingegangen werden. • Um Methoden zu entwickeln müssen Modelle der Realität herangezogen werden. • Üblicherweise werden Gesetze aus der Thermodynamik verwendet. Es wird die Energie für eine Struktur berechnet. • Wenn Energie niedrig bzw. minimal dann ist die Struktur stabil. Johann-Wolfgang-Goethe Universität Frankfurt am Main

  12. Algorithmen - ohne Pseudoknots Energiefunktion: • Maximierung der Anzahl von „stacking pairs“ minimiert Energie. Stacking Pair: Johann-Wolfgang-Goethe Universität Frankfurt am Main

  13. Algorithmen - ohne Pseudoknots • P ist eine Sekundärstruktur der RNA-Sequenz • P ist als Menge von Basenpaaren definiert. • Stacking Pairs werden so abgekürzt: Johann-Wolfgang-Goethe Universität Frankfurt am Main

  14. Algorithmen - ohne Pseudoknots Erstellen eines Graphen: • Der ungerichtete Graph G(P) besteht aus n Knoten die den Basen in S entsprechen. • Basen (i,j) bilden Kanten in G(P) falls:j=i+1 oder (i·j) є P • Eine Sekundärstruktur ist planar wenn ihr Graph planar ist. Johann-Wolfgang-Goethe Universität Frankfurt am Main

  15. Algorithmen - ohne Pseudoknots Pseudoknot: • Wenn P zwei Basenpaare (i·j) und (i‘·j’) enthält, verursachen sie einen Pseudoknot falls gilt: i<i’<j<j’ Johann-Wolfgang-Goethe Universität Frankfurt am Main

  16. Algorithmen - ohne Pseudoknots • P enthält einen „Interleaving Block“ wenn P drei SPs(i,i+1;j-1,j),(i',i'+1;j'-1,j'),(i'',i''+1;j''-1,j'') enthält für die gilt: i<i'<i''<j<j'<j''‚ Wenn P einen Interleaving Block enthält ist P nicht planar. Johann-Wolfgang-Goethe Universität Frankfurt am Main

  17. Algorithmen - ohne Pseudoknots Stacking Pair Embedding (SPE) • SPE von S auf ein Gitter: • Die Basen S werden als n aufeinander folgende Gitterpunkte auf einer horizontalen Gitterlinie L gezeichnet. • i und i+1 sind verbunden. • Wenn (i,i+1;j-1,j) ein SP ist dann sind i und i+1 mit j-1 und j verbunden. Beide Kanten müssen über oder unter L liegen. Johann-Wolfgang-Goethe Universität Frankfurt am Main

  18. Algorithmen - ohne Pseudoknots • Eine SPE ist planar wenn sie ohne Kantenüberschneidungen gezeichnet werden kann. • Annahme: P ist eine Sekundärstruktur von S.E ist eine SPE von P. Wenn P planar ist dann muss auch E planar sein. Johann-Wolfgang-Goethe Universität Frankfurt am Main

  19. Algorithmen - ohne Pseudoknots Beweis: • Wenn P keine planare SPE hat nehmen wir an das P einen „Interleaving Block“ enthält und das E SPs hat die sich über L kreuzen. • Wenn sich kein weiteres SP unter L befindet können wir eins der SPs nach unten klappen. Johann-Wolfgang-Goethe Universität Frankfurt am Main

  20. Algorithmen - ohne Pseudoknots • Folgerung: Es muss sich mindestens noch ein SP unter L befinden. • Probieren aller möglichen Anordnungen zeigt das E nur dann nicht ohne Überschneidungen gezeichnet werden kann wenn es sich um einen „Interleaving Block“ handelt. Johann-Wolfgang-Goethe Universität Frankfurt am Main

  21. Algorithmen - ohne Pseudoknots Johann-Wolfgang-Goethe Universität Frankfurt am Main

  22. Algorithmen - ohne Pseudoknots MaxSP • MaxSP berechnet max # von SPs ohne Pseudoknots. • Zwei Arrays V und W: • V(i,j):(j>=i) enthält die max # SPs ohne Pseudoknots die mit i,...,j gebildet werden können, wenn gilt i und j bilden Watson-Crick paar. • W(i,j):(j>=i) enthält die max # SPs ohne Pseudoknots die mit i,...,j gebildet werden können. • W(1,n) ist die max # SP die S bilden kann. Johann-Wolfgang-Goethe Universität Frankfurt am Main

  23. Algorithmen - ohne Pseudoknots MaxSP • Basis: Wenn j=i, j=i+1, j=i+2, j=i+3 für die gilt (j<=n) • V(i,j)=0|i und j sind ein WC paar. • W(i,j)=0 • Rekursion: Wenn j>i+3 Johann-Wolfgang-Goethe Universität Frankfurt am Main

  24. Algorithmen - ohne Pseudoknots • Der Algorithmus zählt SPs nur dann: • Wenn nach einem Basenpaar ein weiteres folgt. • D.h. viele SPs hintereinander zählen mehr als einzelne SPs. • Beispiel an Tafel: Johann-Wolfgang-Goethe Universität Frankfurt am Main

  25. Algorithmen - ohne Pseudoknots Annahme: • Gegeben ist eine RNA-Sequenz S. • N* ist die max # SPs die mit einer planaren Sekondärstruktur von S gebildet werden kann. • W ist die max # an SPs die mit S ohne Pseudoknots gebildet werden können. • Dann gilt W>=N* / 2 Johann-Wolfgang-Goethe Universität Frankfurt am Main

  26. Algorithmen - ohne Pseudoknots Beweis: • P* ist eine planare Sekundärstruktur von S mit N* SPs. • Solange P* planar ist sind alle SPEs von P* auch planar Lemma 3.1. • E ist ein SPE von P* so dass keine Linien im Gitter sich überschneidet. • n1 und n2 sind die # SPs über und unter L. Johann-Wolfgang-Goethe Universität Frankfurt am Main

  27. Algorithmen - ohne Pseudoknots • Der Algorithmus MaxSP findet mindestens ½ der möglichen SPs einer Sekondärstruktur für eine RNA-Sequenz S. • Resourcen: • Laufzeit O(n3) • Platz O(n2) • Es gibt O(n2) Einträge in V(i,j) und W(i,j) zu füllen. • Pro Eintrag brauchen wir bei W(i,j) O(n) zeit und bei V(i,j) O(1) zeit. Johann-Wolfgang-Goethe Universität Frankfurt am Main

  28. Algorithmen - ohne Pseudoknots MaxSP • Basis: Wenn j=i, j=i+1, j=i+2, j=i+3 für die gilt (j<=n) • V(i,j)=0|i und j sind ein WC paar. • W(i,j)=0 • Rekursion: Wenn j>i+3 Johann-Wolfgang-Goethe Universität Frankfurt am Main

  29. Algorithmen - ohne Pseudoknots mfold • Berechnet minimale Energie ohne Pseudoknots. • Drei Arrays V, WM und W: • V(i,j) enthält die minimale Energie eine Sekundärsturktur die mit i,...,j gebildet werden kann, wenn gilt i und j bilden Watson-Crick paar. • WM(i,j) enthält die minimale Energie eine Sekundärsturktur die mit i,...,j gebildet werden kann, wenn sie Teil eines multibranched loop ist. • W(i,j) enthält die minimale Energie der Struktur i...j Johann-Wolfgang-Goethe Universität Frankfurt am Main

  30. Algorithmen - ohne Pseudoknots Hairpin loop Stacking Basepairs Internal loops bulges Johann-Wolfgang-Goethe Universität Frankfurt am Main

  31. Algorithmen - ohne Pseudoknots mfold • Resourcen: • Laufzeit O(n3) evtl. O(cn3) • Platz O(n2) Johann-Wolfgang-Goethe Universität Frankfurt am Main

  32. 1. Einleitung 2. Algorithmen 2.1. Ohne Pseudoknots 2.2. Mit Pseudoknots 2.3. Vorstellung anderer Ansätze 3. Komplexität 4. Zusammenfassung Johann-Wolfgang-Goethe Universität Frankfurt am Main

  33. Algorithmen - mit Pseudoknots GreedySP(S,i) : i>=3 • Finde die linkesten SPs mit i aufeinander folgenden Basenpaaren die nicht markiert sind.Füge die Bassenpaare zu E hinzu und markiere sie.Wiederhole 1. bis keine mehr gefunden werden. • Für k=i-1 bis 2, Finde alle SPs mit k aufeinander folgenden Basenpaaren.Füge sie E hinzu und markiere sie. • Finde das linkeste SP.Füge es E hinzu und markiere es.Wiederhole bis keine weiteren vorhanden. Johann-Wolfgang-Goethe Universität Frankfurt am Main

  34. Algorithmen - mit Pseudoknots • Algorithmus erzeugt eine Sekundärstruktur die mindestens 1/3 der maximal möglichen SPs enthält. • Es werden Strukturen mit vielen aufeinander folgenden Basenpaaren bevorzugt. • Ressourcen: • Laufzeit O(ni) • Platz O(n) Johann-Wolfgang-Goethe Universität Frankfurt am Main

  35. 1. Einleitung 2. Algorithmen 2.1. Ohne Pseudoknots 2.2. Mit Pseudoknots 2.3. Vorstellung anderer Ansätze 3. Komplexität 4. Zusammenfassung Johann-Wolfgang-Goethe Universität Frankfurt am Main

  36. Algorithmen - mit Pseudoknots Andere Herangehensweisen für Sekundärstruktur Vorhersage: • Verwendung von Stochastischen Kontextfreien Grammatiken. • Genetische Algorithmen • Anregung: Ansätze mit anderen Bioinformatischen methoden (Neuronale Netze, Schwarmalgorithmen, ...) Johann-Wolfgang-Goethe Universität Frankfurt am Main

  37. Kurze PAUSE Johann-Wolfgang-Goethe Universität Frankfurt am Main

  38. 1. Einleitung 2. Algorithmen 3. Komplexität 3.1. Energiefunktion 3.2. Idee 3.3. Alphabet 3.4. RNA-Konstuktion 3.5. Beweis 4. Zusammenfassung Johann-Wolfgang-Goethe Universität Frankfurt am Main

  39. Komplexität • Problem:Berechnung einer RNA-Sekondärstruktur mit minimaler Energie. • NP-Vollständigkeit ist bewiesen. • Einfache Energiefunktion als grundlage. Johann-Wolfgang-Goethe Universität Frankfurt am Main

  40. Komplexität - Energiefunktion Nearest Neighbour Pseudoknot Model S ist eine Sekundärstruktur der Sequenz s. S ist eine Menge von Basenpaaren. Es gilt: Johann-Wolfgang-Goethe Universität Frankfurt am Main

  41. Komplexität - Energiefunktion • Folgerungen: • Die Energie hängt ab von der Basenpaarung selbst und von den beiden Nachbarbasen bzw. dessen Paarungen. • Dieses Modell erlaubt alle Arten von Pseudoknots. (Es gibt keinerlei Restriktionen im bezug auf die Sekondärstruktur). Johann-Wolfgang-Goethe Universität Frankfurt am Main

  42. 1. Einleitung 2. Algorithmen 3. Komplexität 3.1. Energiefunktion 3.2. Idee 3.3. Alphabet 3.4. RNA-Konstuktion 3.5. Beweis 4. Zusammenfassung Johann-Wolfgang-Goethe Universität Frankfurt am Main

  43. Komplexität – Idee NP-Vollständig • Klasse P: • Efizient entscheidbare Sprachen. (Entscheidbar in Polynomialzeit) • Klasse NP: • Sprachen die in polynomieller Laufzeit von einer Nichtdeterministischen Turingmaschine entschieden werden können. • Sprachen die in polynomieller Laufzeit verifiziert werden können Johann-Wolfgang-Goethe Universität Frankfurt am Main

  44. Komplexität – Idee • Klasse NP-hart • Eine Sprache L ist NP-hart wenn alle Sprachen in NP auf sie Reduziert werden können. • Reduktion muss in polynomieller Laufzeit möglich sein. • Gilt P=NP ? Johann-Wolfgang-Goethe Universität Frankfurt am Main

  45. Komplexität – Idee Annahme 1 Entscheidung ob eine optimale Sekundärstruktur in dem NNPM eine geringere Energie als E hat, ist NP-Vollständig. Beweis: NP: Trivial – Verifizierer kann in p-Zeit Energie berechnen. NP-hart : Folgt. Johann-Wolfgang-Goethe Universität Frankfurt am Main

  46. Komplexität – Idee Wie wird NP-hart Komplexität bewiesen? Reduktion auf 3SAT 3SAT: • Literal: Variable x oder x negiert. • Klausel: Disjunktion von Literalen. • Variante: Jedes Literal darf maximal 2x auftauchen. Johann-Wolfgang-Goethe Universität Frankfurt am Main

  47. Komplexität – Idee • Für den Beweis sind nur Watson-Crick Basenpaarungen erlaubt.(Technische Einschränkung um die Komplexität des Beweises zu reduzieren.) • Es wird ein Unendliches Alphabet aus Basen konstruiert. Dieses Konstrukt wird dann als Symbol betrachtet. Johann-Wolfgang-Goethe Universität Frankfurt am Main

  48. 1. Einleitung 2. Algorithmen 3. Komplexität 3.1. Energiefunktion 3.2. Idee 3.3. Alphabet 3.4. RNA-Konstruktion 3.5. Beweis 4. Zusammenfassung Johann-Wolfgang-Goethe Universität Frankfurt am Main

  49. Komplexität – Alphabet Konstruktion eines unendlichen Alphabets mit Basen: • Ein Symbol entspricht der d stelligen binären Darstellung von k • wobei gilt: 0<=k<=2d-1 über das Alphabet {A,U} ist. • Der String b{A,U}(k,d) der Länge d wird als binär Zahl interpretiert. A = 0 und U = 1. Das gleiche für C,G Johann-Wolfgang-Goethe Universität Frankfurt am Main

  50. Komplexität – Alphabet • Das k'te eindeutige {A,U} Muster das d Binärstellen benutzt ist der String: • A...AUb{A,U}(k,d)AUAb{A,U}(k,d)UA...A. • wobei A...A=d+2 stellen. • Gleiche gilt für GC Muster. • BSP: • k=2; d=2 • A(UA)AU AUA UA(UA)A Johann-Wolfgang-Goethe Universität Frankfurt am Main

More Related