890 likes | 1.02k Views
Aktuelle Themen der Bioinformatik. Vorhersage von RNA-Sekundärstrukturen. drei verschiedene Methoden zur Vorhersage von Pseudoknoten der RNA Natalie Jäger. Vorhersage von Pseudoknoten. Grundlagen – Aufbau der RNA 3 Methoden für RNA Secondary Structure Prediction:
E N D
Aktuelle Themen der Bioinformatik Vorhersage von RNA-Sekundärstrukturen drei verschiedene Methoden zur Vorhersage von Pseudoknoten der RNA Natalie Jäger Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Vorhersage von Pseudoknoten • Grundlagen – Aufbau der RNA 3 Methoden für RNA Secondary Structure Prediction: • Stochastisches Modellieren durch parallele Grammatiken • Graph-theoretischer Ansatz • „Iterated Loop Matching“ Algorithmus Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Vorhersage von Pseudoknoten • Stochastic modeling of RNA pseudoknotted structures: a grammatical approach; Cai, Russell, Wu; 2003 • A graph theoretical approach to predict common RNA secondary sructure motifs including pseudoknots in unaligned sequences; Yongmei, Stormo, Xing; 2004 • An iterated loop matching approach to the prediction of RNA secondary structures with pseudoknots; Ruan, Stormo, Zhang; 2004 Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Biologische Aspekte der RNA • -besteht Zuckerphosphat-Rückgrat, sowie einer Abfolge von 4 möglichen Basen (A, U, G, C) • Unterschied zur DNA: Zucker ist die Ribose, und eine der vier Basen, nämlich T (Thymin) ist ersetzt durch U (Uracil) • Jeweils drei Nukleotide bilden ein Codon, mit dessen Hilfe sich eine spezifische Aminosäure, eindeutig bestimmen lässt Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Funktion der RNA • im Gegensatz zur doppelsträngigen DNA - einsträngige Polynukleotide • dieser Unterschied erhöht die katalytische Funktion der RNA und erlaubt ihr chemische Reaktionen, die der DNA nicht möglich sind • mRNA, Boten-RNA: kopiert die in einem Gen auf der DNA liegende Information und trägt sie zum Ribosom, wo mit Hilfe dieser Information die Proteinbiosynthese stattfinden kann Johann-Wolfgang-Goethe Universität, Frankfurt am Main
tRNA, Transfer-RNA: kodiert keine genetische Information, sondern dient als Hilfsmolekül bei der Proteinbiosynthese, indem sie eine einzelne Aminosäure aus dem Cytoplasma aufnimmt und zum Ribosom transportiert • Paarungen konjugierender Basen über Wasserstoff-brücken kleeblattartige Struktur Johann-Wolfgang-Goethe Universität, Frankfurt am Main
rRNA, ribosomale RNA: trägt ähnlich wie die tRNA keine genetische Information, sondern ist am Aufbau des Ribosoms beteiligt und erfüllt dort auch Stoffwechselfunktion • snRNA, small nuclear-RNA: im Zellkern von Eukaryoten, verantwortlich für die enzymatische Spaltung der RNA(Splicing) Johann-Wolfgang-Goethe Universität, Frankfurt am Main
RNA-Sekundärstrukturen • werden durch Interaktionen zwischen komplementären Nucleotid-Paaren festgelegt (über H-Brücken), die nah oder weit voneinander im Molekül entfernt sind • genau diese Interaktionen falten die RNA in solche Formen wie Stem Loops oder die komplizierteren Pseudoknoten • Sekundärstruktur hängt mit der Funktion der RNA zusammen daher versucht man Sekundärstruktur der RNA vorherzusagen Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Stem Loops (Haarnadelstruktur) - Doppelhelixbereich, der durch Basenpaarung zwischen benachbarten, komplementären Sequenzen innerhalb eines RNA-Stranges entsteht Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Pseudoknoten Pseudoknoten wegen c und c`, die zusammen eine Base-Paired-Region sind, also eine Doppelhelix bilden Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Definition Pseudoknoten: • In der RNA-Sequenz s beinhaltet die Teilsequenz t eine potential region,wenn eine Base-Region zu einer Helix beiträgt in s, aber nicht zu einer Helix in t c und c´ sind potential regions • Die Teilsequenz t ist eine P-Structure, wenn sie eine potential region enthält. t ist nicht-triviale P-Structure, wenn die potential regionzwischen zwei base-paired regions liegt Johann-Wolfgang-Goethe Universität, Frankfurt am Main
3. s ist eine RNA-Sequenz. s ist eine pseudo-geknotete Struktur, wenn sie zwei nicht-überlappende P-Strukturen enthält, wobei eine davon nicht-trivial ist (hier: t1), und beide potential regions bilden eine Doppelhelix so können alle RNA-Pseudoknoten definiert werden Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Vorhersage von RNA-Sekundärstrukturen • Grammatiken nach Chomsky sind ideal um zum Modellieren von Interaktionen zwischen Nucleotiden ( Stems sind palindromartig) • Stem Loops kann man mit stochastischen kontextfreien Grammatiken (SCFG) modellieren • Pseudoknoten sind aber komplexer als Stem Loops und würden formal eine kontextsensitive Grammatik erfordern, was aber Komplexität stark erhöht Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Parallele Grammatiken • zum Vorhersagen von Pseudoknoten werden hier parallel communicating grammar systems (PCGS) benutzt • PCGS besteht aus einer Anzahl an Chomsky Grammatiken - den Components Gi • eine Component kann Sequenzen anfragen, die von anderen Grammatiken erzeugt wurden • mehrere Components können gleichzeitig anfragen Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Parallele Grammatiken • so kann eine kontextsensitive Struktur, wie ein Pseudoknoten, durch eine kontextfreie Grammatik synchronisiert mit einer Vielzahl an regulären Grammatiken generiert werden • Stochastische Version von PCGS wird dadurch so einfach wie bei SCFG • die (eine) CFG beinhaltet spezielle query symbols als Nichtterminale für potentielle base-pairing regions, welche die für Pseudoknoten typische Doppelhelix formen (einziger Unterschied zu SCFG) Johann-Wolfgang-Goethe Universität, Frankfurt am Main
PCGS • ein PCGS G besteht aus mehr als einer Chomsky Grammatik G0, G1,..., Gk– den Components • Grammatik G0 wird Master genannt • Grammatiken teilen sich Alphabet (Terminale; hier: a, c, g, u) und Variablen (Nonterminale) • es gibt zusätzlich spezielle Nonterminale: Query Symbols – diese sorgen für die Kommunikation zwischen den Grammatiken Johann-Wolfgang-Goethe Universität, Frankfurt am Main
PCGS • die Ableitung des Systems ist das Umschreiben jeder Grammatik (Components) • Synchronisierung zwischen dem Umschreiben der Components erhält man durch die Query Symbols Qi • die Sprache, die durch das PCGS schließlich erzeugt wird, ist eine Menge von Strings, welche die Master-Grammatik G0 erzeugt Johann-Wolfgang-Goethe Universität, Frankfurt am Main
PCGS Beispiel • zeigt die 3 regulären (Hilfs-)Grammatiken G1, G2 , G3 • Synchronisierung zwischen G1 und G2 erhält man durch die Produktion S1 Q2 , weil dadurch in G2 zuerst abgeleitet wird Johann-Wolfgang-Goethe Universität, Frankfurt am Main
PCGS Beispiel • Beispiel für das parallele Ableiten von den zwei base-paired Regionen acg und cgu Johann-Wolfgang-Goethe Universität, Frankfurt am Main
PCGS Beispiel • zeigt die kontextfreie Master-Grammatik G0 • G0 beschreibt zwei nicht-überlappende P-Structures; eine davon ist nicht-trivial Johann-Wolfgang-Goethe Universität, Frankfurt am Main
PCGS Beispiel -Ableitungsbaum des PCGS, so dass eine pseudo-geknotete Struktur entsteht Johann-Wolfgang-Goethe Universität, Frankfurt am Main
PCGS: Stochastische Version • Wahrscheinlichkeiten mit den Produktionsregeln jeder Component (Grammatik) der PCGS assoziieren • am einfachsten durch Definieren einer Wahrscheinlichkeits-Verteilung für jede Component als unabhängige SCFG • die Wahrscheinlichkeit für einen parallen Ableitungsschritt muss aber die bedingten Wahrscheinlichkeiten berücksichtigen, die durch die Kommunikation zwischen Grammatiken entstehen Johann-Wolfgang-Goethe Universität, Frankfurt am Main
PCGS: Stochastische Version • die Wahrscheinlichkeit für einen Pseudoknoten lässt sich durch die Master-CFG G0 berechnen, wenn die Wahrscheinlichkeiten für Crossing Helices (Q1, Q2), die durch Hilfsgrammatiken generiert werden, bekannt sind: • Sei S = {a, u, c, g}, G eine PCGS mit m Components. Dann ist LG die Menge aller pseudogeknoteten Strukturen die G generiert Es gilt: Johann-Wolfgang-Goethe Universität, Frankfurt am Main
PCGS: Stochastische Version • die Wahrscheinlichkeit für die Ableitung S0* s1r1s2r2s3 • weil die Generierung von r1 und r2 (potential regions) synchron ist Johann-Wolfgang-Goethe Universität, Frankfurt am Main
PCGS: Stochastische Version • der Produktterm ist die Wahrscheinlichkeit für das komplementäre Alignment zwischen r1 und r2 • die stochastische Version des PCGS ist somit nur die stochastische Version der kontextfreien Master-Grammatik G0 • einziger Unterschied zu sonstigen SCFG: die Query Symbols, die als Nonterminale dazu dienen Pseudoknoten (Crossing Helices) zu spezifizieren Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Automatisierter Algorithmus für Pseudoknoten-Vorhersage • Resultat aus PCGS: ein System, das automatisch einen „Pseudoknoten-Vorhersage-Algorithmus“ für jede pseudogeknotete Struktur generiert • zum Modellieren von Crossing Helices, repräsentiert durch die Query Symbols, benötigt man eine 5x5 probabilistische Matrix • diese Matrix beschreibt die Wahrscheinlichkeits-Verteilung (der 4 Basen + gap für bulges) in den Crossing Helices Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Automatisierter Algorithmus für Pseudoknoten-Vorhersage • basiert auf Dynamischem Programmieren, ähnlich dem CYK-Algorithmus • für die Eingabe-Sequenz x[1..n] (eine SCFG in CNF) berechnet der Algorithmus für jedes Nonterminal X die maximale Wahrscheinlichkeit für jede Teilsequenz x[i..j] • der Algorithmus unterscheidet 3 Kategorien von Teilsequenzen: stem-loops, Pseudoknoten und P-Structures Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Automatisierter Algorithmus für Pseudoknoten-Vorhersage 1.Berechnung für stem-loops folgt dem CYK-Algorithmus 2. Berechnung von Pseudoknoten erfolgt über eine Hilfsfunktion H, welche für jedes Paar an Teilsequenzen die maximale Wahrscheinlichkeit angibt, eine Crossing Helix zu bilden Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Exkurs: CYK-Algorithmus Der Cocke-Younger-Kasami-Algorithmus (CYK-Algorithmus) ist ein Algorithmus, der das Wortproblem für gegebene kontextfreie Sprachen effizient löst. Die Sprache muss dazu in Form einer Grammatik in CNF vorliegen. Laufzeit O(n³) • Anstatt sofort zu berechnen, ob sich das Wort w der Länge m aus dem Startsymbol ableiten lässt, wird zuerst ermittelt, aus welchen Variablen sich einstellige Teilworte von w ableiten lassen. Danach wird für alle zweistelligen Teilworte berechnet, aus welchen Variablen sie sich ableiten lassen. Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Automatisierter Algorithmus für Pseudoknoten-Vorhersage • für das Nonterminal X wird die maximale Wahrscheinlichkeit, aus X einen Pseudoknoten x[i..j] abzuleiten, so berechnet: - wobei Y und Z Teilsequenzen sind, die potentielle base-pairing regions x[h..l] und x[u..v] enthalten Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Automatisierter Algorithmus für Pseudoknoten-Vorhersage Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Automatisierter Algorithmus für Pseudoknoten-Vorhersage 3. die maximale Wahrscheinlichkeit, für das Nonterminal X eine P-Structure x[k..l] aus der Teilsequenz x[i..j] abzuleiten, ist so definiert: • bzw. rekursiv: Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Automatisierter Algorithmus für Pseudoknoten-Vorhersage Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Implementierung und Tests • Laufzeit im worst case: O(n6) für CPU-Zeit / O(n4) für Speicher (RAM) • die Eingabe besteht aus der SCFG G0(inklusive query symbols), die in CNF vorliegen muss, und einer 5x5 probabilistischen Matrix, welche die Wahrscheinlichkeiten für das Base-Pairing enthält • getestet wurden 36 tmRNA Sequenzen (alle Pseudoknoten vorab bekannt): in 34 Sequenzen wurde ein Pseudoknoten vorausgesagt, wenn auch nur in 7 Sequenzen absolut korrekt (7+18)/36=69% Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Zusammenfassung • stochastisches Modellieren von RNA-Pseudoknoten durch Parallel Communicating Grammar Systems (PCGS) • eine kontextfreie Grammatik synchronisiert mit einer Anzahl an regulären Grammatiken – kontextsensitive Regeln vermieden • dieses Modell erlaubt die automatische Generierung eines Pseudoknoten-Vorhersage-Algorithmus für jede spezifische pseudogeknotete Struktur Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Zusammenfassung • Algorithmus (ähnlich CYK): • Für jedes X der SCFG wird maximale Ws. für • stem loop • Pseudoknoten • P-Structure berechnet SCFG G0 in CNF und 5x5 Matrix via PCGS RNA-Primär- sequenz Ausgabe: RNA-Sekundärstruktur mit maximaler Wahrscheinlichkeit Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Graph-theoretischer Ansatz • um RNA-Sekundärstrukturen in einer Menge von funktionell oder evolutionär verwandten Sequenzen vorherzusagen • Methode basiert auf dem Vergleich von Stem-Loops zwischen Sequenzen • Algorithmus findet Menge von stabilen Stem-Loops, die in mehreren Sequenzen konserviert vorliegen – daraus lässt sich Konsensus-Sekundärstruktur formen Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Graph-theoretischer Ansatz Das generelle Schema dieser Methode: • Finden aller möglichen stabilen Stems in jeder Sequenz und diese vergleichen mit denen aller anderen Sequenzen • Finden aller potentiell konservierten Stems, die in Teilmengen der Sequenzen gemeinsam vorliegen • Zusammenfügen der besten Mengen von konservierten Stems um eine Konsensus-Sekundärstruktur zu konstruieren Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Graph-theoretischer Ansatz Johann-Wolfgang-Goethe Universität, Frankfurt am Main
a) Finden aller stabilen Stems • Definition stem: palindromische Helix in einer Sequenz, welche die Basenpaare AU oder GC (oder wobble:GU) umfasst; mit minimaler Länge von L Basenpaaren • um Suchraum zu reduzieren werden nur stabile stems betrachtet • Evaluieren der Stabilität eines stems durch seine Stacking-Energie (nach Turner) nur stems mit Stacking-Energie niedriger als cutoff E (Default:-5kcal) gelten als stabil • Auflisten aller mögliche stems durch einen branch-and-bound Algorithmus (Programm dotplot) Johann-Wolfgang-Goethe Universität, Frankfurt am Main
b) Vergleichen von Stems über mehrere Sequenzen • globales Alignieren von 2 Sequenzen nach Needleman-Wunsch-Algorithmus, um große Sequenzähnlichkeit auszunutzen • im Alignment sucht man nun highly conserved regions Region ist 10 nt oder länger, mit mindestens 80% Sequenzidentität • highly conserved regions dienen als Anker für stem-Vergleiche Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Vergleichen von Stems über mehrere Sequenzen • zwei stems von 2 Sequenzen können nur verglichen werden, wenn die dazu gehörenden 5‘ oder 3‘ half-stems in der gleichen Anker oder Nicht-Anker Region liegen Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Vergleichen von Stems über mehrere Sequenzen • zudem dürfen die 5‘ oder 3‘ half-stems in der Anker Region um maximal 10 nt versetzt sein (in Nicht-Anker Region keine Constraints) • wenn nach Alignieren die Ähnlichkeit zwischen 2 Sequenzen nicht groß ist (keine highly conserved regions ), gilt die ganze Sequenz als Nicht-Anker Region und somit wird jeder stem der beiden Sequenzen miteinander verglichen ( erhöht Laufzeit) Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Vergleichen von Stems über mehrere Sequenzen • die Funktion S(ix, jy) misst die Ähnlichkeit zwischen zwei stems i und j aus den Sequenzen x und y • Ähnlichkeit zwischen zwei Stems anhand von 5 Eigenschaften messbar: 1. Helix-Länge 2. Helix-Sequenz 3. Loop-Sequenz (abgeschlossen durch stem) 4. Stem-Stabilität 5. Relative Positionen des Starts und Ende des stems Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Vergleichen von Stems über mehrere Sequenzen • S(ix, jy) ist definiert als die gewichtete Summe dieser 5 Ähnlichkeits-Scores, geteilt durch die Summe des Stabilitäts-Scores der beiden stems (skaliert wurde mit stability adjusting factor f): Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Vergleichen von Stems über mehrere Sequenzen • wobei sl(ix, jy) der Ähnlichkeits-Score zwischen den stems ix, jy ist, bezogen auf eine (aus den 5 möglichen) spezielle Eigenschaft l • so berechnet man sl(ix, jy) (außer für Helix oder Loop Sequenz): sl(ix, jy) = min{sl(ix), sl(jy)}/max{sl(ix), sl(jy)} • wlist das Gewicht für jede Eigenschaft l und liegt zwischen 0 und 1 (alle 5 Gewichte aufsummiert ergibt 1) Johann-Wolfgang-Goethe Universität, Frankfurt am Main
Vergleichen von Stems über mehrere Sequenzen • Werte von r liegen zwischen 0 und 1 – je stabiler ein stem, desto niedriger der r-Wertrx(i)= (ei-e`)/(e``-e`) • der Wert von S(ix, jy) liegt zwischen 0 und 1 – je höher der Wert um so wahrscheinlicher, dass 2 stems Instanzen eines konservierten stems sind • nur die Paare an stems werden als potentiell eingestuft, für die gilt S(ix, jy) >= S (für einen Schwellwert S) Johann-Wolfgang-Goethe Universität, Frankfurt am Main
conserved stems • Setzen eines Signifikanz-Levels p (0< p <=1), welches der minimale prozentuale Anteil aller n Sequenzen ist, die eine gemeinsame Struktur besitzen • es gilt, die konservierten stems zu finden, die in mindestens k Sequenzen vorkommen (k = [p * n] ) • das wird erreicht durch n-partite ungerichtete gewichtete Graphen Johann-Wolfgang-Goethe Universität, Frankfurt am Main
n-partite Graphen • jeder Koten des Graphen repräsentiert einen stem • der Graph ist unterteilt in n Teile; jeder Teil umfasst die Anzahl an stems einer Sequenz • nur Knoten von verschieden Teilen können verbunden werden Johann-Wolfgang-Goethe Universität, Frankfurt am Main
c) n-partite Graphen • potentiell gleiche stems aus verschiedenen Sequenzen, die einen Ähnlichkeits-Score größer S aufweisen, werden verbunden und gewichtet • in der Graphen-Theorie repräsentiert eine Clique einen vollständigen Teilgraphen, in dem jeder Knoten mit allen anderen verbunden ist • eine Clique ist maximal, wenn sie nicht in einer größeren Clique enthalten ist ist Maximierungsproblem und ist NP-vollständig Johann-Wolfgang-Goethe Universität, Frankfurt am Main