890 likes | 1.05k Views
R N A. Falten & Finden. Übersicht:. RNA falten Sekundärstrukturen und Funktion Algorithmus zur RNA-Faltung von Ding und Lawrence Grundidee Vorgehen Schritt 1 Vorgehen Schritt 2 Beispiele Leptomonas collosoma Bakteriophage Auswertung Probability Profiling Accessibility Plots
E N D
R N A Falten & Finden
Übersicht: • RNA falten • Sekundärstrukturen und Funktion • Algorithmus zur RNA-Faltung von Ding und Lawrence • Grundidee • Vorgehen Schritt 1 • Vorgehen Schritt 2 • Beispiele • Leptomonas collosoma • Bakteriophage • Auswertung • Probability Profiling • Accessibility Plots • Samplegröße • Sfold • RNA finden Volker Hähnke: RNA - Falten & Finden
Übersicht: • RNA falten • Sekundärstrukturen und Funktion • Algorithmus zur RNA-Faltung von Ding und Lawrence • Grundidee • Vorgehen Schritt 1 • Vorgehen Schritt 2 • Beispiele • Leptomonas collosoma • Bakteriophage • Auswertung • Probability Profiling • Accessibility Plots • Samplegröße • Sfold • RNA finden Volker Hähnke: RNA - Falten & Finden
Sekundärstrukturen und deren Funktion • Ständig wiederkehrende Motive in RNA-Struktur erkennbar • RNA besteht hauptsächlich aus Kombinationen dieser Motive • Achtung: keine Pseudoknoten berücksichtigt Volker Hähnke: RNA - Falten & Finden
Sekundärstrukturen und deren Funktion • RNA-Sekundärstrukturen wichtig für: • Katalyse (Ribozyme) • RNA-Splicing • Regulation der Translation • Interaktionen zwischen Nucleinsäuren • Sekundärstrukturen bestimmen auch die Tertiärstruktur korrekte Sekundärstruktur wichtig für korrekte Tertiärstruktur korrekte Sekundärstruktur wichtig für korrekte Funktion • Strukturbestimmung experimentell schwierig • Besonders für langkettige Nucleinsäuren rechnergestützte Strukturvorhersage extrem wichtig Volker Hähnke: RNA - Falten & Finden
Übersicht: • RNA falten • Sekundärstrukturen und Funktion • Algorithmus zur RNA-Faltung von Ding und Lawrence • Grundidee • Vorgehen Schritt 1 • Vorgehen Schritt 2 • Beispiele • Leptomonas collosoma • Bakteriophage • Auswertung • Probability Profiling • Accessibility Plots • Samplegröße • Sfold • RNA finden Volker Hähnke: RNA - Falten & Finden
Algorithmus - Grundidee • Annahme: Faltung nur in bestimmte Sekundärstrukturelemente • Ansatz verfolgt Minimierung der freien Energie • Energie (U): • Nimmt ab, wenn z.B. Bindungen ausgebildet werden • Entropie (S): • Maß für die „Unordnung“ eines Systems • Nimmt nach 2. Hauptsatz der Thermodynamik zu • Freie Energie (Helmholtz Energie, F): F = U – T*S • Setzt Entropie und Energie in Beziehung Volker Hähnke: RNA - Falten & Finden
Algorithmus - Grundidee • Algorithmus arbeitet in 2 Schritten: • Schritt 1: • Untersucht bildbare Sekundärstrukturen der Sequenz (und ihre freie Energie) • Errechnet „Zustandssummen“ für Teilsequenzen • Schritt 2: • Errechnet mit Zustandssummen Gibbs-Boltzmann-Verteilung (Ws) der Strukturen • Wählt zufällige Kombination von Sekundärstrukturen aus 1) 2) ********************************* --______------_----_--_-_---- „Teilergebnisse“ Sammlung von Basenpaaren Sekundärstruktur Volker Hähnke: RNA - Falten & Finden
Algorithmus - Grundidee - Probleme • freien Energie für Sekundärstrukturen nur approximiert durch Änderungen andere Faltungen wahrscheinlicher • Tertiärstruktur (und Effekte) unberücksichtigt • Struktur mit minimaler freier Energie (MFE) muss nicht die reale sein Realität suboptimal Aber: Algorithmus sucht nicht unbedingt die wahrscheinlichsten Teilstrukturen aus Volker Hähnke: RNA - Falten & Finden
Übersicht: • RNA falten • Sekundärstrukturen und Funktion • Algorithmus zur RNA-Faltung von Ding und Lawrence • Grundidee • Vorgehen Schritt 1 • Vorgehen Schritt 2 • Beispiele • Leptomonas collosoma • Bakteriophage • Auswertung • Probability Profiling • Accessibility Plots • Samplegröße • Sfold • RNA finden Volker Hähnke: RNA - Falten & Finden
Algorithmus – Vorgehen (I) • Berechnen der „Boltzmann-Statistik“ („Gibbs-Boltzmann-Verteilung“) einer Sekundärstruktur I für eine gegebene Sequenz S nach • E(S, I): freie Energie der Sekundärstruktur für diese Sequenz • R: Gaskonstante • U: Zustandssumme aller zulässigen Sekundärstrukturen für S • Bedeutung: Wahrscheinlichkeit einer bestimmten Sekundärstruktur für eine gegebene Sequenz unter Berücksichtigung aller möglichen Sekundärstrukturen Volker Hähnke: RNA - Falten & Finden
Algorithmus – Vorgehen (I) – Defs. Rij 3‘ 5‘ ….. ….. 1… i ….. j… n • n: Anzahl an Ribonukleotiden • Rij: Teilsequenz von Nukleotid i bis Nukleotid j 1 ≤ i,j ≤ n • rk: Nukleotid an Position k, rk{A, C, G, U} i ≤ k ≤ j • Iij: Sekundärstruktur für Rij, ri und rj paaren eventuell • IPij: Sekundärstruktur für Rij, ri und rj paaren miteinander Volker Hähnke: RNA - Falten & Finden
Algorithmus – Vorgehen (I) Benötigt in: Erinnerung: Teilsequenz • Zustandssummen für Rij: mit Sekundärstruktur Iij: mit Sekundärstruktur IPij: (i und j gepaart) • E(Rij, x): freie Energie der Sekundärstruktur x für Rij • R: Gaskonstante • T: 310,15 K • Rekursive Berechnung durch Algo vom McCaskill Sek.-Strt. Sek.-Strt. Volker Hähnke: RNA - Falten & Finden
Algorithmus – Vorgehen (I) • Berechnung der u(i, j) bzw. up(i, j)….. • Mit u(1, n) kann Boltzmann-Verteilung (Ws) einer I1n für R1n berechnet werden Sek.-Strt. = S (Gesamtsequenz) Genutzt in Schritt 2 Volker Hähnke: RNA - Falten & Finden
Übersicht: • RNA falten • Sekundärstrukturen und Funktion • Algorithmus zur RNA-Faltung von Ding und Lawrence • Grundidee • Vorgehen Schritt 1 • Vorgehen Schritt 2 • Beispiele • Leptomonas collosoma • Bakteriophage • Auswertung • Probability Profiling • Accessibility Plots • Samplegröße • Sfold • RNA finden Volker Hähnke: RNA - Falten & Finden
Algorithmus – Vorgehen (II) Rij 3‘ • Rij kann 5 verschiedene Zustände annehmen: 5‘ ….. ….. 1… i ….. j… n Volker Hähnke: RNA - Falten & Finden
Algorithmus – Vorgehen (II) – nötige Variablen(1) • Ws, eine dieser 5 Möglichkeiten zu wählen (unbekannt, ob ri und rj paaren): Strafe für Paarung AC bzw. GU freie Energie für dangling 5‘ freie Energie für dangling 3‘ Array mit zuvor berechneten Variablen Zuerst h variieren, dann zu den Positionen von h l verändern Volker Hähnke: RNA - Falten & Finden
Algorithmus – Vorgehen (II) – nötige Variablen(2) • Bekannt, dass ri und rj paaren Ws für die 5 möglichen Strukturen: freie Energie eines Hairpin geschlossen von ri und rj freie Energie des Stacking-Bp ri und rj freie Energie eines Bulge bzw. Interior Loop Möglichkeiten, zwischen h und l einen Bulge bzw. Interior Loop zu sampeln Volker Hähnke: RNA - Falten & Finden
Algorithmus – Vorgehen (II) • Sampeln: • berechne die Struktur-Ws für Rij (mit den u(i,j) aus Schritt 1) • wähle über eine Zufallsvariable gemäß den berechneten Wahrscheinlichkeiten eine Möglichkeit • Benutzt zwei Stacks • A: verwaltet Tupel (i, j, I) (noch zu faltendes Teilstück) • Sequenz von Nukleotid i bis j • I = 1: Nukeotid i und j bilden eine Bindung aus; I = 0: unbekannt, ob i und j paaren • B: • Wird durch Algorithmus gefüllt • sammelt Basenpaare und ungepaarte Basen enthält nötige Informationen für Sekundärstruktur • Startzustand: • A enthält (1, n, 0) 0 1 Volker Hähnke: RNA - Falten & Finden
Algorithmus – Vorgehen (II) Erinnerung: A: ungefaltete Bereiche B: Bindungsbeziehungen I = 0 1) Start mit R1n (also (1, n, 0) auf Stack A), Paarung nicht bekannt bilde die P0, Pij, {Phi}, {Pil}, {Ps1h} für i = 1, j = n; wähle eine Möglichkeit Mögliche Ergebnisse: Keine Paarung, füge ungepaarte Basen von 1 bis n in Stack B ein (1, n, 1) in Stack A einfügen (h, n, 1) in Stack A einfügen ungepaarte Basen 1 bis (h-1) in Stack B einfügen (1, l, 1) & (l+1, n, 0) in Stack A einfügen (h, l, 1) & (l+1, n, 0) in Stack A einfügen Ungepaarte Basen von 1 bis (h-1) in Stack B einfügen Volker Hähnke: RNA - Falten & Finden
Algorithmus – Vorgehen (II) Erinnerung: A: ungefaltete Bereiche B: Bindungsbeziehungen 2) Nimm nächstes Tupel (i, j, I) für Rij von Stack A a) I = 0: verfahre wie im letzten Schritt: berechne die P-- b) I = 1: i und j paaren, betrachte die QijH, QijS, QijBI, QijM Volker Hähnke: RNA - Falten & Finden
Algorithmus – Vorgehen (II) 1) Sampel das erste innere Basenpaar (bilde die P--, wähle Möglichkeit, verfahre entsprechend) ….. ….. 2) Sampel das nächste Basenpaar ….. ….. 3) Wiederhole 2, bis alle abgearbeitet Nimm neues Tupel von Stack A Volker Hähnke: RNA - Falten & Finden
Algorithmus – Vorgehen(II) Stack A Stack B Für jedes Basenpaar innerhalb des MB-Loop • Sampling im Überblick: Schritt 1 nimm (i, j, I) von A Stack A leer? I = 0 Sampel Basenpaar Möglichkeiten der Paarbildung bestimmt I = 1 Sampel Loop Struktur bestimmt, zu der Basenpaar zugehörig ist Volker Hähnke: RNA - Falten & Finden
Algorithmus – Vorgehen(II) • Samling-Schritt arbeitet, bis Stack A leer ist • Stack B enthält Angaben über Paarungen der n Basen in R1n 1 Sekundärstruktur Wahrscheinlichkeit eines Struktur nimmt exponentiell mit wachsender freier Energie ab (bedingt durch Boltzmann-Verteilung): • Mit hoher Wahrscheinlichkeit: optimale MFE • Mit relativ hoher Wahrscheinlichkeit: gute (suboptimale) MFE • Mit geringer Wahrscheinlichkeit: schlechte MFE • Sinnvoll: Sampling-Schritt mehrfach ablaufen lassen statistisch repräsentatives Ergebnis „Konsensus“-Struktur Volker Hähnke: RNA - Falten & Finden
Übersicht: • RNA falten • Sekundärstrukturen und Funktion • Algorithmus zur RNA-Faltung von Ding und Lawrence • Grundidee • Vorgehen Schritt 1 • Vorgehen Schritt 2 • Beispiele • Leptomonas collosoma • Bakteriophage • Auswertung • Probability Profiling • Accessibility Plots • Samplegröße • Sfold • RNA finden Volker Hähnke: RNA - Falten & Finden
Beispiele – Leptomonas collosoma • Faltung der „spliced leader“ RNA (SL RNA) von L. collosoma • 56 nt lang • 2 Sekundärstrukturen identifiziert (Funktion unbekannt) • Vorgehen: • Mit Schritt 1 die Ws der Substrukturen berechnet • 1000 mal gesampelt • Entstandene Sekundärstrukturen verglichen • Ergebnis: • 2 generelle Klassen • Klasse 1 mit 3 Unterklassen (A, B, C) • Klasse 2 mit 2 Unterklassen (A, B) Volker Hähnke: RNA - Falten & Finden
Beispiele – Leptomonas collosoma • Klasse 1: Alle Unterklassen mit 2 identischen Helices • 1: • 2: Weitere 2 Helices gemeinsam Unterschied in Hairpin Quadratgröße = Häufigkeit der Basenpaare in Samples mfold(3.1)-Struktur MFE-Struktur Volker Hähnke: RNA - Falten & Finden
Beispiele – Leptomonas collosoma • Klasse 2: Unterklassen erneut mit 2 identischen Helices • Unterklasse B mit zusätzlichem Stem am 5‘-Ende Quadratgröße = Häufigkeit der Basenpaare in Samples Volker Hähnke: RNA - Falten & Finden
Beispiele – Leptomonas collosoma • Repräsentanten der Klasse 1: identisch mfold(3.1)-Struktur MFE-Struktur Bis auf Fehlen der kurzen Helix mit mfold-Struktur identisch Experimentell bestimmte Faltungsart 1 Volker Hähnke: RNA - Falten & Finden
Beispiele – Leptomonas collosoma • Repräsentanten der Klasse 2: identisch Experimentell bestimmte Faltungsart 2 Volker Hähnke: RNA - Falten & Finden
Beispiele – Leptomonas collosoma • Gesamtübersicht Häufigkeiten der Klassen und deren Repräsentanten • Tatsächliche Faltungsart 1 • mfold-Struktur (MFE) • Leicht veränderte mfold-Struktur (suboptimale MFE) • Tatsächliche Faltungsart 2 Tatsächliche Strukturen mit geringer Ws Volker Hähnke: RNA - Falten & Finden
Übersicht: • RNA falten • Sekundärstrukturen und Funktion • Algorithmus zur RNA-Faltung von Ding und Lawrence • Grundidee • Vorgehen Schritt 1 • Vorgehen Schritt 2 • Beispiele • Leptomonas collosoma • Bakteriophage • Auswertung • Probability Profiling • Accessibility Plots • Samplegröße • Sfold • RNA finden Volker Hähnke: RNA - Falten & Finden
Beispiele – Bakteriophage • Zwischen-Ergebnis aus Tests mit L. collosoma:Algo erzeugt viele alternative Strukturen • Weitere Untersuchung mit Vorhersage von mRNA-Strukturen • Charakteristische Bereiche der cIII-mRNA des Bakteriophagen : • das Startcodon (AUG) (0 bis 3) • die Shine-Dalgarno-Sequenz (-13 bis -7) nötig zur Translationsinitiierung • Kommt in 2 Konformationen vor • Vorgehen: • Sampling-Schritt 100 mal wiederholt • Die 100 erzeugten Strukturen von Hand betrachtet und charakterisiert Volker Hähnke: RNA - Falten & Finden
Beispiele – Bakteriophage • Struktur A: Shine-Dalgarno-Sequenz und Startcodon in Sekundärstrukturen keine Translation • Struktur B: Shine-Dalgarno-Sequenz und Startcodon zugänglich Translation möglich leftmost stem middle stem rightmost stem Volker Hähnke: RNA - Falten & Finden
Beispiele – Bakteriophage • Ergebnis des Samplings: • 89/100 Strukturen leichte Variationen von Struktur A • leftmost-Stem in 67/89 exakt vorhergesagt • rightmost-Stem in 72/89 nahezu exakt vorhergesagt (gelegentlich 2 zusätzliche Paare) • 3/100 Strukturen Variationen von Struktur B zusätzliche Helix in SD-Sequenz enthalten • 8 Strukturen, die weder an A noch an B erinnern leftmost stem middle stem rightmost stem Volker Hähnke: RNA - Falten & Finden
Übersicht: • RNA falten • Sekundärstrukturen und Funktion • Algorithmus zur RNA-Faltung von Ding und Lawrence • Grundidee • Vorgehen Schritt 1 • Vorgehen Schritt 2 • Beispiele • Leptomonas collosoma • Bakteriophage • Auswertung • Probability Profiling • Accessibility Plots • Samplegröße • Sfold • RNA finden Volker Hähnke: RNA - Falten & Finden
Beispiele - Auswertung • Algorithmus erzeugt leicht suboptimale Faltungen, die nahe der MFE liegen • ABER: suboptimale Faltung ist nicht gleich tatsächlicher (suboptimaler) Faltung • Erklärung der Autoren: unbekannte Einflüsse der Tertiärstruktur für verantwortlich für Stabilität • Besser geeignet zur Faltung von mRNA als für funktionelle RNA (z.B. spliced leader) Volker Hähnke: RNA - Falten & Finden
Übersicht: • RNA falten • Sekundärstrukturen und Funktion • Algorithmus zur RNA-Faltung von Ding und Lawrence • Grundidee • Vorgehen Schritt 1 • Vorgehen Schritt 2 • Beispiele • Leptomonas collosoma • Bakteriophage • Auswertung • Probability Profiling • Accessibility Plots • Samplegröße • Sfold • RNA finden Volker Hähnke: RNA - Falten & Finden
Probability Profiling • Einzelsträngige (ungepaarte) RNA-Regionen interagieren potentiell mit • DNA • RNA • Proteinen (z.B. in Translation) • Vorhersage dieser „accessible sites“ mit dem Sampling-Teil des Algorithmus • Erstellen von „Probability Profiles“ (Diagramme) der Weite W (in Nukleotiden) • An Position i wird die Ws aufgetragen, dass die Nukleotide i bis i+(W-1) ungepaart sind(ergibt sich aus Multiplikation der Einzelwahrscheinlichkeiten (aus Statistik)) • Zum Vergleich: ss-count; Statistik, in wieviel Prozent aller erzeugten Faltungen Base i ungepaart war Volker Hähnke: RNA - Falten & Finden
Probability Profiling - Beispiel • mRNA Homo sapiens-Glutamyl-Hydrolase • Nukleotide 0 – 60 Volker Hähnke: RNA - Falten & Finden
Probability Profiling - Beispiel • mRNA Homo sapiens-Glutamyl-Hydrolase • Nukleotide 1261 – 1322 Volker Hähnke: RNA - Falten & Finden
Probability Profiling - Ergebnis • MFE-Struktur gibt für Vorhersage von „accessible sites“ keine Hinweise • Da nur 1 Struktur die MFE-Struktur ist • Binäre Entscheidung: in 1 Struktur ist Base in Basenpaar oder nicht • ss-count: betrachtet nur Statistik eines Nukleotids, keine Aussage über nachfolgende • Probability Profile: verlässlichste Aussage der 3 Möglichkeiten • da Ws der nachfolgenden Paarungen berücksichtigt Volker Hähnke: RNA - Falten & Finden
Probability Profiling für Loops • Bisher nur berücksichtig ob gepaart oder ungepaart • Sampling-Schritt gibt aber mit zurück, in welchem Loop-Typ sie enthalten sind Probability Profiling für bestimmte Loops möglich Volker Hähnke: RNA - Falten & Finden
Probability Profiling für Loops • Loop-Probability-Profiles für Escherichia coli Alanin-tRNA Hairpin External Bulge Internal Multi Multi „dangling“-3‘-Ende aus Nukleotiden Kleeblattstruktur der tRNA Enthält keine Bulges oder Internal Loops dort keine Peaks 16% der gesampelten Strukturen haben einen einzelsträngigen Bereich, der zwei gefaltete Domänen vebrindet Volker Hähnke: RNA - Falten & Finden
Probability Profiling für Loops • Weitere Bedeutung des Hairpin-Loop-Profiles: • Höchster Peak konserviertester Loop • HPlot-Ws der Basen des Anticodon-Loops: • G34: 0,968 • G35: 0,961 • C36: 0,962 Selbst wenn sich die restliches Strukturnicht zum Kleeblatt faltet, bleibt diese„accessible site“ erhalten • Untersuchung weiterer tRNAs interessant, aber schwierig, da modifizierte Basen vorhanden Volker Hähnke: RNA - Falten & Finden
Übersicht: • RNA falten • Sekundärstrukturen und Funktion • Algorithmus zur RNA-Faltung von Ding und Lawrence • Grundidee • Vorgehen Schritt 1 • Vorgehen Schritt 2 • Beispiele • Leptomonas collosoma • Bakteriophage • Auswertung • Probability Profiling • Accessibility Plots • Samplegröße • Sfold • RNA finden Volker Hähnke: RNA - Falten & Finden
Probability Profiling für Accessibility Plots • Probability Profiles geben Differenzierung zwischen gebunden / einzelsträngig • Nucleinsäuren müssen einzelsträngig sein, um zu interagieren • Probability Profiles überlagern, um Interaktion vorherzusagen • Target: Homo sapiens-Glutamyl-Hydrolase mRNA • Antisense: insgesamt 1233 nt • Gute Zugänglichkeit zwischen 730 und 750 (target) • Zugängliche Bereiche müssen nicht an gleichen Stellen liegen • Sollten aber gleich lang sein Volker Hähnke: RNA - Falten & Finden
Übersicht: • RNA falten • Sekundärstrukturen und Funktion • Algorithmus zur RNA-Faltung von Ding und Lawrence • Grundidee • Vorgehen Schritt 1 • Vorgehen Schritt 2 • Beispiele • Leptomonas collosoma • Bakteriophage • Auswertung • Probability Profiling • Accessibility Plots • Samplegröße • Sfold • RNA finden Volker Hähnke: RNA - Falten & Finden
Sampelgröße • Standardgröße: 1000 – repräsentativ! • Beispiel: Homo sapiens -Glutamyl-Hydrolase mRNA • 1187 nt ~10303 Sekundärstrukturen (Vergleich: ~1080 Atome im Universum) • 2 Sammlungen von 1000 Samples erstellt • Für jede Sammlung ein Histogramm erstelltHistogramme sind identisch • Probability Profiles erstellt:nahezu deckungsgleich • Aber: keine einzige Struktur kommt doppelt vor Volker Hähnke: RNA - Falten & Finden
Samplegröße - Histogramme Volker Hähnke: RNA - Falten & Finden