1 / 74

Predicting RNA Secondary Structures

Predicting RNA Secondary Structures. with Arbitrary Pseudoknots by Maximizing the Number of Stacking Pairs. Predicting RNA Secondary Structures. Einleitung Ein approximativer Algorithmus für planare Sekundärstrukturen Ein approximativer Algorithmus für allgemeine Sekundärstrukturen

kioshi
Download Presentation

Predicting RNA Secondary Structures

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Predicting RNA Secondary Structures with Arbitrary Pseudoknots by Maximizing the Number of Stacking Pairs Martina Fröhlich - Aktuelle Themen der Bioinformatik

  2. Predicting RNA Secondary Structures • Einleitung • Ein approximativer Algorithmus für planare Sekundärstrukturen • Ein approximativer Algorithmus für allgemeine Sekundärstrukturen • NP-Vollständigkeit Martina Fröhlich - Aktuelle Themen der Bioinformatik

  3. RNA • Lineare Polymere, aufgebaut aus Nukleotiden • Jeder Nukleotid aufgebaut aus Ribose, Phosphatrest und einer der 4 Basen Adenin, Guanin, Cytosin, Uracil • Im Gegensatz zur DNA einzelsträngig • bildet über Watson-Crick-Paarungen dreidimensionale Struktur aus Martina Fröhlich - Aktuelle Themen der Bioinformatik

  4. Sekundärstruktur Sei S=s1s2…sn eine RNA-Sequenz aus n Basen. Eine Sekundärstruktur P ist eine Menge von Watson-Crick-Basenpaaren (si1,sj1),…,(sip,sjp), so dass gilt sir+2 ≤ sjr für alle r = 1,...,p, wobei keine Base gleichzeitig zu zwei Paaren gehören kann. Martina Fröhlich - Aktuelle Themen der Bioinformatik

  5. Häufigste RNA-Strukturen • Hairpin Loop • Internal Loop • Multi-branched Loop • Bulge • Stacking Pair Martina Fröhlich - Aktuelle Themen der Bioinformatik

  6. Stacking Pair • Von zwei aufeinanderfolgenden Basenpaaren (si,sj) und (si+1,sj-1) gebildete Schleife mit i+4≤j • Enthalten keine ungepaarten Basen, haben negative Freie Energie und stabilisieren die Sekundärstruktur • q aufeinanderfolgende Stacking Pairs (si,sj), (si+1,sj-1); (si+1,sj-1), (si+2,sj-2)… (si+q-1, sj-q+1),(si+q,sj-q ) von P werden durch (si,si+1,…, si+q; sj-q ,…, sj-1,sj) dargestellt. Martina Fröhlich - Aktuelle Themen der Bioinformatik

  7. Die Herausforderung: Pseudoknots • Sei S eine RNA-Sequenz. Ein Pseudoknot wird gebildet aus zwei überlappenden Basenpaaren (si,sj) und (sk, sl) der Form i<k<j<l • Pseudoknots machen die Bestimmung einer optimalen Sekundärstruktur NP-hart Martina Fröhlich - Aktuelle Themen der Bioinformatik

  8. Definitionen • Der ungerichtete GraphG(P) einer gegebener Sekundärstruktur P sei derart aufgebaut, dass die Basen von S die Knoten in G(P) darstellen. (si,sj) ist eine Kante in G(P), wenn j = i+1 oder (si,sj) ein Basenpaar in P ist. • Eine Sekundärstruktur P ist planar, wenn G(P) planar ist • Eine Sekundärstruktur P enthält einen „interleaving block“, wenn sie drei Stacking Pairs der Form (si,si+1;sj-1,sj), (si`, si+1;sj´-1,sj´), (si´´,si´´+1;sj´´-1,sj´´) enthält, bei denen i<i´<i´´<j<j´<j´´ ist. Martina Fröhlich - Aktuelle Themen der Bioinformatik

  9. Nonplanare Sekundärstruktur • Wenn eine Sekundärstruktur P einen „Interleaving Block“ enthält, ist sie nonplanar Martina Fröhlich - Aktuelle Themen der Bioinformatik

  10. Beweis • Angenommen P enthält einen „interleaving block“ der o.B.d.A. von folgenden Stacking pairs gebildet wird (s1,s2;s7,s8), (s3,s4;s9,s10) und (s5,s6;s11,s12) • Der Subgraph dieser Stacking Pairs kann nicht planar abgebildet werden • G(P) ist nicht planar P ist nicht planar Martina Fröhlich - Aktuelle Themen der Bioinformatik

  11. Predicting RNA Secondary Structures • Einleitung • Ein approximativer Algorithmus für planare Sekundärstrukturen • Ein approximativer Algorithmus für allgemeine Sekundärstrukturen • NP-Vollständigkeit Martina Fröhlich - Aktuelle Themen der Bioinformatik

  12. Definitionen • Die Stacking Pairs einer Sekundärstruktur P können in ein Rasterfeld eingebettet werden • Die Basen der dazugehörigen RNA-Sequenz werden nacheinander durch Gitterpunkte auf einer horizontalen Linie L des Feldes dargestellt • Ein Stacking Pair (si,si+1;sj-1,sj) wird in der Art dargestellt, dass die Punkte si bzw. si+1 mit sj bzw. sj-1 derart verbunden sind, dass sich beide Linien entweder unter oder oberhalb von L befinden Martina Fröhlich - Aktuelle Themen der Bioinformatik

  13. Stacking Pair - Einbettung Martina Fröhlich - Aktuelle Themen der Bioinformatik

  14. Lemma • Die Einbettung E von Stacking Pairs einer planaren Sekundärstruktur P ist planar • P planar => E planar wird bewiesen durch ⌐ E planar => ⌐ P planar Martina Fröhlich - Aktuelle Themen der Bioinformatik

  15. Beweis • P hat keine planare Stacking-Pair-Einbettung => P enthält einen „interleaving block“ • P enthält einen „interleaving block“ => P ist nonplanar Martina Fröhlich - Aktuelle Themen der Bioinformatik

  16. Algorithmus MaxSP • V(i,j) (j≥ i) sei die maximale Anzahl an Stacking Pairs, die von si...sj ohne Pseudoknots gebildet werden kann, wenn si und sj ein Watson-Crick-Paar bilden • W(i,j) (j≥i) sei die maximale Anzahl an Stacking Pairs, die von si...sj ohne Pseudoknots gebildet werden kann. • =>W(1,n) ist die maximale Anzahl an Stacking Pairs die von S ohne Pseudoknots gebildet werden kann. Martina Fröhlich - Aktuelle Themen der Bioinformatik

  17. Algorithmus MaxSP • Basis For j=i,i+1,i+2 oder i+3 (j ≤ n) V(i,j)=0 si,sj sind Basenpaare W(i,j)=0. • Weiterführung For j>i+3 Martina Fröhlich - Aktuelle Themen der Bioinformatik

  18. MaxSP ist 1/2-approximativ • Gegebene RNA-Sequenz S • N* die maximale Anzahl an Stacking Pairs in einer planaren Sekundärstruktur, die von S geformt werden kann • W die maximale Anzahl an Stacking Pairs in einer planaren Sekundärstruktur ohne Pseudoknots, die von S geformt werden kann Martina Fröhlich - Aktuelle Themen der Bioinformatik

  19. Beweis • P* sei die planare Sekundärstruktur von S mit N* Stacking Pairs • P* ist planar => jede Stacking Pair-Einbettung von P* ist planar • Sei E eineStacking Pair-Einbettung von P*, in der sich keine Linien überkreuzen • Seien n1 und n2 die Anzahl der Stacking Pairs ober- bzw. unterhalb von L • O.B.d.A n1≥ n2 • Sekundärstruktur P sei P*, jedoch ohne die Stacking Pairs unterhalb von L • Da n1≥n2, n1≥ N*/2, W ≥ n1 => W ≥ N*/2 Martina Fröhlich - Aktuelle Themen der Bioinformatik

  20. Komplexität und Speicherplatz • Algorithmus MaxSP berechnet die maximale Anzahl an Stacking Pairs einer Sekundärstruktur S ohne Pseudoknots in Zeit O(n3) und mit Speicherplatz O(n²). Martina Fröhlich - Aktuelle Themen der Bioinformatik

  21. Beweis • Es werden jeweils O(n²) Einträge V(i,j) und W(i,j) gefüllt. • Das Füllen der W`s benötigt konstante Zeit, das der V`s höchstens O(n). • => O(n²) Einträge in O(n3) Zeit Martina Fröhlich - Aktuelle Themen der Bioinformatik

  22. Predicting RNA Secondary Structures • Einleitung • Ein approximativer Algorithmus für planare Sekundärstrukturen • Ein approximativer Algorithmus für allgemeine Sekundärstrukturen • NP-Vollständigkeit Martina Fröhlich - Aktuelle Themen der Bioinformatik

  23. Algorithmus GreedySP() • Sei S=s1s2...sn die Eingabesequenz und E die Menge der Basenpaare, die der Algorithmus ausgibt. Zu Beginn sind alle sj unmarkiert und E= Ø • GreedySP(S,i) //i ≥ 3 1. Finde die am weitesten links liegenden aufeinanderfolgenden i Stacking Pairs SP, die von unmarkierten Basen gebildet werden. Nimm SP zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen. 2.For k=i-1 downto 2, Finde die am weitesten links liegenden aufeinanderfolgenden i Stacking Pairs SP, die von unmarkierten Basen gebildet werden. Nimm SP zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen.. 3.Finde das am weitesten links liegende Stacking Pair SP, das von unmarkierten Basen gebildet wird. Nimm es zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen. Martina Fröhlich - Aktuelle Themen der Bioinformatik

  24. Beweis zur Approximation • Zu beweisen: GreedySP findet 1/3 der maximal möglichen Stacking Pairs Martina Fröhlich - Aktuelle Themen der Bioinformatik

  25. Definitionen • Die von GreedySP ermittelten SP`s werden nacheinender mit SP1, SP2,...,SPh bezeichnet • Für jedes SPj = (sp,...sp+t;sq-t,...sq) werden die beiden Intervalle Ij und Jj für die Indices [p...p+1] und [q-t...q] definiert • Sei F die Menge der Stacking Pairs einer optimalen Sekundärstruktur S mit der maximalen Anzahl an Stacking Pairs. Für jedes berechnete SPj sei Xß = {(sk,sk+1;sw-1,sw) F|mindestens einer der Indices k, k+1, w-1, w liegt in ß} für ß = Ij oder Jj. Martina Fröhlich - Aktuelle Themen der Bioinformatik

  26. Definitionen • Für jedes j sei und • Es sei |SPj| die Anzahl der von SPj repräsentierten Stacking Pairs. • Es seien |Ij| und |Jj| die Anzahlen der Indices im Intervall Ij und Jj Martina Fröhlich - Aktuelle Themen der Bioinformatik

  27. 2 Teilschritte • Sei N die von GreedySP(S,i) berechnete und N* die maximal mögliche Anzahl an Stacking Pairs in S. • Folgend 2 Schritte müssen bewiesen werden: • Wenn |SPj| ≥ 1/r * |(X´Ij X´Jj)| für alle j => N ≥ 1/r * N* • Für jedes von GreedySP(S,i) berechnete SPj gilt |SPj| ≥ 1/3 * |(X´Ij X´Jj)| Martina Fröhlich - Aktuelle Themen der Bioinformatik

  28. 1.Schritt • Lemma 1≤j≤h{ XIj XJj} = F • Beweis durch Widerspruch Stacking Pair(sk,sk+1;sw-1,sw) in F, aber in keinem der XIj, XJj => keiner der Indices in einem XIj, XJj =>Widerspruch zu Schritt 3 des Algo`s Martina Fröhlich - Aktuelle Themen der Bioinformatik

  29. 1.Schritt • Aus der Definition der X´Ij und X´Jj folgt {XIkXJk} = {X´IkX´Jk} • Da N = Σj |SPj| folgt • Wenn |SPj| ≥ 1/r * |(X´Ij X´Jj)| für alle j • N≥ 1/r * | {XIkXJk}| • Und somit N≥ 1/r * N* Martina Fröhlich - Aktuelle Themen der Bioinformatik

  30. 2.Schritt • Zu beweisen war: • Für jedes von GreedySP(S,i) berechnete SPj gilt |SPj| ≥ 1/3 * |(X´Ij X´Jj)| • Fallunterscheidung für die 3 Schritte des Algorithmus Martina Fröhlich - Aktuelle Themen der Bioinformatik

  31. Fall 1 • SPj generiert von GreedySP(S,i) in Schritt 1 • Per Definition |X´Ij|, |X´Jj| ≤ i+2 • Behauptung: |X´Ij| ≤ i+1 • Beweis durch Widerspruch: -für eine Zahl t hat F i+2 aufeinanderfolgende Stacking Pairs (sp-1,...,sp+i+1;st-i-1,...,st+1) -alle Basen vor der Wahl von SPj unmarkiert -in SPj wären nicht die i linkesten Stacking Pairs Widerspruch • Somit: |SPj|/|X´IjX´Jj| ≥i/((i+1)+(i+2)) ≥ 1/3 (wenn i≥ 3) Martina Fröhlich - Aktuelle Themen der Bioinformatik

  32. Fall 2 • SPj generiert von GreedySP(S,i) in Schritt 2. • |SPj| =k ≥2; SPj = (sp,...,sp+k;sq-k,...,sq) • Per Definition |X´Ij|, |X´Jj| ≤ i+2 • Behauptung: |X´Ij|, |X´Jj|, ≤ k+1 • Beweis: Wie in Fall 1 Widerspruch bei sp-1,...,sp+k+1;st-k-1,...,st+1 Kann für X´Ij undX´Jj bewiesen werden.. Somit: • |SPj|/|X´IjX´Jj| ≥k/((k+1)+(k+1)) ≥ 1/3 (wenn k≥ 2) Martina Fröhlich - Aktuelle Themen der Bioinformatik

  33. Fall 3 • SPj generiert von GreedySP(S,i) in Schritt 3. • Sei SPj = (sp,sp+1;sq-1,sq) • Wie in Fall 2 kann bewiesen werden, dass |X´Ij|, |X´Jj| ≤ k+1 • Behauptung|X´Ij| ≤1 • Beweis: Einziger möglicher Fall mit |X´Ij| =2, wenn (sp-1,sp;sr-1,sr) und (sp,sp+1;st-1,st) beide zu X´Ij gehören würden. SPj nicht linkestes Stacking Pair  Widerspruch • Somit: |SPj|/|X´IjX´Jj| ≥ 1/(1+2) ≥ 1/3 Martina Fröhlich - Aktuelle Themen der Bioinformatik

  34. Zeit und Komplexität • Bei gegebener RNA Sequenz S von Länge n und einer Konstante k benötigt GreedySP(S,k) Zeit und Speicherplatz O(n). Martina Fröhlich - Aktuelle Themen der Bioinformatik

  35. Zeit und Komplexität • Für jedes j mit 1 ≤j ≤k gibt nur 4j verschiedeneMuster aus {A,G,C,U} • Darstellbar durch k verkettete Listen mit je 4j Indices • O(n) Einträge pro Liste => O(kn)Einträge in allen Listen • k-maliges Scannen der Sequenz, jeder Eintrag der Liste wird höchstens einmal besucht => O(kn) Zeit Martina Fröhlich - Aktuelle Themen der Bioinformatik

  36. Fazit • Algorithmus GreedySP ist 1/3-approximativ • Berücksichtigt Pseudoknots • Zeit O(n) • Platz O(n) Martina Fröhlich - Aktuelle Themen der Bioinformatik

  37. Alternativen • Nussinov et al (1978) – Freie Energie-Funktion, die minimiert wird, wenn die Sekundärstruktur die maximale Anzahl an komplementären Basenpaaren enthält. Ohne Pseudoknots. (Zeit O(n3)) • Mfold : • Berechnung über stabile Strukturen(z. B. Helices) • (Zeit O(n3)) • ohne Pseudoknots Martina Fröhlich - Aktuelle Themen der Bioinformatik

  38. Alternativen • Rivas, Eddy (1998) Algorithmus mit dynamischer Programmierung, handelt bestimmte Pseudoknots in O(n6)Zeit und O(n4) Speicherplatz • Stochastische kontextfreie Grammatiken • Genetische Algorithmen. Fitnessfunktion: Selektion nach Länge der Helix oder nach freier Energie. Martina Fröhlich - Aktuelle Themen der Bioinformatik

  39. Predicting RNA Secondary Structures • Einleitung • Ein approximativer Algorithmus für planare Sekundärstrukturen • Ein approximativer Algorithmus für allgemeine Sekundärstrukturen • NP-Vollständigkeit Martina Fröhlich - Aktuelle Themen der Bioinformatik

  40. NP-Vollständigkeit • Das Ermitteln einer planaren RNA-Sekundärstruktur mit der maximalen Anzahl an Stacking Pairs ist NP-Vollständig. • Beweis durch Reduktion des Tripartite Matching Problems auf unser Problem • Gegeben: 3 Knotenmengen mit Kardinalität n Kantenmenge E als Teilmenge von X×Y×Z von Grösse m • Konstruktion einer RNA-Sequenz SE und eines Integers h in polynomieller Zeit. • E enthält perfektes Matching  sp(SE) ≥ h • E enthält kein perfektes Matching  sp(SE) < h Martina Fröhlich - Aktuelle Themen der Bioinformatik

  41. Konstruktion der RNA-Sequenz SE • X ={x1,...,xn}, Y={y1,...,yn}, Z={z1,...,zn} • E=e1,...,em; ej = xpj, yqj, zrj • RNA-Sequenz aufgebaut aus A, U, G, C • Sei d = max {6n, 4(m+1)}+1 • Für k<d sei δ(k) = UdAkGUdAd-k δ(k) =Ud-kAdGUkAd π(k)=C2d+2kAGC4d-2k π (k)=G4d-2kAG2d+2k Martina Fröhlich - Aktuelle Themen der Bioinformatik

  42. Kodierung der Knoten • Für 1≤i≤n‹xi›= δ(i) ‹yi›= δ(n+i) ‹zi›= δ(2n+i) • Wobei ‹xi› ist die Kodierung für Knoten xi • ‹xi› = δ(i) ‹yi› = δ(n+i) ‹zi› = δ(2n+i) • Knotenmenge X =‹x1›G‹x2›G...G‹xn› • X = ‹xn›G‹xn-1›G...G‹x1› • X-xi = ‹x1›G...G‹xi-1›G‹xi+1›G...G‹xn› • X-xi=‹xn›G...G‹xi+1›G‹xi-1›G...G‹x1› Martina Fröhlich - Aktuelle Themen der Bioinformatik

  43. Kodierung der Kanten • Für jede Kante ej (1≤j≤m) sei • Vj= π(j) Wj= π(m+1+j) • Vj= π(j) Wj= π(m+1+j) • ej=(xpj,yqj,zrj) = Sj = AG Vj AG Wj AG X G Y G Z G (Z-zrj) G (Y-yqj) G (X-xpj) Vj A Wj • Zusätzliche Sequenz Sm+1 = AG Vm+1 AG Wm+1 AG Z G Y G X Vm+1 A Wm+1 • SE = Sm+1 Sm ... S1 • h = mσ + n(6d-4) + 12d-5 mit σ =3n(3d-2) + 6d - 1 Martina Fröhlich - Aktuelle Themen der Bioinformatik

  44. Komplexität • SE besteht aus O((n+m)3) Basen und kann in Zeit O(SE) konstruiert werden • Zu beweisen: Genau dann, wenn E ein perfektes Matching enthält, ist sp(SE) ≥ h Martina Fröhlich - Aktuelle Themen der Bioinformatik

  45. Definitionen • Jedes Sj wird als Region bezeichnet • Die Substrings U+A+ der δ(i), C+ der π und G+ der π werden als Fragmente bezeichnet Martina Fröhlich - Aktuelle Themen der Bioinformatik

  46. Korrektheit des “Wenn”-Falles • Wenn E ein perfektes Matching enthält, dann ist sp(SE) ≥ h Martina Fröhlich - Aktuelle Themen der Bioinformatik

  47. Bildung von Stacking Pairs • δ(i) oder δ(i) d-1 • δ(i) mit δ(i) 3d-2 • π(i)mit π(i)6d-2 • Für jedes i ≠ j, π(i)mit π(i)6d-3 Martina Fröhlich - Aktuelle Themen der Bioinformatik

  48. Definitionen • Sei M ={ej1,ej2,...,ejn} ein perfektes Matching • Definiert jn+1=m+1 Martina Fröhlich - Aktuelle Themen der Bioinformatik

  49. Vorgehen • Durchlaufe Region für Region • 3 Fälle zu Unterscheiden: 1. Fall: Sj, so dass ej M 2. Fall: Sj, so dass ej M 3. Fall: Sm+1 Martina Fröhlich - Aktuelle Themen der Bioinformatik

  50. Fall1 • ej = (xpj, yqj, zrj) • 6d-2 Stacking Pairs zwischen Vj und Vj und Wj und Wj • 3d-2 Stacking Pairs zwischen ‹xi› und ‹xi› für i ≠ pj, ‹yi› und ‹yi› für i ≠ qj, ‹zi› und ‹zi› für i ≠ rj, • ‹xpj›, ‹yqj›, ‹zrj› jeweils d-1 Stacking Pairs Martina Fröhlich - Aktuelle Themen der Bioinformatik

More Related