740 likes | 843 Views
Predicting RNA Secondary Structures. with Arbitrary Pseudoknots by Maximizing the Number of Stacking Pairs. Predicting RNA Secondary Structures. Einleitung Ein approximativer Algorithmus für planare Sekundärstrukturen Ein approximativer Algorithmus für allgemeine Sekundärstrukturen
E N D
Predicting RNA Secondary Structures with Arbitrary Pseudoknots by Maximizing the Number of Stacking Pairs Martina Fröhlich - Aktuelle Themen der Bioinformatik
Predicting RNA Secondary Structures • Einleitung • Ein approximativer Algorithmus für planare Sekundärstrukturen • Ein approximativer Algorithmus für allgemeine Sekundärstrukturen • NP-Vollständigkeit Martina Fröhlich - Aktuelle Themen der Bioinformatik
RNA • Lineare Polymere, aufgebaut aus Nukleotiden • Jeder Nukleotid aufgebaut aus Ribose, Phosphatrest und einer der 4 Basen Adenin, Guanin, Cytosin, Uracil • Im Gegensatz zur DNA einzelsträngig • bildet über Watson-Crick-Paarungen dreidimensionale Struktur aus Martina Fröhlich - Aktuelle Themen der Bioinformatik
Sekundärstruktur Sei S=s1s2…sn eine RNA-Sequenz aus n Basen. Eine Sekundärstruktur P ist eine Menge von Watson-Crick-Basenpaaren (si1,sj1),…,(sip,sjp), so dass gilt sir+2 ≤ sjr für alle r = 1,...,p, wobei keine Base gleichzeitig zu zwei Paaren gehören kann. Martina Fröhlich - Aktuelle Themen der Bioinformatik
Häufigste RNA-Strukturen • Hairpin Loop • Internal Loop • Multi-branched Loop • Bulge • Stacking Pair Martina Fröhlich - Aktuelle Themen der Bioinformatik
Stacking Pair • Von zwei aufeinanderfolgenden Basenpaaren (si,sj) und (si+1,sj-1) gebildete Schleife mit i+4≤j • Enthalten keine ungepaarten Basen, haben negative Freie Energie und stabilisieren die Sekundärstruktur • q aufeinanderfolgende Stacking Pairs (si,sj), (si+1,sj-1); (si+1,sj-1), (si+2,sj-2)… (si+q-1, sj-q+1),(si+q,sj-q ) von P werden durch (si,si+1,…, si+q; sj-q ,…, sj-1,sj) dargestellt. Martina Fröhlich - Aktuelle Themen der Bioinformatik
Die Herausforderung: Pseudoknots • Sei S eine RNA-Sequenz. Ein Pseudoknot wird gebildet aus zwei überlappenden Basenpaaren (si,sj) und (sk, sl) der Form i<k<j<l • Pseudoknots machen die Bestimmung einer optimalen Sekundärstruktur NP-hart Martina Fröhlich - Aktuelle Themen der Bioinformatik
Definitionen • Der ungerichtete GraphG(P) einer gegebener Sekundärstruktur P sei derart aufgebaut, dass die Basen von S die Knoten in G(P) darstellen. (si,sj) ist eine Kante in G(P), wenn j = i+1 oder (si,sj) ein Basenpaar in P ist. • Eine Sekundärstruktur P ist planar, wenn G(P) planar ist • Eine Sekundärstruktur P enthält einen „interleaving block“, wenn sie drei Stacking Pairs der Form (si,si+1;sj-1,sj), (si`, si+1;sj´-1,sj´), (si´´,si´´+1;sj´´-1,sj´´) enthält, bei denen i<i´<i´´<j<j´<j´´ ist. Martina Fröhlich - Aktuelle Themen der Bioinformatik
Nonplanare Sekundärstruktur • Wenn eine Sekundärstruktur P einen „Interleaving Block“ enthält, ist sie nonplanar Martina Fröhlich - Aktuelle Themen der Bioinformatik
Beweis • Angenommen P enthält einen „interleaving block“ der o.B.d.A. von folgenden Stacking pairs gebildet wird (s1,s2;s7,s8), (s3,s4;s9,s10) und (s5,s6;s11,s12) • Der Subgraph dieser Stacking Pairs kann nicht planar abgebildet werden • G(P) ist nicht planar P ist nicht planar Martina Fröhlich - Aktuelle Themen der Bioinformatik
Predicting RNA Secondary Structures • Einleitung • Ein approximativer Algorithmus für planare Sekundärstrukturen • Ein approximativer Algorithmus für allgemeine Sekundärstrukturen • NP-Vollständigkeit Martina Fröhlich - Aktuelle Themen der Bioinformatik
Definitionen • Die Stacking Pairs einer Sekundärstruktur P können in ein Rasterfeld eingebettet werden • Die Basen der dazugehörigen RNA-Sequenz werden nacheinander durch Gitterpunkte auf einer horizontalen Linie L des Feldes dargestellt • Ein Stacking Pair (si,si+1;sj-1,sj) wird in der Art dargestellt, dass die Punkte si bzw. si+1 mit sj bzw. sj-1 derart verbunden sind, dass sich beide Linien entweder unter oder oberhalb von L befinden Martina Fröhlich - Aktuelle Themen der Bioinformatik
Stacking Pair - Einbettung Martina Fröhlich - Aktuelle Themen der Bioinformatik
Lemma • Die Einbettung E von Stacking Pairs einer planaren Sekundärstruktur P ist planar • P planar => E planar wird bewiesen durch ⌐ E planar => ⌐ P planar Martina Fröhlich - Aktuelle Themen der Bioinformatik
Beweis • P hat keine planare Stacking-Pair-Einbettung => P enthält einen „interleaving block“ • P enthält einen „interleaving block“ => P ist nonplanar Martina Fröhlich - Aktuelle Themen der Bioinformatik
Algorithmus MaxSP • V(i,j) (j≥ i) sei die maximale Anzahl an Stacking Pairs, die von si...sj ohne Pseudoknots gebildet werden kann, wenn si und sj ein Watson-Crick-Paar bilden • W(i,j) (j≥i) sei die maximale Anzahl an Stacking Pairs, die von si...sj ohne Pseudoknots gebildet werden kann. • =>W(1,n) ist die maximale Anzahl an Stacking Pairs die von S ohne Pseudoknots gebildet werden kann. Martina Fröhlich - Aktuelle Themen der Bioinformatik
Algorithmus MaxSP • Basis For j=i,i+1,i+2 oder i+3 (j ≤ n) V(i,j)=0 si,sj sind Basenpaare W(i,j)=0. • Weiterführung For j>i+3 Martina Fröhlich - Aktuelle Themen der Bioinformatik
MaxSP ist 1/2-approximativ • Gegebene RNA-Sequenz S • N* die maximale Anzahl an Stacking Pairs in einer planaren Sekundärstruktur, die von S geformt werden kann • W die maximale Anzahl an Stacking Pairs in einer planaren Sekundärstruktur ohne Pseudoknots, die von S geformt werden kann Martina Fröhlich - Aktuelle Themen der Bioinformatik
Beweis • P* sei die planare Sekundärstruktur von S mit N* Stacking Pairs • P* ist planar => jede Stacking Pair-Einbettung von P* ist planar • Sei E eineStacking Pair-Einbettung von P*, in der sich keine Linien überkreuzen • Seien n1 und n2 die Anzahl der Stacking Pairs ober- bzw. unterhalb von L • O.B.d.A n1≥ n2 • Sekundärstruktur P sei P*, jedoch ohne die Stacking Pairs unterhalb von L • Da n1≥n2, n1≥ N*/2, W ≥ n1 => W ≥ N*/2 Martina Fröhlich - Aktuelle Themen der Bioinformatik
Komplexität und Speicherplatz • Algorithmus MaxSP berechnet die maximale Anzahl an Stacking Pairs einer Sekundärstruktur S ohne Pseudoknots in Zeit O(n3) und mit Speicherplatz O(n²). Martina Fröhlich - Aktuelle Themen der Bioinformatik
Beweis • Es werden jeweils O(n²) Einträge V(i,j) und W(i,j) gefüllt. • Das Füllen der W`s benötigt konstante Zeit, das der V`s höchstens O(n). • => O(n²) Einträge in O(n3) Zeit Martina Fröhlich - Aktuelle Themen der Bioinformatik
Predicting RNA Secondary Structures • Einleitung • Ein approximativer Algorithmus für planare Sekundärstrukturen • Ein approximativer Algorithmus für allgemeine Sekundärstrukturen • NP-Vollständigkeit Martina Fröhlich - Aktuelle Themen der Bioinformatik
Algorithmus GreedySP() • Sei S=s1s2...sn die Eingabesequenz und E die Menge der Basenpaare, die der Algorithmus ausgibt. Zu Beginn sind alle sj unmarkiert und E= Ø • GreedySP(S,i) //i ≥ 3 1. Finde die am weitesten links liegenden aufeinanderfolgenden i Stacking Pairs SP, die von unmarkierten Basen gebildet werden. Nimm SP zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen. 2.For k=i-1 downto 2, Finde die am weitesten links liegenden aufeinanderfolgenden i Stacking Pairs SP, die von unmarkierten Basen gebildet werden. Nimm SP zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen.. 3.Finde das am weitesten links liegende Stacking Pair SP, das von unmarkierten Basen gebildet wird. Nimm es zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen. Martina Fröhlich - Aktuelle Themen der Bioinformatik
Beweis zur Approximation • Zu beweisen: GreedySP findet 1/3 der maximal möglichen Stacking Pairs Martina Fröhlich - Aktuelle Themen der Bioinformatik
Definitionen • Die von GreedySP ermittelten SP`s werden nacheinender mit SP1, SP2,...,SPh bezeichnet • Für jedes SPj = (sp,...sp+t;sq-t,...sq) werden die beiden Intervalle Ij und Jj für die Indices [p...p+1] und [q-t...q] definiert • Sei F die Menge der Stacking Pairs einer optimalen Sekundärstruktur S mit der maximalen Anzahl an Stacking Pairs. Für jedes berechnete SPj sei Xß = {(sk,sk+1;sw-1,sw) F|mindestens einer der Indices k, k+1, w-1, w liegt in ß} für ß = Ij oder Jj. Martina Fröhlich - Aktuelle Themen der Bioinformatik
Definitionen • Für jedes j sei und • Es sei |SPj| die Anzahl der von SPj repräsentierten Stacking Pairs. • Es seien |Ij| und |Jj| die Anzahlen der Indices im Intervall Ij und Jj Martina Fröhlich - Aktuelle Themen der Bioinformatik
2 Teilschritte • Sei N die von GreedySP(S,i) berechnete und N* die maximal mögliche Anzahl an Stacking Pairs in S. • Folgend 2 Schritte müssen bewiesen werden: • Wenn |SPj| ≥ 1/r * |(X´Ij X´Jj)| für alle j => N ≥ 1/r * N* • Für jedes von GreedySP(S,i) berechnete SPj gilt |SPj| ≥ 1/3 * |(X´Ij X´Jj)| Martina Fröhlich - Aktuelle Themen der Bioinformatik
1.Schritt • Lemma 1≤j≤h{ XIj XJj} = F • Beweis durch Widerspruch Stacking Pair(sk,sk+1;sw-1,sw) in F, aber in keinem der XIj, XJj => keiner der Indices in einem XIj, XJj =>Widerspruch zu Schritt 3 des Algo`s Martina Fröhlich - Aktuelle Themen der Bioinformatik
1.Schritt • Aus der Definition der X´Ij und X´Jj folgt {XIkXJk} = {X´IkX´Jk} • Da N = Σj |SPj| folgt • Wenn |SPj| ≥ 1/r * |(X´Ij X´Jj)| für alle j • N≥ 1/r * | {XIkXJk}| • Und somit N≥ 1/r * N* Martina Fröhlich - Aktuelle Themen der Bioinformatik
2.Schritt • Zu beweisen war: • Für jedes von GreedySP(S,i) berechnete SPj gilt |SPj| ≥ 1/3 * |(X´Ij X´Jj)| • Fallunterscheidung für die 3 Schritte des Algorithmus Martina Fröhlich - Aktuelle Themen der Bioinformatik
Fall 1 • SPj generiert von GreedySP(S,i) in Schritt 1 • Per Definition |X´Ij|, |X´Jj| ≤ i+2 • Behauptung: |X´Ij| ≤ i+1 • Beweis durch Widerspruch: -für eine Zahl t hat F i+2 aufeinanderfolgende Stacking Pairs (sp-1,...,sp+i+1;st-i-1,...,st+1) -alle Basen vor der Wahl von SPj unmarkiert -in SPj wären nicht die i linkesten Stacking Pairs Widerspruch • Somit: |SPj|/|X´IjX´Jj| ≥i/((i+1)+(i+2)) ≥ 1/3 (wenn i≥ 3) Martina Fröhlich - Aktuelle Themen der Bioinformatik
Fall 2 • SPj generiert von GreedySP(S,i) in Schritt 2. • |SPj| =k ≥2; SPj = (sp,...,sp+k;sq-k,...,sq) • Per Definition |X´Ij|, |X´Jj| ≤ i+2 • Behauptung: |X´Ij|, |X´Jj|, ≤ k+1 • Beweis: Wie in Fall 1 Widerspruch bei sp-1,...,sp+k+1;st-k-1,...,st+1 Kann für X´Ij undX´Jj bewiesen werden.. Somit: • |SPj|/|X´IjX´Jj| ≥k/((k+1)+(k+1)) ≥ 1/3 (wenn k≥ 2) Martina Fröhlich - Aktuelle Themen der Bioinformatik
Fall 3 • SPj generiert von GreedySP(S,i) in Schritt 3. • Sei SPj = (sp,sp+1;sq-1,sq) • Wie in Fall 2 kann bewiesen werden, dass |X´Ij|, |X´Jj| ≤ k+1 • Behauptung|X´Ij| ≤1 • Beweis: Einziger möglicher Fall mit |X´Ij| =2, wenn (sp-1,sp;sr-1,sr) und (sp,sp+1;st-1,st) beide zu X´Ij gehören würden. SPj nicht linkestes Stacking Pair Widerspruch • Somit: |SPj|/|X´IjX´Jj| ≥ 1/(1+2) ≥ 1/3 Martina Fröhlich - Aktuelle Themen der Bioinformatik
Zeit und Komplexität • Bei gegebener RNA Sequenz S von Länge n und einer Konstante k benötigt GreedySP(S,k) Zeit und Speicherplatz O(n). Martina Fröhlich - Aktuelle Themen der Bioinformatik
Zeit und Komplexität • Für jedes j mit 1 ≤j ≤k gibt nur 4j verschiedeneMuster aus {A,G,C,U} • Darstellbar durch k verkettete Listen mit je 4j Indices • O(n) Einträge pro Liste => O(kn)Einträge in allen Listen • k-maliges Scannen der Sequenz, jeder Eintrag der Liste wird höchstens einmal besucht => O(kn) Zeit Martina Fröhlich - Aktuelle Themen der Bioinformatik
Fazit • Algorithmus GreedySP ist 1/3-approximativ • Berücksichtigt Pseudoknots • Zeit O(n) • Platz O(n) Martina Fröhlich - Aktuelle Themen der Bioinformatik
Alternativen • Nussinov et al (1978) – Freie Energie-Funktion, die minimiert wird, wenn die Sekundärstruktur die maximale Anzahl an komplementären Basenpaaren enthält. Ohne Pseudoknots. (Zeit O(n3)) • Mfold : • Berechnung über stabile Strukturen(z. B. Helices) • (Zeit O(n3)) • ohne Pseudoknots Martina Fröhlich - Aktuelle Themen der Bioinformatik
Alternativen • Rivas, Eddy (1998) Algorithmus mit dynamischer Programmierung, handelt bestimmte Pseudoknots in O(n6)Zeit und O(n4) Speicherplatz • Stochastische kontextfreie Grammatiken • Genetische Algorithmen. Fitnessfunktion: Selektion nach Länge der Helix oder nach freier Energie. Martina Fröhlich - Aktuelle Themen der Bioinformatik
Predicting RNA Secondary Structures • Einleitung • Ein approximativer Algorithmus für planare Sekundärstrukturen • Ein approximativer Algorithmus für allgemeine Sekundärstrukturen • NP-Vollständigkeit Martina Fröhlich - Aktuelle Themen der Bioinformatik
NP-Vollständigkeit • Das Ermitteln einer planaren RNA-Sekundärstruktur mit der maximalen Anzahl an Stacking Pairs ist NP-Vollständig. • Beweis durch Reduktion des Tripartite Matching Problems auf unser Problem • Gegeben: 3 Knotenmengen mit Kardinalität n Kantenmenge E als Teilmenge von X×Y×Z von Grösse m • Konstruktion einer RNA-Sequenz SE und eines Integers h in polynomieller Zeit. • E enthält perfektes Matching sp(SE) ≥ h • E enthält kein perfektes Matching sp(SE) < h Martina Fröhlich - Aktuelle Themen der Bioinformatik
Konstruktion der RNA-Sequenz SE • X ={x1,...,xn}, Y={y1,...,yn}, Z={z1,...,zn} • E=e1,...,em; ej = xpj, yqj, zrj • RNA-Sequenz aufgebaut aus A, U, G, C • Sei d = max {6n, 4(m+1)}+1 • Für k<d sei δ(k) = UdAkGUdAd-k δ(k) =Ud-kAdGUkAd π(k)=C2d+2kAGC4d-2k π (k)=G4d-2kAG2d+2k Martina Fröhlich - Aktuelle Themen der Bioinformatik
Kodierung der Knoten • Für 1≤i≤n‹xi›= δ(i) ‹yi›= δ(n+i) ‹zi›= δ(2n+i) • Wobei ‹xi› ist die Kodierung für Knoten xi • ‹xi› = δ(i) ‹yi› = δ(n+i) ‹zi› = δ(2n+i) • Knotenmenge X =‹x1›G‹x2›G...G‹xn› • X = ‹xn›G‹xn-1›G...G‹x1› • X-xi = ‹x1›G...G‹xi-1›G‹xi+1›G...G‹xn› • X-xi=‹xn›G...G‹xi+1›G‹xi-1›G...G‹x1› Martina Fröhlich - Aktuelle Themen der Bioinformatik
Kodierung der Kanten • Für jede Kante ej (1≤j≤m) sei • Vj= π(j) Wj= π(m+1+j) • Vj= π(j) Wj= π(m+1+j) • ej=(xpj,yqj,zrj) = Sj = AG Vj AG Wj AG X G Y G Z G (Z-zrj) G (Y-yqj) G (X-xpj) Vj A Wj • Zusätzliche Sequenz Sm+1 = AG Vm+1 AG Wm+1 AG Z G Y G X Vm+1 A Wm+1 • SE = Sm+1 Sm ... S1 • h = mσ + n(6d-4) + 12d-5 mit σ =3n(3d-2) + 6d - 1 Martina Fröhlich - Aktuelle Themen der Bioinformatik
Komplexität • SE besteht aus O((n+m)3) Basen und kann in Zeit O(SE) konstruiert werden • Zu beweisen: Genau dann, wenn E ein perfektes Matching enthält, ist sp(SE) ≥ h Martina Fröhlich - Aktuelle Themen der Bioinformatik
Definitionen • Jedes Sj wird als Region bezeichnet • Die Substrings U+A+ der δ(i), C+ der π und G+ der π werden als Fragmente bezeichnet Martina Fröhlich - Aktuelle Themen der Bioinformatik
Korrektheit des “Wenn”-Falles • Wenn E ein perfektes Matching enthält, dann ist sp(SE) ≥ h Martina Fröhlich - Aktuelle Themen der Bioinformatik
Bildung von Stacking Pairs • δ(i) oder δ(i) d-1 • δ(i) mit δ(i) 3d-2 • π(i)mit π(i)6d-2 • Für jedes i ≠ j, π(i)mit π(i)6d-3 Martina Fröhlich - Aktuelle Themen der Bioinformatik
Definitionen • Sei M ={ej1,ej2,...,ejn} ein perfektes Matching • Definiert jn+1=m+1 Martina Fröhlich - Aktuelle Themen der Bioinformatik
Vorgehen • Durchlaufe Region für Region • 3 Fälle zu Unterscheiden: 1. Fall: Sj, so dass ej M 2. Fall: Sj, so dass ej M 3. Fall: Sm+1 Martina Fröhlich - Aktuelle Themen der Bioinformatik
Fall1 • ej = (xpj, yqj, zrj) • 6d-2 Stacking Pairs zwischen Vj und Vj und Wj und Wj • 3d-2 Stacking Pairs zwischen ‹xi› und ‹xi› für i ≠ pj, ‹yi› und ‹yi› für i ≠ qj, ‹zi› und ‹zi› für i ≠ rj, • ‹xpj›, ‹yqj›, ‹zrj› jeweils d-1 Stacking Pairs Martina Fröhlich - Aktuelle Themen der Bioinformatik