140 likes | 230 Views
NP-completeness of the energy barrier problem without pseudoknots and temporary arcs Jan Manuch, Chris Thachuk, Ladislav Stacho, Anne Condon Nat Comput (2011) 10:391-405. Δαμιανός Μελίδης 3974 5 ο Έτος melidis@ceid.upatras.gr. Εισαγωγή.
E N D
NP-completeness of the energy barrier problem without pseudoknots and temporary arcsJan Manuch, Chris Thachuk, Ladislav Stacho, Anne CondonNat Comput (2011) 10:391-405 Δαμιανός Μελίδης39745ο Έτος melidis@ceid.upatras.gr
Εισαγωγή • Θα μετελήσουμε την υπολογιστική πολυπλοκότητα μιας «απλής» εκδοχής του προβλήματος energy barrier στις διαμορφώσεις των DNA και RNA μακρομορίων. • Δηλαδή υπάρχει αποδοτικός αλγόριθμος ο οποίος να βρίσκει ποιό ενεργειακό κατώφλι πρέπει να ξεπεραστεί απο το μακρομόριο, ώστε να προσαρμοστεί σε μια δοσμένη τελική (δευτεροταγή) δομή, δεδομένης μιας αρχικής; • Θα αποδείξουμε πως αυτό το πρόβλημα είναι NP-πλήρες.
Γιατί; (Κινητοποίηση) • Η δευτεροταγής δομή και το μονοπάτι αναδίπλωσης είναι σημαντικά για την κατανόηση της λειτουργίας του RNA στο κύτταρο. • Η γνώση ενεργειακών κατωφλίων σε ενδιάμεσες (αναδιπλωμένες) δομές απο την ανοιχτή αλυσίδα στην τελική διπλωμένη διαμόρφωση είναι χρήσιμη στην κατανόηση της απόδοσης των αναδιπλώσεων και της δομής. • Μέθοδοι προσομείωσης DNA και RNA μοναπατιών αναδίπλωσης χρησιμοποιούν πιθανοτικές μεθόδους υπολογισμού ενεργειακών κατωφλίων. • Ευρετικές μέθοδοι υπολογισμού ενεργειακών κατωφλίων χρησιμοποιούνται για την οπτικοποίηση energy landscapes και την ανακάλυψη ιδιοτήτων διαταραγμένων συστημάτων.
Ορισμοί (Μοντέλο Ακμών) • Δευτεροταγής Δομή T ενός RNA μακρομορίου μήκους n είναι ένα σύνολο απο ζεύγη βάσεων i.j, με 1≤i<j≤n, ώστε • κάθε δείκτης i ή j να βρίσκεται το πολύ σε ένα ζεύγος βάσεων • Τα ζεύγη σχηματίζουν ένα ζεύγος βάσεων Watson-Crick (C-G,A-U ή A-T) • Αντιστοιχίζουμε μια ακμή για κάθε ζεύγος βάσεων i.j. • Απλό μοντέλο ενέργειας για την δευτεροταγή δομή: κάθε ακμή συνεισφέρειενέργεια -1 • Συμβολίζουμε την ενέργεια της δευτεροταγούς δομής T, ως E(T)
Ορισμοί (Μονοπάτι Αναδίπλωσης) • Μονοπάτι αναδίπλωσης: μια ακολουθία απο δευτεροταγείς δομές (χωρίς διασταύρουμενες ακμές)του μακρομορίου, κάθε μια διαφέρει απο την προηγούμενη της λόγω προσθήκης ή διαγραφής μιας μόνο ακμής. • Direct μονοπάτι αναδίπλωσης απο την I στηνF: Μονοπάτι στο οποίο προστίθονται ακμές μόνο απο το |F-I|και αφαιρούνται μόνο απο το |I-F|. • Pseudoknot-free δομή: Δομή η οποία δεν περιέχει διασταύρουμενες ακμές. • Band Ακμών: Σύνολο ένθετων ακμών, στο οποίο κάθε μια τέμνει το ίδιο σύνολο ακμών -> Χρήση αθροιστικού βάρος για τέτοιου είδους ακμές Ii. • Transformation Sequence: Ακολουθία πράξεων ακμών οι οποίες ορίζουν μοναδικά ένα μονοπάτι αναδίπλωσης.
Ορισμοί (Μοντέλο Ενέργειας) • Το κατώφλι ενέργειας ενός direct pseudoknot-free μονοπατίου ( I = T0, T1, … , Tr = F) απο την αρχική δομή Iστην τελική δομή F είναι η μεγαλύτερη διαφορά ενέργειας μεταξύ οποιαδήποτε ενδιάμεσης δομής και της αρχικής I, δηλαδή max( E(Ti) – E(I) ), 1 ≤ i ≤ r. • Η διαφορά ενέργειας κάθε ενδιάμεσης διαμόρφωσης Ti ισούται με E(Ti) – E(I). • Διαμόρφωση: ένα σύνολο ακμών, με αθροιστικό βάρος. • Ενέργεια διαμόρφωσης I: E(I) = - .
Ορισμοί (DPKF-EB + 3-Partition) • DPKF-EB: Δεδομένων δύο pseudoknot-free διαμορφώσεων Ι= (αρχική) και F= (τελική) και ενός ακεραίου k, υπάρχει μια direct pseudoknot-free transformation sequence S, τέτοια ώστε το ενεργειακό της κατώφλι να είναι το πολύ k. • 3-PARTITION: Δοσμένων 3n ακεραίων α1, ..., α3n, τέτοιων ώστε α1+ ...+ α3n = nA και για κάθε iA/4 < αi < A/2. Υπάρχει διαίρεση των ακεραίων {1,...,3n}σε ξένες τριάδες G1, G2, …, Gn, έτσι ώστε c(Gi) = για κάθε i = 1, …, n. • Θεώρημα 1 (Garey and Johnson 1979): To 3-PARTITION πρόβλημα είναι NP-πλήρες ακόμα και αν το Α είναι πολυώνυμο του n. • Θα αποδείξουμε πως το DPKF-EB είναι NP-πλήρες, χρησιμοποιώντας αναγωγή στο 3-PARTITION.
NP-πληρότητα (NP διαγνώστης) • DPKF-EB ανήκει NP: • Έστω Μ αντιαιτιοκρατική μηχανή = ‘με εισόδους I, F δομές και κατώφλι κ • Διαλέγουμε μη-ντετερμινιστικά ένα μονοπάτι αναδίπλωσης απο την I στην F. • Αν το κατώφλι ενέργειας ≤ κ, Αποδεχόμαστε αλλιώς Απορρίπτουμε’ Η μηχανή εκτελείται σε γραμμικό χρόνο συναρτήσει των εισόδων
NP-πληρότητα (3-Partition => DPKF-EB 1/3) • Θεωρούμε ένα στιγμιότυπο του 3-Partition μεΑ/2 > α1 ≥ ... ≥ α3n > Α/4, ώστε = nA και A να είναι πολυώνυμο του n. • Για ένα στιγμιότυπο του DPKF-EB, ορίζω ως αρχική διαμόρφωση Iτο σύνολο των αθροιστικών ακμών {; j = 1, …, 3n, i = 1, …, n}{;j = 1, …, 3n, i = 1, …, n}{; j = 1, …, 3n, i = 1, …, n} και τελική διαμόρφωση F { ; j = 1, …, 3n, i = 1, …, n} { ; j = 1, …, 3n, i = 1, …, n}
NP-πληρότητα (3-Partition => DPKF-EB 2/3) Ιδέα: Πως μπορώ να οργανώσω τα αθροιστικά βάρη των ακμών της αρχικής και τελικής δομής και την ακολουθία αφαιρέσεων ακμών της I και προσθέσεων της F, ώστε να βρω ένα μονοπάτι αναδίπλωσης το οποίο να μην ξεπερνά το δοσμένο κατώφλι ενέργειας; • Ορισμός αθροιστικών βαρών: • = 4iaj, = k – (j-1)A – 4iaj, = k – jA, για κάθε i = 1, …, n και j = 1, …, 3n • = k – (7n - 4)A, = k – (6n + 8)nA – 4(n-1)iA, για κάθε i = 2, …, n • = k – (6n + 8)nA, για κάθε i = 1, …, n-1, = k • Και για το κατώφλι ισχύει k > 4( 5 + n + 1) A • Ορισμός ακολουθίας προσθέσεων/αφαιρέσεων: • Αν το 3-Partition έχει ως αποδεκτό στιγμιότυπο το G1, …, Gn όπου Gi ={ ji,1, ji,2, ji,3} και έστω f(j) = i αν j ανήκει στο Gi, για κάθε j = 1, …, 3n, τότε η επόμενη ακολουθία δεν ξεπερνά το k
NP-πληρότητα (3-Partition => DPKF-EB 3/3) • Το διάγραμμα διαφοράς ενέργειας για την προηγούμενη ακολουθία είναι: • Παράδειγμα: θέλουμε να χωρίσουμε το σύνολο {10,9,8,7,7,7} ώστε να λύνεται το 3-Partition πρόβλημα.
NP-πληρότητα (DPKF-EB => 3-Partition) • Έστω πως υπάρχει ακολουθία S προσθέσεων και αφαιρέσων η οποία έχει pseudoknot–free ακμές και δεν ξεπερνά το κατώφλι ενέργειας k. • Η υπακολουθία S+ προσθηκώνορίζει όλη την S. • Έστω το πρόθεμα της S+πριν την προσθήκη της Tl , δηλαδή +Αj1,i1, +Αj2,i2, ..., +ΑjM,iM • Χρησιμοποιούμε αυτό το πρόθεμα για να ορίσουμε μια λύση του προβλήματος 3-Partition όπου Gi = {jl; il = i} για κάθε i = 1, …, n. • Απο τα λήμματα 2 και 6 τα Gi ή μια μικρή μετάθεση των στοιχείων τους ικανοποιεί το 3-Partition πρόβλημα • Η αναγωγή είναι ανάλογη του αθροίσματος των βαρών όλων των ακμών της Iκαι F, δηλαδή ( + + ( + + ) ) < n * 2k + 3 * 2k = O( k ) = O( A), αφού υποθέσαμε πως το Α είναι πολυώνυμο του n. Θεώρημα 2: Αφού το πρόβλημα DPKF-EB ανήκει στο NP και το 3-Partition ανάγεται σε πολυωνυιμκό χρόνο σε αυτό, το πρόβλημα είναι NP-πλήρες.
Συμπεράσματα • Αποδείχτηκε πως μόνο αν NP = P,υπάρχει πολυωνυμικός αλγόριθμος για τον υπολογισμό του κατωφλίου ενέργειας των direct μονοπατιών αναδίπλωσης. • Μπορούμε να βρούμε αποδοτικό αλγόριθμο ο οποίος να δουλεύει καλά στις περισσότερες περιπτώσεις • Υπάρχουν εκθετικά πολλά προθέματα της μορφής S+ που δεν ξεπερνούν το κατώφλι k, όμως μπορεί μόνο ένα να αντιστοιχεί σε αληθές στιγμιότυπο του 3-Partition, οπότε χρησιμοποιώντας μια τυχαία διαδικασία για την παραγωγή των ακολουθιών θα χρειαστούμε εκθετικό χρόνο αναζήτησης. • Μελοντική Εργασία: Μελέτη του προβλήματος όταν το μονοπάτι αναδίπλωσης δεν είναι direct και σε αυτό υπάρχουν repeat και temporary ακμές.
Βίντεο (Folding Kinetics of a YES RNA logic gate in the OFF state)