1 / 83

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός. Παντελής Μπάγκος. Δυναμικός Προγραμματισμός. Στοίχιση (τοπική-ολική) RNA secondary structure prediction Διαμεμβρανικά τμήματα Hidden Markov Models Άλλες εφαρμογές. Στοίχιση. Ολική Τοπική Ειδικές περιπτώσεις. Δυναμικός προγραμματισμός.

katina
Download Presentation

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙΔυναμικός Προγραμματισμός Παντελής Μπάγκος

  2. Δυναμικός Προγραμματισμός • Στοίχιση (τοπική-ολική) • RNA secondary structure prediction • Διαμεμβρανικά τμήματα • Hidden Markov Models • Άλλες εφαρμογές

  3. Στοίχιση • Ολική • Τοπική • Ειδικές περιπτώσεις

  4. Δυναμικός προγραμματισμός

  5. Δυο περιπτώσεις στοιχίσεων F(i,0)=-id, F(0,j)=-jd F(i,0)=0, F(0,j)=0

  6. Ποινές για τα κενά (gap penalties) Απλή ποινή για τα κενά: Σύνθετη ποινή για τα κενά:

  7. Παράδειγμα Έστω δυο ακολουθίες: Αν έχουμε για τα κενά: d=1 Τότε η καλύτερη ολική στοίχιση θα είναι: A A G T – T A G C A G C A G T A T C G C A -

  8. Ολική στοίχιση… A A G T – T A G C A G C A G T A T C G C A -

  9. Τοπική στοίχιση… A G T – T A G C A A G T A T C G C A

  10. Άλλοι αλγόριθμοι • Υπάρχουν επίσης ειδικές περιπτώσεις στοίχισης (π.χ. προσαρμογή) • Θέλουμε δηλαδή να εντοπίσουμε, μια μικρή ακολουθία αν συναντάται σε μια μεγαλύτερη Έστω ότι θέλουμε να ανιχνεύσουμε αν στην αλληλουχία του γονιδίου lacI της E.coli υπάρχει η γνωστήαλληλουχία του υποκινητή (promoter). Έστω ακόμα ότι το τμήμα του γονιδίου έχει αλληλουχία: και η αλληλουχία του υποκινητή είναι

  11. συνέχεια… F(i,0)=-id F(0,j)=0.

  12. Και η ακολουθία του πιθανού υποκινητή είναι: C A T G A T

  13. RNA secondary structure prediction

  14. Nussinov

  15. C IN N OUT N IN OUT C Διαμεμβρανικά τμήματα

  16. Τα 3 βασικά ερωτήματα σε ένα ΗΜΜ ... Εκτίμηση • Δεδομένου του μοντέλου, πως θα υπολογίσουμε την ολική πιθανότητα μιας ακολουθίας συμβόλων. P(x|θ) Αποκωδικοποίηση • Πως θα βρούμε την πιο πιθανή αλληλουχία καταστάσεων (path) από την οποία έχει διέλθει το μοντέλο, για να δώσει την συγκεκριμμένη ακολουθία συμβόλων. Εκπαίδευση • Πως θα τροποποιήσουμε τις παραμέτρους του μοντέλου, έτσι ώστε να μεγιστοποιηθεί η συνολική πιθανοφάνεια των ακολουθιών θML=argmaxP(x|θ)

  17. ... και οι απαντήσεις τους Εκτίμηση • Αλγόριθμος FORWARD, αλγόριθμος δυναμικού προγραμματισμού, που υπολογίζει την συνολική πιθανότητα της ακολουθίας, χωρίς να διέλθει από όλα τα δυνατά μονοπάτια (αλληλουχίες καταστάσεων). Αποκωδικοποίηση • Αλγόριθμος του VITERBI, αλγόριθμος δυναμικού προγραμματισμού, που μέσω αναδρομής (recursion) υπολογίζει τηνπιο πιθανή αλληλουχία καταστάσεων για τη δεδομένη ακολουθία και το δεδομένο μοντέλο. (Εναλλακτικά NBEST). Εκπαίδευση • Αλγόριθμος των BAUM-WELCH (η αλλιώς FORWARD-BACKWARD), ειδική περίπτωση του αλγόριθμου ΕΜ (Expectation-Maximization), ο οποίος χειρίζεται τα δεδομένα σαν δεδομένα με ελλειπής τιμές (missing values) και υπολογίζει Ε.Μ.Π. για τις παραμέτρους του μοντέλου (Εναλλακτικά Gradient Descent).

  18. Αλγόριθμος Forward

  19. Αλγόριθμος Viterbi

  20. Αποκωδικοποίηση forward

  21. “Εκ των υστέρων” αποκωδικοποίηση Εναλλακτικά μπορεί να υπολογισθεί η πιθανότητα: δηλαδή, η εκ των υστέρων πιθανότητα το συγκεκριμμένο νουκλεοτίδιο να προήλθε απο μια κατάσταση Κάνοντας χρήση των Forward και Backward:

  22. Πλεονεκτήματα: • στις περιπτώσεις που τα εναλλακτικά μονοπάτια έχουν πολύ μικρές διαφορές στις προβλεπόμενες πιθανότητες. • όταν μια κατάσταση έχει πολύ μικρή πιθανότητα και το μονοπάτι με την μέγιστη πιθανότητα, δεν την «επισκέπτεται» ποτέ. • Μειονεκτήματα: • Μπορεί να προβλεφθεί μια πιθανότητα η οποία δεν είναι έγκυρη για το μοντέλο (μια μη επιτρεπτή μετάβαση).

  23. Συνοπτικά ο αλγόριθμος • Υπολογισμός των Α και Ε • Υπολογισμός των ΕΜΠ • Επανάληψη μέχρι να συγκλίνει

  24. Ένα παράδειγμα...

  25. συνέχεια... Πιθανότητες μεταβάσεως: 1 0 0.90 0.100.10 0.90 Πιθανότητες γεννήσεως : Α Τ G C 0.70 0.100.10 0.100.250.250.25 0.25 1 0 1 0

  26. συνέχεια... Έστω μια ακολουθία DNA, η οποία προέρχεται από το παραπάνω μοντέλο: AAACAAGAATGCGCACACTACGCAAAAACAATTAGTCGCACTCACGATGAAACAAATTACCACGGTGAA 111111111100000000000001111111111100000000000000111111110000000000001 AACGAATAAACCTCAGAGGCCCAGCGTATATAAACAAGATAAAAACCTAGTCAGCACTCTGACCAGACG 111111111100000000000000000000011111111111111100000000000000000000000 AGCTCACGACTTGAGGATAAGAAAAAAACAACAGCTCACGACTTGAGGATAAGAAAAAAACA 00000000000000001111111111111100000000000000000011111111111111

  27. συνέχεια...

  28. συνέχεια... Αν όμως οι πιθανότητες μεταβάσεως άλλαζαν: Πιθανότητες μεταβάσεως: 1 0 0.98 0.020.03 0.97 Πιθανότητες γεννήσεως : Α Τ G C 0.60 0.100.10 0.100.250.250.25 0.25 1 0 1 0

  29. συνέχεια...

  30. Posterior-Viterbi decoding Ορίζονται οι επιτρεπτές μεταβάσεις:

  31. Optimal Accuracy Posterior Decoding Παραλλαγή του Posterior-Viterbi, η οποία υπολογίζει το μονοπάτι: Συνολικά:

  32. Άλλες εφαρμογές • Fold recognition • Threading • Domain recognition

  33. Fold recognition

  34. Threading • Protein threading is the problem of aligning a protein sequence whose structure we want to elucidate (the target protein) with a protein sequence whose structure is known (the template protein) in such a way that mapping residues of the target onto a template according to the alignment affords an accurate model of the backbone structure of the target.

  35. Domain recognition

  36. Transformational Grammars “Colourless green ideas sleep furiously” Chomsky

  37. A transformational grammar consists of anumber of symbols and a number of rewritingrules (productions) of the form: a→b, where a and b are both strings ofsymbols. i.e.: C → cN, C → E There are two types of symbols: -abstract nonterminal symbols -terminal (observable) symbols)

  38. Production rules • Regular grammars: only productions of the form W →aW or W →a • Context-free grammars: productions of the form W →β. Left: just one non-terminal, right: any string • Context-sensitive grammars: productions of the form α1Wα2→a1βa2 • Unrestricted grammars: any production of the form α1Wα2→γ W: any non terminal, a: any terminal, α, γ: any string of nonterminals and/or terminals including null string β: any string of nonterminals and/or terminals not including null string

More Related