Ευθυγράμμιση πολλαπλών ακολουθιών

Ευθυγράμμιση πολλαπλών ακολουθιών

Σκοπός Ευθυγράμμισης πολλών ακολουθιών • Αποκαλύπτει περιοχές πρωτεϊνών που διατηρούνται  κοινός πρόγονος. • Συνέπεια του ανωτέρω  μακρινές (εξελικτικά) σχέσεις μεταξύ πρωτεϊνών εντοπίζονται ευκολότερα.

Παράδειγμα Π.χ. ακολουθίες • industry • interesting • important Ευθυγράμμιση • in-du-stry- • interesting • im-por-tant Αυτό δεν είναι ευθυγράμμιση (γιατί;) • in-du--stry- • intere-sting • im-por--tant

Αλγόριθμοι ευθυγράμμισης πολλών ακολουθιών • Δυναμικός προγραμματισμός • Σταδιακές μέθοδοι (Progressive Methods) • Επαναληπτικές μέθοδοι (Iterative Methods)

Παράδειγμα με δυναμικό προγραμματισμό

Ευθυγράμμιση πολλών ακολουθιών. • Απαιτείται χρόνος Ο(2^k*n^k) για k ακολουθίες μεγέθους n • Aπαιτείται χώρος O(n^k) • Πχ. 5 ακολουθίες μέσου μήκους 250, απαιτείται • Χώρος: 975 Gbytes • Βήματα: 31Χ1012 • Ενώ για 2 ακολουθίες μέσου μήκους 250, απαιτείται • Χώρος: 60kbytes • Βήματα:240X103 • Συνεπώς χρήσιμος ο αλγόριθμος για μικρές ακολουθίες και για λίγες.

Σταδιακές μέθοδοι βέλτιστης ευθυγράμμισης (progressive methods of msa) • Η μέθοδος Δυναμικού προγραμματισμούπεριορίζεται σε μικρές ακολουθίες ή σε λίγες .... • Σταδιακές μέθοδοι: ξεκίνα από τις κοντινότερες ακολουθίες και σταδιακά βάζε τις μακρινότερες.

Παράδειγμα σταδιακής ευθυγράμμισης • Π.χ. • NYLS, NKYLS, NFS, NFLS NYLS NKYLS NFS NFLS +K -L N F L /- S Y to F N K /- Y/F L /-S

Παράδειγμα σταδιακής ευθυγράμμισης • Π.χ. • NYLS, NKYLS, NFS, NFLS NYLS NKYLS NFS NFLS N K / - Y L S N F L /- S seqA: N _ F L S seqB: N _ F _ S seqC: N K Y L S seqD: N _ Y L S N K /- Y/F L /-S

Εμπορικά προγράμματα σταδιακής ευθυγράμμισης • CLUSTALW (http://www.ebi.ac.uk/clustalw/) • PILEUP

Clustal W • Ευθυγράμμιση ακολουθιών (ανά δύο). • Κατασκευή φυλογενετικού δέντρου, βάσει των scores. • Ευθυγράμμιση βάσει φυλογενετικού δέντρου.

Πως προκύπτει το δένδρο; • Συγκρίνω τις ακολουθίες ανά δύο • Έστω s1,s2,s3,s4,s5 • Με τον ακόλουθο πίνακα (ευθυγραμμίσεις ανά δύο) • Έστω μικροί αριθμοί δηλώνουν μεγάλη ομοιότητα

Πως προκύπτει το δένδρο; • Κοντινότερες s1,s2 τις ομαδοποιώ

Πως προκύπτει το δένδρο; • Ομαδοποιώ τις s4,s5

Πως προκύπτει το δένδρο; • Ομαδοποιώ τις (s4,s5), s3

Δέντρο 1 2 3 4 5

Βαθμολόγηση ευθυγράμμισης, μέθοδος SP, βαθμολογώ ανά 2, και παίρνω το άθροισμα IN-DU-STRY- INTERESTING IM-POR-TANT IN-DU-STRY- INTERESTING Σκορ 3 INTERESTING IM-POR-TANT Σκορ 5 IN-DU-STRY- IM-POR-TANT Σκορ 7 15

Προβλήματα με την προοδευτική ευθυγράμμιση • Η τελική ευθυγράμμιση εξαρτάται από τις αρχικές ευθυγραμμίσεις ζευγών • Αν οι αρχικές ευθυγραμμίσεις δεν είναι καλές, θα προκύψει MSA με χαμηλό σκορ • Σημαντικό ρόλο παίζουν και οι πίνακες αντικατάστασης.

Επαναληπτικές μέθοδοι ευθυγράμμισης (Iterative Methods of MSA) • Διαρκής επαναευθυγράμμιση υποσυνόλων των ακολουθιών • Στόχος: Βελτίωση του συνολικού σκορ ευθυγράμμισης • Μέθοδος: Γενετικοί αλγόριθμοι.

Γενετικοί αλγόριθμοι α’ • Μηχανική μάθηση • Ενισχυτική μάθηση • Βασισμένος στην θεωρία της εξέλιξης. • Δημιουργία πολλών δυνατών MSAs • Δηλαδή • Πολλές διαφορετικές θέσεις εισαγωγής κενών • Πολλές διαφορετικές αντικαταστάσεις. • Π.χ.

Γενετικοί αλγόριθμοι β’ • Αρχικοποίηση αλγορίθμου: δημιουργία πολλών τυχαίων ευθυγραμμίσεων. • Αποτιμάται κάθε μία με τη μέθοδο του αθροίσματος των διαφορών. • Οι περισσότερες δεν είναι καλές. • Βήμα 2: • Οι μισές καλύτερες ακολουθίες πάνε στην επόμενη γενιά. • Οι χειρότερες πάνε ανάλογα με την βαθμολογία τους. • Υποβάλλονται σε μετάλλαξη • Όλες υποβάλλονται σε επανασυνδυασμό για την επόμενη γενιά

Γενετικοί αλγόριθμοι δ’, μεταλλάξεις • XXXXXXXX XXX---XXX—XX • XXXXXXXX XXX---XXX—XX • XXXXXXXX X—XXX---XXXX • XXXXXXXX X—XXX---XXXX • XXXXXXXX X—XXX---XXXX Δηλαδή στις μεταλλάξεις βάζω σε τυχαίες θέσεις κενά, με μικρή πιθανότητα

Γενετικοί αλγόριθμοι δ’, επανασυνδυασμός Γονέας 1 Γονέας 2 M G K V N - - V D E - G E A L - Μ Α Κ V Ν V A D – D E - G E A L M K K V G - - D H A – - G E A L - M G K V N - - V D E G E A L Μ Α Κ V Ν V A D – D E G E A L M K K V G - - - D H A G E A L Παιδί 1 Παιδί 2 M G K V - N - - V D E G E A L Μ Α Κ V Ν V A D – D E G E A L M K K V G - - - D H A G E A L • M G K V N - - V D E - G E A L - • Μ Α Κ V - Ν V A D – D E - G E A L • M K K V - G - - D H A – - G E A L

Τοπικές Ευθυγραμμίσεις Πολλών ακολουθιών(Local msa) • Μέθοδοι : • Ανάλυση profiles • Ανάλυση των blocks • Αναζήτηση προτύπων,pattern searching (eMotif)

Profiles, γιατί; • Μεγαλύτερη ακρίβεια στις ευθυγραμμίσεις • Τα α/α που διατηρούνται είναι πιθανώς μέρη της ενεργoύς περιοχής των πρωτεϊνών  υπόθεση για τη λειτουργία της • Εντοπίζονται ευκολότερα άλλες ομόλογες ακολουθίες • Τα α/α που έχουν χαμηλό βαθμό διατήρησης  πιθανώς περιοχές που έλκουν αντισώματα  σχεδιασμός αντιβιοτικών.

Παράδειγμα profile • O πίνακας έχει 23 στήλες • 20 για τα 20 αμινοξέα • 1 στήλη για ένα άγνωστο αμινοξύ z • 2 στήλες για εισαγωγή κενού και ποινή προέκτασης του.

Παράδειγμα profile • Υπάρχει μία γραμμή για κάθε στήλη της msa. • Οι τιμές κάθε γραμμής δείχνουν τον αριθμό εμφάνισης κάθε αμινοξέως στις ακολουθίες. Για παράδειγμα στην πρώτη γραμμή τα αμινοξέα I,T,V παρουσιάστηκαν με το I να έχει την πλειοψηφία εμφανίσεων. • Αν θέλουμε να ψάξουμε για ακολουθία μήκους π.χ. 100, και έχω profile 10, χρησιμοποιώ παράθυρο. • Η μεγαλύτερη θετική τιμή κάθε στήλης είναι η στήλη που αντιστοιχεί στο αμινοξύ της consensus ακολουθίας • Υπάρχουν δύο μέθοδοι κατασκευής profile: Average και Evolutionary

Μέθοδος κατασκευής Average • Π.χ. Αν στην στήλη 1 της MSA έχει • 5 Ι • 3 Τ • 2 V •  • (ισοπίθανα) • 0.5, 0.3, 0.2 συχνότητες • Ι-Ι, Ι-Τ, Ι-V • 5 0 4 (Pam250) • 0.5x5+0.3x0+0.2x4=3.3

Χρήση πίνακα profile • Ψάξε βάσεις δεδομένων για ακολουθίες πρωτεϊνών με το ίδιο pattern • Χρησιμοποίησέ το ως πίνακα ταιριάσματος σε msa.

Ανάλυση των blocks • Αντιπροσωπεύουν μια διατηρημένη περιοχή της msa. • Διαφέρουν από τα profiles στο ότι δεν έχουν κενά παρά μόνο θέσεις που ταυτίζονται ή που δεν ταυτίζονται. • Blocks μπορούν να εξαχθούν από μια Ευθυγράμμιση Πολλών ακολουθιών(msa) χρησιμοποιώντας τον αλγόριθμο BLOCKS

Blocks • Blocks database: www.blocks.fhcrc.org • Προέρχονται από την βάση interpro

Αναζήτηση προτύπων(eMOTIF) • Έχουν βρεθεί από τις βάσεις Δεδομένων BLOCKS και HSSP σετ ομάδων αντικατάστασης αμινοξέων για κάθε στήλη Ευθυγραμμίσων Πολλών Ακολουθιών. • Στο msa μιας ομάδας πρωτεϊνών, εξετάζεται κάθε στήλη για να δούμε αν αυτά τα σετ που έχουν βρεθεί βρίσκονται στη στήλη της ευθυγράμμισης. • Ακολουθεί παράδειγμα :

Αναζήτηση προτύπων(eMOTIF) • Δύο ομάδες, βάσει R/L στην 4η θέση, και Y στο τέλος • Στήλη 1, έχουμε την ομάδα Μ γιατί το Μ υπάρχει πάντα στη στήλη. • Στήλη 2, το Y και το F του σετ FYW βρέθηκε σε αυτή τη στήλη άρα το σετ FYW χρησιμοποιείται για αυτή τη στήλη κ.ο.κ • FWY: aromatic group

eMOTIF • P(motif)=p(M)x[p(F)+p(W)+p(y)]x[p(k)+p(r)) • P(i), συχνότητες των αμινοξέων στην SwissProt • Εκτίμηση της ποιότητας του motif • eMOTIF δημιουργεί πολλά motifs • Επιλέγουμε τα πλέον ευαίσθητα (p(motif)) • Δηλαδή αυτά που βρίσκουν πολλές ακολουθίες. • Identify: βάση motifs dna.stanford.edu/emotif

Hidden Markov Models α • HMM στατιστικό μοντέλο για ευθυγράμμιση ακολουθιών. • Αρχικοποίηση μοντέλο κατασκευάζεται με εκτιμήσεις για τις ακολουθίες που έχουμε • Στη συνέχεια «εκπαίδευση» του μοντέλου με 20-100 ακολουθίες • Χρήση μοντέλου • Παραγωγή της καλύτερης MSA • Έρευνα για εύρεση παρόμοιων ακολουθιών

Hidden Markov Models β Πρακτικά • Το ίδιο καλή (ως προς MSA) με άλλες μεθόδους. • Βάσεις σε θεωρία πιθανοτήτων • Δεν απαιτείται ειδική διάταξη των ακολουθιών που ευθυγραμμίζουμε • Sequence Alignment and Modeling System (SAM) http://www.cse.ucsc.edu/research/compbio/sam.html

Hidden Markov Models γ • Είσοδος: Ο χρήστης παρέχει την πρωτεΐνη στόχο ή ένα καλό MSA • Έξοδος: το μοντέλο • O ρόμβος αντιστοιχεί στη εισαγωγή αμινοξέως/βάσης, ο κύκλος στην διαγραφή αμινοξέως/βάσης το τετράγωνο στο ταίριασμα

Hidden Markov Models δ

Hidden Markov Models P(TAC)=0.7*0.5*0.7*0.4*0.7*0.4*0.9=0.025

Ηidden markov models P(TAC)=0.025 Μετατροπή της πιθανότητας σε log odds (δες αποτέλεσμα σε επόμενη διαφάνεια • Για κάθε βάση ισχύει log2(p(βάσης) /(1/αριθμό βάσεων), π.χ. Για το πρώτο τετράγωνο για Α, -1.32=log2(0.1/0.25) • Για τις μεταβάσεις log2(p(μετάβασης)/(1/αριθμό μεταβάσεων), π.χ. Για την πρώτη μετάβαση -1.72=log2(0.7/0.333) • Αρα το log odds score για την ακολουθία TAC είναι: >1.09+1+1.09+0.68+1.09+0.68+0.85=6.4800 • Ίδια λογική και με το score ευθυγράμμισης πρωτεϊνών

Hidden markov model with log odd scores

Συμπεράσματα από τη χρήση ευθυγραμμίσεων για πρόβλεψη δομής Οι Thierodoxines είναι ένζυμα, (η εικόνα είναι από το E.coli).

Συμπεράσματα από τη χρήση ευθυγραμμίσεων για τη δομήβ’ • Οι περισσότερο διατηρημένες περιοχές αντιστοιχούν στην ενεργό περιοχή. H «γέφυρα» στις περιοχές 32 και 35 του E.coli. • Περιοχές με πολλές εισαγωγές και διαγραφές αντιστοιχούν σε surface loops. Περιοχές με διατήρηση Gly ή Pro αντιστοιχούν σε “turn” • Turns9,20,60,95 • Διατηρημένη περιοχή με υδρόφοβα α/α υποδεικνύει έλικα (40-49)

Χρωματισμός/ομαδοποίηση Αμινοξέων

Ευθυγράμμιση πολλαπλών ακολουθιών

Ευθυγράμμιση πολλαπλών ακολουθιών

Presentation Transcript