290 likes | 398 Views
Alignement de séquences biologiques Laurent Duret Pôle Bioinformatique Lyonnais htt://pbil.univ-lyon1.fr/alignment.html. Objectifs poursuivis. Les alignements permettent de comparer des séquences biologiques. Cette comparaison est nécessaire dans différents types d’études :
E N D
Alignement de séquences biologiquesLaurent DuretPôle Bioinformatique Lyonnaishtt://pbil.univ-lyon1.fr/alignment.html
Objectifs poursuivis • Les alignements permettent de comparer des séquences biologiques. Cette comparaison est nécessaire dans différents types d’études : • Identification de gènes homologues • Recherche de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines. • Prédiction de fonction • Prédiction de structure (ARN, protéine) (Cf Deléage, Gaspin) • Reconstitution des relations évolutives entre séquences (phylogénie) (Cf Gouy). • Choix d'amorces PCR • ...
Alignement: représentation • Les résidus (nucléotides, acides-aminés) sont superposés de façon à maximiser la similarité entre les séquences. G T T A A G G C G – G G A A A G T T – – – G C G A G G A C A * * * * * * * * * * • Mutations : • Substitution (mismatch) • Insertion • Délétion • Insertions ou délétions : indels (gap).
Quel est le bon alignement ? G T T A C G A G T T A C G A G T T - G G A G T T G - G A * * * * * * * * * * OU G T T A C - G A G T T - - G G A * * * * * • Pour le biologiste, généralement, le bon alignement est celui qui représente le scénario évolutif le plus probable
Fonction de score de similarité G T T A A G G C G – G G A A A G T T – – – G C G A G G A C A * * * * * * * * * * Score = Exemple: • identité = 1 • mismatch = 0 • gap = -1 • Score = 10 - 4 = 6
Modèle d'évolution (ADN) • Transition: A <-> G T <-> C • Transversions : autres substitutions • p(transition) > p(transversion) G T T A C G A G T T A C G A G T T - G G A G T T G - G A * * * * * * * * . * *
Modèle d'évolution (protéines) • Code génétique • Asp (GAC, GAU) Tyr (UAC, UAU) : 1 mutation • Asp (GAC, GAU) Cys (UGC, UGU) : 2 mutations • Asp (GAC, GAU) Trp (UGG) : 3 mutations • Propriétés physico-chimiques des acides-aminés (acidité, hydrophobicité, encombrement stérique, etc.) • Matrices de Dayhoff (PAM), BLOSUM: mesures des fréquences de substitutions dans des alignements de protéines homologues • PAM 60, PAM 120, PAM 250 (extrapolations à partir de PAM 15) • BLOSUM 80, BLOSUM 62, BLOSUM 40 (basé sur des alignements de blocs) Substitutions conservatrices
Pondération des gaps TGATATCGCCA TGATATCGCCA TGAT---TCCA TGAT-T--CCA **** *** **** * *** • Gap de longueur k: Pénalités linéaires: w = do + de k do : pénalité pour l'ouverture d'un gap de : pénalité pour l'extension d'un gap
Pondération des gaps (plus réaliste) • Estimation des paramètres sur des alignements "vrais" (par exemple basés sur l'alignement de structures connues) • Gap de longueur k: • Pénalités logarithmiques: w = do + de log(k) • w = f(log(k), log(PAM), résidus, structure) • PAM: la probabilité d'un gap augmente avec la distance évolutive • Résidus, structure: la probabilité d'un gap est plus forte dans une boucle (hydrophile) que dans le cœur hydrophobe des protéines
Similarité, homologie • Deux séquences sont homologues ssi elles dérivent d'un ancêtre commun • 30% d'identité entre deux protéines => homologie, sauf si • Fragment similaire court (< 100 aa) • Biais compositionnel (régions de faible complexité, par exemple riche en Pro, Ala)
Algorithmes d'alignement de deux séquences Algorithme de programmation dynamique : • Alignement global: Needleman & Wunsh • Alignement local: Smith & Waterman Heuristiques : • FASTA • BLAST
Alignement multiple: programmation dynamique • La généralisation de l’algorithme N&W au traitement simultané de plus de deux séquences est théoriquement possible mais inexploitable en pratique. • Pour un alignement de n séquences le nombre de chemins possibles pour chaque case est de 2n – 1. • On a une croissance exponentielle du temps de calcul et de l'espace mémoire requis en fonction du nombre de séquences. • Utilisation de méthodes heuristiques.
Alignement progressif • Approche consistant à construireitérativement l’alignement multiple en groupant des alignements de paires de séquences. • Ce genre de méthodes comporte trois étapes : • L’alignement des paires de séquences. • Le groupement des séquences. • Le groupement des alignements (alignement progressif). • CLUSTAL (Higgins, Sharp 1988, Thompson et al., 1994), le programme d’alignements multiples le plus utilisé à l’heure actuelle utilise cette approche. • MULTALIN, PILEUP, T-Coffee
Pénalités en fonction de la position • CLUSTAL introduit des pondérations qui sont dépendantes de la position des gaps. • Diminution de la pénalité à l’emplacement de gaps préexistants. • Augmentation de la pénalité au voisinage (8 résidus) de gaps préexistants. • Réduction de la pénalité au niveau de régions contenant des suites d’acides aminés hydrophiles (≥ 5 résidus). • Modification spécifiques en fonction des acides aminés présents (e.g., la pénalité est plus faible avec Gly, Asn, Pro). • Ces pondérations sont prises en compte au moment du groupement des alignements.
Alignement progressif: pas toujours optimal • Un seul des ces trois alignements est optimal
T-CoffeeNotredame, Higgins, Heringa (2000) JMB 302:205 http://igs-server.cnrs-mrs.fr/~cnotred/ • Alignement progressif • Lors des alignements intermédiaire, prise en compte de tous les alignements deux à deux (globaux et locaux) • Possibilité d'incorporer d'autres informations (structure, etc.)
DialignMorgenstern et al. 1996 PNAS 93:12098 • Recherche de blocs similaires (≠ exact) sans gap entre les séquences • Sélection de la meilleure combinaison possible de blocs similaires (uniformes ou non) consistents : heuristique (Abdeddaim 1997) • Alignement ancré sur les blocs • Plus lent que alignement progressif, mais meilleur alignement quand les séquences contiennent de grands indels; ne cherche pas à aligner des régions non-alignables
Alignements locaux • MEME • MATCH-BOX • PIMA
Bilan • ClustalW • Dialign • T-coffee • MEME
Cas particuliers • Alignement de séquences ADN codantes L F L F CTT TTC CTT TTC CTC --- --- CTC L - - L • alignement des séquences protéiques • traduction-inverse de l'alignement protéique en alignement nucléique • Alignement cDNA / génomique: SIM4 • Alignement protéine / génomique: WISE2
Limitation des comparaisons deux à deux (BLAST, FASTA, ...) Seq A CGRRLILFMLATCGECDTDSSE … HICCIKQCDVQDIIRVCC :: : ::: :: : : Insuline CGSHLVEALYLVCGERGFFYTP … EQCCTSICSLYQLENYCN ::: : : : :: : : Seq B YQSHLLIVLLAITLECFFSDRK … KRQWISIFDLQTLRPMTA Comparaisons 2 à 2: Insuline / Seq A : 25% d'identité Insuline / Seq B : 25% d'identité
Alignement de séquences de la famille des insulines B-chain A-chain INSL4 Q14641 ELRGCGPRFGKHLLSYCPMPEKTFTTTPGG...[x]58 ....SGRHRFDPFCCEVICDDGTSVKLCT INSL3 P51460 REKLCGHHFVRALVRVCGGPRWSTEA.......[x]51 ....AAATNPARYCCLSGCTQQDLLTLCPY RLN1 P04808 VIKLCGRELVRAQIAICGMSTWS..........[x]109 ....PYVALFEKCCLIGCTKRSLAKYC BBXA P26732 VHTYCGRHLARTLADLCWEAGVD..........[x]25 ........GIVDECCLRPCSVDVLLSYC BBXB P26733 ARTYCGRHLADTLADLCF--GVE..........[x]23 ........GVVDECCFRPCTLDVLLSYCG BBXC P26735 SQFYCGDFLARTMSILCWPDMP...........[x]25 ........GIVDECCYRPCTTDVLKLYCDKQI BBXD P26736 GHIYCGRYLAYKMADLCWRAGFE..........[x]25 ........GIADECCLQPCTNDVLLSYC LIRP P15131 VARYCGEKLSNALKLVCRGNYNTMF........[x]58 ........GVFDECCRKSCSISELQTYCGRR MIP I P07223 RRGVCGSALADLVDFACSSSNQPAMV.......[x]29 ....QGTTNIVCECCMKPCTLSELRQYCP MIP II P25289 PRGICGSNLAGFRAFICSNQNSPSMV.......[x]44 ....QRTTNLVCECCFNYCTPDVVRKYCY MIP III P80090 PRGLCGSTLANMVQWLCSTYTTSSKV.......[x]30 ....ESRPSIVCECCFNQCTVQELLAYC MIP V P31241 PRGICGSDLADLRAFICSRRNQPAMV.......[x]44 ....QRTTNLVCECCYNVCTVDVFYEYCY MIP VII P91797 PRGLCGNRLARAHANLCFLLRNTYPDIFPR...[x]86 ..EVMAEPSLVCDCCYNECSVRKLATYC ILP P22334 AEYLCGSTLADVLSFVCGNRGYNSQP.......[x]31 ........GLVEECCYNVCDYSQLESYCNPYS INS P01308 NQHLCGSHLVEALYLVCGERGFFYTPKT.....[x]35 ........GIVEQCCTSICSLYQLENYCN IGF1 P01343 PETLCGAELVDALQFVCGDRGFYF.........[x]12 ........GIVDECCFRSCDLRRLEMYCAPLK IGF2 P01344 SETLCGGELVDTLQFVCGDRGFYF.........[x]12 ........GIVEECCFRSCDLALLETYCATPA *. .* ** * . *
Représentation d ’un motif par une matrice de fréquences (exemple) • Site donneur d ’épissage (vertébrés) Matrice de fréquence (pourcentage): Base Position -3 -2 -1 +1 +2 +3 +4 +5 +6 A 3360 8 0 0 4971 6 15 C 37 13 4 0 0 3 7 5 19 G 18 14 81100 0 45 12 84 20 T 12 13 7 0 100 3 9 5 46 Cons. M A G G T R A G T
PSI-BLAST • Position-Specific Iterated BLAST • 1-recherche BLAST classique • 2-construction d'une matrice de pondération (profil) avec les séquences similaires détectées • 3-recherche BLAST à partir de ce nouveau profil • 4-itération des étapes 2-3 jusqu'à convergence • plus sensible que Smith-Waterman • 40 fois plus rapide