1 / 29

Alignement de séquences biologiques Laurent Duret Pôle Bioinformatique Lyonnais htt://pbil.univ-lyon1.fr/alignment.html

Alignement de séquences biologiques Laurent Duret Pôle Bioinformatique Lyonnais htt://pbil.univ-lyon1.fr/alignment.html. Objectifs poursuivis. Les alignements permettent de comparer des séquences biologiques. Cette comparaison est nécessaire dans différents types d’études :

mercer
Download Presentation

Alignement de séquences biologiques Laurent Duret Pôle Bioinformatique Lyonnais htt://pbil.univ-lyon1.fr/alignment.html

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Alignement de séquences biologiquesLaurent DuretPôle Bioinformatique Lyonnaishtt://pbil.univ-lyon1.fr/alignment.html

  2. Objectifs poursuivis • Les alignements permettent de comparer des séquences biologiques. Cette comparaison est nécessaire dans différents types d’études : • Identification de gènes homologues • Recherche de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines. • Prédiction de fonction • Prédiction de structure (ARN, protéine) (Cf Deléage, Gaspin) • Reconstitution des relations évolutives entre séquences (phylogénie) (Cf Gouy). • Choix d'amorces PCR • ...

  3. Alignement: représentation • Les résidus (nucléotides, acides-aminés) sont superposés de façon à maximiser la similarité entre les séquences. G T T A A G G C G – G G A A A G T T – – – G C G A G G A C A * * * * * * * * * * • Mutations : • Substitution (mismatch) • Insertion • Délétion • Insertions ou délétions : indels (gap).

  4. Quel est le bon alignement ? G T T A C G A G T T A C G A G T T - G G A G T T G - G A * * * * * * * * * * OU G T T A C - G A G T T - - G G A * * * * * • Pour le biologiste, généralement, le bon alignement est celui qui représente le scénario évolutif le plus probable

  5. Fonction de score de similarité G T T A A G G C G – G G A A A G T T – – – G C G A G G A C A * * * * * * * * * * Score = Exemple: • identité = 1 • mismatch = 0 • gap = -1 • Score = 10 - 4 = 6

  6. Modèle d'évolution (ADN) • Transition: A <-> G T <-> C • Transversions : autres substitutions • p(transition) > p(transversion) G T T A C G A G T T A C G A G T T - G G A G T T G - G A * * * * * * * * . * *

  7. Modèle d'évolution (protéines) • Code génétique • Asp (GAC, GAU)  Tyr (UAC, UAU) : 1 mutation • Asp (GAC, GAU)  Cys (UGC, UGU) : 2 mutations • Asp (GAC, GAU)  Trp (UGG) : 3 mutations • Propriétés physico-chimiques des acides-aminés (acidité, hydrophobicité, encombrement stérique, etc.) • Matrices de Dayhoff (PAM), BLOSUM: mesures des fréquences de substitutions dans des alignements de protéines homologues • PAM 60, PAM 120, PAM 250 (extrapolations à partir de PAM 15) • BLOSUM 80, BLOSUM 62, BLOSUM 40 (basé sur des alignements de blocs) Substitutions conservatrices

  8. Pondération des gaps TGATATCGCCA TGATATCGCCA TGAT---TCCA TGAT-T--CCA **** *** **** * *** • Gap de longueur k: Pénalités linéaires: w = do + de k do : pénalité pour l'ouverture d'un gap de : pénalité pour l'extension d'un gap

  9. Pondération des gaps (plus réaliste) • Estimation des paramètres sur des alignements "vrais" (par exemple basés sur l'alignement de structures connues) • Gap de longueur k: • Pénalités logarithmiques: w = do + de log(k) • w = f(log(k), log(PAM), résidus, structure) • PAM: la probabilité d'un gap augmente avec la distance évolutive • Résidus, structure: la probabilité d'un gap est plus forte dans une boucle (hydrophile) que dans le cœur hydrophobe des protéines

  10. Similarité globale, locale

  11. Similarité, homologie • Deux séquences sont homologues ssi elles dérivent d'un ancêtre commun • 30% d'identité entre deux protéines => homologie, sauf si • Fragment similaire court (< 100 aa) • Biais compositionnel (régions de faible complexité, par exemple riche en Pro, Ala)

  12. Algorithmes d'alignement de deux séquences Algorithme de programmation dynamique : • Alignement global: Needleman & Wunsh • Alignement local: Smith & Waterman Heuristiques : • FASTA • BLAST

  13. Alignement multiple: programmation dynamique • La généralisation de l’algorithme N&W au traitement simultané de plus de deux séquences est théoriquement possible mais inexploitable en pratique. • Pour un alignement de n séquences le nombre de chemins possibles pour chaque case est de 2n – 1. • On a une croissance exponentielle du temps de calcul et de l'espace mémoire requis en fonction du nombre de séquences. • Utilisation de méthodes heuristiques.

  14. Alignement progressif • Approche consistant à construireitérativement l’alignement multiple en groupant des alignements de paires de séquences. • Ce genre de méthodes comporte trois étapes : • L’alignement des paires de séquences. • Le groupement des séquences. • Le groupement des alignements (alignement progressif). • CLUSTAL (Higgins, Sharp 1988, Thompson et al., 1994), le programme d’alignements multiples le plus utilisé à l’heure actuelle utilise cette approche. • MULTALIN, PILEUP, T-Coffee

  15. Pénalités en fonction de la position • CLUSTAL introduit des pondérations qui sont dépendantes de la position des gaps. • Diminution de la pénalité à l’emplacement de gaps préexistants. • Augmentation de la pénalité au voisinage (8 résidus) de gaps préexistants. • Réduction de la pénalité au niveau de régions contenant des suites d’acides aminés hydrophiles (≥ 5 résidus). • Modification spécifiques en fonction des acides aminés présents (e.g., la pénalité est plus faible avec Gly, Asn, Pro). • Ces pondérations sont prises en compte au moment du groupement des alignements.

  16. Alignement progressif: pas toujours optimal • Un seul des ces trois alignements est optimal

  17. T-CoffeeNotredame, Higgins, Heringa (2000) JMB 302:205

  18. T-CoffeeNotredame, Higgins, Heringa (2000) JMB 302:205 http://igs-server.cnrs-mrs.fr/~cnotred/ • Alignement progressif • Lors des alignements intermédiaire, prise en compte de tous les alignements deux à deux (globaux et locaux) • Possibilité d'incorporer d'autres informations (structure, etc.)

  19. Alignements globaux, alignements par bloc

  20. DialignMorgenstern et al. 1996 PNAS 93:12098 • Recherche de blocs similaires (≠ exact) sans gap entre les séquences • Sélection de la meilleure combinaison possible de blocs similaires (uniformes ou non) consistents : heuristique (Abdeddaim 1997) • Alignement ancré sur les blocs • Plus lent que alignement progressif, mais meilleur alignement quand les séquences contiennent de grands indels; ne cherche pas à aligner des régions non-alignables

  21. Alignements locaux • MEME • MATCH-BOX • PIMA

  22. Bilan • ClustalW • Dialign • T-coffee • MEME

  23. Éditeur d ’alignement multiple

  24. Cas particuliers • Alignement de séquences ADN codantes L F L F CTT TTC CTT TTC CTC --- --- CTC L - - L • alignement des séquences protéiques • traduction-inverse de l'alignement protéique en alignement nucléique • Alignement cDNA / génomique: SIM4 • Alignement protéine / génomique: WISE2

  25. Limitation des comparaisons deux à deux (BLAST, FASTA, ...) Seq A CGRRLILFMLATCGECDTDSSE … HICCIKQCDVQDIIRVCC :: : ::: :: : : Insuline CGSHLVEALYLVCGERGFFYTP … EQCCTSICSLYQLENYCN ::: : : : :: : : Seq B YQSHLLIVLLAITLECFFSDRK … KRQWISIFDLQTLRPMTA Comparaisons 2 à 2: Insuline / Seq A : 25% d'identité Insuline / Seq B : 25% d'identité

  26. Alignement de séquences de la famille des insulines B-chain A-chain INSL4 Q14641 ELRGCGPRFGKHLLSYCPMPEKTFTTTPGG...[x]58 ....SGRHRFDPFCCEVICDDGTSVKLCT INSL3 P51460 REKLCGHHFVRALVRVCGGPRWSTEA.......[x]51 ....AAATNPARYCCLSGCTQQDLLTLCPY RLN1 P04808 VIKLCGRELVRAQIAICGMSTWS..........[x]109 ....PYVALFEKCCLIGCTKRSLAKYC BBXA P26732 VHTYCGRHLARTLADLCWEAGVD..........[x]25 ........GIVDECCLRPCSVDVLLSYC BBXB P26733 ARTYCGRHLADTLADLCF--GVE..........[x]23 ........GVVDECCFRPCTLDVLLSYCG BBXC P26735 SQFYCGDFLARTMSILCWPDMP...........[x]25 ........GIVDECCYRPCTTDVLKLYCDKQI BBXD P26736 GHIYCGRYLAYKMADLCWRAGFE..........[x]25 ........GIADECCLQPCTNDVLLSYC LIRP P15131 VARYCGEKLSNALKLVCRGNYNTMF........[x]58 ........GVFDECCRKSCSISELQTYCGRR MIP I P07223 RRGVCGSALADLVDFACSSSNQPAMV.......[x]29 ....QGTTNIVCECCMKPCTLSELRQYCP MIP II P25289 PRGICGSNLAGFRAFICSNQNSPSMV.......[x]44 ....QRTTNLVCECCFNYCTPDVVRKYCY MIP III P80090 PRGLCGSTLANMVQWLCSTYTTSSKV.......[x]30 ....ESRPSIVCECCFNQCTVQELLAYC MIP V P31241 PRGICGSDLADLRAFICSRRNQPAMV.......[x]44 ....QRTTNLVCECCYNVCTVDVFYEYCY MIP VII P91797 PRGLCGNRLARAHANLCFLLRNTYPDIFPR...[x]86 ..EVMAEPSLVCDCCYNECSVRKLATYC ILP P22334 AEYLCGSTLADVLSFVCGNRGYNSQP.......[x]31 ........GLVEECCYNVCDYSQLESYCNPYS INS P01308 NQHLCGSHLVEALYLVCGERGFFYTPKT.....[x]35 ........GIVEQCCTSICSLYQLENYCN IGF1 P01343 PETLCGAELVDALQFVCGDRGFYF.........[x]12 ........GIVDECCFRSCDLRRLEMYCAPLK IGF2 P01344 SETLCGGELVDTLQFVCGDRGFYF.........[x]12 ........GIVEECCFRSCDLALLETYCATPA *. .* ** * . *

  27. Représentation d ’un motif par une matrice de fréquences (exemple) • Site donneur d ’épissage (vertébrés) Matrice de fréquence (pourcentage): Base Position -3 -2 -1 +1 +2 +3 +4 +5 +6 A 3360 8 0 0 4971 6 15 C 37 13 4 0 0 3 7 5 19 G 18 14 81100 0 45 12 84 20 T 12 13 7 0 100 3 9 5 46 Cons. M A G G T R A G T

  28. PSI-BLAST • Position-Specific Iterated BLAST • 1-recherche BLAST classique • 2-construction d'une matrice de pondération (profil) avec les séquences similaires détectées • 3-recherche BLAST à partir de ce nouveau profil • 4-itération des étapes 2-3 jusqu'à convergence • plus sensible que Smith-Waterman • 40 fois plus rapide

More Related