740 likes | 1.02k Views
Bio-informatique appliquée Concepts et matrices des substitutions. Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours de Jacques van Helden: http://jacques.van-helden.perso.luminy.univmed.fr/bioinformatics_introductory_course/web_course/BI4U2/.
E N D
Bio-informatique appliquéeConcepts et matrices des substitutions Emese Meglécz Emese.Meglecz@imbe.fr Groupe Bureau Virtuel: AMU_BI4U2_bioinfo TDs et cours de Jacques van Helden: http://jacques.van-helden.perso.luminy.univmed.fr/bioinformatics_introductory_course/web_course/BI4U2/ Cours basé sur les cours de Céline Brochier-Armanet et Jacques van Helden
Contenu du cours • Modèles évolutifs • Mutations, duplications, divergence • Homologie, orthologie, paralogie, etc … • Alignements de paires de séquences • Matrices de substitutions • Dot plots (dottup, dotmatcher) • Alignement par glissement • Alignement avec indels • Global (Needleman-Wunsch) • Local (Smith-Waterman) • Recherche de similarités dans les bases de données (Fasta, BLAST) • Alignements multiples (ClustalX) • Identification de motifs dans les séquences
Similarité % Identité « identities »: Proportion des aa identiques entre les séquences % Similarité « positives »: Proportion des aa similaires entre les séquences Identities = 14/26 (54%), Positives = 15/26 (58%), VCGMWLDGDIAAVDMFTHVEIGDDEV V G W+ GDI MFTH DD EV VAGIWVAGDIRGGPMFTHTAYDDFEV
Similarité • % Identité ou similarité maximale: 100% • % Identité entre deux séquences nucléiques aléatoires ?
Similarité • % Identité ou similarité maximale:100% • % Identité entre deux séquences nucléiques aléatoires ? 4 bases => % Identité attendu entre séquences aléatoires: ¼
Similarité • % Identité ou similarité maximale: 100% • % Identité entre deux séquences protéiques aléatoires ?
Similarité • % Identité ou similarité maximale:100% • % Identité entre deux séquences protéiques aléatoires ? 20 aa=> % Identité attendu entre séquences aléatoires: 1/20
Similarité, homologie, analogie • La similarité entre deux séquences peut s’interpréter par deux hypothèses alternatives: • Homologie: la ressemblance s’explique par le fait que les deux séquences divergent d’un ancêtre commun. • Evolution convergente (analogie): les similarités sont apparues dans les deux séquences de façon indépendante, mais ont été sélectionnées pour la même raison.
Homologie • Deux séquences sont dites homologues si elles possèdent un ancêtre commun • L’existence d’un ancêtre commun est inférée à partir de la similarité Ancêtre commun Événement évolutif (spéciation, duplication) séquence1 séquence2
Homologie ≠ Similarité • L’homologie n’est pas quantifiable • Deux séquences sont homologues (possèdent des caractères communs parce qu’elles dérivent d’un ancêtre commun) ou elles ne le sont pas. • Raisonnement binaire • La similarité est quantifiable • On peut dire de deux séquences qu’elles sont similaires à 50% ou 75% 30 % d’identité sur une longueur de 100 AA homologie est probable entre les séquences
Duplication et spéciation time time a ancestral sequence a ancestral species duplication speciation divergence divergence a1 a2 now b c now • Deux séquences qui descendent d’un ancêtre commun divergent. • La divergence peut résulter d’une duplication ou d’une spéciation. • Evénements de mutations: substitutions, délétions, insertions.
Homologie • Inférence • Avant d’affirmer que deux séquences sont homologues, nous devrions pouvoir retracer leur histoire jusqu’à leur ancêtre commun. • Nous ne pouvons malheureusement pas disposer des séquences des espèces disparues. Il est donc impossible de démontrer formellement l’homologie. • Cependant, nous pouvons appuyer l’hypothèse d’homologie sur une analyse de la vraisemblance d’un scénario évolutif (taux de mutations, niveaux de similarités). • L’inférence d’homologie est toujours attachée à un certain risque de faux positifs.
Homologie ≠ Similarité La formulation correcte : • on observe un certain niveau de similarité entre deux séquences (% identité, % similarité). • Sur cette base, on évalue des scénarios évolutifs: cette similarité peut provenir • d’une évolution convergente (analogie) • d’une évolution divergente à partir d’un ancêtre commun (homologie) • Similarité due au hasard • Si la deuxième hypothèse est la plus vraisemblable, on infère que les séquences sont homologues.
Similarité sans homologie • Convergence ou simple hasard pour de courtes séquences (quelques résidus) Score = 32.0 bits (68), Expect = 9.5 Identities = 14/26 (54%), Positives = 14/26 (54%), Gaps = 7/26 (26%) Query 2 VCGMWRDGDI---EMFTH---DD-EV 20 V G W GDI MFTH DD EV Sbjct 304 VAGIWVAGDIRGGPMFTHTAYDDFEV 329
Similarité sans homologie • Existence de régions de faible complexité (régions riches en quelques aa., • Cas de la fibroïne [GSGAGA]n) …
Homologie sans Similarité • Globine gamma humaine vs myoglobine humaine GENE ID: 4151 MB | myoglobin [Homo sapiens] (Over 10 PubMed links) Score = 48.5 bits (114), Expect = 6e-06, Identities = 31/121 (26%), Positives = 53/121 (44%), Gaps = 0/121 (0%) Query 26 GETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKVKAHGKKVLTSLGDAIKHLDDLKGT 85 GE L RL +P T FD F +L S + + +K HG VLT+LG +K + Sbjct 9 GEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAE 68 Query 86 FAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTGVASALSSR 145 L++ H K + + + + ++ VL +F + Q + K + ++S Sbjct 69 IKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASN 128 Query 146 Y 146 Y Sbjct 129 Y 129
Homologie sans Similarité Wajcmana et Kiger, 2002
Homologie/analogie • Analogie: relation entre deux caractères qui se sont développés de manière convergente à partir d’ancêtres différents. • Homologie: L'homologie est la relation entre les deux caractères qui sont descendus, le plus souvent avec une divergence, d'un caractère ancestral commun. • Cenancestor: l'ancêtre commun le plus récent des taxons d’intérêt. MRCA (Most Recent Common Ancestor) • Fitch, W. M. (2000). Homology a personal view on some of the problems. Trends Genet 16, 227-31.
Les catégories d’homologies • Orthologie:paire de gènes homologues dont le dernier ancêtre commun a eu lieu immédiatement avant un événement de spéciation • La fonction est souvent conservée au cours de l’évolution des orthologues • A, B et C sont orthologues Spéciations SeqA SeqB SeqC Chat Souris Rat Myoglobines
Les catégories d’homologies • Paralogie: paire de gènes homologues dont le dernier ancêtre commun a eu lieu immédiatement avant un événement de duplication génique • Les fonctions d’un ou de plusieurs paralogues peuvent changer au cours de l’évolution (spécialisation, nouvelle fonction) • B et C sont paralogues • A et C, A et B sont orthologues Spéciation Duplication SeqA SeqB SeqC Insuline Insuline I Insuline II Chat Souris
Les catégories d’homologies • Xénologie: relation entre les deux gènes homologues dont l'histoire, depuis leur ancêtre commun, implique le transfert du matériel génétique interspécifiques (horizontal) Ancêtre de B Ancêtre de A Espèce A Espèce B
Exercise • Définissez le type d’homologie/analogies entre chaque paire des gènes. • P paralogue • O orthologue • X xénologue • A analogue Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal
Exercise • Définissez le type d’homologie/analogie entre chaque paire des gènes. • P paralogue • O orthologue • X xénologue • A analogue Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal
Exercise • Définissez le type d’homologie/analogie entre chaque paire des gènes. • P paralogue • O orthologue • X xénologue • A analogue Orthologues: gènes homologues issus de la spéciation Paralogues: gènes homologues issus d'un phénomène de duplication Xénologue: Gène ayant été acquis par transfert horizontal
Exercise • Orthologiepeutêtreune • relation 1 à N • A1 [orthologue]-> B1 • A1 [orthologue]-> B2 • L’orthologieestréciproque. • A1 <-[orthologue]-> B1 • L’orthologien’est pas transitive • A1 <-[orthologue]-> B1 • A1 <-[orthologue]-> B2 • B1 <-[paralogue]-> B2
Exercise A1 AB1 B1 C1 B2 C2 C3 A, B, C représentent les espèces 2, 3, 3 les copies des gènes Spéciation Duplication
Exercise A1 AB1 B1 C1 B2 C2 C3 A1 C3 C2 B2 C1 AB1 B1 A, B, C représentent les espèces 1, 2, 3 les copies des gènes Les deux arbres sont identiques Spéciation Duplication
Exercise Marquez les spéciations et les duplications sur l’arbre et déterminez le type d’homologie entre Seq1 et Seq2 Seq1 et Seq3 Seq1 et Seq4 Seq2 et Seq3 Seq2 et Seq4 Seq3 et Seq4 Seq1 Seq2 Seq3 Seq4 Espèce A Espèce B
Exercise Marquez les spéciations et les duplications sur l’arbre et déterminez le type d’homologie entre Seq1 et Seq2 paralogues Seq1 et Seq3 orthologues Seq1 et Seq4 orthologues Seq2 et Seq3 orthologues Seq2 et Seq4 orthologues Seq3 et Seq4 paralogues Spéciation Duplications Seq1 Seq2 Seq3 Seq4 Espèce A Espèce B
Exercise Marquez les spéciations et les duplications sur l’arbre et déterminez le type d’homologie entre Seq1 et Seq2 Seq1 et Seq3 Seq1 et Seq4 Seq2 et Seq3 Seq2 et Seq4 Seq3 et Seq4 Seq1 Seq2 Seq3 Seq4 Espèce A Espèce B Espèce A Espèce B
Exercise Marquez les spéciations et les duplications sur l’arbre et déterminez le type d’homologie entre Seq1 et Seq2 orthologues Seq1 et Seq3 paralogues Seq1 et Seq4 paralogues Seq2 et Seq3 paralogues Seq2 et Seq4 paralogues Seq3 et Seq4 orthologues Duplication Spéciations Seq1 Seq2 Seq3 Seq4 Espèce A Espèce B Espèce A Espèce B
Alignement Alignez les séquences suivantes: Seq1 GTTACGA Seq2 GTTGGA
Alignement Seq1 GTTACGA Seq2 GTTGGA Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq1 GTTACGA Seq2 GTTG-GA *** ** Alignement 1 Alignement 2
Alignement des séquences Identification des positions homologues dans les séquences nucléotidique ou protéiques maximiser leurs similarités Alignement de 2 séquences Alignement par paire: Alignement multiple: AACTGCATTGTA AA-TGCAT-GTA AACTCCATTGTA AA-TGAATT-TA ** * ** ** AACTGCATTGTA AA-TGCAT-GTA ** ***** ***
Alignement global et local A2 C2 A’2 B2 A1 B1 A’1 C1 Seq1 Seq2
Alignement global et local A2 C2 A’2 B2 A1 B1 A’1 C1 Seq1 Seq2 Alignement global A1 B1 A’1 C1 Seq1 Seq2 A2 C2 A’2 B2
Alignement global et local A2 C2 A’2 B2 A1 B1 A’1 C1 Seq1 Seq2 Alignement local Alignement global A1 B1 A’1 C1 A1 A2 B1 B2 A’1 A’2 C1 C2 Seq1 A’1 A2 Seq2 A2 C2 A’2 B2 A1 A’2
Matrices des substitutions (matrice des scores) Score: valeur numérique de chaque événement Score de substitution (Y): 0 Score d’identité (X): 1 Pénalité de gap : -1
Matrices des substitutions Pénalité de gap : -1 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq1 GTTACGA Seq2 GTTG-GA *** ** Calculez les scores !
Matrices des substitutions Pénalité de gap : -1 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq1 GTTACGA Seq2 GTTG-GA *** ** Score: 5 -1 = 4 Score: 5 -1 = 4
Matrices des substitutions Pénalité de gap : -10 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq1 GTTACGA Seq2 GTTG-GA *** ** Calculez les scores !
Matrices des substitutions Le valeur de score de l’alignement dépend de matrice de score utilisé Pénalité de gap : -10 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq1 GTTACGA Seq2 GTTG-GA *** ** Score: (5 x 5) – (1 x 4) –(1 x 10) = 11 Score: (5 x 5) – (1 x 4) –(1 x 10) = 11
Matrices des substitutions Pénalité de gap : -10 Seq1 GTTACGAGTTACGA Seq2 GTT-GGAGTT-GGA *** ***** ** Seq1 GTTACGA Seq2 GTT-GGA *** ** Calculez les scores et les identités !
Matrices des substitutions Le valeur de score de l’alignement dépend de longueur de l’alignement Pénalité de gap : -10 Seq1 GTTACGAGTTACGA Seq2 GTT-GGAGTT-GGA *** ***** ** Seq1 GTTACGA Seq2 GTT-GGA *** ** Score: (10 x 5) – (2 x 4) –(2 x 10) = 22 Identité : 5/7 Score: (5 x 5) – (1 x 4) –(1 x 10) = 11 Identité : 5/7
Matrices des substitutions Le score de l’alignement dépend • Des matrices de substitutions => impossible de comparer des alignements faits avec des matrices différentes • Longueur de l’alignement Les scores servent à optimiser un alignement, une matrice de scores et une pénalité des gaps donnés
Modèle d’évolutionKimura à deux paramètres A G C T Modèle d’évolution: intégration des paramètres venant des observations biologiques Transition (Y) Transversion (Z) Score d’identité (X): 1 Score de transition (Y): 0,5 Score de transversion (Z) : 0 Pénalité de gap : -1 Purines Pyrimidines
Modèle d’évolution; Kimura à deux paramètres A G C T Pénalité de gap : -1 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq1 GTTACGA Seq2 GTTG-GA *** ** Calculez les scores !
Modèle d’évolution A G C T Pénalité de gap : -1 Seq1 GTTACGA Seq2 GTT-GGA *** ** Seq1 GTTACGA Seq2 GTTG-GA *** ** Score: 5 - 1+ 0 = 4 Score: 5 - 1+ 0,5 = 4,5
Pénalité des indels Alignez les séquences suivantes et calculez les scores: Seq1 GTTGAGGCGTGGAAA Seq2 GTTGCGTGGAAA Pénalité de gap : -1
Pénalité des indels Alignement 1 (12 x 1) – (3 x 1) = 9 Seq1 GTTGAGGCGTGGAAA Seq2 GTT---GCGTGGAAA *** ********* Seq1 GTTGAGGCGTGGAAA Seq2 GTT--G-CGTGGAAA *** * ******** Seq1 GTTGAGGCGTGGAAA Seq2 GTTG---CGTGGAAA **** ******** Alignement 2 (12 x 1) – (3 x 1) = 9 Alignement 3 (12 x 1) – (3 x 1) = 9 Pénalité de gap : -1