410 likes | 485 Views
Classification naturelle = phylogénie. Comment comparer ?. 1- Aile de chauve-souris 2- Bras humain 3- Bras d’alligator 4- Aile de puffin cendré. Principe des connexions Geoffroy Saint-Hilaire (1818) Philosophie anatomique. Quelques définitions. Arbre = réseau connexe non cyclique. noeud.
E N D
Comment comparer ? 1- Aile de chauve-souris 2- Bras humain 3- Bras d’alligator 4- Aile de puffin cendré Principe des connexions Geoffroy Saint-Hilaire (1818) Philosophie anatomique
Quelques définitions Arbre = réseau connexe non cyclique noeud branche Réseau connexe non cyclique Réseau connexe cyclique Réseau non connexe non cyclique
Plusieurs graphismes pour les phylogénies A B C A B C D D B A A D B C C D A A B B C C D D
ARBRE NON RACINÉ etARBRE RACINÉ 1 4 Oiseaux Placentaires Monotrèmes Marsupiaux 5 3 2 Oiseaux Monotrèmes Monotrèmes Monotrèmes Oiseaux Oiseaux Marsupiaux Marsupiaux Marsupiaux 1 2 5 Placentaires Placentaires Placentaires Marsupiaux Placentaires Placentaires Marsupiaux Monotrèmes Monotrèmes 3 4 Oiseaux Oiseaux
Racine et groupe extérieur 1 Oiseaux Placentaires Monotrèmes Marsupiaux Oiseaux Monotrèmes Marsupiaux 1 Placentaires Un groupe extérieur (outgroup) est presque toujours utilisé pour raciner les phylogénies moléculaires
Lézards Crocodiles Dinosaures Oiseaux Quelques exercices • D’après l’arbre ci-dessus, quelle expression décrit correctement les relations de parenté ? • Un crocodile est plus proche parent d’un lézard que d’un oiseau • Un crocodile est plus proche parent d’un oiseau que d’un lézard • Un crocodile est aussi proche parent d’un oiseau que d’un lézard • Un crocodile est proche parent d’un lézard, mais n’est pas proche parent d’un oiseau
Quelques exercices Phoque Cheval Girafe Hippopotame Baleine • D’après l’arbre ci-dessus, quelle expression décrit correctement les relations de parenté ? • Un phoque est plus proche parent d’un cheval que d’une baleine • Un phoque est plus proche parent d’une baleine que d’un cheval • Un phoque est aussi proche parent d’un cheval que d’une baleine • Un phoque est proche parent d’une baleine, mais n’est pas proche parent d’un cheval
Giardia Giardia Volvox Fougère Maïs Pin Homme E. coli Volvox Levure Homme E. coli Homme Levure Volvox Pin E. coli Pin Maïs Levure Quelques exercices Volvox Pin Maïs Fougère Levure Homme E. coli Giardia Lequel(s) des arbres ci-dessous est faux, sachant que l’arbre ci-dessus est vrai ? 3 4 1 2
Quelques exercices Lequel des quatre arbres ci-dessus décrit des relations de parenté différentes ?
Quelques exercices Lepidodendron Mousse Chêne If Psilotum Fougère Perte des feuilles Arbre Arbre Graine Vraies feuilles Dans l’arbre ci-dessus, on suppose que l’ancêtre était une herbe (et non un arbre) sans feuilles ni graines. D’après cet arbre et en supposant que tous les changements de ces caractères sont indiqués, laquelle des espèces actuelles est un arbre dépourvu de vraies feuilles ? 1) Lepidodendron 2) Mousse 3) Chêne 4) Psilotum 5) Fougère
Savoir lire et interpréter un arbre Pour en savoir plus, et avoir plus d’exercices : www.tree-thinking.org
Relation d’ancêtres à descendants «Poissons» Amphibiens «Reptiles» «Singes» Homme L’Homme et le Chimpanzé sont des “Singes”
Relation d’ancêtres à descendants ? ? ? ? «Reptiles» «Poissons» Amphibiens «Singes» Homme
1 1 AAAAAAAAAAC CAAAAAAAAAA 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAAAAAAUGC AAAAGGCUAAC Espèce 4 Espèce 3 Espèce 2 Espèce 1 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA------UGC Espèce 4 AA--GGCU--C Espèce 1 CUAAAAAAAAA Espèce 2 CAGGAAAAAAA Espèce 3 AAAAAAAAUGC Espèce 4 AAAAGGCUAAC Cas idéal AAAAAAAAAAA Espèce 4 AAAAGGCUAAC Espèce 1 CU--AAAA--A Espèce 2 C-GGAAAA--A Espèce 3 ----AAAAUGC
D D D A A A C B B E D C B D C D 4 espèces : 3 * 1 arbres E A C 5 espèces : 5 * 3 * 1 arbres 7 (2*6-5) branches B D E 6 espèces : 7 * 5 * 3 * 1 arbres Combien existe-t-il d’arbres ? A 3 espèces : 1 arbre B C Avec n espèces, il y a (2n – 5)(2n – 7)…(5)(3)(1) arbres non racinés
Le nombre d’arbres possibles Augmentation exponentielle du nombre d’arbres possibles : problème NP-complet (Non-Polynomial)
1 1 AAAAAAAAAAC CAAAAAAAAAA 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAAAAAAUGC AAAAGGCUAAC Espèce 4 Espèce 3 Espèce 2 Espèce 1 Espèce 1 CUAAAAAAAAA Espèce 2 CAGGAAAAAAA Espèce 3 AAAAAAAAUGC Espèce 4 AAAAGGCUAAC Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA------UGC Espèce 4 AA--GGCU--C Arbre #1 Arbre #2 Arbre #3 1 3 1 2 1 2 2 4 3 4 4 3 Cas idéal AAAAAAAAAAA
Site 1 1 A A3 1 A U2 1 A U2 1 changement A A A A A A 2 U A4 3 A A4 4 A A3 2 changements 1 C A3 1 C C 2 1 C C 2 C A A A A A 2 C A 4 3 A A 4 4 A A 3 2 changements L’information phylogénétique Site 2 Arbre #1 1 changement Arbre #2 1 changement Arbre #3 1 changement Site informatif : un site avec au moins deux nucléotides différents (états de caractère) présents au moins deux fois
Parcimonie maximale Choisir l’arbre nécessitant le plus petit nombre de substitutions (changements) Principe du “rasoir d’Occam” : la meilleure explication des données est la plus simple, celle qui nécessite le plus petit nombre d’hypothèses ad hoc Le nombre total de changements évolutifs sur une phylogénie (longueur de l’arbre) is simplement la somme du nombre de changements à chaque site Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA------UGC Espèce 4 AA--GGCU--C Arbre #1 : L=1+1+1+1+1+1+1+1+1+1+1=11
Cas idéal AAAAAAAAAAA 1 1 AAAAAAAAAAC CAAAAAAAAAA 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAAAAAAUGC AAAAGGCUAAC Espèce 4 Espèce 3 Espèce 2 Espèce 1 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA------UGC Espèce 4 AA--GGCU--C Sites informatifs Arbre #1 Arbre #2 Arbre #3 1 3 1 2 1 2 2 4 3 4 4 3 L=11 L=13 L=13
Maximum de parcimonie Deux étapes de minimisation : • Pour un arbre donné, minimisation du nombre de changements nécessaires pour expliquer l’alignement • Choix parmi tous les arbres possibles de celui ayant le plus petit nombre de changements
AAAAAAAAAAA 1 1 AAAAAAAAAAC CAAAAAAAAAA 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAAAAAAAGU AAAAGGCUAAC Espèce 4 Espèce 3 Espèce 2 Espèce 1 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA-------GU Espèce 4 AA--GGCU--C Une substitution multiple
Trop d’information tue l’information Site 2 1 A U 3 A A Arbre #1 2 A C 4 2 changements 1 A A 2 A A Arbre #2 3 U C 4 2 changements 1 A A 2 A A Arbre #3 4 C U 3 2 changements
AAAAAAAAAAA 1 1 AAAAAAAAAAC CAAAAAAAAAA 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAAAAAAAGU AAAAGGCUAAC Espèce 4 Espèce 3 Espèce 2 Espèce 1 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA-------GU Espèce 4 AA--GGCU--C Une substitution multiple Arbre #1 Arbre #2 Arbre #3 1 3 1 2 1 2 2 4 3 4 4 3 L=11 L=12 L=12
AAAAAAAAAAA 1 1 AAAAAAAAAAC CAAAAAAAAAA 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAGAAAAAGC AAAAGGCUAAC Espèce 4 Espèce 3 Espèce 2 Espèce 1 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA-G-----GC Espèce 4 AA--GGCU--C Une substitution multiple : une convergence Arbre #1 Arbre #2 Arbre #3 1 3 1 2 1 2 2 4 3 4 4 3 L=13 L=12 L=11 2+1+1+1+1+1+1+1+0+1+2 1+1+1+2+1+1+1+1+0+1+1
AAAAAAAAAAA 1 1 AAAAAAAAAAC CAAAAAAAAAA 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAGAAAAAAA AAAAGGCUAAC Espèce 4 Espèce 3 Espèce 2 Espèce 1 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA-G------- Espèce 4 AA--GGCU--C Deux substitutions multiples : convergence et réversion Arbre 1 Arbre 2 Arbre 3 1 3 1 2 1 2 2 4 3 4 4 3 L=11 L=10 L=10
AAAAAAAAAAA 1 1 AAAAAAAAAAC CAAAAAAAAAA 1 2 2 4 CUAAAAAAAAA GAAGAAAAAAA AAAGAAAAAAA AAAAGGCUAAC Espèce 4 Espèce 3 Espèce 2 Espèce 1 Espèce 1 CUAAAAAAAAA Espèce 2 GA-G------- Espèce 3 AA-G------- Espèce 4 AA--GGCU--C Trois substitutions multiples Arbre 1 Arbre 2 Arbre 3 1 3 1 2 1 2 2 4 3 4 4 3 L=10 L=9 L=10
Vrai nombre de substitutions : 11 Arbre 1 Arbre 2 Arbre 3 1 3 1 2 1 2 2 4 3 4 4 3 L=10 L=9 L=10 Les substitutions multiples impliquent une sous-estimation de la longueur de l’arbre Homoplasie homoplasie : toute caractéristique présente chez deux espèces (ou plus) qui n'est pas présente chez leur ancêtre commun immédiat.
C C C C G G G G A A A A A A A A C C C C {C,G} {A,C,G} {A} {A} {C,G} {C,G} {A,C} {A,C} {C,G} {A,C} C G A A C Algorithme récursif de Fitch 1) Passage de bas en haut : x et y les fils du noeud n et X, Y, N les ensembles de nucléotides correpondant à ces noeuds Une substitution pour chaque union
{A,C,G} G A C {A} A A A C C G {C,G} A A A {A,C} C C C C G G G G A A A A A A A A C C C C Algorithme récursif de Fitch 2) Passage de haut en bas : • Choix arbitraire d’un nucléotide à la racine • On assigne au fils x du noeud n : • a X si a N • n’importe quel nucléotide de X sinon
Heuristiques de recherche de topologies Agglomération progressive des espèces • Insertion sur toutes les branches • Calcul du nombre de changements • Choix de l’arbre le plus parcimonieux Nombre d’opérations : 3+5+7=15 (pour 105 arbres possibles) Pour 10 espèces : 63 versus 2 millions
D A E C F B C D D A F B E C C D D A F B E C B E C D D A F B E C A F B E Ordre d’agglomération des espèces • Ajouter les espèces de manière aléatoire • Répéter l’opération un grand nombre de fois • Choisir l’arbre le plus parcimonieux
X X X Z Z Y W W Y Z W Y 2(n-3) possibilités Subtree Pruning and Regrafting (SPR) 3 4 3 4 1 5 1 5 6 2 6 2 3 4 3 4 1 5 1 5 6 2 6 2 4(n-3)(n-2) possibilités Algorithme de réarrangements Réarrangementlocal ou Nearest Neighbor Interchange (NNI)
3 3 3 3 4 4 4 4 1 1 1 1 5 5 5 5 6 6 6 6 2 2 2 2 • Une branche est coupée 3 4 1 5 • Toutes les reconnexions • possibles sont testées 6 2 Etc. Algorithme de réarrangements Tree Bisection and Reconnection (TBR) (2n1-3)(2n2-2) possibilités/coupure
Utilisation de contraintes a priori G2 G4 G3 G1 G5 G11 G9 G10 G8 G6 11 espèces : 24 106 45 espèces : 5 1064 G7
Maximum de parcimonie Deux étapes de minimisation : • Pour un arbre donné, minimisation du nombre de changements nécessaires pour expliquer l’alignement • Choix parmi tous les arbres possibles de celui ayant le plus petit nombre de changements
A->* E3 TT*CTT E1 TTACTT E2 TTA*TT E2 TTA*TT C->* C->* AC AC E1 TTACTT A->* E3 TT*CTT E4 TTACTT E4 TTACTT E3 TT*CTT A->* E1 TTACTT E2 TT*ATT C->A AC E1 TTACTT A->* E2 TT*ATT C->A AC E4 TTACTT E3 TT*CTT A->* E4 TTACTT TOPOLOGIE 1 TOPOLOGIE 2 Coût = 10 Coût = 10 Coût = 11 Coût = 6 Coût : GAP = 5 SUBSTITUTION = 1
1 C 3 C 1 C 3 C 2 A 4 A 2 A 4 A Principes des approches probabilistes A C A C A C 2 changements 1 changement Quelle est la probabilité d’observer une colonne de l’alignement ? 1 C 2 A 3 C 4 A