1 / 38

Classification naturelle = phylogénie

Classification naturelle = phylogénie. Quelques définitions. Arbre = réseau connexe non cyclique. noeud. branche. Réseau connexe non cyclique. Réseau connexe cyclique. Réseau non connexe non cyclique. Plusieurs graphismes pour les phylogénies. A. B. C. A. B. C. D. D. B. A. A. D.

raoul
Download Presentation

Classification naturelle = phylogénie

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Classification naturelle = phylogénie

  2. Quelques définitions Arbre = réseau connexe non cyclique noeud branche Réseau connexe non cyclique Réseau connexe cyclique Réseau non connexe non cyclique

  3. Plusieurs graphismes pour les phylogénies A B C A B C D D B A A D B C C D A A B B C C D D

  4. ARBRE NON RACINÉ etARBRE RACINÉ 1 4 Oiseaux Placentaires Monotrèmes Marsupiaux 5 3 2 Oiseaux Monotrèmes Monotrèmes Monotrèmes Oiseaux Oiseaux Marsupiaux Marsupiaux Marsupiaux 1 2 5 Placentaires Placentaires Placentaires Marsupiaux Placentaires Placentaires Marsupiaux Monotrèmes Monotrèmes 3 4 Oiseaux Oiseaux

  5. Racine et groupe extérieur 1 Oiseaux Placentaires Monotrèmes Marsupiaux Oiseaux Monotrèmes Marsupiaux 1 Placentaires Un groupe extérieur (outgroup) est presque toujours utilisé pour raciner les phylogénies moléculaires

  6. 1 1 AAAAAAAAAAC CAAAAAAAAAA 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAAAAAAUGC AAAAGGCUAAC Espèce 4 Espèce 3 Espèce 2 Espèce 1 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA------UGC Espèce 4 AA--GGCU--C Espèce 1 CUAAAAAAAAA Espèce 2 CAGGAAAAAAA Espèce 3 AAAAAAAAUGC Espèce 4 AAAAGGCUAAC Cas idéal AAAAAAAAAAA

  7. D D D A A A C B B E D C B D C D 4 espèces : 3 * 1 arbres E A C 5 espèces : 5 * 3 * 1 arbres 7 (2*6-5) branches B D E 6 espèces : 7 * 5 * 3 * 1 arbres Combien existe-t-il d’arbres ? A 3 espèces : 1 arbre B C Avec n espèces, il y a (2n – 5)(2n – 7)…(5)(3)(1) arbres non racinés

  8. Le nombre d’arbres possibles Augmentation exponentielle du nombre d’arbres possibles : problème NP-complet (Non-Polynomial)

  9. 1 1 AAAAAAAAAAC CAAAAAAAAAA 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAAAAAAUGC AAAAGGCUAAC Espèce 4 Espèce 3 Espèce 2 Espèce 1 Espèce 1 CUAAAAAAAAA Espèce 2 CAGGAAAAAAA Espèce 3 AAAAAAAAUGC Espèce 4 AAAAGGCUAAC Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA------UGC Espèce 4 AA--GGCU--C Arbre #1 Arbre #2 Arbre #3 1 3 1 2 1 2 2 4 3 4 4 3 Cas idéal AAAAAAAAAAA

  10. Site 1 1 A A3 1 A U2 1 A U2 1 changement A A A A A A 2 U A4 3 A A4 4 A A3 2 changements 1 C A3 1 C C 2 1 C C 2 C A A A A A 2 C A 4 3 A A 4 4 A A 3 2 changements L’information phylogénétique Site 2 Arbre #1 1 changement Arbre #2 1 changement Arbre #3 1 changement Site informatif : un site avec au moins deux nucléotides différents (états de caractère) présents au moins deux fois

  11. Parcimonie maximale Choisir l’arbre nécessitant le plus petit nombre de substitutions (changements) Principe du “rasoir d’Occam” : la meilleure explication des données est la plus simple, celle qui nécessite le plus petit nombre d’hypothèses ad hoc Le nombre total de changements évolutifs sur une phylogénie (longueur de l’arbre) is simplement la somme du nombre de changements à chaque site Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA------UGC Espèce 4 AA--GGCU--C Arbre #1 : L=1+1+1+1+1+1+1+1+1+1+1=11

  12. Cas idéal AAAAAAAAAAA 1 1 AAAAAAAAAAC CAAAAAAAAAA 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAAAAAAUGC AAAAGGCUAAC Espèce 4 Espèce 3 Espèce 2 Espèce 1 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA------UGC Espèce 4 AA--GGCU--C Sites informatifs Arbre #1 Arbre #2 Arbre #3 1 3 1 2 1 2 2 4 3 4 4 3 L=11 L=13 L=13

  13. Un peu de vocabulaire AAAAAAAAAAA 1 1 AAAAAAAAAAC CAAAAAAAAAA 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAAAAAAUGC AAAAGGCUAAC Espèce 4 Espèce 3 Espèce 2 Espèce 1 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA------UGC Espèce 4 AA--GGCU--C Synapomorphie : Caractéristique nouvelle et distinctive partagée par un groupe d'organismes (C à la position 1) Symplésiomorphie : similitude due au partage d’un état ancestral de caractère (A à la position 1) Autapomorphie : état dérivé non partagé (U à la position 2)

  14. AAAAAAAAAAA 1 1 AAAAAAAAAAC CAAAAAAAAAA 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAAAAAAAGU AAAAGGCUAAC Espèce 4 Espèce 3 Espèce 2 Espèce 1 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA-------GU Espèce 4 AA--GGCU--C Une substitution multiple

  15. Trop d’information tue l’information Site 2 1 A U 3 A A Arbre #1 2 A C 4 2 changements 1 A A 2 A A Arbre #2 3 U C 4 2 changements 1 A A 2 A A Arbre #3 4 C U 3 2 changements Les symplésiomorphies ne sont pas informatives (groupe paraphylétique)

  16. AAAAAAAAAAA 1 1 AAAAAAAAAAC CAAAAAAAAAA 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAAAAAAAGU AAAAGGCUAAC Espèce 4 Espèce 3 Espèce 2 Espèce 1 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA-------GU Espèce 4 AA--GGCU--C Une substitution multiple Arbre #1 Arbre #2 Arbre #3 1 3 1 2 1 2 2 4 3 4 4 3 L=11 L=12 L=12

  17. AAAAAAAAAAA 1 1 AAAAAAAAAAC CAAAAAAAAAA 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAGAAAAAGC AAAAGGCUAAC Espèce 4 Espèce 3 Espèce 2 Espèce 1 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA-G-----GC Espèce 4 AA--GGCU--C Une substitution multiple : une convergence Arbre #1 Arbre #2 Arbre #3 1 3 1 2 1 2 2 4 3 4 4 3 L=13 L=12 L=11 2+1+1+1+1+1+1+1+0+1+2 1+1+1+2+1+1+1+1+0+1+1

  18. AAAAAAAAAAA 1 1 AAAAAAAAAAC CAAAAAAAAAA 1 2 2 4 CUAAAAAAAAA CAGGAAAAAAA AAAGAAAAAAA AAAAGGCUAAC Espèce 4 Espèce 3 Espèce 2 Espèce 1 Espèce 1 CUAAAAAAAAA Espèce 2 -AGG------- Espèce 3 AA-G------- Espèce 4 AA--GGCU--C Deux substitutions multiples : convergence et réversion Arbre 1 Arbre 2 Arbre 3 1 3 1 2 1 2 2 4 3 4 4 3 L=11 L=10 L=10

  19. AAAAAAAAAAA 1 1 AAAAAAAAAAC CAAAAAAAAAA 1 2 2 4 CUAAAAAAAAA GAAGAAAAAAA AAAGAAAAAAA AAAAGGCUAAC Espèce 4 Espèce 3 Espèce 2 Espèce 1 Espèce 1 CUAAAAAAAAA Espèce 2 GA-G------- Espèce 3 AA-G------- Espèce 4 AA--GGCU--C Trois substitutions multiples Arbre 1 Arbre 2 Arbre 3 1 3 1 2 1 2 2 4 3 4 4 3 L=10 L=9 L=10

  20. Vrai nombre de substitutions : 11 Arbre 1 Arbre 2 Arbre 3 1 3 1 2 1 2 2 4 3 4 4 3 L=10 L=9 L=10 Les substitutions multiples impliquent une sous-estimation de la longueur de l’arbre Homoplasie homoplasie : toute caractéristique présente chez deux espèces (ou plus) qui n'est pas présente chez leur ancêtre commun immédiat.

  21. CA C C CA CT CT TA TC Mesure de l’homoplasie Indice de Cohérence IC (Consistency Index, Kluge & Farris, 1969) Pour un site, IC = m/s m : nombre minimum de changements (= nombre d’états de caractères – 1) s : nombre de changements observés dans l’arbre le plus parcimonieux 1 A 2 C 3 C 4 C 5 A 6 T 7 T 8 T 9 C 9 C 2 C 3 C 4 C 6 T 7 T 8 T 1 A 5 A m = 2 s = 4 IC = 0.5

  22. Mesure de l’homoplasie Indice de Cohérence IC (Consistency Index, Kluge & Farris, 1969) Pour un arbre, IC = M/S M : nombre minimum de changements pour tous les sites S : nombre total de changements dans l’arbre le plus parcimonieux Pour un site non informatif, m = s donc IC = 1 Indice de Cohérence excluant les sites non informatifs ICi ICi = Mi/Si Mi : nombre minimum de changements pour tous les sites informatifs Si : nombre total de changements dans l’arbre le plus parcimonieux pour les sites informatifs

  23. C C C C G G G G A A A A A A A A C C C C {C,G} {A,C,G} {A} {A} {C,G} {C,G} {A,C} {A,C} {C,G} {A,C} C G A A C Algorithme récursif de Fitch 1) Passage de bas en haut : x et y les fils du noeud n et X, Y, N les ensembles de nucléotides correpondant à ces noeuds Une substitution pour chaque union

  24. G A C A A A C G C A A A C C C G G G A A A A A A C C C Algorithme récursif de Fitch 2) Passage de haut en bas : • Choix arbitraire d’un nucléotide à la racine • On assigne au fils x du noeud n : • a X si a N • n’importe quel nucléotide de X sinon

  25. Heuristiques de recherche de topologies Agglomération progressive des espèces • Insertion sur toutes les branches • Calcul du nombre de changements • Choix de l’arbre le plus parcimonieux Nombre d’opérations : 3+5+7=15 (pour 105 arbres possibles) Pour 10 espèces : 63 versus 2 millions

  26. D A E C F B C D D A F B E C C D D A F B E C B E C D D A F B E C A F B E Ordre d’agglomération des espèces • Ajouter les espèces de manière aléatoire • Répéter l’opération un grand nombre de fois • Choisir l’arbre le plus parcimonieux

  27. X X X Z Z Y W W Y Z W Y 2(n-3) possibilités Subtree Pruning and Regrafting (SPR) 3 4 3 4 1 5 1 5 6 2 6 2 3 4 3 4 1 5 1 5 6 2 6 2 4(n-3)(n-2) possibilités Algorithme de réarrangements Réarrangementlocal ou Nearest Neighbor Interchange (NNI)

  28. 3 3 3 3 4 4 4 4 1 1 1 1 5 5 5 5 6 6 6 6 2 2 2 2 • Une branche est coupée 3 4 1 5 • Toutes les reconnexions • possibles sont testées 6 2 Etc. Algorithme de réarrangements Tree Bisection and Reconnection (TBR) (2n1-3)(2n2-2) possibilités/coupure

  29. Algorithme exact du branch and bound Hendy et Penny (1982) Mathematical Biosciences, 60:133-142, 1982

  30. Utilisation de contraintes a priori G2 G4 G3 G1 G5 G11 G9 G10 G8 G6 11 espèces : 24 106 45 espèces : 5 1064 G7

  31. Maximum de parcimonie Deux étapes de minimisation : • Pour un arbre donné, minimisation du nombre de changements nécessaires pour expliquer l’alignement • Choix parmi tous les arbres possibles de celui ayant le plus petit nombre de changements

  32. Robustesse des phylogénies : le test du bootstrap • Tirage avec remise de n positions parmi n positions • Construire l’arbre phylogénétique • Répéter 1) et 2) un grand nombre de fois (1000) • Analyser tous les arbres obtenus (en particulier via un arbre consensus)

  33. C D D B D C A A A E E E F F F B C B C D A E 93% 52% 100% F B L’arbre de consensus majoritaire Etc. • On calcule la fréquence d’apparition des différents groupements d’espèces • E et F : 100% • D, E et F : 93% • A et B : 52% • A et C : 48% • C, E et F : 7% • Construire l’arbre consensus

  34. Robustesse des phylogénies : le test du bootstrap Le tirage avec remise de positions, en respectant l’effectif original, revient à conférer un poids aléatoire aux positions Par exemple : 2 1 0 3 0 2 1 1 1 3 0 4 0 0 1 2 2 1 1 3 0 1 0 1 3 2 0 0 (à chaque tirage, un tiers des positions ne sont pas considérés) Le but du bootstrap est de “rejouer” l’évolution des sites. Il estime la robustesse d’un noeud pour un jeu de données et d’après une méthode de reconstruction • Problèmes • Très couteux en temps calcul • Seuil de significativité (70%, 95%)

  35. A A B C C B Si A est un groupe extérieur éloigné D D Attraction des longues branches A C A C q q p<q2 p B D B D Felsenstein, 1978

  36. Inconsistence de l’inférence phylogénétique Une méthode de reconstruction phylogénétique est dite inconsistente si elle converge vers un résultat faux quand il y a de plus en plus de données ATTENTION : un très bon support statistique (par ex. 100% de bootstrap) ne garantit pas que le noeud inféré est correct

  37. A C 0 10-2 10-2 10-6 B D Attraction des longues branches • (1-10-2) * (1-10-2) * (1-10-6) * (1-10-6) * (1-10-6) ≈ 0.98 • 10-2 * (1-10-2) * (1-10-6) * (1-10-6)* (1-10-6)≈10-2 • etc. ~10-6 ~10-4 ~2*10-8

  38. C C A C C A A A C A A A A A Echantillonnage taxonomique Ajouter des espèces à l’analyse permet de mieux détecter les substitutions multiples Ajouter des espèces peut “casser les longues branches” et ainsi éviter l’artefact d’attraction des longues branches (Hendy et Penny, 1989)

More Related