1 / 38

Plan

Plan. Concepts de base Principes Distances Similitude et distances Distances évaluées et observées Modèles Tests Procédures UPGMA NJ. L’évolution est-elle parcimonieuse?. Lg moyenne avec les autres données. Lg des arbres avec la b -globine. Vache. Cheval. Mouton. Cochon.

Download Presentation

Plan

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Plan • Concepts de base • Principes • Distances • Similitude et distances • Distances évaluées et observées • Modèles • Tests • Procédures • UPGMA • NJ

  2. L’évolution est-elle parcimonieuse? Lg moyenne avec les autres données Lg des arbres avec la b-globine

  3. Vache Cheval Mouton Cochon Cochon Cheval Kangourou Mouton Kangourou Vache Souris Singe Singe Lapin Homme Lapin Homme Chimpanzée Chien Chimpanzée Chien Souris Arbre obtenu à partir des  globines Arbre obtenu à partir des  globines Différences symétriques entre les arbres Arbres obtenus pour  et  globines

  4. Taxonomie numérique • Relations de distance et non généalogiques • Information maximum • Tous les caractères ont le même poids • Différence mesurée entre paires de taxa, c’est une mesure globale • Le phénogramme résume les relations taxinomiques • La distance reflète le sens et la vitesse de l’évolution • Des hypothèses supplémentaires permettent des inférences phylogénétiques

  5. Indice de concordance simple de Sokal et Michener (1958) Indice de similitude de Jaccard (1908);cas des RFLP par ex. Plus deux séquences se ressemblent plus elles sont proches. Distance et similitude

  6. si i<>j (positivité) si i=j (la distance de l’UE à elle même est nulle) (commutativité) k avec djk=dik k i i j 2 1 j Distances métriques et ultramétriques Distances métriques 1(Propriété de l’inégalité triangulaire ) Distances ultramétriques (donc les 2 plus grandes distances sont égales 2) Distances additives

  7. ou changement État ancestral B État ancestral A A B État actuel Taxon 1 A État actuel Taxon 1 A A A A A État actuel Taxon 2 A État actuel Taxon 2 A A A A A ou A B ou Correction de distances: le problème(0) On observe le même état de caractère sur deux taxons actuels.Cela peut résulter de différents événements. etc.… etc.…

  8. Ancêtre k États de i et j État de l’ancêtre k : A, Pb f État de l’ancêtre k : B, Pb 1-f Probabilité de l’observation i j pour chaque position Correction de distances (1) Avec K= nb de sites observés • 2 éléments influent sur l’état actuel observé • État A ou B de l’ancêtre commun : A Pb=f, B pb=1-f • Probabilité p de changement visible entre l’ancêtre et l’actuel A et A f*(1-)2 (1-f)* 2 f*(1-)2+(1-f)* 2 B et B (f)* 2 (1-f)*(1-)2 (1-f)*(1-)2+(f)* 2 A et B f*(1-)*  (1-f)*(1-)*  (1-)*  B et A (1-f)*(1-)*  f*(1-)*  (1-)* 

  9. La distribution des changements suit une loi de Poisson: avec r=nb de changements sur une branche n=moyenne de changements par branche • Les changements sont rares et leur moyenne aussi • La moyenne des changement est constante • La moyenne des changements le long d’une branche est fonction du temps écoulé le long de cette branche. • Si t=temps écoulé le long d’une branche • m=nb de changements par u de temps n=mt et Correction de distance (2):Hypothèses

  10. p = + + + + P P P P L 1 3 5 7 æ ö mt r ¥ å p = ç ÷ e - mt r ! è ø , , 1 r impair - x x x e e - 1 3 5 x x × × × + + + = or on sait que : L 1 ! 3 ! 5 ! 2 - - æ ö e e e e - - 0 2 mt mt mt p = = ç ÷ e - mt è 2 ø 2 Correction de distance (3) Quand verra-t-on une différence entre l’ancêtre et le taxon actuel (évaluation de p)? Si le nombre réel de changements est impair: r = 1,3,5,7,…

  11. - - æ ö æ ö 1 e 1 e - - 2 mt 2 mt = p - p = * * - ç ÷ ç ÷ D 2 ( 1 ) 2 1 obs 2 2 è ø è ø + æ ö 1 e - 1 2 mt ( ) ( ) = - * = - ç ÷ D 1 e - 1 e - 2 mt 4 mt obs 2 2 è ø 1 ( ) = - D 1 e - 4 mt obs 2 = - e - 1 2 D 4 mt obs ( ) - = - 4 mt Log 1 2 D obs 1 ( ) = = - - 2 mt D Log 1 2 D est obs 2 Correction de distance (4) Quand verra-t-on une différence entre les deux taxa actuels? Comment exprimer la distance réelle (ou une estimation)? Comment à partir de la distance observée déduire la distance réelle estimée?

  12. A et G Purines C et T Pyrimidines Séquences nucléotidiques AG   CT  Il y a 12 possibilités de changements :  transition  transversion 4 transitions possibles et 8 transversions possibles.

  13. Correction de distance (5) Dans le calcul précédent on n’a tenu compte que de deux états de caractère. Pour l’ADN il y en a 4 ce qui complique le calcul. Avec A=C=G=T et tous les changements équiprobables (JC), la correction devient Avec A=C=G=T et les transitions équiprobables, les transversions également, mais la fréquence transition différente de transversion (K2p), la correction devient

  14. Modèle A/G/C/T Pb SI Pb Ve Jukes et Cantor A=G=C=T=25%   Kimura 2p A=G=C=T=25%   Tamura 3p A+T=1-, G+C=   Tajima et Nei 1p AGCT   Hasegawa HKY85 2p AGCT   Tamura et Nei 3p AGCT 1(Pyr) et 2(Pur)  Modèle à 8 p AGCT 1, 2, 3 et 4 1, 2, 3 et 4 Correction de distance: les modèles

  15. qui a pour variance Tests statistiques des modèles (1)Test de l’invariant unique  Sous le modèle de JC les paires AG et TC (transitions=P) sont 2 fois moins observables que les autres (transversions=Q). On attend donc : 2P-Q=0. On va donc estimer l’écart de JC à sa valeur théorique 0 avec Et on compare • représente le degré de signification souhaité et z la valeur seuil au-delà de laquelle la courbe de la probabilité a la surface /2.

  16. Tests statistiques des modèles (2)Test de stationnarité • Dans les modèles • Tamura, • Tajima, • HKY85 • à 8 paramètres, • à l’équilibre la probabilité g du nucléotide x dans la séquence 1,2, … ou m est la même :. C’est ce que l’on va tester.

  17. Tests statistiques des modèles (3) Test des invariants multiples Si la condition de stationnarité est satisfaite, quel est le modèle le plus simple qui rende compte des données? Il y a 10 couples de changements possibles (les changements réciproques étant de même probabilité) : AA, AT, AC, AG, TT, TC, TG, CC, CG, GG avec Pour chaque modèle il est possible pour Xid’écrire une équation de la forme ou s indique le sème nucléotide, a et b les paramètres de chaque modèle Le modèle de Kimura revient alors à et tous les autres a et b sont nuls soit

  18. Rat Lapin UPGMA 1 1 1

  19. Tetrahymena Ginkgo Epinard Sureau Poireau Mouche Bonite Cheval Tetrahymena 0 Ginkgo 68 0 Epinard 72 19 0 Sureau 66 15 17 0 Poireau 61 15 12 9 0 Mouche 69 44 46 50 42 0 Bonite 68 45 48 51 42 23 0 Cheval 68 43 48 50 42 22 18 0 Rat 1 Lapin 1 Cheval UPGMA 2 L+R L+R 68,5 39,5 44,5 47,5 39,5 20,5 16,5 0 6 2 3

  20. 2 Rat 1 4,5 Lapin Sureau 1 3 Cheval 4,5 Poireau UPGMA 3

  21. Sureau 4,5 Poireau 4,5 Epinard 2 Rat 1 Lapin 1 3 Cheval UPGMA 4 2,75 7,25

  22. 2,75 Sureau Poireau 4,5 7,25 4,5 Epinard Ginkgo 2 Rat 1 Lapin 1 3 Cheval UPGMA 5 0,915 8,165

  23. 2,75 Sureau 0,915 Poireau 4,5 7,25 4,5 Epinard Bonite Ginkgo 2 Rat 1 8,165 Lapin 1 3 Cheval UPGMA 6 5,5 8,5

  24. 5,5 2,75 Sureau Bonite 0,915 Poireau 8,5 4,5 7,25 4,5 Epinard Mouche Ginkgo 2 Rat 1 8,165 Lapin 1 3 Cheval UPGMA 7 2,25 10,75

  25. 5,5 2,25 Bonite 8,5 2,75 Sureau 10,75 Mouche 0,915 Poireau 4,5 7,25 4,5 Epinard Ginkgo 2 Rat 1 8,165 Lapin 1 3 Cheval UPGMA 8 11,57 14,155

  26. 5,5 2,25 11,57 Bonite 8,5 10,75 Mouche 2,75 Sureau 0,915 Poireau 4,5 7,25 4,5 Epinard 14,155 Ginkgo 2 Rat 1 8,165 Lapin 1 3 Cheval Tetrahymena UPGMA 9 12,02 33,94

  27. Matrice de distances A B C D A - B 5 - 1,5 C 7 4 - B D 9 3 8 - D 1,5 Unweighted Pair-Group Method of Arithmetic average Dbd = 3 On répartit cette distance également sur les 2 branches

  28. k i l y x j m n Neibor-joining (1) D représente une distance observée B représente une distance estimée La longueur de l’arbre correspondant s’exprime : (1)

  29. (2) (3) (4) (5) NJ (2) et il y a n-2 distances de ce type donc De la même manière pour les distances de j à tous les autres différents de i soit pour toutes les distances entre les n-2 otus de l’étoile :

  30. (2) (3) (4) (5) (6) NJ (3)

  31. (1) (6) On tire de (6) (9) NJ (4) En substituant dans 1 les valeurs données par 2 et 7

  32. D’aprèsl’équation (5) (7) distances de l’OTU i à toutes les autres distances de l’OTU j à toutes les autres (8) NJ (5) Puis en utilisant la valeur de Byk exprimée dans 7 et en remplaçant ensuite Dklpar sa valeur donnée en 8

  33. i ancêtre j - - D 2 Q R R ij i j = D - anc i - 2 2 ( N 2 ) Correction de l’horloge horloge Neighbor-Joining (6) +

  34. Méthodes agglomératives UPGMA NJ • Distances ultramétriques • Vitesse constante sur toutes les branches • Arbre raciné • Distances métriques et additives • Voir la formule • Arbre non raciné

  35. Cyathea le Cyathea le Gnetum gne Gnetum gne 26 13 Metasequoi Magnolia s 4 1 Magnolia s Metasequoi 1 2 Encephalar Cedrus deo 5 NJ Cedrus deo Encephalar 1 1 UPGMA Ginkgo bil Ginkgo bil Arbres à 7 taxons obtenus avec NJ ou UPGMA

  36. Plantes terrestres Plantes terrestres Chlorophycées Bryophytes Ptéridophytes Gymnospermes Dicotylédones 1 Spermatophytes Monocotylédones Dicotylédones2 J2_2002_ DESS

  37. FIN (distances)

  38. Comparaison des deux méthodes de calcul d’arbre

More Related