530 likes | 811 Views
Parcimonie. Généralités Principe Orientation de l’arbre Caractères Procédure Algorithme exact Algorithme branch and bound Algorithme heuristique Analyse des résultats Retour aux caractères Arbre consensus Saturation robustesse Congruence. Phénétique, évolutionnisme, cladisme.
E N D
Parcimonie • Généralités • Principe • Orientation de l’arbre • Caractères • Procédure • Algorithme exact • Algorithme branch and bound • Algorithme heuristique • Analyse des résultats • Retour aux caractères • Arbre consensus • Saturation robustesse • Congruence
Phénétique, évolutionnisme, cladisme Convergences Homoplasies Réversions Similitudes Symplésiomorphies Homologies partagées Synapomorphies Phénétique Évolutionnisme Cladisme
A et B B et C A et C A C B A B C u u v v w w x x y y z z Homologie Homologies partagées Apomorphies partagées 2 1 3 0 1 0 Phylogénie évolutive Phylogénie cladiste
C A B C A B x x x y y Parcimonie 1 2 pas 3 pas
w x x w v w u z z u x u v y v y A D B C A B C D y Parcimonie 2 10 pas 7 pas
E D C B A B A B A A 4 C B D 5 C 4 D E E 3 1 6 C 2 6 D 1 E A 7 D B C C A A D B E B 2 5 C A A B D B C C D E E E 3 D 7 Arbre raciné ou non E ou Arbre non raciné 7 arbres racinés
Raciner un arbre • Critères ontogéniques problème posé par la néoténie • Critères paléontologiques - absence de certains groupes - la parenté ne doit pas être trop éloignée • Critères chorologiques critère secondaire insuffisant seul • Critère extra groupe
X A B C X A B C P’ Q’ P Q P’ Q’ P Q Extra-groupe 1 2 pas :il y a ambiguïté
X Y A B C X Y A B C Q Q’ Q Q’ Q Extra-groupe 2 1 pas 2 pas
X Y A B C X Y A B C R’ R R’ R R R’ Extra-groupe 3 2 pas dans chaque cas, on ne peut trancher
X Y Z A B C X Y Z A B C R’ R’ R’ R R R R Extra-groupe 4 3 pas 2 pas
Y Z A B C X X C A B Y Z R’ R’ R R Extra-groupe 5 Le choix des groupes externes est un à-priori. Si l’on conteste cette qualité on peut trouver un arbre plus court 1 pas 1 pas
A B C A T3 C D A B T2 D B T1 T2 T3 type T1 D C Caractère (1) C1 0 pas 0 pas 0 pas constant C2 1 pas 1 pas 1 pas non info C3 1 pas 2 pas 2 pas info
Réversible 0123 Ou 0 1 3 2 Caractère (2) À états multiples 0 , 1 , 2 , 3 Binaire 0 , 1 Irréversible 0123 Réversible 01 Irréversible 01 Additifs 0 3 coûte 3pas 01 coûte 1pas 02 coûte 2 pas Non additifs 0 3 coûte 1pas 01et 02 aussi
5 5 1 1 A G C T 5 5 Caractère (3) Graphe des états d’un caractère et matrice correspondante. Les transversions sont comptées 5 fois plus que les transitions.
X A B C D E 1 2 3 3 1 2 9 1 9 6 7 8 4 5 X A B C D E X A B D C E 2 3 3 2 9 1 2 9 9 1 9 2 3 6 7 8 6 7 8 1 4 5 apomorphie 1 3 4 5 convergencee 9 2 réversion Modèles de Wagner, Camin-Sokal, Dollo 14 pas (Camin-Sokal) 13 pas (Wagner) 15 pas (Dollo)
Zèbre pl Zèbre mt CTT TCC 1 2 3 Quagga Zèbre pl Zèbre mt CTT CTT TCC 1 2 3 Cheval TCC Quagga CTT Zèbre pl Zèbre mt CTT TCC Zèbre pl Zèbre mt 1 CTT TCC 2 3 1 Cheval 2 TCC 3 Quagga Cheval CTT TCC Quagga CTT Méthode exhaustive (1) Avec 3 espèces un seul arbre est possible. Le branchement pour la troisième espèce peut se faire sur n'importe laquelle des branches 1, 2 ou 3. 6 pas 3 pas 6 pas C'est l'arbre le plus court. On continue cependant sur les 3 arbres.
Zèbre mt Zèbre mt Zèbre mt Zèbre mt Zèbre mt TCCATTC TCCATTC TCCATTC TCCATTC TCCATTC Zèbre mt TCC Zèbre pl CTT 5 6 Zèbre pl Zèbre pl Zèbre pl Zèbre pl Zèbre pl CTTATCC CTTATCC CTTATCC CTTATCC CTTATCC 3 pas 1 123 4 TCCATCC 2 Cheval 457 TCC 3 345 CTTATCC Quagga Vache Vache Vache Vache Vache Cheval Cheval Cheval Cheval Cheval CTT TCAGCTT TCAGCTT TCAGCTT TCAGCTT TCAGCTT TCCGCCT TCCGCCT TCCGCCT TCCGCCT TCCGCCT 7 1234567 Quagga Quagga Quagga Quagga Quagga CTTATCC CTTATCC CTTATCC CTTATCC CTTATCC 6 123 456 CTTATCC 6 123 TCCATCC 457 1234567 457 3 3456 7 6 1236 6 CTTATCC 45 123 CTTATCC Méthode exhaustive (2) 14 pas TCCATTT TCCATCC On peut ajouter une nouvelle espèce de 5 façons différentes. 11 pas 14 pas CTTATCC TCCATTC 9 pas TCCGCTT TCCATCT 11 pas TCCATCT
Méthode exhaustive(3) Après avoir évalué tous les arbres on choisit le ou les plus courts
Branch and Bound 1 Évaluation de la longueur d’un arbre au hasard. 2 L’exploration d’un chemin s’arrête dès que cette longueur est dépassée
2 1 1 2 2 1 5 4 4 3 N Tn non raciné Tn raciné x-2 nœuds x-3 segments internes x segments externes Nombre d’arbres non racinés n Tn= (2k-5) k=3 Nombre d’arbres racinés n Tn= (2k-3) k=3 3 3 10 2 027 025 34 459 425 20 2,21643 *1020 8 200 794 532 637 891 559 375 soit plus de 8*1021 Nombre d’Arbres Possibles
C 00011 A 10000 D 01100 Algorithme de Wagner1 (Farris 1970 : methods for computing Wagner trees.Syst. Zool., 18:374-85) Règle d’agglomération: les taxons les plus éloignés sont connectés Distances 2 à 2 AB=3 BC=2 CD=4 AC=3 BD=2 AD=3 Y 00000 1 On connecte C et D (distance la pus grande) 2 Puis on ajoute A (ou B) au nœud Y AY=1/2(AC+AD-CD)=1/2(3+3-4)=1 BY=1/2(BC+BD-CD)=1/2(2+2-4)=0 3 C’est donc A que l’on ajoute en premier.
BY’ = 0,5 BY’’ = 1 BY’’’ = 0,5 C 00011 B C 00011 B 01010 Y’’’ B Y 00000 Y 00000 Y’ Y’’ A 10000 A 10000 B D 01100 D 01100 Algorithme de Wagner2 Il reste à placer B sur un des 3 segments YA, YC ou YD. S’il est sur AY Y’’B=1/2(BA+1/2(BC+BD)-1/2(CA+DA))=1 S’il est sur CY Y’’’B=1/2(BC+1/2(BA+BD)-1/2(AC+DC))=0,5 S’il est sur DY Y’B=1/2(BD+YB-YD) or YB=1/2(AB+CB-AC) et YD=1/2(CD+AD-AC) Donc Y’B=1/2(BD+1/2(BA+BC)-1/2(CD+AD))= 1/2(2+1/2(3+2)-1/2(4+3)=0,5 Donc B est mis en Y’’ Y’’ 00000
D 01100 C 00011 A 10000 B 01010 00000 00000 00010 01000 B 01010 A 10000 C 00011 D 01100 A 10000 C 00011 00000 00000 B 01010 D 01100 Algorithme de Wagner 3 Le résultat donne un des arbres qui n’est pas le plus court parmi les 3 arbres possibles. On peut à partir de là par branch swapping (ici NNI suffit) obtenir l’un des plus courts. 6 pas 6 pas 7 pas
x x x y w y w y z w z z d c c d c d e e a a e a b b f f b f Branch swapping:réarrangement local(NNI) Exemple 2 Exemple 1 Nearest-Neighbor Interchange
e d c e a c f b f a coupure b a d e d e c b f c a f b Branch swapping:réarrangement global(SPR) d Subtree Pruning Regrafting
a c d c e a b b f a d coupure e e c b f d a c f f b e d Branch swapping:réarrangement global(TBR) 2 sous arbres à reconnecter de toutes les façons possibles Tree Bisection-Reconnection
Matrice Homoplasiques Informatifs Non informatifs
17 A 10 11 12 13 18 B homoplasie 2 3 19 20 C 1 7 D 4 5 6 8 9 E DELayed TRANsformations 14 15 16 14 15 16 14 15 16 14 15 16 Il y a convergence sur les branches de A et C pour les caractères 14 15 et 16 Dans cet exemple, l’option MINF donnerait le même résultat.
17 A 10 11 12 13 14 15 16 18 B 2 3 19 20 C 1 La réversion est préférée à la convergence pour rendre compte de l’homoplasie, elle concerne 3 caractères: 14, 15 et 16 7 D 4 5 6 8 9 E ACCelerated TRANsformation 14 15 16 réversion
Exclusion et pondération 1 1 1 1 1 1 1 2 3 4 5 6 7 8 9 0 1 2 3 4 A G G C T G C A A T C G T G A G A C T T C C A T C G T G A C A C T G C C A * * T C G A C G C T G C G A T C G T G A C G C T T C G A T C G T G A G G C T G C A A T C G T G La pondération différente entre transitions et transversions entraîne des valeurs différentes affectées aux différents changements d’états du caractère 8. Il n’existe plus une valeur unique affectée à ce caractère.
Exclusion et pondération 2 1 1 1 1 1 1 2 3 4 5 6 7 8 9 0 1 2 3 4 A G G C T G C A A G C C A G A G A C T T C C A G T C T G A C C C T G C C A G G G T G A C G C T G C G A G C G A G A C T C T T C G A G A G T G A G A C T G C A A G T C T G Régions inversées répétées
Matrice de coût BEGIN ASSUMPTIONS; USERTYPE tv STEPMATRIX=4 A C G U [A] . 1 0 1 [C] 1 . 1 0 [G] 0 1 . 1 [U] 1 0 1 . ;
Variabilité des nucléotides en fonction de leur position dans le codon dans le gène rbcL
Ve Si A B C D A B C D Saturation 50 40 30 transversions 20 10 0 0 10 20 30 40 transitions Saturation: principe 4 8 16 6 20 28 16 41 32 27 40 42
Comparaison de la vitesse d’évolution en transitions et en transversions pour la position 3 des codons du gène rbcL transitions transversions
Comparaison de la vitesse d’évolution en transitions et en transversions pour les positions 1 et 2 des codons du gène rbcL transitions transversions
Ancêtre commun ACGT Ancêtre commun ACGT Taxon A AGGT Taxon A AGGT Taxon B ACCT Taxon B ACCT Saturation CT GA CG GC AC TG Pas de saturation: le nombre de changements observés est égal au nombre réel. Saturation: le nombre de changements observés est inférieur au nombre réel.
m s g CI, RI et RC m=Lg minimum de l’arbre s=Lg réelle de l’arbre g=Lg maximum de l’arbre
Variation de l’indice de consistance en fonction du nombre de taxa Formule empirique NT: nb de taxa CI= 0,90-0,022NT+0,000213(NT)2 Sanderson, Donoghue (1989)Patterns of variation in levels in levels of homoplasy. Evolution 43 pp1781-95
A A A A B B B B C C C C D D D D E E E E F F F F A A B B C C D D E E F F Consensus strict et semi strict Arbre 1 Arbre 2 Consensus strict Consensus semi strict
A B C D E F G H I A B D E C F G H I A D C B E F G H I Arbre 1 Arbre 3 Arbre 2 A C B D E F G H I A C B D E F G H I Consensus d’Adams Consensus majoritaire Consensus d’Adams
A B C D E F G A B C D E F G Consensus des arbres de Lg21 pas Consensus des arbres de Lg=20 pas Indice de Bremer D=1
Congruence : principe Le premier jeu de données donne des arbres parcimonieux de Lg=x Le second jeu de données donne des arbres parcimonieux de Lg=y La concaténation des 2 jeux de données donne des arbres parcimonieux de Lg=z Un test statistique permet de dire si la différence entre x+y et z est significative ou non
Congruence : test ILD D=(lgx+lgy)-lgz D est-il significatif? Jeu 2 >1 ggag >2 agga >3 gagg >4 aaaa Jeu 1 >1 AAAA >2 AGGA >3 AGAG >4 AAGG Jeux 1+2 >1 AAAAggag >2 AGGAagga >3 AGAGgagg >4 AAGGaaaa 100 tirages au hasard Simulation n >1 AggAAggg >2 GagGGaaa >3 GgaGAggg >4 AaaAGaaa 100 jeux simulés Simulation n du jeu 1 >1 AggA >2 GagG >3 GgaG >4 AaaA Simulation n du jeu 2 >1 Aggg >2 Gaaa >3 Aggg >4 Gaaa Estimations de z On détermine la distribution des valeurs de D. si pb Dobs5% Incongruence Estimations de x Estimations de y
Méthodes de distance Méthodes de parcimonie Comparaison des deux méthodes de calcul d’arbre Calcul d’une distance globale Examen des caractères les uns après les autres Un seul arbre retourné par le programme La méthode peut retourner plusieurs arbres également parcimonieux Pas de test de robustesse de l’arbre unique (excepté le bootstrap) Il y a un test de robustesse des noeuds (mesure de l’homoplasie dans l’arbre par le calcul du rapport de la longueur minimale de l’arbre à sa longueur réelle. Pas de retour aux caractères pour pouvoir les reconsidérer Retour aux caractères pour éventuellement réévaluer ceux qui donnent des aberrations Rapide, même avec un grand nombre de taxa Vitesse moyenne. Sur de grosses machines on peut en plusieurs jours traiter des données jusqu'à 500 taxa