720 likes | 986 Views
Plan Epidémiologie Moléculaire. •Introduction •Approches en Phylogénie Moléculaire : Logiciels et progiciel PHYLIP - Cladistique - Phénétique - Probabiliste •Applications en Virologie : - Epidémie (ex : RHDV) - Origine d’un virus (ex : HIV)
E N D
PlanEpidémiologie Moléculaire •Introduction •Approches en Phylogénie Moléculaire : Logiciels et progiciel PHYLIP - Cladistique - Phénétique - Probabiliste •Applications en Virologie : - Epidémie (ex : RHDV) - Origine d’un virus (ex : HIV) - Classement d’un nouveau virus (ex : Paramyxovirus) - Cospéciation (ex : hantavirus) - Maladie Nosocomiale (ex : HCV)
L’épidémiologie moléculaire est un outil et n’est qu’un outil Elle estcomplémentairedes approches“fondamentales”sur les virus - Biochimie - Biologie Cellulaire - Biologie Moléculaire •Permet de répondre à des questions posées par les approches “fondamentales” • Origine d’un virus • Evolution d’un virus • Description d’une épidémie • ... • Permet de poser de nouvelles questions • Vectorisation ? • Mutants d’échappement ? • ... ==>Point de départ pour des études avec les approches “fondamentales” IntroductionEpidémiologie Moléculaire
L’épidémiologie moléculaire est un outil et n’est qu’un outil Double Valence ==>EpidémiologieMoléculaire •Confrontation des donnéesde séquence et de “phylogénie”avecl’enquête terrain • Nécessité d’avoir une enquête bien documentée : - Animaux : limités aux commémorations - Humains : qualité du questionnaire importante IntroductionEpidémiologie Moléculaire
Logiciels d’alignements •les 2 logiciels les plus utilisés : Pile UP :par entrée successive et comparaison des unités (séquences) Clustal :par entrée successive des unités (séquences) et définition d’une matrice d’alignement •Alignement pour que le taux d’homologie ==> minimum de différences site par site • Point de départ de la phylogénie : ==>l’événement évolutif = remplacement d’une base par une autre Alignement séquences •Exemple: Pile UP partiel ==> Séquences du gène de la capside de RHDV, 50 bases, 18 séquences 18 50 W W 1010010100 0100000100 0001000001 0010010000 0000111000 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA ARCV TCACAAATTG TTGCCAAATC CATTTATGCT GTTTCAACTG GTGCAAACCA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA Pile UP 10 séquences à aligner 9 séquences + la séquence « externe » d’enracinement
Pile UP F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA
40 41 Pile UP F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
Pile UP F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT C plus proche de B que de A
49 Pile UP F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
49 43 Pile UP F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
49 43 39 Pile UP F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
Pile UP F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA D plus proche de A que de B Loin de C
Pile UP F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT etc
Pile UP 11 50 HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA Clustal 10 séquences à aligner 9 séquences + la séquence « externe » d’enracinement
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG Clustal D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA Modèle AA--CGTAGT TTT-GGAATT CG--GCTGCC ATGCCATAGG GTAC-TACAA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG Clustal D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA Modèle AA--CGTAGT TTT-GGAATT CG--GCTGCC ATGCCATAGG GTAC-TACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG Clustal D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA Modèle AA--CGTAGT TTT-GGAAT- CG---CTG-- ATGCCATAGG GTAC-TAC-- C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG Clustal I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT Modèle AA---GTAGT TTT-GGAAT- CG---CTG-- ATGCCATAGG GTAC-TAC-- D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA
F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG Clustal I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA Modèle AA---GTAGT TTT-GGAAT- CG---CTG-- ATGCCATAGG GTAC-TAC-- etc
Clustal Travail sur l’alignement
Clustal 11 50 A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG Modèle -----GTAGT T-----AAT- CG---C-G-- AT---A--GG GT---TA---
UPGMA 11 50 A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG Clustal
Clustal 11 50 HGGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATTCGTGACAGTTATGGGATAGGGTTTATATGG
Cladistique Epidémiologie Moléculaire Méthodes Cladistiques? • Dérivées directement de la phylogénie classique • Hypothèses • Intègre la notion d’évolution •Identification•des états plésiomorphes (primitifs) •des états apomorphes (dérivés) •La parenté entre les Unités Evolutives (UE) repose sur les synapomorphies (caractères dérivés partagés par au moins 2 taxons) • Principe ==>Mise en évidence de la transformations des caractères de l’état plésiomorphe vers l’état apomorphe. Primitif Dérivé, « Evolué »
CladistiqueEpidémiologie Moléculaire Application à la Phylogénie Moléculaire ==> Qu’est ce qui est informatif ? •Un caractère = position dans la séquence (une base de la séquence) • 4 états possibles pour chaque caractère (ATG ou C) • Seuls les mutations partagées par au moins 2 taxons sont informatives ==> prises en compte •Caractère idéal en Cladistique==> Transformé une seule fois au cours de l’évolution •Problèmes avec les séquences • Problème d’homoplasies (caractères pouvant changer plusieurs fois au cours de l’évolution) : Réversions... • Mutations ≠ successives au même site possibles • On observe un cliché à un temps t, ==> Nécessité d’intégrer les variations potentielles inapparentes dans la séquence mais fruit de l’évolution
Parcimonie permet de résoudre ces problèmes • Algorithme de Wagner • •Algorithme le plus utilisé en phylogénie • •Impose des hypothèses de départ ==> Principe • Principe • • Minimiser le nombre d’apparitions multiples de caractères dérivés et le nombre des réversions nécessaires pour établir les arbres finaux. • • Etablir les états des caractères à chaque noeud de l’arbre • ==> Nœuds de l’arbre = Ancêtre commun • •Méthode permet de définir les arbres phylogéniques minimaux : Parcimonieux • ==>Nécessitant le moins de reversions • ==> Donc, gestion globale de l’arbre • ==> Moins d’événements mutationnels en fin de construction de l’arbre Cladistique Epidémiologie Moléculaire
DNAPARS (Felsenstein- Progiciel PHYLIP) • Dans le progiciel PHYLIP • PAUP aussi de la cladistique Principe DNAPARS • Etablit l’arbre directement à partir de la séquence •Données de base => seulement les sites informatifs ==>Mutations partagées par au moins 2 UE • Nécessité de ne garder que les sites informatifs==> mettre des poids à chaque site Cladistique Epidémiologie Moléculaire 18 50 W W 1010010100 0100000100 0001000001 0010010000 0000111000 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA ARCV TCACAAATTG TTGCCAAATC CATTTATGCT GTTTCAACTG GTGCAAACCA 18 13 a99-05 GAGCCGTCGA AAA a96-har GAGCCGTCGA TAA a98-05 GGACCATCGA AGG a99-09 GGGCCATCGA GGG a00-13 GGACCATCGA AGG a00-06 GGACTATCGG AGG a99-02 GGACTGTCGA AAA a99-19 GAACCATCGG AAA a96-01 GAACCGTCGA AGG a95-12 GAACCGTCGA AGG a99-31 GAACCGTCGA AGG a98-03 GAACCGTTAA AGG a87-tc GAGCCGTCAG AGC a89-ge GAGCCGTCGG AGC a90-au GAGCCGACGA AGC a91-07 TAGCCGTTGG AGC a00-08 TGGTCGACGGGAC ARCV TAATTATTTA AAA
DNAPARS (Felsenstein- Progiciel PHYLIP) Principe DNAPARS • Etablit l’arbre directement à partir de la séquence ? •Transforme l’alignement en arbre parcimonieux •Gestion heuristique de l’arbre ==>Par approche progressive, évaluation successives et hypothèses provisoires • Arbre non enraciné ==> Car parcimonie = gestion globale de toutes les UE -séquences- et non par comparaison avec un ancêtre putatif • Autour de 100 arbres équivalents •Pseudo-enracinement possible avec un Extra-groupe Cladistique Epidémiologie Moléculaire 18 50 W W 1010010100 0100000100 0001000001 0010010000 0000111000 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA ARCV TCACAAATTG TTGCCAAATC CATTTATGCT GTTTCAACTG GTGCAAACCA
Extra-Groupe Epidémiologie Moléculaire Phylogénie Classique • Permet de réaliser un pseudo-enracinement ==> les caractères partagés par le groupe et l’extra-groupe sont considérés comme plésiomorphes (ancestraux) •Hypothèse ==> Les UE et l’extra-groupe ont un ancêtre commun PhylogénieMoléculaire •Séquence d’une espèce proche (alignement possible) maissuffisamment différente pour permettre un enracinement. •idéal autour de 30% de divergence avec toutes les séquences de l’enquête 18 50 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA EBHS TCACAAATTGTTGCCAAATCCATTTATGCT GTTTCAACTG GTGCAAACCA
Où est la séquence externe dans cet alignement ? Et pourquoi? Extra-Groupe Epidémiologie Moléculaire
Méthodes Phénétiques ? ==> Dérivées directement de la phylogénie classique •Hypothèses - Fondées sur les similitudes de Phénotypes entre 2 UE - Les divergences et les similitudes sont informatives - Notion de similitude globale entre les UE (séquences) - Arbres construits à partir des ressemblances entre chaque paire d’UE - A partir de matrices de distances entre les UE •PrincipePlus la ressemblance globale entre 2 UE est importante => Plus la distance les séparant est faible => Plus leurs liens de parenté sont étroits •Application à la phylogénie moléculaire: Qu’est ce qui est informatif? - un phénotype = une Unité Evolutive = une séquence -Tous les sites sont informatifs entre les unités ==> les mutations ou la conservation des nucléotides Nœuds de l’arbre ==> Phénotype commun (Pas Ancêtre) Phénétique Epidémiologie Moléculaire
DNADIST : (PHYLIP) • Première étape de l’analyse par phénétique - Transforme les alignements de séquences en ==> Matrices de distance entre les UE prises 2 à 2 - “% de similarité” avec coefficients pondérateurs Hypothèses=> transitions/transversions, insertions/délétions... Phénétique Epidémiologie Moléculaire Exemple •4 matrices 2 premières et 2 dernières / 18 •Indice de Kimura = 2 : Poids de 2 pour les transversions/transitions 18 a99-050.00000.0414 0.1515 0.1515 0.1515 0.2500 0.1058 0.1058 0.1058 0.1058 0.1058 0.1515 0.1302 0.1072 0.1339 0.1832 0.2387 0.3180 a96-har0.04140.0000 0.1537 0.1302 0.1537 0.2538 0.1072 0.1072 0.1072 0.1072 0.1072 0.1537 0.1320 0.1087 0.1359 0.1860 0.21540.3234 … a00-080.23870.2154 0.2387 0.1860 0.2387 0.2944 0.2120 0.2120 0.2387 0.2387 0.2387 0.2944 0.1832 0.1582 0.1832 0.1832 0.00000.3909 EBHS 0.31800.3234 0.2896 0.3471 0.2896 0.3471 0.2350 0.2350 0.2896 0.2896 0.2896 0.2619 0.3532 0.3532 0.3660 0.3234 0.39090.0000
Algorithmespour l’élaboration du phénogramme •Principe commun à tous les Algorithmes • Les UE sont regroupés pour minimiser la longueur des branches de l’arbre. • Longueur des branches de l’arbre proportionnelle à la distance •Sans hypothèse évolutive • Neighbor-joining le plus utilisé ==> aucune contrainte dans les taux d’évolution entre les différentes branches •FITSCH ( principe des Moindres carrés, lourd peu utilisable) • Arbre non enraciné (“pas d’ancêtre initial”) de longueur minimal • Pseudo-enracinement possible par un extra groupe. Phénétique Epidémiologie Moléculaire 18 50 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA ARCV TCACAAATTG TTGCCAAATC CATTTATGCT GTTTCAACTG GTGCAAACCA
Algorithmespour l’élaboration du phénogramme •Avec hypothèse évolutive •UPGMA, KITCH ==> mêmes algorithmes que Neighbor-joining ou FITSCH •Avec une hypothèse supplémentaire ==> L’Horloge moléculaire •Postulat initial : Le taux de mutation est le même sur toutes les branches de l’arbre ==>La distance devient proportionnelle au temps évolutif ==> Les noeuds de l’arbre correspondent à des ancêtres communs •Arbre enraciné et extra-groupe possible •Problème : Logiciel « efficace » MAIS Postulat de départ fort ==> applicable seulement dans certaines conditions ==> même pression de sélection sur tous les UE ==> méthode sensible à des taux de mutations différents sur les différentes branches Contre :==> horloge épisodique: mutations pas de façon indépendante : des périodes d’accumulation et des périodes d’arrêt évolutif (Gillepsie) ==> horloge pas constante: les mutations pas équivalentes les avantageuses se fixeraient plus vites (Goodman) Phénétique Epidémiologie Moléculaire
Méthodes Probabilistes : “Maximum de vraisemblance” ==> Méthode la plus adaptée à la Phylogénie Moléculaire •Hypothèses •Les transformations de caractères obéissent à des lois de probabilité définies a priori ==> paramètres définis a priori •Paramètres : •Structure de l’arbre • Probabilité des événements mutationnels • Probabilité liée à l’état du caractère chez l’ancêtre... • Pour la phylogénie moléculaire :Qu’est ce qui est informatif ? • Intègre la probabilité de la variation d’une base sur 5 possibilités •Tout est informatif : mutations et conservation des sites entre les UE (séquences) Probabiliste Epidémiologie Moléculaire
DNAml ou DNAmlk (PHYLIP) •Principe : • Construit l’arbre le plus probable directement à partir d’alignements • Arbre dont les longueurs de branche sont les plus probables • Sans ou avec horloge moléculaire (ml ou mlk) • Possibilité d’extra-groupe •Algorithme le plus adapté pour la phylogénie moléculaire : MAIS ==>Très lourd : d’utilisation marginale ==> Ne tourne qu’avec un faible nombre d’unité et un faible nombre de sites Probabiliste Epidémiologie Moléculaire 18 50 a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a00-13 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a00-06 GCGCAAACCG TTGCCAAATC CATTTATGCC GTGGTGACTG GCACAGGTCA a99-02 GCGCAAACTG TTGCCAAGTC CATTTATGCC GTGGTAACTG GCACAAACCA a99-19 GCACAAACTG TCGCCAAATC CATTTATGCC GTGGTGACTG GCACAAACCA a96-01 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a95-12 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a99-31 GCACAAACTG TCGCCAAGTC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-03 GCACAAACTG TCGCCAAGTC CATTTATGCT GTAGTAACTG GCACAGGCCA a87-tc GCACAGACTG TCGCCAAGTC CATTTATGCC GTAGTGACTG GCACAGCCCA a89-ge GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTGACTG GCACAGCCCA a90-au GCACAGACTG TCGCCAAGTC CATATATGCC GTGGGAACTG GCACAGCCCA a91-07 TGACAGACTG TCGCCAAGTC CATTTATGCT GTGGTGACTG GCACAGCCCA a00-08 TCGCAGATTG TCGCCAAGTC CATATATGCC GTGGTGTCTG GCACGACCCA ARCV TCACAAATTG TTGCCAAATC CATTTATGCT GTTTCAACTG GTGCAAACCA
Comparaison des méthodes Epidémiologie Moléculaire • Avantages de Parcimonie/Phénétique • • Fondée sur les caractères : méthode cladistique plutôt que phénétique. • • Ne réduit pas la séquence à un simple nombre. • • Essaie de donner une information sur les séquences ancestrales. • • Evalue différents arbres possibles ± équivalents. • Inconvénients de Parcimonie/Phénétique • • Très lente par rapport aux méthodes basées sur les distances. • • N'utilise pas toute l'information disponible ==>seuls les sites informatifs sont pris en compte • • Ne fait pas de corrections pour les substitutions multiples • • Pas d’informations sur la longueur des branches • • Méthode très sensible au biais des codons • Probabiliste • •Le maximum de vraisemblance est une bonne méthode de reconstruction phylogénétique • • Mais plus il y a de paramètres introduits, plus le calcul est long et plus il y a accumulation de petites erreurs informatiques • ==> utilisation un modèle simple est préférable.
DNAml Neighbor-joining Arbres résultants Epidémiologie Moléculaire •Longueur des branches proportionnelle à la distance entre les unités •Seulement les parties horizontales sont informatives DNApars
Estimation de la robustesse de l’arbre Hypothèse de base •Si les UE sont regroupées dans des groupes stables ==> L’introduction de mutations aléatoires ne doit pas perturber la composition de ces regroupements Principe •Introduction dans les séquences de mutations aléatoires pour voir si la structure de l’arbre en est modifiée •Test pour évaluer si les mutations générant l’arbre ==> mutations réelles ou fruit du hasard : significatives ou non RééchantillonageEpidémiologie Moléculaire
Méthodes Seqboot (PHYLIP) Jacknife •Séquence de k caractères enlevée aléatoirement au même niveau dans toutes les unités • Ampute les séquences de la moitié de leur longueur •Procédure recommencée N fois (100<N<1000) ==> N arbres sont ensuite élaborés. Bootstrap •Méthode la plus utilisée •Tirage au hasard de k caractères avec remplacement par une autre séquence ==> constitue les données de l’arbre •Procédure recommencée N fois (100<N<1000) ==> N arbres sont ensuite élaborés. •Exemple sur les 4 premières séquences ==> •Jacknife •Bootstrap Bilan • Il faut pour les 2 des longueurs de séquence et des différences entre les séquences des Unités significatives ==> Sur des séquences courtes pas utilisable •Boostrap mieux car séquence garde sa taille d’origine ==> information modifiée aléatoirement mais pas tronquée RééchantillonageEpidémiologie Moléculaire a99-05 CACGGCTGTT CCCCCCATTT TGGTGGGAAA ACCCCGGGCA CAAACCCCAA a99-05 GCACAGACTG TCGCTAAGTC CATTTATGCC GTGGTAACCG GCACAAACCA a99-05 CAGA GCCAAGT GTG AACCG AAACCA a96-har CACGGCTGTT CCCCCCATTT TGGTGGGAAA ACCCCGGGCA CTTACCCCAA a96-har GCACAGACTG TCGCCAAGTC CATTTATGCC GTGGTAACCG GCACTAACCA a96-har CAGA GCCAAGT GTG AACCG TAACCA a98-05 CGCAACTGTT CCCCCCATTT TGGTGGGAAA ACTTTGGGCA CAAGCCCCAA a98-05 GCGCAAACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACAGGCCA a98-05 CAAA GCCAAAT GTG AACTG AGGCCA a99-09 CGCGGCTGTT CCCCCCATTT TGGTGGGAAA ACTTTGGGCA CGGGCCCCAA a99-09 GCGCAGACTG TCGCCAAATC CATTTATGCC GTGGTAACTG GCACGGGCCA a99-09 CAGA GCCAAAT GTG AACTG GGGCCA
Méthodes Seqboot (PHYLIP) Consens •Etablissement d’un arbre consensus à partir des N arbres du Seqboot •Définit les groupes rencontrés le plus fréquemment parmi les arbres comparés •Les valeurs de rééchantillonage sont reportées en pourcentage aux embranchements de l’arbre vrai •Valide le regroupement des unités situées après le nœud et non l’embranchement ==> X% des UE sont toujours regroupées ensemble RééchantillonageEpidémiologie Moléculaire Neighbor-joining 40 47 60 95
11 50 A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG 11 50 A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG 11 50 A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG 11 50 A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG 11 50 A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG 11 50 A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG 11 50 A AATCCGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA B AAAGCGTAGT TTTGGGAATT CGCCGCTGCC ATGCCATAGG GTACCTACAA C AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCATAGG GTACGTACTT D AATCAGTAGT TTTTGGAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA E AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACTGG GTACGTACAA F AAAGCGTAGT TTTTGGAATA CGCTTCTGCC ATGCCATAGG GTACGTACTT G AAAGCGTAGT TTTGGGAATT CGCCGCGGCC ATGCCATAGG GTACGTACAA H GGTCCGTAGT TTTTCCAATT CGGAGCTGCC ATGCCATAGG GTACGTACAA I AAAGCGTAGT TTTTGGAATA CGCTTCTGGA ATGCCACCGG GTACGTACAA J AATGCGTAGT TTTTGGAATA CGCTTCTGCC ATCCCATAGG GTACGTACTT Z AATTGGTACT TAATGGAATT CGTGACAGTT ATGGGATAGG GTTTATATGG RééchantillonageEpidémiologie Moléculaire 11 B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057 E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261 C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083 J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666 I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261 F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351 H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629 D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998 A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998 G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585 Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000 11 B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057 E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261 C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083 J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666 I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261 F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351 H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629 D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998 A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998 G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585 Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000 11 B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057 E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261 C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083 J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666 I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261 F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351 H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629 D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998 A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998 G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585 Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000 11 B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057 E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261 C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083 J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666 I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261 F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351 H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629 D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998 A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998 G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585 Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000 11 B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057 E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261 C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083 J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666 I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261 F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351 H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629 D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998 A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998 G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585 Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000 11 B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057 E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261 C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083 J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666 I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261 F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351 H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629 D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998 A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998 G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585 Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000 11 B 0.0000 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0420 0.8057 E 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261 C 0.2849 0.0409 0.0000 0.0884 0.0409 0.0646 0.5125 0.3835 0.3835 0.2849 1.2083 J 0.2188 0.1359 0.0884 0.0000 0.1359 0.0205 0.4119 0.3009 0.3009 0.2188 1.1666 I 0.3473 0.0000 0.0409 0.1359 0.0000 0.1103 0.6018 0.4598 0.4598 0.3473 1.4261 F 0.1889 0.1103 0.0646 0.0205 0.1103 0.0000 0.3680 0.2642 0.2642 0.1889 1.0351 H 0.2551 0.6018 0.5125 0.4119 0.6018 0.3680 0.0000 0.0628 0.0628 0.2551 0.8629 D 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998 A 0.1682 0.4598 0.3835 0.3009 0.4598 0.2642 0.0628 0.0000 0.0000 0.1682 0.6998 G 0.0420 0.3473 0.2849 0.2188 0.3473 0.1889 0.2551 0.1682 0.1682 0.0000 0.7585 Z 0.8057 1.4261 1.2083 1.1666 1.4261 1.0351 0.8629 0.6998 0.6998 0.7585 0.0000 100, 500, 1000 séquences ≠ 100, 500, 1000 matrices ≠ Phénétique Cladistique 100, 500, 1000 arbres ≠ …
Limites Epidémiologie Moléculaire Beaucoup d’hypothèses au départ Type la nature favorise le moindre coût Parcimonie??? Hypothèses de départ dans les algorythmes Kimura approximation etc à bien maitriser
LimitesEpidémiologie Moléculaire Ne pas faire dire n’importe quoi aux arbres Rester modeste
LimitesEpidémiologie Moléculaire Pour Valider l’étude Faire plusieurs techniques Valider par bootsrap Arbre change en fonction du nombre de séquences et de leur représentativité dans le groupe Groupe externe peut changer l’arbre L’ordre d’entrée des séquences aussi
Thouvenin et al, 1997 Epidémiologie RHDV Epidémiologie Moléculaire RHDV (Rabbit Haemorrhagic Disease Virus) •Hépatite fulminante chez le lapin. •Mort en 24 à 48 heures, présence d’hémorragies diffuses. •Maladie apparue en Europe en 88-89 : première épizootie •Depuis endémique Structure des virions •Famille des Caliciviridae •Particule virale non enveloppée : Une capside constituée de l’assemblage de 90 dimères de VP60 •Génome virale : ARN monocaténaire de polarité positive, polyadénilé en 3’ et non coiffé. Protéine Vpg fixée à l’extrémité 5’ du génome
Définition de l’échantillonnage •57 isolats français de RHDV - Diverses régions surtout Bretagne et Auvergne - de 88 à 95, surtout 89, 90 et 91. •5 isolats Européens publiés. Epidémiologie RHDVEpidémiologie Moléculaire