1 / 126

L’amalgamation de données génomiques et la construction de phylogénies synthétiques

L’amalgamation de données génomiques et la construction de phylogénies synthétiques. Alexis Criscuolo (ISEM, LIRMM). Qui suis je?. Alexis Criscuolo Licence de Mathématiques ( UM2 ) DEA d’Informatique ( LIRMM ) 3 ième année de Doctorat en Biologie ( ISEM - LIRMM )

angie
Download Presentation

L’amalgamation de données génomiques et la construction de phylogénies synthétiques

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. L’amalgamation de données génomiques et la construction de phylogénies synthétiques Alexis Criscuolo (ISEM, LIRMM)

  2. Qui suis je? • Alexis Criscuolo • Licence de Mathématiques (UM2) • DEA d’Informatique (LIRMM) • 3ième année de Doctorat en Biologie (ISEM-LIRMM) Les chefs: EmmanuelDouzery (ISEM) Olivier Gascuel (LIRMM) Vincent Berry (LIRMM)

  3. Plan • Initiation à la phylogénie • Parcimonie (pour les info) • Vraisemblance (pour les info et les matheux) • Distance (pour les matheux) • Description des différentes méthodes d’amalgamation de données génomiques • Combinaison basse (pour les bio) • Combinaison haute (pour les info) • Combinaison moyenne (pour les matheux) • Comparaison des performances des combinaisons basse, moyenne et haute (pour les bio) • Application à la phylogénie des mammifères (pour les curieux)

  4. La phylogénie en théorie Chat Cheval Chameau Porc Dauphin Homme Rat Oie

  5. La phylogénie en pratique

  6. La phylogénie en pratique ame AGCTA Rat AGCTGCAA Lama ATC-GCTC Oie CTGCGGAT

  7. La phylogénie en pratique Reconstruction phylogénétique

  8. La phylogénie en pratique Mammifères Mammifères Oie Oie

  9. La phylogénie en pratique Reconstruction phylogénétique

  10. La phylogénie en pratique Reconstruction phylogénétique • 1- Critère de parcimonie • > Minimiser le nombre de mutations le long de l’arbre

  11. La parcimonie 0123456789 Rat ATGCCGTGTG Porc TTGCTCAGCG Chameau TTGACCTGCG Dauphin TTGCTCTGCG Chat TTGCCCTTTG Homme ATACCGTGTG Cheval TGGCCCTTTG

  12. La parcimonie 04578 Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC Chat TCCTT Homme ACGGT Cheval TCCTT 1236 9 TGCT G TGCA G TGAT G TGCT G TGCT G TACT G GGCT G

  13. La parcimonie 04578 Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC Chat TCCTT Homme ACGGT Cheval TCCTT 1236 9 TGCT G TGCA G TGAT G TGCT G TGCT G TACT G GGCT G

  14. La parcimonie 04578 Rat ACGGT Porc TTCGC Chameau TCCGC Dauphin TTCGC Chat TCCTT Homme ACGGT Cheval TCCTT 1236 9 TGCT G TGCA G TGAT G TGCT G TGCT G TACT G GGCT G 7:G<>T Chat Cheval Chameau Porc 8:C<>T 4:C<>T Dauphin Homme 0:A<>T 5:G<>C Rat

  15. L’arbre le plus parcimonieux longueur = 9 La parcimonie 0123456789 Rat ATGCCGTGTG Porc TTGCTCAGCG Chameau TTGACCTGCG Dauphin TTGCTCTGCG Chat TTGCCCTTTG Homme ATACCGTGTG Cheval TGGCCCTTTG 7:G<>T Chat Cheval Chameau Porc 8:C<>T 4:C<>T Dauphin Homme 0:A<>T 5:G<>C Rat

  16. La phylogénie en pratique Reconstruction phylogénétique • 2- Critère de vraisemblance • > Optimiser la vraisemblance de l’arbre

  17. La vraisemblance 01 i m W AT...GC G GTG...TG X AT...GC G GTG...TG Y AT...GC A GTG...TG Z AT...GC A GTG...TG

  18. La vraisemblance 01 i m W AT...GCGGTG...TG X AT...GCGGTG...TG Y AT...GCAGTG...TG Z AT...GCAGTG...TG

  19. La vraisemblance 01 i m W AT...GCGGTG...TG X AT...GCGGTG...TG Y AT...GCAGTG...TG Z AT...GCAGTG...TG X Z T W Y L( T[i] ) = vraisemblance de la topologie T pour le site i = probabilité P( i | T ) que i ait été généré par la topologie T

  20. La vraisemblance G A G A G A G A = P + P + P + P + A A A C A G A T G A G A G A G A G A G A G A G A P + P + P + P + C A C C C G C T G A G A G A G A G A G A G A G A P + P + P + P + G A G C G G G T G A G A G A G A G A G A G A G A P + P + P + P T A T C T G T T G A G A G A G A

  21. La vraisemblance G A G G A A = A  P(AA)²  P(AC)  P(AG)² P = P C A C G A A A C G T A - a b d Ca - c e Gb c - f Td e f -

  22. La vraisemblance But: trouver la topologie T qui maximise la fonction de vraisemblance m L(T) = L( T[i] ) Site i = 0

  23. La phylogénie en pratique Reconstruction phylogénétique • 3- Critère de distances • > S’approcher au plus d’une matrice additive

  24. Distance évolutive Homme ATGCCGTGTG Cheval ATGCGGACTA Canard CTGCACCTAG

  25. Distance évolutive F(Homme,Cheval) Homme ATGCCGTGTG Cheval ATGCGGACTA Canard CTGCACCTAG

  26. Distance évolutive F(Homme,Cheval) Homme ATGCCGTGTG Cheval ATGCGGACTA Canard CTGCACCTAG Homme 0.0 Cheval 0.4 0.0 Canard 0.6 0.7 0.0 Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n)

  27. Distance évolutive F(Homme,Cheval) Homme ATGCCGTGTG Cheval ATGCGGACTA Canard CTGCCCTTAG Homme 0.00 Cheval 0.57 0.00 Canard 1.20 2.03 0.00 Distance de Hamming: D = 1 - (AA/n + CC/n + GG/n + TT/n) Distance de Jukes & Cantor: (-3/4) ln (1 – 4D/3)

  28. Distance arborée • D = 0 • D = D • D  D + D • D + D  max (D + D , D + D ) ii ij ji ij ik ki ij kl il jk ik jl i k j l

  29. Méthode de distance Minimiser le critère mathématique suivant [Fitch & Margoliash 1967]: w ( - D )2 ij ij ij ij afin d’obtenir la représentation arborée qui se rapproche le plus de la matrice  ij

  30. NP-complétude • Parcimonie • Vraisemblance • Distance Critères NP-complets

  31. Heuristiques de recherche 1- Inférer « rapidement » un arbre de départ T0 1 2 - 3 2- Modifier la topologie de T0 pour obtenir la topologie T1 3- Si T1 améliore le critère, alors T0  T1 puis aller à l’étape 2 4 4- Continuer jusqu’à convergence du critère

  32. Des jeux de données multiples Gène 1 Taxon 1 Taxon i

  33. Des jeux de données multiples Gène 1 Taxon 1 Taxon i Taxon j

  34. Des jeux de données multiples Gène 1 Gène 2 Taxon 1 Taxon i Taxon j

  35. Des jeux de données multiples Gène 1 Gène 2 Taxon 1 Taxon i Taxon j Taxon n

  36. Des jeux de données multiples Gène 1 Gène 2 Gène 3 Taxon 1 Taxon i Taxon j Taxon n

  37. Des jeux de données multiples Gène 1 Gène 2 Gène 3 Taxon 1 Taxon n

  38. Des jeux de données multiplesmais incomplets Gène 1 Gène 2 Gène 3 Taxon 1 Taxon n

  39. Des jeux de données multiplesmais incomplets • Disparition de certains gènes au cours de l’histoire évolutive

  40. Des jeux de données multiplesmais incomplets • Disparition de certains gènes au cours de l’histoire évolutive • Absence de séquençage de certains gènes pour une espèce donnée

  41. Comment obtenir une phylogénie à partir d’un jeu de données incomplet? Gène 1 Gène 2 Gène 3 Taxon 1 Taxon n

  42. Combinaison basse(pour les bio) Se débrouiller pour construire des phylogénies à partir des alignements de séquences incomplètes

  43. Combinaison basse « total evidence »

  44. Combinaison haute(pour les info) Récupérer les phylogénies reconstruites à partir de chaque gène et tenter de les amalgamer en une seule phylogénie synthétique: le superarbre

  45. Combinaison haute { X | Y } Consensus

  46. A B C D A B C D -Combinaison haute-Consensus strict A B C D

  47. A B C D A B C D -Combinaison haute-Consensus strict A B C D

  48. A B C D A B C D -Combinaison haute-Consensus majoritaire A B D C A B C D

  49. A B C D A B C D -Combinaison haute-Consensus majoritaire A B D C A B C D

  50. A B C D A B C D -Combinaison haute-Consensus majoritaire A B D C A B C D

More Related