1 / 16

La phylogénomique sans alignement de séquences

La phylogénomique sans alignement de séquences. Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr. Carry-le-Rouet, Décembre 2006. Reconstructions phylogénétiques Distances Maximum de parcimonie Maximum de vraisemblance. Recherche de synténies.

aiko-perez
Download Presentation

La phylogénomique sans alignement de séquences

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006

  2. Reconstructions phylogénétiques • Distances • Maximum de parcimonie • Maximum de vraisemblance Recherche de synténies • Identification des orthologues • Blast • Alignements multiples

  3. Une alternative: la recherche de « mots » communs dans les séquences (k-words, k-tups, k-grams...) Exemple classique : le « Dotplot »

  4. Les alignements de chromosomes entiers sont impossibles à cause des réarrangements. La recherche de « mots communs » ne se soucie pas de leurs positions. On peut donc penser à déterminer une « distance » entre chromosomes à partir de leur contenu en mots communs.

  5. B. E. Blaisdell, PNAS83 (1986), 5155-5159 Composition en di- et tri-nucléotides (chaînes de Markov d’ordre 1 et 2) de séquences codantes et non codantes  test du chi2:

  6. 5 B 4 3 2 A 1

  7. { TT 3 4 3  s AA AT Revue: Vinga, S. & Almeida, J. Alignment-free sequence comparison Bioinformatics19 (2003), 513-523.  Gary W. Stuart Une séquence peut être représentée par un vecteur S = AATATTAAATTTATA AA = 3 AT = 4 TT = 3 TA = 4  s = (3, 4, 3, 4)

  8. { 2 2 2  s1 TT { 4 4 4  s2 AA AT

  9.  s1 . s2 = u1*u2 + v1*v2 + t1*t2 = |s1|*|s2|*cos() |s1| = (u12 + v12 + t12)1/2    { u1 = 3 v1 = 4 t1 = 4  s1 TT { u2 = 4 v2 = 4 t2 = 4  s2 AA AT

  10. d(i,j) = -Log[(1 + cos )/2]

  11. Il y a 160.000 tetrapeptides possibles. Donc, si l’on décompose un jeu de protéines en mots de longueur 4, chaque protéine sera représentée par un vecteur dans un espace à 160.000 dimensions... De très nombreux « axes » portent peu d’information (tetrapeptides peu ou pas présents). On réduit la taille de l’espace en prenant pour repères les axes d’inertie les plus significatifs du nuage de points (changement de repère) et en supprimant les axes de faible inertie.

  12. z B’ B’ A’ A B A x A’ y B

  13. Toutes les protéines d’une même espèce sont regroupées en un seul vecteur --> chaque espèce est représentée par un vecteur.

More Related