160 likes | 248 Views
La phylogénomique sans alignement de séquences. Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr. Carry-le-Rouet, Décembre 2006. Reconstructions phylogénétiques Distances Maximum de parcimonie Maximum de vraisemblance. Recherche de synténies.
E N D
La phylogénomique sans alignement de séquences Jean-Loup Risler Statistique & Génome jrisler@genopole.cnrs.fr Carry-le-Rouet, Décembre 2006
Reconstructions phylogénétiques • Distances • Maximum de parcimonie • Maximum de vraisemblance Recherche de synténies • Identification des orthologues • Blast • Alignements multiples
Une alternative: la recherche de « mots » communs dans les séquences (k-words, k-tups, k-grams...) Exemple classique : le « Dotplot »
Les alignements de chromosomes entiers sont impossibles à cause des réarrangements. La recherche de « mots communs » ne se soucie pas de leurs positions. On peut donc penser à déterminer une « distance » entre chromosomes à partir de leur contenu en mots communs.
B. E. Blaisdell, PNAS83 (1986), 5155-5159 Composition en di- et tri-nucléotides (chaînes de Markov d’ordre 1 et 2) de séquences codantes et non codantes test du chi2:
5 B 4 3 2 A 1
{ TT 3 4 3 s AA AT Revue: Vinga, S. & Almeida, J. Alignment-free sequence comparison Bioinformatics19 (2003), 513-523. Gary W. Stuart Une séquence peut être représentée par un vecteur S = AATATTAAATTTATA AA = 3 AT = 4 TT = 3 TA = 4 s = (3, 4, 3, 4)
{ 2 2 2 s1 TT { 4 4 4 s2 AA AT
s1 . s2 = u1*u2 + v1*v2 + t1*t2 = |s1|*|s2|*cos() |s1| = (u12 + v12 + t12)1/2 { u1 = 3 v1 = 4 t1 = 4 s1 TT { u2 = 4 v2 = 4 t2 = 4 s2 AA AT
Il y a 160.000 tetrapeptides possibles. Donc, si l’on décompose un jeu de protéines en mots de longueur 4, chaque protéine sera représentée par un vecteur dans un espace à 160.000 dimensions... De très nombreux « axes » portent peu d’information (tetrapeptides peu ou pas présents). On réduit la taille de l’espace en prenant pour repères les axes d’inertie les plus significatifs du nuage de points (changement de repère) et en supprimant les axes de faible inertie.
z B’ B’ A’ A B A x A’ y B
Toutes les protéines d’une même espèce sont regroupées en un seul vecteur --> chaque espèce est représentée par un vecteur.