320 likes | 416 Views
STAN (Suffix Tree ANalyser) Un outil de recherche de motif dans les génomes. Grégory Ranchy Anne-Sophie Valin 9 décembre 2004. Plan. La recherche de motifs Fonctionnement de STAN Syntaxe des motifs Étude sur le temps d’exécution Interface graphique. La recherche de motif.
E N D
STAN (Suffix Tree ANalyser)Un outil de recherche de motif dans les génomes Grégory Ranchy Anne-Sophie Valin 9 décembre 2004
Plan • La recherche de motifs • Fonctionnement de STAN • Syntaxe des motifs • Étude sur le temps d’exécution • Interface graphique
La recherche de motif • Signature de familles de protéines • Signature de sites fonctionnels • Eléments structuraux (palindromes) • Eléments répétés
Problèmes soulevés par la recherche de motifs • Taille des génomes • Génome humain 3.2 milliards de bp • Indexation des génomes • Complexité des modèles biologiques • Formalismes avancés • Grammaire de type SVG (String Variables Grammars)
Motif (grammaire) Séquence 1 2 3 Suite d’instructions (sur l’arbre des suffixes) Arbre des suffixes 4 Résultats de la recherche STAN: Fonctionnement
STAN: Arbre des suffixes • Contient tous les suffixes de la séquence • Indexe tous les mots de la séquence • Méthode de S. Kurtz • Complexité en espace (facteur 12) • Construction en un temps linéaire
Les arbres des suffixes • Exemple de construction : • Séquence : AGGAGCT
Exemple de construction AGGAGCT
AGGAGCT 1 Exemple de construction AGGAGCT
GGAGCT AGGAGCT 2 1 Exemple de construction AGGAGCT
GGAGCT AGGAGCT 2 1 Exemple de construction AGGAGCT
G GAGCT AGCT 2 3 AGGAGCT 1 Exemple de construction AGGAGCT
G GAGCT AGCT 2 3 AGGAGCT 1 Exemple de construction AGGAGCT
G GAGCT AGCT 2 3 AG GAGCT CT 4 1 Exemple de construction AGGAGCT
G GAGCT AGCT 2 3 CT AG 5 GAGCT CT 4 1 Exemple de construction AGGAGCT
G GAGCT AGCT 2 3 CT AG 5 GAGCT CT 4 1 CT 6 Exemple de construction AGGAGCT
G GAGCT AGCT 2 3 T CT AG 7 5 GAGCT CT 4 1 CT 6 Exemple de construction AGGAGCT
G GAGCT AGCT 2 3 T CT AG 7 5 GAGCT CT 4 1 CT 6 Exemple de construction Arbre des suffixes pour la séquence AGGAGCT
STAN: Syntaxe du motif • Succession de bases (mot) abcd avec a , b , c et d des bases. • Disjonction de bases [abc] avec a , b et c différentes bases • Disjonction de mots [A|C] avec A et C deux mots • GAP (ensemble de bases quelconques) de taille fixe x(num) avec num la taille du gap. • GAP de taille variable x(num1,num2) , avec la taille du gap comprise entre num1 et num2 • Succession de bases avec erreur de substitution pattern:num • Variable de chaîne X:[num] ou X:[min,max] suivi de X dans le motif ou de ~X pour le palindrome de X
N N N N ACGATTT CTAGATTTTAA Recherche de structures en palindrome avec les variables de chaîne CTAGATTTTAA:2 - X:[7] - x(4) - ~X:5 - ACGATTT:1
STAN: Temps d’exécution • Séquence: • Chromosome 1 de A. Thaliana • Motif: • 6 types de complexité croissante • type, 10 motifs générés aléatoirement
STAN: Types de motifs • Type 1: • Un mot (20 ≤ taille ≤ 30) • Type 2: • Un mot avec erreurs (taux d’erreurs 33%)
STAN: Types de motifs • Type 3: • mot - gap - mot - gap - mot • mot: (5 ≤ taille ≤ 10) • gap: x(a,b) avec a [100;200], b-a [1;200] • Type 4: • mot - gap – mot - gap – mot • mot: (5 ≤ taille ≤ 10) avec erreurs (taux d’erreur 33%) • gap: x(a,b) avec a [100;200], b-a [1;200]
STAN: Types de motifs • Type 5: • mot - var - palindrome(var) - mot • mot: (10 ≤ taille ≤ 15) • var: variable de chaîne ( 5≤ taille≤ 10 ) • Type 4: • mot - var - palindrome(var) - mot • mot: (10 ≤ taille ≤ 15) avec erreurs (taux d’erreur 33%) • var: variable de chaîne ( 5≤ taille≤ 10 ) taux d’erreur 50%
STAN: Interface graphique http://idefix.univ-rennes1.fr:8080/PatternMatching/