1 / 32

STAN (Suffix Tree ANalyser) Un outil de recherche de motif dans les génomes

STAN (Suffix Tree ANalyser) Un outil de recherche de motif dans les génomes. Grégory Ranchy Anne-Sophie Valin 9 décembre 2004. Plan. La recherche de motifs Fonctionnement de STAN Syntaxe des motifs Étude sur le temps d’exécution Interface graphique. La recherche de motif.

jethro
Download Presentation

STAN (Suffix Tree ANalyser) Un outil de recherche de motif dans les génomes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. STAN (Suffix Tree ANalyser)Un outil de recherche de motif dans les génomes Grégory Ranchy Anne-Sophie Valin 9 décembre 2004

  2. Plan • La recherche de motifs • Fonctionnement de STAN • Syntaxe des motifs • Étude sur le temps d’exécution • Interface graphique

  3. La recherche de motif • Signature de familles de protéines • Signature de sites fonctionnels • Eléments structuraux (palindromes) • Eléments répétés

  4. Problèmes soulevés par la recherche de motifs • Taille des génomes • Génome humain 3.2 milliards de bp • Indexation des génomes • Complexité des modèles biologiques • Formalismes avancés • Grammaire de type SVG (String Variables Grammars)

  5. Motif (grammaire) Séquence 1 2 3 Suite d’instructions (sur l’arbre des suffixes) Arbre des suffixes 4 Résultats de la recherche STAN: Fonctionnement

  6. STAN: Arbre des suffixes • Contient tous les suffixes de la séquence • Indexe tous les mots de la séquence • Méthode de S. Kurtz • Complexité en espace (facteur 12) • Construction en un temps linéaire

  7. Les arbres des suffixes • Exemple de construction : • Séquence : AGGAGCT

  8. Exemple de construction AGGAGCT

  9. AGGAGCT 1 Exemple de construction AGGAGCT

  10. GGAGCT AGGAGCT 2 1 Exemple de construction AGGAGCT

  11. GGAGCT AGGAGCT 2 1 Exemple de construction AGGAGCT

  12. G GAGCT AGCT 2 3 AGGAGCT 1 Exemple de construction AGGAGCT

  13. G GAGCT AGCT 2 3 AGGAGCT 1 Exemple de construction AGGAGCT

  14. G GAGCT AGCT 2 3 AG GAGCT CT 4 1 Exemple de construction AGGAGCT

  15. G GAGCT AGCT 2 3 CT AG 5 GAGCT CT 4 1 Exemple de construction AGGAGCT

  16. G GAGCT AGCT 2 3 CT AG 5 GAGCT CT 4 1 CT 6 Exemple de construction AGGAGCT

  17. G GAGCT AGCT 2 3 T CT AG 7 5 GAGCT CT 4 1 CT 6 Exemple de construction AGGAGCT

  18. G GAGCT AGCT 2 3 T CT AG 7 5 GAGCT CT 4 1 CT 6 Exemple de construction Arbre des suffixes pour la séquence AGGAGCT

  19. Arbre des suffixes pour un chromosome

  20. STAN: Syntaxe du motif • Succession de bases (mot) abcd avec a , b , c et d des bases. • Disjonction de bases [abc] avec a , b et c différentes bases • Disjonction de mots [A|C] avec A et C deux mots • GAP (ensemble de bases quelconques) de taille fixe x(num) avec num la taille du gap. • GAP de taille variable x(num1,num2) , avec la taille du gap comprise entre num1 et num2 • Succession de bases avec erreur de substitution pattern:num • Variable de chaîne X:[num] ou X:[min,max] suivi de X dans le motif ou de ~X pour le palindrome de X

  21. N N N N ACGATTT CTAGATTTTAA Recherche de structures en palindrome avec les variables de chaîne CTAGATTTTAA:2 - X:[7] - x(4) - ~X:5 - ACGATTT:1

  22. STAN: Temps d’exécution • Séquence: • Chromosome 1 de A. Thaliana • Motif: • 6 types de complexité croissante •  type, 10 motifs générés aléatoirement

  23. STAN: Types de motifs • Type 1: • Un mot (20 ≤ taille ≤ 30) • Type 2: • Un mot avec erreurs (taux d’erreurs 33%)

  24. STAN: Types de motifs • Type 3: • mot - gap - mot - gap - mot • mot: (5 ≤ taille ≤ 10) • gap: x(a,b) avec a [100;200], b-a [1;200] • Type 4: • mot - gap – mot - gap – mot • mot: (5 ≤ taille ≤ 10) avec erreurs (taux d’erreur 33%) • gap: x(a,b) avec a [100;200], b-a [1;200]

  25. STAN: Types de motifs • Type 5: • mot - var - palindrome(var) - mot • mot: (10 ≤ taille ≤ 15) • var: variable de chaîne ( 5≤ taille≤ 10 ) • Type 4: • mot - var - palindrome(var) - mot • mot: (10 ≤ taille ≤ 15) avec erreurs (taux d’erreur 33%) • var: variable de chaîne ( 5≤ taille≤ 10 ) taux d’erreur 50%

  26. STAN: Temps d’exécution

  27. STAN: Temps d’exécution

  28. STAN: Interface graphique http://idefix.univ-rennes1.fr:8080/PatternMatching/

  29. STAN: Interface graphique

  30. STAN: Interface graphique

  31. Questions?

More Related