1 / 36

Procédure pour l’annotation d’une séquence protéique

Procédure pour l’annotation d’une séquence protéique. Encadré par : Coz Martine Cornillot Emmanuel. Yohan Danvin (Isima) Laurent Guillaud (Cust, GB) Alexandre Mula (Isima) Hélène Mauboussin (Cust, GB) Gaëtan Semet (Isima). LANGAGE UML Modélisation. ANALYSE. EXPLOITATION. CODAGE XML.

tanner
Download Presentation

Procédure pour l’annotation d’une séquence protéique

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Procédure pour l’annotation d’une séquence protéique Encadré par : Coz Martine Cornillot Emmanuel Yohan Danvin (Isima) Laurent Guillaud (Cust, GB) Alexandre Mula (Isima) Hélène Mauboussin (Cust, GB) Gaëtan Semet (Isima)

  2. LANGAGE UML Modélisation ANALYSE EXPLOITATION CODAGE XML Introduction BIOLOGIE INFORMATIQUE

  3. Plan • Analyse et annotation de séquences protéiques • Modélisation de la solution en UML • Processus d’automatisation

  4. Analyse et annotation de séquences protéiques • De la séquence protéique à la fonction • Analyse courante d’une séquence • Détermination de familles d’orthologues • Exemple : COX 1

  5. De la séquence protéique à la fonction • 3 types de structures • Rôle de la structure 3D • L’avenir des banques de structures 3D

  6. Analyse courante d’une séquence • Pfam • Base de données d’annotations • Pfam A et Pfam B

  7. Analyse couranted’une séquence • TmPred • Prédiction de domaines transmembranaires • Orientation

  8. Analyse couranted’une séquence • SignalP / TargetP • Recherche de peptides signaux TargetP V1.0 Prediction Results ### ### ### T A R G E T P 1.0 prediction results ### ### ### Name Length mTP SP other Loc. RC #-------------------------------------------------------------------------------------------- sp_P00395_COX1_HUMAN 513 0.012 0.905 0.395 S 3 sp_Q9T9W1_COX1_PANTR 513 0.012 0.921 0.366 S 3 tr_Q9T9Y8 513 0.012 0.915 0.370 S 3 sp_P00401_COX1_YEAST 534 0.038 0.980 0.045 S 1

  9. Analyse couranted’une séquence • Psort • Prédiction d’adressage de la protéine • Utilisation de plusieurs logiciels cytoplasm --- Certainty= 0.450(Affirmative) < succ> microbody (peroxisome) --- Certainty= 0.380(Affirmative) < succ> mitochondrial matrix space --- Certainty= 0.100(Affirmative) < succ> lysosome (lumen) --- Certainty= 0.100(Affirmative) < succ>

  10. Analyse couranted’une séquence • Helix Turn Helix • Prédiction de liaison à l’ADN • Autres logiciels

  11. Fastidieux Long Choix non pertinent des logiciels Regroupement des protéines en familles Analyse couranted’une séquence

  12. Détermination de familles d’orthologues • Homologie de séquences Domaines conservés • Fonction conservée • Définition d’une famille d’orthologues

  13. Exemple : COX 1

  14. Exemple : COX 1 • Logiciels les mieux adaptés à l’étude d’une famille • Détermination de l’ordre d’utilisation de ces logiciels

  15. Pfam Séquences en entrée Via SwissProt Exemple : COX 1

  16. Exemple : COX 1 • Détermination de l’adressage mitochondrial • TargetP TargetP V1.0 Prediction Results ### ### ### T A R G E T P 1.0 prediction results ### ### ### Name Length mTP SP other Loc. RC #-------------------------------------------------------------------------------------------- sp_P00395_COX1_HUMAN 513 0.012 0.905 0.395 S 3 sp_Q9T9W1_COX1_PANTR 513 0.012 0.921 0.366 S 3 tr_Q9T9Y8 513 0.012 0.915 0.370 S 3 sp_P00401_COX1_YEAST 534 0.038 0.980 0.045 S 1

  17. Exemple : COX 1 • MitoP

  18. TMPred STRONGLY prefered model: N-terminus inside 12 strong transmembrane helices, total score : 24081 Pfam : 12 hélices Source Domain Start End tmhmm transmembrane 20 42 tmhmm transmembrane 57 79 tmhmm transmembrane 100 122 tmhmm transmembrane 147 169 tmhmm transmembrane 182 204 tmhmm transmembrane 236 258 tmhmm transmembrane 271 293 tmhmm transmembrane 303 325 tmhmm transmembrane 337 359 tmhmm transmembrane 374 396 tmhmm transmembrane 409 431 tmhmm transmembrane 451 473 Exemple : COX 1 1- 15 37 (23) i-o 2- 56 78 (23) o-i 3- 97 123 (27) i-o 4- 150 169 (20) o-i 5- 183 204 (22) i-o 6- 243 261 (19) o-I 7- 270 290 (21) i-o 8- 303 324 (22) o-i 9- 334 359 (26) i-o 10- 379 395 (17) o-i 11- 412 433 (22) i-o 12- 452 473 (22) o-i

  19. Plan • Analyse et annotation de séquences protéiques • Modélisation de la solution en UML • Processus d’automatisation

  20. Modélisation de la solution en UML • Qu’est-ce qu’UML ? • Pourquoi utiliser UML ? • Modélisation de la procédure générale • Exemple de schéma spécifique à une famille

  21. Qu’est-ce qu’UML ? • Support de communication • Facilite la représentation de solutions objet • Notation graphique pratique

  22. Pourquoi UML? • Représentation des solutions : programmes • Procédure d’annotation ≈ programme • Largement accepté par la communauté scientifique • Unifier les biologistes dans le domaine

  23. Cas d’utilisation • Définit les actions envisagées des utilisateurs de la méthode : • Biologiste : possède l’expertise requise concernant l’annotation de protéines • Technicien : utilise la méthode proposée

  24. Cas d’utilisation

  25. Diagramme d’activités • Représente le comportement d’une méthode ou le déroulement d’un cas d’utilisation

  26. Diagramme d’activités

  27. Exemple de schéma spécifique à une famille • Cox I

  28. Plan • Analyse et annotation de séquences protéiques • Modélisation de la solution en UML • Processus d’automatisation

  29. Processus d'automatisation • Utilisation du format XML • Librairie d'actions possibles • Décrire une expérience composée d'action • Programme utilisant les fichiers XML

  30. Utilisation du format XML • organiser les données suivant une structure bien définie • Fichier DTD : définition de la structure des fichiers XML • Avantages : - simplicité d'utilisation (balises) - souplesse

  31. Librairie d'actions possibles <action name = "pfam" adress = "http://www.sanger.ac.uk/Software....> <parameter name="sequence" content="String" comment=.....> </parameter> <result name="potential matches" content="Array" comment=....> </result> </action>

  32. Expérience Structure des données relatives aux expériences

  33. Utilisation des fichiers XML Action XML Processus pour obtenir l'analyse de la protéine Parseur & Application Experience XML

  34. Conclusion • Objectif : annoter des protéines • Procédure modélisée en UML et structurée en XML • Travail pluridisciplinaire • Échange de connaissances biologistes / informaticiens

  35. Gene Ontology • Gene Ontology • vocabulaire commun aux experts • Fonction moléculaire, compartiment cellulaire, processus biologique • utilisable à la fois par les hommes et par les logiciels • représentation des relations entre ces termes • GO ToolBox, un logiciel permettant de regrouper des protéines en familles

More Related