360 likes | 518 Views
Procédure pour l’annotation d’une séquence protéique. Encadré par : Coz Martine Cornillot Emmanuel. Yohan Danvin (Isima) Laurent Guillaud (Cust, GB) Alexandre Mula (Isima) Hélène Mauboussin (Cust, GB) Gaëtan Semet (Isima). LANGAGE UML Modélisation. ANALYSE. EXPLOITATION. CODAGE XML.
E N D
Procédure pour l’annotation d’une séquence protéique Encadré par : Coz Martine Cornillot Emmanuel Yohan Danvin (Isima) Laurent Guillaud (Cust, GB) Alexandre Mula (Isima) Hélène Mauboussin (Cust, GB) Gaëtan Semet (Isima)
LANGAGE UML Modélisation ANALYSE EXPLOITATION CODAGE XML Introduction BIOLOGIE INFORMATIQUE
Plan • Analyse et annotation de séquences protéiques • Modélisation de la solution en UML • Processus d’automatisation
Analyse et annotation de séquences protéiques • De la séquence protéique à la fonction • Analyse courante d’une séquence • Détermination de familles d’orthologues • Exemple : COX 1
De la séquence protéique à la fonction • 3 types de structures • Rôle de la structure 3D • L’avenir des banques de structures 3D
Analyse courante d’une séquence • Pfam • Base de données d’annotations • Pfam A et Pfam B
Analyse couranted’une séquence • TmPred • Prédiction de domaines transmembranaires • Orientation
Analyse couranted’une séquence • SignalP / TargetP • Recherche de peptides signaux TargetP V1.0 Prediction Results ### ### ### T A R G E T P 1.0 prediction results ### ### ### Name Length mTP SP other Loc. RC #-------------------------------------------------------------------------------------------- sp_P00395_COX1_HUMAN 513 0.012 0.905 0.395 S 3 sp_Q9T9W1_COX1_PANTR 513 0.012 0.921 0.366 S 3 tr_Q9T9Y8 513 0.012 0.915 0.370 S 3 sp_P00401_COX1_YEAST 534 0.038 0.980 0.045 S 1
Analyse couranted’une séquence • Psort • Prédiction d’adressage de la protéine • Utilisation de plusieurs logiciels cytoplasm --- Certainty= 0.450(Affirmative) < succ> microbody (peroxisome) --- Certainty= 0.380(Affirmative) < succ> mitochondrial matrix space --- Certainty= 0.100(Affirmative) < succ> lysosome (lumen) --- Certainty= 0.100(Affirmative) < succ>
Analyse couranted’une séquence • Helix Turn Helix • Prédiction de liaison à l’ADN • Autres logiciels
Fastidieux Long Choix non pertinent des logiciels Regroupement des protéines en familles Analyse couranted’une séquence
Détermination de familles d’orthologues • Homologie de séquences Domaines conservés • Fonction conservée • Définition d’une famille d’orthologues
Exemple : COX 1 • Logiciels les mieux adaptés à l’étude d’une famille • Détermination de l’ordre d’utilisation de ces logiciels
Pfam Séquences en entrée Via SwissProt Exemple : COX 1
Exemple : COX 1 • Détermination de l’adressage mitochondrial • TargetP TargetP V1.0 Prediction Results ### ### ### T A R G E T P 1.0 prediction results ### ### ### Name Length mTP SP other Loc. RC #-------------------------------------------------------------------------------------------- sp_P00395_COX1_HUMAN 513 0.012 0.905 0.395 S 3 sp_Q9T9W1_COX1_PANTR 513 0.012 0.921 0.366 S 3 tr_Q9T9Y8 513 0.012 0.915 0.370 S 3 sp_P00401_COX1_YEAST 534 0.038 0.980 0.045 S 1
Exemple : COX 1 • MitoP
TMPred STRONGLY prefered model: N-terminus inside 12 strong transmembrane helices, total score : 24081 Pfam : 12 hélices Source Domain Start End tmhmm transmembrane 20 42 tmhmm transmembrane 57 79 tmhmm transmembrane 100 122 tmhmm transmembrane 147 169 tmhmm transmembrane 182 204 tmhmm transmembrane 236 258 tmhmm transmembrane 271 293 tmhmm transmembrane 303 325 tmhmm transmembrane 337 359 tmhmm transmembrane 374 396 tmhmm transmembrane 409 431 tmhmm transmembrane 451 473 Exemple : COX 1 1- 15 37 (23) i-o 2- 56 78 (23) o-i 3- 97 123 (27) i-o 4- 150 169 (20) o-i 5- 183 204 (22) i-o 6- 243 261 (19) o-I 7- 270 290 (21) i-o 8- 303 324 (22) o-i 9- 334 359 (26) i-o 10- 379 395 (17) o-i 11- 412 433 (22) i-o 12- 452 473 (22) o-i
Plan • Analyse et annotation de séquences protéiques • Modélisation de la solution en UML • Processus d’automatisation
Modélisation de la solution en UML • Qu’est-ce qu’UML ? • Pourquoi utiliser UML ? • Modélisation de la procédure générale • Exemple de schéma spécifique à une famille
Qu’est-ce qu’UML ? • Support de communication • Facilite la représentation de solutions objet • Notation graphique pratique
Pourquoi UML? • Représentation des solutions : programmes • Procédure d’annotation ≈ programme • Largement accepté par la communauté scientifique • Unifier les biologistes dans le domaine
Cas d’utilisation • Définit les actions envisagées des utilisateurs de la méthode : • Biologiste : possède l’expertise requise concernant l’annotation de protéines • Technicien : utilise la méthode proposée
Diagramme d’activités • Représente le comportement d’une méthode ou le déroulement d’un cas d’utilisation
Plan • Analyse et annotation de séquences protéiques • Modélisation de la solution en UML • Processus d’automatisation
Processus d'automatisation • Utilisation du format XML • Librairie d'actions possibles • Décrire une expérience composée d'action • Programme utilisant les fichiers XML
Utilisation du format XML • organiser les données suivant une structure bien définie • Fichier DTD : définition de la structure des fichiers XML • Avantages : - simplicité d'utilisation (balises) - souplesse
Librairie d'actions possibles <action name = "pfam" adress = "http://www.sanger.ac.uk/Software....> <parameter name="sequence" content="String" comment=.....> </parameter> <result name="potential matches" content="Array" comment=....> </result> </action>
Expérience Structure des données relatives aux expériences
Utilisation des fichiers XML Action XML Processus pour obtenir l'analyse de la protéine Parseur & Application Experience XML
Conclusion • Objectif : annoter des protéines • Procédure modélisée en UML et structurée en XML • Travail pluridisciplinaire • Échange de connaissances biologistes / informaticiens
Gene Ontology • Gene Ontology • vocabulaire commun aux experts • Fonction moléculaire, compartiment cellulaire, processus biologique • utilisable à la fois par les hommes et par les logiciels • représentation des relations entre ces termes • GO ToolBox, un logiciel permettant de regrouper des protéines en familles