1 / 25

Informatique en Biologie 2004, Institut Pasteur

SPIN. Informatique en Biologie 2004, Institut Pasteur. Elizabeth Remy Karine Robbe Mathieu Barthelemy. Projet encadré par Thierry Rose. S earch in P rotein I nteraction N etwork. Le « spider » :. Recherche pour une protéine à partir de son identifiant de l’ensemble des protéines

bern
Download Presentation

Informatique en Biologie 2004, Institut Pasteur

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SPIN Informatique en Biologie 2004, Institut Pasteur Elizabeth Remy Karine Robbe Mathieu Barthelemy Projet encadré par Thierry Rose Search in Protein Interaction Network Le « spider » : Recherche pour une protéine à partir de son identifiant de l’ensemble des protéines du même organisme qui pourraient lui être associées structuralement ou fonctionnellement.

  2. Interface utilisateur Requête Identifiant de la protéine Base de données d’interactions SPIN spider Rosetta DIP (fichier XML) BIND Données personnelles Liste de paires au format simplifié graphe

  3. SPIN spider : parcours de graphe Protéome de l’organisme de requête Protéine de la requête G_7 8400738 0 0 0 9606 G_12 627657 0 0 0 9606 Immunoprecipitation qu file pointer • Le réseau d’interactions protéine-protéine obtenu est un graphe: • connexe et cyclique • un vertex = une protéine (identifiant gi) • une arête = une interaction protéine-protéine • - il peut exister plusieurs arrêtes entre 2 vertex (plusieurs méthodes)

  4. SPIN spider : interaction prédictive déduite du Blast Protéine de la requête Protéome de l’organisme de requête Blast Protéines de la base de données d’interactions Autre organisme

  5. SPIN spider : interaction prédictive déduite du Blast Protéine de la requête Protéome de l’organisme de requête Blast Protéines de la base de données d’interaction Autre organisme

  6. SPIN spider : interaction prédictive déduite du Blast Protéine de la requête Protéome de l’organisme de requête Method = ‘Blast predictive’ Blast Blast Protéines de la base de données d’interaction Protéines de la base de données non redondante du NCBI Autre organisme

  7. SPIN spider : problèmes des identifiants du NCBIgi et taxon-id la ligne d’interaction utilise le gi et le taxon-id: G_7 8400738 0 0 0 9606 G_12 627657 0 0 0 9606 Immunoprecipitation qu file pointer gi • 2 gi différents pour la même protéine • - base de données pas formatable pour le Blast • Prend le premier gi de la liste taxon-id • lors de la remontée du Blast, l’organisme est un nom est en latin • => Il faut trouver le taxon-id Format fasta

  8. SPIN spider : parseur de la sortie du Blast

  9. Choix de l’algorithme: Parcours en largeur Premiers tests de création/parcours de graphe: Le réseau comportant la protéine peut être très important (exemple: un réseau de la levure S. saccharomyces cerevisiae : 15340 interactions, 4927 protéines) Introduire la notion de niveau pour l’utilisateur, qui correspondra a la distance entre le vertex (la protéine) considéré et le vertex (la protéine) de départ Parcours en largeur : Inspiré de l’algorithme du BFS (Breadth First Search) Protéine de la requête

  10. SPIN spider: Structure du programme __dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

  11. SPIN spider: Structure du programme __dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

  12. SPIN spider: Structure du programme __dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

  13. SPIN spider: Structure du programme __dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

  14. SPIN spider: Structure du programme __dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

  15. SPIN spider: Structure du programme __dict__ Attributs Spider Protein dict_index BFS() black_interaction() print_interaction() Class Protein Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ Blast instance Attributs gi org graph interact find_inter distance interrog_blast() parse_blast() find_predictive_interactions() Protéine de la requête

  16. SPIN spider: exemple de résultats par niveaux Nombre protéines nouvelles par niveau = f (niveau) E. coli gi :749025 Homo sapiens gi:1070666 Homo sapiens gi :66820 285 protéines 285 protéines 115 protéines S. cerevisiae gi :82888 S. cerevisiae gi :1077878 fichier level 4926 protéines 4926 protéines Niveau = nombre d’intermédiaires

  17. fichier pairs niveau A orgA B orgB méthode

  18. SPIN spider: Optimisation Calcul en CPU.s = f (niveau) Test 1: gi=1070666 niveau= 1, 2 et 4 niveau - index + index __dict__ Attributs Protein dict_index Fonctions find_interactions() add-interaction() fasta_file() __class__ __dict__ instance Attributs Test 2: gi=8288 niveau= 3, 4 et 7 gi org graph interact find_inter distance niveau - index + index

  19. SPIN spider: entrée/sortie DIP (fichier XML) Liste de paires au format simplifié simple2gml Requête (gi,niveau) file2fasta database -index Liste_simple database index fasta gml SPIN spider gml level pairs list_gi fasta simple2gml

  20. fichier mis au format gml Sortie graphique Sur yEd Graph Editor

  21. Interface utilisateur Requête Identifiant de la protéine Base de données d’interactions SPIN spider Rosetta DIP (fichier XML) BIND Données personnelles Liste de paires au format simplifié

  22. Grapher: interfaceTK Base de données d’interactions SPIN spider Rosetta Interface utilisateur DIP (fichier XML) Client form BIND Données personnelles Requête • Identifiant de la protéine (gi) • Niveau (distance) • Méthode (immunoprécipitation) http Liste de paires au format simplifié http Ecriture Création de 5 fichiers temporaires (propriétaire =www) CGI

More Related