1 / 34

Plan

Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats Franck De-graeve Master ASE IIDC : Frédéric Durak UMR 8090 : Philippe Froguel. Plan. Présentation et stratégie de recherche du laboratoire Objectifs L’Interface Les analyses

xanti
Download Presentation

Plan

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidatsFranck De-graeve Master ASE IIDC : Frédéric DurakUMR 8090 : Philippe Froguel

  2. Plan • Présentation et stratégie de recherchedu laboratoire • Objectifs • L’Interface • Les analyses • Les résultats • Conclusions et perspectives

  3. Le laboratoire • Recherche des gènes de prédisposition au diabète de type II et à l’obésité. • Équipe de 40 personnes dont l’équipe bioinfo-biostatistique composée de 6 personnes Génomique et physiologie moléculaire des maladies métaboliques UMR 8090 Philippe Froguel

  4. Sélection de gènes d’intérêts • Principe de gène candidat

  5. Rs245895 Rs245548 Rs224887 Rs278415 Rs365874 Rs1558474 Rs448 Rs245895 Rs245548 Rs224887 Rs278415 Rs365874 Rs1558474 Rs448 1557459_at 1557820_at 1568619_s_at 200043_at 200694_s_at GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953 1557459_at 1557820_at 1568619_s_at 200043_at 200694_s_at Rs245895 Rs245548 Rs224887 Rs278415 Rs365874 Rs1558474 Rs448 GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953 1557459_at 1557820_at 1568619_s_at 200043_at 200694_s_at 1557459_at 1557820_at 1568619_s_at 200043_at 200694_s_at AF058956 AI180687 AF031939 Y17345 AI845103 Rs245895 Rs245548 Rs224887 Rs278415 Rs365874 Rs1558474 Rs448 GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953 AF058956 AI180687 AF031939 Y17345 AI845103 Rs245895 Rs245548 Rs224887 Rs278415 Rs365874 Rs1558474 Rs448 Rs245895 Rs245548 Rs224887 Rs278415 Rs365874 Rs1558474 Rs448 GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953 1557459_at 1557820_at 1568619_s_at 200043_at 200694_s_at AF058956 AI180687 AF031939 Y17345 AI845103 1183164 1183165 1183166 1183167 1183170 1183171 1183164 1183165 1183166 1183167 1183170 1183171 Plg Plscr2 Ins Pon1 Popdc3 Prlr Proc Plg Plscr2 Ins Pon1 Popdc3 Prlr Proc Plg Plscr2 Ins Pon1 Popdc3 Prlr Proc Gas2 Scd1 Ins Pon1 Prlr Proc SGDB INS Intégrations des données 200 listes 430 000 identifiants 8000 gènes intégrés/ 40000 gènes humains

  6. Plan • Présentation et stratégie de recherche du laboratoire • Objectifs • L’Interface • Les analyses • Les résultats • Conclusions et perspectives

  7. Objectifs • Sélection des gènes candidats qui s'appuie sur une base de données • Intégration de sources de données très hétérogènes • Faciliter la navigation parmi les résultats

  8. L’architecture Apache -> serveur WEB Php et Mysql -> affichage des pages dynamiques Perl et Mysql -> traitement et intégration des données Perl -> filtre et analyse des résultats R -> statistique, graphique

  9. Plan • Présentation et stratégie de recherche du laboratoire • Objectifs • L’Interface • Les analyses • Les résultats • Conclusions et perspectives

  10. Page d’accueil

  11. Ajout de données

  12. Base de données

  13. Plan • Présentation et stratégie de recherche du laboratoire • Objectifs • L’Interface • Les analyses • Les résultats • Conclusions et perspectives

  14. Les analyses

  15. Récupération de la séquence • Unification des types de données hétérogènes en séquence • Le choix de la base de données publique dépend de la saisie de l’utilisateur • Récupération au format standard (fasta): • >em|U03177|FL03177 Insulin • AGATACAAGGAAGTTAGAGGCTAAAACAGGATATCTGTGGTTAAGCACCTGTGAGGCCAAGAACAGTTAAACCCCGGATATAGCTGAAACAGCAGAAGTTTCGCCAGCAGTCTCCAGGCTCCCCA

  16. Position de la séquence sur les chromosomes • Recherche de la position sur le génome grâce au logiciel BLAT • Adaptation du programme pour un fonctionnement en local • Modification de l’étape d’alignement pour une accélération du processus de 20 à 30 fois. • Récupération des gènes correspondant à cette position

  17. Comparaison de séquence contre une banque de données • Comparaison grâce au logiciel BLAST • Utilisation des bases locales • Synthèse des résultats de BLAT et de BLAST dans un fichier

  18. Les processus • Temps d’exécution de 1 à 2 jours • Stockage des opérations dans un fichier • Système multi-utilisateurs gérés grâce au PID

  19. Plan • Présentation et stratégie de recherche du laboratoire • Objectifs • L’Interface • Les analyses • Les résultats • Conclusions et perspectives

  20. Les résultats

  21. Intégrations des données Rs245895 Rs245548 Rs224887 Rs278415 Rs365874 Rs1558474 Rs448 Rs245895 Rs245548 Rs224887 Rs278415 Rs365874 Rs1558474 Rs448 1557459_at 1557820_at 1568619_s_at 200043_at 200694_s_at GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953 1557459_at 1557820_at 1568619_s_at 200043_at 200694_s_at Rs245895 Rs245548 Rs224887 Rs278415 Rs365874 Rs1558474 Rs448 GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953 1557459_at 1557820_at 1568619_s_at 200043_at 200694_s_at 1557459_at 1557820_at 1568619_s_at 200043_at 200694_s_at AF058956 AI180687 AF031939 Y17345 AI845103 Rs245895 Rs245548 Rs224887 Rs278415 Rs365874 Rs1558474 Rs448 GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953 AF058956 AI180687 AF031939 Y17345 AI845103 Rs245895 Rs245548 Rs224887 Rs278415 Rs365874 Rs1558474 Rs448 Rs245895 Rs245548 Rs224887 Rs278415 Rs365874 Rs1558474 Rs448 GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953 1557459_at 1557820_at 1568619_s_at 200043_at 200694_s_at AF058956 AI180687 AF031939 Y17345 AI845103 200 listes 430 000 identifiants 1183164 1183165 1183166 1183167 1183170 1183171 1183164 1183165 1183166 1183167 1183170 1183171 Plg Plscr2 Ins Pon1 Popdc3 Prlr Proc Plg Plscr2 Ins Pon1 Popdc3 Prlr Proc Plg Plscr2 Ins Pon1 Popdc3 Prlr Proc Gas2 Scd1 Ins Pon1 Prlr Proc SGDB INS 8000 gènes intégrés/ 40000 gènes humains

  22. Identifiant A Identifiant B Identifiant AB (gène X) Le comptage de bloc (1) • Comptage par nom de gène ? • Comptage par position

  23. Le comptage de bloc (2)

  24. Le comptage de bloc (3)

  25. Le format de l’UCSC • Choix des données par groupes ou individuellement • Choix des couleurs de piste

  26. Le format de l’UCSC (2) • Récupération du fichier • http://genome.ucsc.edu/cgi-bin/hgGateway • Position -> chr11:2,131,213-2,145,372 • Visualisation des blocs

  27. GMOD (1) • Permet de "naviguer" le long du génome • Prend en charge le format GFF, stockage dans une base SQL • Jeux de données présent pour effectuer des tests • Grande souplesse de configuration • Données de l’homme disponibles sur le site de l’UCSC

  28. GMOD (2)

  29. Plan • Présentation et stratégie de recherche du laboratoire • Objectifs • L’Interface • Les analyses • Les résultats • Conclusions et perspectives

  30. Conclusions (1) • Problème de temps de réponse • - Optimisation de programmes • - Système de cache sur disque • - Base de données au lieu de fichier (GMOD) • Problème de configuration système • - Installation de packages • - Problème de droits • - Mysql en service

  31. Conclusions (2) • Travail en interaction avec • - Biologiste (utilisateurs) • - Équipe bio-informatique • - Administrateur système • Utilisation d’un large panel de technologies • - DB (Mysql) • - Web (apache, php) • - Programmation (perl) • - Système (gestion des packages)

  32. Perspectives • Ajout de nouvelles stratégies pour l’identification basée sur des tables de correspondance • Pondération sur les scores • Enrichissement quotidien de la base de données par les utilisateurs

  33. Mise en ligne sur Internet avec une publication dans un journal de biologie Internet Local Données partielles publiées Données complètes confidentielles Perspectives • Développement dans le cadre du projet ANR Gènes sélectionnés par cet outil seront étudiés par des études génétiques

  34. Remerciements Sophie Gallina Christophe Wachter David Le Guilcher Stefan Gaget Jean-Claude Chèvre Ainsi que toute l’équipe du laboratoire

More Related