360 likes | 478 Views
OUEST Genopole ®. J. Nicolas IRISA / Inria Rennes. Assisté de O. Colin, H. Leroy, E. Kabore, E. Morin, C. Delamarche, C. Hitte et D. Lavenier. OUEST-Génopole ® : un réseau de 54 unités de recherche. 10 CNRS 2 IFREMER 16 INRA 13 INSERM 1 INRIA 1 AFSSA
E N D
OUEST Genopole® J. Nicolas IRISA / Inria Rennes Assisté deO. Colin, H. Leroy, E. Kabore, E. Morin, C. Delamarche, C. Hitte et D. Lavenier
OUEST-Génopole® : un réseau de 54 unités de recherche 10 CNRS 2 IFREMER 16 INRA 13 INSERM 1 INRIA 1 AFSSA 11 unités de recherche des Univ. d'Angers, Brest, Nantes et Rennes) 2000 personnes dont 800 chercheurs
Une histoire récente Juillet 2000 : Dépôt dossier Génopole Ouest au ministère Mars 2001 : Expertise sur site de la génopole Janvier 2002 : Labellisation OUEST-Genopole® CDDs plate-forme bioinformatique génopole Septembre 2002 : recrutement 1 an de E. Morin +recrutement 2ans de E. Kabore (CDD région) Juillet 2003 : recrutement 1 an de A.-S. Valin
OUEST-Génopole® : organisation ComposantesMer – Agronomie – Santé – BioInformatique Cinq plates-formes technologiques - Séquençage/Génotypage - Transcriptome - Protéome - Exploration fonctionnelle - Bio-informatique Groupement d'intérêt scientifique (GIS) en 2002
Les plates-formes OUEST-Génopole Génotypage Séquençage Protéomique Exploration fonctionnelle Biopuces Bioinformatique
Chaine d’élaboration des connaissances Informatique - BioInformatique Réponses Hypothèses Biblio Information Connaissances Données élaborées Données brutes Calcul Gestion Stockage
Interactions inter-plate-formes : un modèle 3-tiles Production Analyse Stockage Archivage Stockage Archivage Données brutes Gestion Gestion Exploitation Domaine de Recherche bioinfo Plate-forme Bio-Informatique Veilleoutilsproblèmes Méthodes Prototypes Autre Plate-forme Outils Données élaborées
Ressources informatiques de la plate-forme SunFire 6800 SunFire 12000 Cluster PC 40 procs + 10 SunFire 4800 12 procs Calcul Roscoff Pôle de calcul intensif de l'Ouest Logithèque, bases Service web Sécurisation Rennes Brest Cluster Compaq 36 procs Pôle de calcul pour la Mer Réseau Angers • Communications • Calcul distribué Fusion de la puissance de calcul: GénoGRID Nantes
Motivation le volume des données génomique double approximativement tous les ans (plusieurs centaines de T bytes en 2010) la puissance des ordinateurs double tous les 18 mois (loi de Moore) Parallélisme et architectures pour la génomique Les temps de calcul augmentent et, pour certaines applications, devenir pénalisant ex : base de données ProDom - en 2001 = 31 jours de calcul - en 2002 = 64 jours de calcul Nouvelles méthodes algorithmiques Usage des machines parallèles Développement de machines spécialisées solutions
Projet GénoGRID (resp. D. Lavenier) une grille expérimentale pour la génomique objectif : mutualiser les ressources (banque de données, machines) sur des calculs intensifs deux niveaux de parallélisation grille = plusieurs nœuds nœuds = machines parallèles cluster de PC supercalculateurs applications : repliement des protéines comparaison génomes détection de séquences répétées Parallélisme Lille Roscoff Rouen Rennes Brest Angers
Exploration rapide des banques de données mise en parallèle d’une batterie de disques filtrage à la volée de l’information stockée sur disque Architecture Scan du génome humain en moins d’une seconde
Les acteurs de la bioinfo dans l’Ouest LERIA U533 Roscoff Brest Rennes Organisme porteur: IRISA / INRIA - Rennes Nantes Angers Responsables O. Collin Roscoff H. Leroy Rennes
Le réseau : animation Laure Berti-EquilleAudrey BihouéeFrançois BrückerOlivier CollinFrançois Coste Christian DelamarcheDidier Flament Marc FerréGuillaume FertinChristiane GuillouzoNathalie GuittonJin-Kao HaoYannick JacquesEsther KaboréGilles LassalleDominique LavenierJean LégerSandrine LaguarrigueHugues LeroyJérôme MikolajczakEmmanuelle MorinFouzia MoussouniJacques NicolasPhilippe PicouetCharles PineauStéphanie PrioulJean-Michel RicherIrèna RusuMichel SamsonAnne SiegelDominique TessierTranh Vin Comité d’animation Comité correspondants Responsables plate-forme: O. Collin (SBR) + pôle Mer, CS Genopole et H. Leroy (Irisa) + système, Genogrid • Relations inter plate-formes • Stratégie domaine bio-informatique • Relations utilisateurs • Mise en place des actions
Postes CDD sur Rennes • Esther Kaboré (sept 2002) Ingénieur bases de données : • gérer les comptes et les moyens de stockage sur le serveur du PCIO. ; • accès et mise à jour d’un miroir local des principales banques publiques ; • Coordination des choix sur chaque site de développement des bases de données • proposition d’outils génériques pour le développement de bases de données spécialisées dans les laboratoires. • Emmanuelle Morin (sept 2002) Ingénieur en bioinformatique : • choix, gestion et maintenance des logiciels applicatifs nécessaires en particulier pour l’étude de génomes complets; • développement d’interfaces adaptées à un usage direct par les laboratoires de biologie des chaînes de traitement logiciel; • Proposition de formations sur les outils de la plate-forme; • intégration des outils de bio-info produits dans le cadre de la Génopole. • Anne-Sophie Valin(juil 2003) Ingénieur en informatique : • développement de la plate-forme de recherche et d'extraction de motifs (thème bioinfo génopole) • veille logicielle dans ce domaine • Formation aux outils, aide à l’utilisation.
Consulter les demandes Stages Emplois Formations présentation Déposer une demande outils Accès / Demande FAQ banques Accès aux outils locaux Consulter les questions déjà posées Accès à des outils externes Poser une question Accès outils liés Description des banques présentes sur le serveur Procédure de rapatriement Plan du site de la plate-forme Accueil
Wisconsin package standard Blast Multiple rare FastMe rare Plate-forme de recherche exclusif et découverte de motifs (Smile, Model, Pratt…) GenoFrag exclusif Outils qui utilisent les ressources de calcul de la plate-forme
Les banques de données publiques Genbank : version 137.0 (août 2003) PIR : version 77 (juillet 2003) Swiss-Prot : version 41 (février 2003) Banques de génomes : - 10 génomes eucaryotes - Beaucoup de génomes bactériens Mise à jour régulière Développement de banques à façon Rsync: mise à jour des sites distants (Ifremer, Roscoff)
Quelques bases de données de la génopole • INSERM Rennes : Entrepôt de données « foie » • GERM Rennes : base fédérée Expasy, base de donnée « Reproduction », base de données défensines • INSERM Nantes/Rennes : base de données biopuces • CNRS Rennes : base de données «canaux membranaires » • INRA : Agena • INRA : Stressgenes • CNRS Roscoff : Génomer base de données EST Santé Agro Mer Structuration initiale par domaine puis ouverture progressive Point clé: sécurisation des données Harmonisation des approches, développement d’outils communs
Exemple d’utilisateur de la plate-forme :Identification et Cartographie de 10,000 gènes canins
100% 0 20 40 60 80 100% 0 20 40 60 80 Cartographie sur hybrides irradiés : ordonnancement des marqueurs par approche TSP (Hitte et al. J. Hered 2003) TSP variant maps Consensus map MLE OCB Mk_# Mk_Name |================ [ 35 35 35 38 35] (mk_35) EST7A10# 22 |==================== [ 33 33 33 33 33] (mk_33) EST3C10-B# 53 |================ [ 13 13 13 35 13] (mk_13) BAC_375-K3# 39 |================ [ 12 12 12 13 12] (mk_12) BAC_375-F13# 22 |======== [ 6 6 51 12 70] (mk_6) BAC_372-E22# 22 |============ [ 70 70 70 6 51] (mk_70) VCAM1 54 |============ [ 51 51 6 51 6] (mk_51) FH3445# 54 |================ [ 48 48 48 70 48] (mk_48) FH3246# 39 |================ [ 36 36 36 48 36] (mk_36) FH2119 39 |================ [ 28 28 28 36 28] (mk_28) EST17G5# 23 |================ [ 34 34 34 28 34] (mk_34) EST4F4-B# 39 |================ [ 49 49 49 34 49] (mk_49) FH3282# 39 |================ [ 26 26 26 49 26] (mk_26) EST14G8# Phase d’Analyse : Ordonner 100 marqueurs 1/2 h (- 5 CPUs PCIO-IDEFIX)
BLASTn et/ou MegaBLAST (PCIO-IDEFIX / gcg - Wisconsin package) Analyses desSéquences 5909 Dog Sequences Orthologue humain Structure de l’aligt Coord. génomique Orthologue murin Structure de l’aligt Coord. génomique DogSeq# Chr Gene Start End 1 Chr1 ENSG00000174633 594410 597598 1 Chr1 ENSG00000174633 594410 597598 1 Chr1 ENSG00000174633 594410 597598 2 Chr1 ENSG00000127055 708136 744003 Chr1 ENSG00000127055 708136 744003 GENE92 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE93 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE94 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE95 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE96 tigr_Chr1 Ren_Chr7 MMU-Chr6 GENE97 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE98 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE99 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE100 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE101 tigr_Chr1 Ren_Chr1 MMU-Chr4 Définition d’amorces : ~6h -5 CPUs- (PCIO-IDEFIX) Alignement séquences : BLAST ~16h x 2 (human/mouse) MegaBLAST ~80 h PCIO-IDEFIX -5 CPUs- Primer4.prog
Exemple de développement au niveau d’une plate-forme bio http://www.madtools.org Ouest Génopole. IFR 26 INSERM U.533
MADTOOLSMicroarray Data Tools • Database • Probes & targets • Gene sequences • Array data Database Numerical processing KD http://cardioserve.nantes.inserm.fr/mad/
What genes are co-citated in literature? Bibliographical Clusters What co-citated genes perform similar functions? Experimental Clusters GOFunctionalCluster What co-expressed genes perform similar functions? From Gene Expression Results to Literature Data Ouest Génopole. IFR 26 INSERM U.533
Exemple de demande de service ayant conduit à une collaboration puis au développement d’un outilLogiciel de Recherche d'Amorces Optimisées pour l’amplification de Chromosomes Bactériens par PCR LonguePortée • Nouri BEN ZAKOUR Laboratoire de Microbiologie UMR1055 INRA ENSAR • Dominique LAVENIERIRISA / CNRS - équipe Symbiose
Profil d'amplification 10Kb PCR ~10Kb Souche de référence Insertions Délétions Souche non séquencée PCR ~10Kb Même jeu d'amorces Comparaison des différents profils = Informations sur la plasticité Approche PCR2 Amorce sens Amorce antisens
2 régions de N315 amplifiées par LR-PCR A B Validation biologique
Bases de données spécialisées Esther Kaboré Didier Flament
Recherche de motifs et de signatures Cynthia Alland Emmanuelle Morin Anne-Sophie Valin
Les actions de formation Actions de formation - oct 2001 : GCG - nov 2002 : GCG Elaboration d'un catalogue
L'existant depuis 2000 • DEA GetI • Maîtrise de Biologie • Maîtrise de d'informatique 31 étudiants formés 15 thèses en cours
Promotion 2003 • 12 étudiants • 6 Biologistes • 6 informaticiens
A partir de 2004 • Licence de Biologie et Informatique • Master de bio-informatique
Le site de OUEST-Génopole® http://genouest.no-ip.org
Perspectives : Une richesse largement inexploitée :Banques de génomes complets Génomes Eukaryotes: Homo sapiens, Mus musculus, Ratus Norvegicus, Oryza sativa, Plasmodium falciparum, Caenorhabditis elegans, Saccharomyces serevisiae, Drosophila melagongaster, Encephalitozoon cuniculi Génomes Bactériens: Escherichia coli, Prochloroccocus marinus, Salmonella typhi, Staphylococcus aureus, vibrio cholerae, Neisseria meningitidis Yersinia pestis, …