450 likes | 540 Views
Séminaire Genopole d’Evry du 17 Juin 2005. MicroScope : Bases de données pour la (ré)-annotation de génomes bactériens. Dr Claudine Médigue (“Atelier de Génomique Comparative”). Claude Scarpelli (Equipe informatique du Genoscope”). Aurélie Lajus Stéphane Cruveiller Zoé Rouy
E N D
Séminaire Genopole d’Evry du 17 Juin 2005 MicroScope : Bases de données pour la (ré)-annotation de génomes bactériens Dr Claudine Médigue (“Atelier de Génomique Comparative”) Claude Scarpelli (Equipe informatique du Genoscope”) Aurélie Lajus Stéphane Cruveiller Zoé Rouy David Vallenet Laurent Sainte-Marthe Sylvain Bonneval
Prediction de régions codantes, promoteurs, terminateurs, RNAs Recherche de similarités, familles de protéines, domaines, … Suggestion de fonctions, classification Validation des annotations automatiques, Recherche complémentaires (littérature, bases spécialisées), Analyse contextuelle, fusions de gène, interactions de protéines , phylogénie, etc… Annotation manuelle Intégration dans d’autres plateformes d’analyse Annotation des génomes bactériens Validation/mise à jour des annotations Données d’expression, phenotypes de mutant, etc. Ré-annotation Sequençage Prédiction de gènes Annotation fonctionnelle Bases/banques génomiques
Annotation des génomes bactériens Sequençage Labo ‘humide’+ Bioinformatique Prédiction de gènes Bioinformatique PROCEDURES AUTOMATIQUES INDISPENSABLES Annotation fonctionnelle Bioinformatique Bases/banques génomiques Effort Manuel INTERFACES GRAPHIQUES INDISPENSABLES Annotation manuelle Intégration dans d’autres plateformes d’analyse Bioinformatique Ré-annotation Labo ‘humide’ + Bioinformatique
Annotation des génomes bactériens : contexte internationale • Pipeline automatique à l’ORNL (http://genome.ornl.gov/microbial) puis intégration au site IMG du DOE (http://img.jgi.doe.gov/v1.1/main.cgi) • Univ. Wisconsin : base de données de séquences et d’annotations + données d’expression (E. coli) • En Allemagne • Au MIPs : automatic annotation of bacterial proteomes (plateforme d’annotation experte PedantPro) • GenDB plateforme d’annotation automatique + expert (« open source ») Univ. Bielefeld. • Au Danemark • Atlas des données de génomes publiés http://www.cbs.dtu.dk/services/GenomeAtlas/ • En Angleterre : • Outil d’annotation graphique de génomes Sanger Center • Aux Etats Unis : • TIGR : pipeline annotation, bases de données, interface Web (service + formation)
Portion du génome de S. typhimurium (Genome Browser de CMR) : Projets de ré-annotation de génomes bactériens au TIGR • Base de données CMR (Comprehensive Microbial Resource) «Primary annotation» : annotations originales + « TIGR annotation » : annotations automatiques Gènes en plus
Projet RefSeq (Reference Sequence) Reviewed RefSeq : annotations automatiques + ‘curation’ manuelle par des experts du NCBI. Provisional RefSeq : annotations automatiques uniquement Provisional RefSeq:annotations originales Gènes en plus/en moins LOCUS NC_000961 1738505 bp DNA circular BCT 07-JUN-2005 DEFINITION Pyrococcus horikoshii OT3, complete genome. … COMMENT REVIEWED REFSEQ: This record has been curated by NCBI staff. The reference sequence was derived from BA000001. … gene 494591..495058 /locus_tag="PH0553.1n" /db_xref="GeneID:1444443 » CDS 494591..495058 /locus_tag="PH0553.1n" /codon_start=1 /transl_table=11 /product="putative flagella-related protein" /protein_id="NP_877768.1" /db_xref="GI:33359301" /db_xref="GeneID:1444443" /translation="MGFSVSASAAIVFISFLIGLGTLYIAWENSYLEVQAAREFWYSL RTSQLHFDIGNVSISYVNSTHVDVAFTYLGQTLEGKIDVLHNGTYVSSVDVTYLIPGE SYSITIPGGDTSGSLNHLTLAFNNGCVAIIAYHYNGTAYVVDSTSIQCPMEVS" Gène supplémentaire entre les CDSs PH0553 et PH0554 Projets de ré-annotation de génomes bactériens au NCBI
Projet Genome Reviews (GR) • Enrichissement/correction des annotations fonctionnelles originales (Données UniProt, Genome Ontology, InterPro, etc) • Standardisation/homogénéisation des annotations • Elimination des annotations ‘erronées’ (‘curators’ de UniProt/SWISSProt) • Ajout de CDSs correspondants à des entrées UniProt non annotées sur un génome. Gènes en moins/en plus ID AE014299_GR standard; circular genomic DNA; GRV; 4969803 BP. XX DT 06-JUN-2005 (Rel. 28, Last updated, Version 33) XX DE Shewanella oneidensis (strain MR-1) chromosome, complete sequence. XX CC This Genome Reviews entry was created from entry AE014299.1 in the CC EMBL/GenBank/DDBJ databases on 06 June 2005. … FT CDS complement(3273023..3273601) FT /codon_start=1 FT /gene="tdk {UniProt/Swiss-Prot:Q8ECK0}" FT /locus_tag="SO3140 {UniProt/SwissProt:Q8ECK0}" FT /product="Thymidine kinase {UniProt/Swiss- FT Prot:Q8ECK0}" FT /EC_number="2.7.1.21 {UniProt/Swiss-Prot:Q8…}" FT /function="ATP binding {GO:0005524} » FT /function="thymidine kinase activity {GO:0004797}" FT /biological_process="DNA metabolism FT {GO:0006259}" CDS complement(3273023..3273601) /locus_tag="SO3140" /note="identified by match to PFAM protein family HMM PF00265" /codon_start=1 /transl_table=11 /protein_id="AAN56142.1" /product="thymidine kinase Projets de ré-annotation de génomes bactériens à l’EBI
UniProtKB/Swiss-Prot entry P33898 Entered in Swiss-Prot in Release 28, February 1994 CAUTION : In the K12 strain this gene is disrupted by a stop codon and a frameshift. It seems to be intact in a number of wild strains. Ajout de CDSs dans le fichier GR : exemple chez E. coli ID U00096_GR standard; circular genomic DNA; GRV; 4639675 BP. XX DE Escherichia coli (strain K12) chromosome, complete sequence. CC This Genome Reviews entry was created from entry U00096.2 in the CC EMBL/GenBank/DDBJ databases on 06 June 2005. … FT CDS 1486256..1487695 FT /gene="aldA" FT /locus_tag="b1415" FT /product="Aldehyde dehydrogenase A" FT /EC_number="1.2.1.21" FT /EC_number="1.2.1.22" FT /function="glycolaldehyde dehydrogenase activity" FT /function="lactaldehyde dehydrogenase activity" FT /biological_process="metabolism" FT /translation="MSVPVQHPMYIDGQFVTWR… » FT CDS complement(1487737..1488389) FT /pseudo="{EMBL:U00096}" FT CDS join(complement(1487997..1488737), FT complement(1487737..1487994)) FT /evidence="{BLASTALL 2.2.6/ALIGN 2.0u}" FT /product="Glyceraldehyde-3-phosphate dehydrogenase C FT {UniProt/Swiss-Prot:P33898}" FT /EC_number="1.2.1.12 {UniProt/Swiss-Prot:P33898}" FT /insertion="1487994^1487995,seq:G FT {UniProt/Swiss-Prot:P33898}" FT /transl_except=(pos:1488621..1488623,aa:Lys) FT {UniProt/Swiss-Prot:P33898} FT /translation="MSKVGINGFGRIGRLVLGRLLEVKSNI…
CAATBox (génomes pathogènes séquencés à l’IP) MICADO GenoList AGMIAL (génomes bactériens d’intérêt agro-alimentaire) iANT (S. meliloti, R. solanacearum) (plateforme de génomique exploratoire) IMGLib => Proposer une «assistance» aux biologistes pour l’annotation de génomes bactériens (automatique et experte) Situation en France et objectif de MicroScope Pipeline d’annotation automatique (1) Les 3 composantes de MicroScope Bases de données relationnelles (2) Interface graphique d’annotation MaGe (3)
Composante 1 de MicroScope : outils d’annotation structurale From different authors From the AGC group
Heuristique de sélection des CDSs les plus probables start stop + + AFC Clustering Patterns starts/stops + RBS (RBS-Finder) Chevauchements Inclusions, … AMIGene : Détecter les gènes de composition atypique / petits gènes http://www.genoscope.cns.fr/agc/tools/amigene P(X/X1...Xk) Matrice(s) de transitions AMIMat et AMIGene phase 1 phase 2 w phase 3 GeneMark AMIMat : caractériser des groupes de gènes homogènes dans l’usage des codons au sein d’un génome bactérien. http://www.genoscope.cns.fr/agc/tools/micheck/html/database_status.html Class IV (256) Class III (397) Class II (1551) Class I (1791)
MICheck : ré-annotation (syntaxique) de génomes bactériens Objectif : Vérifier rapidement si les annotations répertoriées dans les banques de séquences pour un génome donné sont complètes. http://www.genoscope.cns.fr/agc/tools/micheck
Résultats MICheck quelques génomes bactériens Uniques Banque Uniques AMIGene Nb Gene Genome Ori RefSeq GR Ori RefSeq GR Ori RefSeq GR Corynebacterium glutamicum 3099 3099 15 5 15 65 14 65 2993 Aeropyrum pernix 2694 2694 18 35 18 941 186 941 1843
Résultats MICheck sur A. pernix (status Reviewed Refseq) Fichier ‘Refseq’ (NC_00854) APE1089 APE1077 APE1097 APE1087a rplX APE1088a CDS UNIQUES Banques CDS UNIQUES AMIGene CDS communes 18 1565 941 BA000002 35 1569 186 NC_000854 Genbank ‘original’ (BA000002)
Haemophilus influenzae 1739 1716 1709 2 4 47 4 0 4 Buchnera sp. 572 572 564 0 0 10 0 0 0 Shewanella oneidensis 20 4757 4630 7 4438 150 175 15 175 Résultats MICheck quelques génomes bactériens Uniques Banque Uniques AMIGene Nb Gene Genome Ori RefSeq GR Ori RefSeq GR Ori RefSeq GR Corynebacterium glutamicum 65 3099 65 2993 3099 14 5 15 15 Aeropyrum pernix 35 2694 1843 2694 18 18 941 186 941 Oceanobacillus iheyensis 3497 3502 3497 2 14 2 18 18 18
gene 3266258..3268062 /gene="dctB" /locus_tag="SO3137" /note="This region contains an authentic frame shift and is not the result of a sequencing artifact; C4-dicarboxylate transport sensor protein, authentic frameshift" gene 3268059..3269438 /gene="dctD" /locus_tag="SO3138" CDS 3268059..3269438 /gene="dctD" /locus_tag="SO3138" /note="similar to GB:X14046, SP:P11049, and PID:29794; identified by sequence similarity; putative" /codon_start=1 /transl_table=11 /product="C4-dicarboxylate transport transcriptional regulatory protein" gene complement(3269514..3272585) /locus_tag="SO3139" /note="This region contains an authentic frame shift and is not the result of a sequencing artifact; conserved hypothetical protein; identified by Glimmer2; putative" gene complement(3273023..3273601) /locus_tag="SO3140" CDS complement(3273023..3273601) /locus_tag="SO3140" /note="identified by match to PFAM protein family HMM PF00265" /codon_start=1 /transl_table=11 /protein_id="AAN56142.1" /product="thymidine kinase gene 3274138..3276066 /locus_tag="SO3141" /note="This region contains a gene with one or more premature stops or frameshifts, and is not the result of a sequencing artifact; cytochrome c, degenerate; similar to GP:3628769; identified by sequence similarity; putative" … AE005176 FT CDS 3264761..3266158 FT /codon_start=1 FT /gene="dctM {UniProt/TrEMBL:Q8ECK2}" FT /locus_tag="SO3136 {UniProt/TrEMBL:Q8ECK2}" FT /product="C4-dicarboxylate transport protein … FT CDS 3268059..3269438 FT /codon_start=1 FT /gene="dctD {UniProt/TrEMBL:Q8ECK1}" FT /locus_tag="SO3138 {UniProt/TrEMBL:Q8ECK1}" FT /product="C4-dicarboxylate transport FT transcriptional regulatory protein FT {UniProt/TrEMBL:Q8ECK1} » FT CDS complement(3273023..3273601) FT /codon_start=1 FT /gene="tdk {UniProt/Swiss-Prot:Q8ECK0}" FT /locus_tag="SO3140 {UniProt/SwissProt:Q8ECK0}" FT /product="Thymidine kinase {UniProt/Swiss- FT Prot:Q8ECK0}" FT /EC_number="2.7.1.21 {UniProt/Swiss-Prot:Q8…}" FT /function="ATP binding {GO:0005524} » FT /function="thymidine kinase activity {GO:0004797}" FT /biological_process="DNA metabolism FT {GO:0006259}" FT CDS 3276288..3278438 FT /codon_start=1 FT /gene="dcp-1 {UniProt/TrEMBL:Q8ECJ9}" FT /locus_tag="SO3142 {UniProt/TrEMBL:Q8ECJ9}" FT /product="Peptidyl-dipeptidase Dcp" FT /function="metalloendopeptidase activity FT {GO:0004222}" FT /biological_process="proteolysis and peptidolysis FT {GO:0006508}" AE005176_GR /note="This region contains an authentic frame shift and is not the result of a sequencing artifact; C4-dicarboxylate transport sensor protein, authentic frameshift" /note=" This region contains an authentic frame shift and is not the result of a sequencing artifact; … " Fichier d’annotation original et fichier EMBL (GR) /note="This region contains a gene with one or more premature stops or frameshifts, and is not the result of a sequencing artifact; cytochrome c, degenerate; similar to GP:3628769; identified by sequence similarity; putative"
Dehalococcoides ethenogenes Résultats MICheck quelques génomes bactériens 1592 51 6 Xanthomonas oryzae 4637 123 76 Uniques Banque Uniques AMIGene Nb Gene Genome Ori RefSeq GR Ori RefSeq GR Ori RefSeq GR Corynebacterium glutamicum 65 3099 65 2993 3099 14 5 15 15 Aeropyrum pernix 35 2694 1843 2694 18 18 941 186 941 Oceanobacillus iheyensis 3497 3502 3497 2 14 2 18 18 18 Haemophilus influenzae 1739 1716 1709 2 4 47 4 0 4 Buchnera sp. 572 572 564 0 0 10 0 0 0 Shewanella oneidensis 20 4757 4630 7 4438 150 175 15 175
Annotation manquante dans le génome de Xanthomonas oryzae CDS UNIQUES Banques CDS UNIQUES AMIGene CDS communes 123 4323 76 NC_006834 XOO3514 XOO3512 XOO3516 XOO3513 XOO3517 XOO3518 XOO3515 Putative vgr-related protein Similar to putative membrane protein from Burkholderia pseudomallei (Q63QC8) Similar to rhs element vgr protein from Burkholderia mallei (Q62L24)
Composante 1 de MicroScope : outils d’annotation fonctionnelle From different authors From the AGC group
A Synteny Group #2 Synteny Group #1 B Rearrangement Fusion Duplication Insertion Inversion http://www.genoscope.cns.fr/agc/tools/syntonizer Syntonizer : Groupes de synténies dans les génomes bactériens Objectif : Détecter des groupes de gènes ‘localement’ conserver dans les génomes bactériens.
Organisme X Pathway de Référence Peter Karp (SRI International) • Base métabolique construite pour chaque génome annoté (genomeCyc) • Requêtes dynamiques au serveur de Kyoto. • Pathologic : identifie les voies métaboliques à partir des EC + données métaboliques de MetaCyc. • Correspondances simples par EC sur les données d’un génome de référence. Reconstition de voies métaboliques • Pathway Hole Filler : recherche de gènes candidats pour les enzymes manquantes. Voies prédites dans l ’organisme X Prédiction d’activités enzymatiques (PRIAM) Relation : numéros EC
Composante 2 de MicroScope : Procaryotic Genome DataBase Objectif : données d’annotation ‘propres’, cohérentes, à la source des méthodologies de génomique comparative • SGBD relationnel (MySQL) • Génomes complets(Refseq NCBI + GR) • Intégration dans PkGDB Homogénéité des données Gestion des ‘frameshifts’
Integration des données publiques dans PkGDB PkGDB PkGDB Databank file Databank_Annotation Set of original annotations Databank_Annotation Set of original annotations Compare_Annotation ‘valids’ CDSs All the annotated genes : ‘valid’ CDSs (1) + Automatically corrected CDSs and CDSs which need to be manually corrected ‘valid’ CDSs (1) Pre-matrix building up Model gene used to compute coding prediction curves • Check/correction of erroneous CDSs • Pseudogenes annotation
gene 622524..624571 /gene="kdpB" /locus_tag="S0610" /note="frameshift" /pseudo /db_xref="GeneID:1077039" gene 624580..625152 /gene="kdpC" /locus_tag="S0611" CDS 624580..625152 /gene="kdpC" /locus_tag="S0611" /function="enzyme; Transport of small molecules: Cations" /codon_start=1 /transl_table=11 /product="potassium-transporting ATPase" gene 625145..627825 /gene="kdpD" /locus_tag="S0612" /note="frameshift" /pseudo gene 627822..628507 /gene="kdpE" /locus_tag="S0613" /note="frameshift" /pseudo gene 629197..631394 /gene="speF" /locus_tag="S0614" /note="frameshift" /pseudo … kdpC speF kdpB kdpD kdpE ‘fragment’ of CDSs (‘fCDS’ type in PkGDB) Annotation des pseudogènes dans PkGDB Error type = ‘No3multiple’ ‘complex’ CDS (‘cCDS’ type in PkGDB)
Integration des données publiques dans PkGDB PkGDB PkGDB PkGDB Databank file Databank_Annotation Set of original annotations Databank_Annotation Set of original annotations Compare_Annotation All the CDS with the ‘Checked’ Statut Compare_Annotation ‘valid’ CDSs All the annotated genes : ‘valid’ CDSs (1) + Automatically corrected CDSs and CDSs which need to be manually corrected ‘valid’ CDSs (1) Corrected and valid CDSs (2) Pre-matrix building up AMIMat : Computation of gene models using FCA and clustering methods Model gene used to compute coding prediction curves Syntonizer : Computation of synteny group using complete data set of annotations • Check/correction of erroneous CDSs • Pseudogenes annotation
Génomes nouveaux(projets d’annotation) • Résultats d’analyses : • Intrinsèques : gènes, signaux, répétitions,… • Extrinsèques : Blast, InterPro, COG, synténies … Composante 2 de MicroScope : Procaryotic Genome DataBase Objectif : données d’annotation ‘propres’, cohérentes, à la source des méthodologies de génomique comparative • SGBD relationnel (MySQL) • Génomes complets(Refseq NCBI + GR) • Intégration dans PkGDB Homogénéité des données Gestion des ‘frameshifts’ • Ré-annotation syntaxique Complétion /correction des données
Projet : base de (re)annotation Neisseria • intégration des génomes séquencés disponibles : 2 Neisseria meningitidisserogroup A strain Z2491 + serogroup B MC58 (2000) 1 Neisseria gonorrhoeae(2005) 1 Neisseria meningitidisserogroup C strain FAM18 (en cours au Sanger) 1 Neisseria meningitidisNEM8013 (en cours à l’Institut Pasteur) Séquences + (re)-annotations + annotations automatiques + synténies (> 230 génomes) MetaCyc DB objet Ocelot NeisseriaScope BraORSCyc ADP1Cyc Composante 2 de MicroScope : bases thématiques CenarCyc FalniCyc NeisseriaScope Multigénomes Cyc PkGDB Bacillus Scope Yersinia Scope ColiScope FrankiaScope AcinetoScope RhizoScope ColiScope
Début du développement : Oct. 2002 Contexte : annotation du génome de Acinetobacter sp. ADP1 (été 2004) • Developpé par des biologistes impliqués eux même dans l’annotation experte (D. Vallenet) • Editeur d’annotation ‘modulaire’ • Quelques originalité du systèmeMaGe Les changements sont adaptés aux projets • Annotation réalisée avec contexte des gènes annotés • Interface graphique permettant de visualiser les résultats de synténie entre protéomes bactériens. Composante 3 de MicroScope : interface d’annotation MaGe Comparaison des annotations de plusieurs génomes en utilisant l’organisation des gènes
Connection à MaGe http://www.genoscope.cns.fr/agc/mage/project _name • Bacterial annotation projects in progress : Login name and password are required. • Available re-annotation and annotation projects : project _name = AcinetoScope (Acinetobacter sp. ADP1) = BacillusScope (Bacillus species) = YersiniaScope (Yersinia species)
CoDing Sequences rRNA genes Repeat (DNA) tRNA genes Coding prediction curves obtained with Matrix number 1 Carte graphique du génome en cours d’annotation
Carte graphique du génome en cours d’annotation • The overall DNA sequence is loaded • The annotation data corresponding to the vizualized region in MaGe (1 bp to 3001 bp) are loaded. Applet JAVA
Carte graphique du génome en cours d’annotation Where are the predicted enzymes in the KEGG pathways ? (complete annotations or only those in the visualized region) Kanehisa (Kyoto University) • Requête dynamique au serveur KEGG • Les enzymes sont coloriées selon le résultat du ‘mapping’ sur les voies métaboliques d’un génome de référence
Carte graphique du génome en cours d’annotations Connection to the BioCyc metabolic database built in the AGC group (genomeCyc): • PathoLogic pathway analysis -> list of the identified metabolic pathways Peter Karp (SRI International) • Pathway Hole Filler -> list of gene candidates for missing enzymes • In the annotator editor of a gene coding an enzyme -> link to the corresponding metabolic pathway(s) Connection à BioCyc sur l’instance de la base du génome en cours d’annotation
Interface graphique des synténies dans MaGe Low similarity results : from 16.5% to 23.5% identity High similarity results : From 52% to 73% identity
0074 ugd rmlC 0073 ACIAD0075 rmlA rmlD rmlB 1.1.1.22 5.1.3.13 1.1.1.133 2.7.7.24 4.2.1.46 Combinaison des synténies et des voies métaboliques
Connectivité à la base métabolique KEGG Enzymes encoded by genes in the MaGe region Enzymes encoded by genes elsewhere in the Acinetobacter genome Additional enzymes in E. coli
0074 ugd rmlC 0073 ACIAD0075 rmlA rmlD rmlB 1.1.1.22 5.1.3.13 1.1.1.133 2.7.7.24 4.2.1.46 Combinaison des synténies et des voies métaboliques ACIAD0075 Expert annotation -> “Polysaccharide transport protein” (Automatic annotation -> “Putative transporter”)
Exploration des données d’homologie/synténie Search for • Keywords • Homologs and synteny groups • Specific genes and regions AND having no hit with genes from • PkGDB organisms • NCBI RefSeq organims (optional) Acinetobacter genes in synteny with genes from • PkGDB organisms • NCBI RefSeq organisms
MicroScope : Rôle de l’AGC et de l’équipe informatique • Développement et maintenance des bases thématiques • Intégration des génomes ‘proches’ dans PkGDB • Analyse complète d’un génome nouvellement séquencé • Recherche de synténies avec l’ensemble des procaryotes complets • Construction de la base BioCyc • Mise à la disposition des données via l’interface MaGe • Optimisation de l’architecture des bases et des ressources machines • Gestion efficace des mises à jour des données • Mise à jour des banques de séquences et des comparaisons • Avancée du “Finishing” : reconstruction des bases • Formation et suivit des utilisateurs (une journée : outils d’annotation et interface MaGe) • Aujourd’hui : 16 projets en cours
Examples de projets MicroScope Base de Données Bactérie(s) Séquençage Collaborateurs Neisseria meningitidis NEM8013 Institut Pasteur Pathogène Humain C. Rusniok (LGMP, IP, Paris) NeisseriaScope M. Picardeau & C. Bouchier (IP, Paris) Institut Pasteur Pathogène/ Saprophyte H. Leptospira biflexa LeptoScope Burkholderia species Pathogène Sanger Center BurkholScope E. Fialho (Portugal) Frankia alni Genoscope P. Normand (Lyon) FrankiaScope Symbiote de plantes Frankia sp. CcI3 D. Benson (Univ. Connect, USA) DOE JGI Frankia sp. EAN1 L. Tisa (Univ. New H, USA) Escherichia coli B P. Daelegen (Genoscope, Evry) Commensales et Pathogènes ColiScope Genoscope E. coli D & E Escherichia fergusoni E. Denamur (INSERM, Bichat) P. Bertin (ULP, Strasbourg) Cenibacterium arsenoxidans Environnement (Métabolise l’arsenic) CenibaScope Genoscope Consortium GDR Arsenic Thiomonas spp. E. Giraud (LSTM, Montpellier) Genoscope Bradyrhizobium sp. ORS278 BradyrhizoScope Symbiote de plantes G. Stacey (Univ. Missouri, USA) M. Sadovsky (Univ. Minnesota, USA) DOE JGI Bradyrhizobium sp. BTAi1
Améliorer l’annotation fonctionnelle automatique : • Détection automatique des évènements de fusion/fission • Combinaison synténies/voies métaboliques • Recherche automatique de candidats d’enzymes manquantes • Tirer profit de l’annotation experte : • Interface permettant de propager l’annotation experte d’un gène aux orthologues ‘forts’. • Formation à l’annotation de génomes bactériens et à la plateforme d’annotation MaGe Perspectives pour MicroScope • 4 journées organisées au Genoscope à partir de l’automne 2005 (préparation, au préalable, de la base liée au projet) -> Les outils d’annotation -> Utilisation de MaGe autour du (des) génomes d’intérêt • Interfaces de requêtes multigénomes : • Interfaces génériques et spécifiques (requêtes pré-cablées) • Interfaces graphiques -> accès à MaGe/BioCyc/Syntonizer
A l’Atelier de Génomique Comparative : • Zoé Rouy • David Vallenet • Aurélie Lajus • Stéphane Cruveiller • Dans le service informatique : • Claude Scarpelli • Laurent Sainte-Marthe • Sylvain Bonneval … avec la complicité pour les bases BioCyc de : • François Lefèvre (équipe de V. Schächter) Les acteurs de MicroScope • Et sans oublier les retours de nos collaborateurs biologistes !
Et pour finir … Je vous remercie de votre attention !… Paul Kersey de l’EBI vient nous parler des projets Genome Reviews et Integr8 Jeudi prochain à 11h dans cette même salle (le 23 Juin) « Interg8 and Genome reviews: integrated views of complete genomes and proteomes”