1 / 56

Génopole Institut Pasteur Bioinformatique - Bilan 2003

Génopole Institut Pasteur Bioinformatique - Bilan 2003. Ivan Moszer Génopole Institut Pasteur Plate-forme “Intégration et Analyse Génomiques”. Activités et missions.

eydie
Download Presentation

Génopole Institut Pasteur Bioinformatique - Bilan 2003

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Génopole Institut PasteurBioinformatique - Bilan 2003 Ivan Moszer Génopole Institut Pasteur Plate-forme “Intégration et Analyse Génomiques” Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  2. Activités et missions • Annotation de nouvelles séquences génomiques : développement d’outils d’annotation et de stratégies adaptées ; formation aux unités de recherche • Maintien de collections de données génomiques, identifiables par des annotations de grande qualité, sur un ensemble d'organismes sélectionnés : collaborations avec les unités compétentes, rôle de formation et de standardisation • Développement logiciel de bases de données génomiques innovantes (structures de données, interfaces utilisateur) : génome (projet GenoList), transcriptome, et protéome (=> système intégré) • Développement et application de méthodes d'analyse mathématiques et statistiques pour le décryptage des données génomiques : génomique comparée, études phylogénétiques, analyse des données d'expression, réseaux de régulation, etc. • Enseignement et formation Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  3. Ligne directrice des activitésLe pourquoi et le comment des bases de données génomiques • 1. Concevoir et implémenter des structures de données ad hoc • 2. S’assurer que celles-ci sont alimentées par des données de grande qualité • 3. Concevoir et implémenter des interfaces utilisateur ad hoc • Ces bases de données agissent comme un point de rencontre entre données de qualité organisées selon des schémas adéquats, et outilsd’interrogation et d’analyse pertinents, accessibles depuis des interfaces utilisateur conçues en premier lieu pour répondre aux besoins des biologistes • L’accès à de tels environnements logiciels intégrés doit aider à la découverte de connaissances, au travers d’une exploration des données facilitée par des interactions homme-machine inspirées par les utilisateurs spécialistes, et des représentations visuelles judicieusement élaborées Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  4. Outils d’annotation(L. Frangeul et al.) • Programme « CAAT-Box » : « Contig Assembly and Annotation Tool-Box » • Caractéristiques : • Suivi du shotgun et des assemblages successifs • Méthodes pour la finition • Annotation possible dès l’étape de finition • Annotations accessibles et modifiables via le Web • Modules d’annotation (Blast, GeneMark, frameshifts, « primers », etc.) • Applications : • Annotation des génomes de Listeria monocytogenes et Listeria innocua • Annotation du génome de Photorhabdus luminescens • Annotation du génome de Streptococcus agalactiae • Annotation du génome de Candida albicans • Annotation du génome de Candida glabrata • Participation au projet Geno* Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  5. CAAT-BoxMotivations • Pourquoi commencer à annoter un génome non terminé ? • Nombreuses séquences obtenues en peu de temps • Ces séquences sont souvent assemblées automatiquement, générant de grands contigs • Quelles sont les difficultés ? • Changement des séquences et des contigs après chaque assemblage • D’où une modification de la localisation/nomenclature/séquence des gènes déjà annotés Annotation Finishing Shotgun 2002 1996 Time needed Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  6. CAAT-BoxLes “Individual Protein Files” (IPF) Contig X ORFs Individual Protein File 500 bases avant le codon stop 200 bases après le codon stop I.P.F. Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  7. L’utilisateur travaille avec un groupe d’IPF indépendamment de la progression de la finition IPF IPF Comments Results IPF 1201.1 ORFs Contigs Comments Results IPF 1201.1 ORFs OR Comments Results IPF 1201.2 Contigs Si une modification se présente dans la séquence d’une IPF, son numéro de version augmente et les commentaires et résultats sont transférés dans un champ spécial CAAT-BoxStratégie Assembly X Assembly Y Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  8. Interface de CAAT-BoxUtilitaires Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  9. Interface de CAAT-BoxPage IPF IPF_reader.cgi génère dynamiquement une page html en fonction : • des champs du fichier IPF • du niveau d’accès utilisateur • des fichiers IPF_results pour cette IPF • des commentaires utilisateur sur cette IPF Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  10. Intégration CAAT-Box/GenomeBrowser Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  11. Bases de données annotées(C. Boursaux-Eude et al.) • Objectif : générer des annotations de grande qualité pour les génomes microbiens • Relier séquence et fonctions cellulaires • Exigences de qualité et de cohérence : • Contrôle, correction, et validation des annotations existantes • Création de nouvelles annotations (physiques et fonctionnelles) • Vérification expérimentale des prédictions in silico (interprétations trop permissives, danger des seuils automatiques, manque d’attributs « warning », manque de traçabilité, propagation des erreurs) • Nomenclatures et vocabulairescontrôlés • Références croisées • Mises à jour régulières • Applications : • Mise à jour du génome de Bacillus subtilis (mai 2001) (coll. A. Danchin) • Mise à jour des génomes de Mycobacterium tuberculosis et Mycobacterium leprae (janvier 2002) (coll. S.T. Cole) • Mise à jour des génomes de Helicobacter pylori 26695 et J99 (coll. A. Labigne) • Projets pour plusieurs autres organismes microbiens (dont Staphylococcus aureus, Saccharomyces cerevisiae, etc.) • Participation au projet HAMAP (SWISS-PROT) Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  12. SubtiList update(May 2001) • 288 sequence corrections (systematic verifications and individual submissions) • 520 references imported and linked to the relevant genes • Updated genes Nb of genes • Genomic sequence changed 103 • location updated (start and/or stop codons) 67 • substitutions 3 • internal compensated frameshift 2 • two genes merged into one single gene 18 ( 9) • three genes merged into one single gene 3 ( 1) • one gene split out into two genes 3 ( 6) • new genes added in the annotations 5 • genes deleted from the annotations 2 • Genomic sequence unchanged 85 • location updated (start and/or stop codons) 71 • new genes added in the annotations 8 • genes deleted from the annotations 6 • Gene name changed 239 • “y”  not-“y” 181 • not-“y”  not-“y” 54 • not-“y”  “y” 4 • Description updated ~800 Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  13. Utilisation de Artemis Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  14. TubercuList updates • TubercuList R4 (July 2002) • 82 new CDS • 60 CDS lengths modified • 400 new gene names • Mycobacterial ortholog table (links to Leproma) • Transcriptomic section (techniques and conditions) • Proteomic section (links to databases) • Current list of Mycobacterial Intergenic Repetive Units (MIRU) • 1,000 targeted citations – most with medline links • TubercuList R5 (April 2003) • 10 CDS lengths modified • ~ 50 new gene names • 1,000 targeted citations – all with medline links (citations added directly to TubercuList using BiblioDB) • Updated transmembrane analysis (TMHMM) • More detailed functional classification • Updated partition analysis (MEME/MAST) of the proteome Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  15. Partition analysis of M. tuberculosis Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  16. Bases de données génomiques(S. Moreira et al.) • Conception d’un modèle de données générique « GenoList » et implémentation d’une interface pour le biologiste • Application de GenoList à plusieurs génomes bactériens : • B. subtilis, E. coli, M. tuberculosis/leprae, H. pylori, Mycoplasma pulmonis, Synechocystis/Anabaena, L. monocytogenes/innocua, S. aureus, etc. • Extension du modèle aux relations multi-organismes (gènes orthologues, opérons conservés, signaux communs, etc.), et de l’interface aux outils de génomique comparée (analyse de souches multiples et d’organismes proches) • Développement d’extensions pour génomes eucaryotes (C. albicans, S. cerevisiae, participation au projet Anopheles gambiae) • Réécriture en Java (utilisation du serveur applicatif WebObjects) Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  17. GenoList : Ancienne version • GenoList est un ensemble de serveurs Web permettant : • La visualisationd’informations structurées concernant des génomes bactériens • Annotations syntaxiques (physiques) • Références bibliographiques • Références croisées • Classification fonctionnelle des gènes • … • L’analyse de génomes via des outils bioinformatiques • BLAST / FASTA • Recherche de motifs • … Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  18. Bases de données “GenoList” actuelleshttp://genolist.pasteur.fr/ • Bacillus subtilis 168: SubtiList (coll. A. Danchin - IP) • Escherichia coli K12: Colibri (coll. K. Rudd - Miami U.) • Mycobacterium tuberculosis H37Rv: TubercuList (coll. S. Cole - IP) • Helicobacter pylori 26695/J99: PyloriGene (coll. A. Labigne - IP, P. Legrain - Hybrigenics) • Mycoplasma pulmonis UAB CTIP: MypuList (coll. A. Blanchard, I. Chambaud - IP) • Mycobacterium leprae TN: Leproma (coll. S. Cole - IP) • Synechocystis PCC6803/Anabaena PCC7120: CyanoList (coll. N. Tandeau de Marsac - IP) • Listeria monocytogenes EGD-e/Listeria innocua CLIP 11262: ListiList (coll. P. Glaser, F. Kunst - IP) • Staphylococcus aureus N315/Mu50: AureoList (C. Boursaux-Eude - IP) • Streptococcus pneumoniae R6/Tigr4: StreptoPneumoList (C. Boursaux-Eude - IP) • Candida albicans SC5314: CandidaDB (coll. C. d’Enfert - IP) • Streptococcus agalactiae NEM316: SagaList (coll. P. Glaser, F. Kunst - IP) Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  19. GenoList : une base de données « multi-génomes » microbiens • Extension du modèle « SubtiList » à d’autres génomes bacteriens ou microbiens base de données et serveur Web « multi-génomes » • Améliorer le niveau de généricité du modèle de données • Définir une nomenclature cohérente (noms de gènes/id) et utiliser des vocabulaires contrôlés • Améliorer les annotations de base et intégrer des données expérimentales • Tenir compte des spécificités de chaque organisme • Établir des relations évoluées entre les génomes (gènes orthologues, opérons conservés, signaux communs, etc.) • Intégration d’outils pour les analyses différentielles de génomes • Créer des outils spécifiques pour la gestion et l’analyse des souches multiples et des organismes proches • Intégrer ces informations avec d’autres collections de données (références croisées) • Conserver une interface puissante et conviviale Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  20. GenoList Modèle de données de GenoList(simplifié) Organisme Réplicon Objets génomiques Gènes Régulation Relations Méthodes Bibliographie Utilisateurs Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  21. Interface Web de GenoList :Liste de gènes Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  22. GenoList Modèle de données de GenoList Section Organisme Organisme Réplicon  Multi-organismes Taxonomie Objets génomiques Gènes Régulation Relations Méthodes Bibliographie Utilisateurs Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  23. Interface Web de GenoList :Sélection taxonomique d’organismes Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  24. GenoList Modèle de données de GenoList Sectionrelations inter-organismes Organisme Réplicon • FamillesRelations symétriques et transitivesCOG, DiffTool, Usage du code • ScanRelations non symétriques FindTarget • BDBH (« BiDirectional Best Hit »)Relations symétriques • BLAST contre banque externe Objets génomiques Gènes Régulation Relations Méthodes Bibliographie Utilisateurs Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  25. Génération et intégration de données DiffTool (1) Construction de fichiers de séquences protéiques propres à chaque organisme (protéomes) au format FASTA (2) Lancement du programme DiffTool (3) Production de deux fichiers : • .cluster (composition des familles) • .legend (description des familles) (4) «  Parsing » des fichiers de sortie issus de DiffTool (5) Intégration des données dans la base Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  26. Interface Web de GenoList :Lancement de DiffTool • Sélectionner les familles dont les protéines • ont au moins40% de similarité & 80% de chevauchement • sont présentes dans au moins 3génomes de référence • n’appartiennent pas aux génomes d’exclusion Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  27. Interface Web de GenoList :Familles de protéines DiffTool Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  28. Interface Web de GenoList :Sélection de “best hits” Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  29. Architecture physique Architecture logique • Serveur de bases de données Modèle de données • Serveur applicatif • Traitement logique des données • Serveur Web • Présentation des données GenoList SubScript Sybase @ Aspects techniques • Utilisation du langage de modélisation UML et du SGBD Sybase • Développement à l’aide de WebObjects (Apple) : à la fois une plate-forme modulaire de développement orienté-objet pour des applications Java « trois-tiers », et un serveur d’applications performant et évolutif Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  30. Bases de données transcriptomiques(S. Moreira et al.) • Développement dans le cadre d’un projet européen (« BACELL Network ») sur les réseaux de régulation chez B. subtilis • Intégration des conditions expérimentales, des résultats bruts et traités, et des analyses ultérieures • Schéma conforme aux recommandations MIAME/MGED • Intégration d’outils d’analyse statistique • Objectif générique pour une réutilisation dans un cadre plus large (P. falciparum, E. coli, S. agalactiae, etc.) • Interface Web développée en Java (utilisation du serveur applicatif WebObjects) Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  31. ProjetEscherichia coli ProjetPlasmodium falciparum ProjetAspergillus fumigatus Développement de GenoScriptContexte BACELL Network(Bacillus Cell Factory)Étude des réseaux de régulation globaux chez Bacillus subtilis Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  32. Login, Context, Protocols Overview Experimental Analysis Hybridisation Array Design Modèle conceptuel de données(simplifié) Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  33. Croissance (champ spécifique) • Bacillus subtilis : « preculture protocol » • Plasmodium : « in vivo treatment » • Type de marquage (énumération) • Bacillus subtilis : « 33P dATP, 33P dCTP, 33P dGTP, 33P dTTP » • Plasmodium : « Cy3, Cy5 » Section expérimentale • ContexteDéfinit les conditions techniques de réalisation de l’expérience • Lame de verre / membrane • Eucaryote / Procaryote • … Champs spécifiques et énumérations • Dépendent du contexte Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  34. Protocol V1 New Protocol V1 AddModifyDelete Modify V2 Ponctual modification Protocoles expérimentaux • Gestion détaillée des protocoles expérimentaux et interface utilisateur intuitive et conviviale • Toutes les modifications peuvent être enregistrées, soit temporairement, soit de façon permanente Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  35. Accès restreint Requêtes principales Recherches étendues Entrée et modification d’expériences Interface Web de GenoScriptPage d’accueil Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  36. Liste des gènes régulés significativement Résultat pour le gène sélectionné Interface Web de GenoScript Exemple de requête Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  37. Interface Web de GenoScript Versions et modifications de protocoles Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  38. Démarche de l’analyse statistique • 1. Connaître les méthodes (principes, domaines d’application) • 2. Connaître l’expérience et les données (en termes statistiques) • 3. Connaître l’objectif (pourquoi une analyse statistique ?) • Problèmes: Outils souvent disponibles sous la forme d’interfaces absconses (ligne de commandes), ou d’environnements très élaborés mais compliqués à utiliser • Solution: Concevoir une plate-forme logicielle qui guide l’utilisateur au travers d’interfaces spécialisées conviviales vers les approches statistiques appropriées (outil d’aide à la décision) => interface commune et cohérente (i) à la visualisation graphique des données, (ii) aux méthodes ad hoc pour la transformation et la normalisation des données brutes, et (iii) aux tests statistiques pour l’analyse différentielle de l’expression génétique Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  39. Causes de cette variabilité • Variation biologique : intrinsèque + condition • Variation due à la technique • Variation due à l'erreur de la mesure L'analyse doit prendre en compte ce phénomène par un prétraitement des données et par un test statistique adapté Difficultés de l’analyse duplicates Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  40. Réalisation du module statistique Objectif Prétraitement Analyse Différentielle Étapes 1. Détermination d’un protocole d’analyse 2. Implémentation des méthodes sous R + Évaluation des méthodes 3. Connecter l'environnement R à SubScript 4. Modification du modèle de Subscript 5. Développer l'interface de manière flexible, didactique, et documentée Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  41. Visualisation des données Appréhender les données Correction, Réduction et Filtrage Normalisation Retirer le bruit non biologique Rendre comparable les supports Linéaire (moyenne, …) Non linéaire (Lowess, … ) Prétraitement des données Transformation Rendre normales les données Étaler les données Stabiliser la variance Rendre les gènes comparables ( log, arcsin … ) Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  42. Tests statistiques • Tests paramétriquesTest de Student, test de Welch et dérivés • Tests non paramétriquesTest de Wilcoxon • Pour échantillons appariés (microarray) • ou indépendants (macroarray) Procédure tests multiples • Contrôle du FWER Bonferroni, Holms … • Contrôle du FDR Benjamini et Yekutieli … • Estimation du taux de faux positifs Storey Liste de gènes estimés régulés • Aides à l'interprétation • Information sur les gènes (nom, description, structure opéronique …) • Tri des gènes selon la p-value • Nombre de faux positifs attendus • Ratios L’analyse différentielle(approches classiques) Significativité • Détermination des p-values • distribution normale • technique des permutations • Détermination du seuil (région de rejet de H0) Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  43. REXP Type Attribut Objet java Connectivité R/GenoScript Système client/serveur : Rserve/JRclient (développé par Simon Urbanek, www.rosuda.org/Rserve)  adapté et à l'utilisation de Java et à l'utilisation Web Client 1 Exécution méthode d'analyse JRclient Rserve Requête R Commande R SubScript application Client 2 Réponse R classes Java R Java Objet Java Exécution méthode d'analyse Instance R Avantages : • Un client/Une session = 1 environnement R • Variables restant internes à R • Rapidité • Facilité d'utilisation Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  44. Interface Web de GenoScript Prétraitement - Overview Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  45. Interface Web de GenoScript Prétraitement - Background correction Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  46. Interface Web de GenoScript Prétraitement - Transformation results Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  47. Interface Web de GenoScript Prétraitement - Normalisation results Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  48. Interface Web de GenoScript Analyse différentielle - Choix du type d’analyse Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  49. Interface Web de GenoScript Analyse différentielle - Résultats de l’analyse Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

  50. Problématique phylogénétique(C. Dauga et al.) • Développement de méthodologies phylogénétiques mettant en évidence les transferts de gènes entre espèces proches • Étude de l’impact des différents phénomènes évolutifs que peuvent subir les gènes (transfert, recombinaison, duplication, variations de vitesse d’évolution et pression de sélection, etc.) sur la représentation phylogénétique (arbre, valeur d’homologie) et l’évolution des génomes • Génome des procaryotes = • Gènes hérités verticalement • + Gènes acquis par transfert • + Gènes dupliqués • Phylogénies conflictuelles : • pour les études de systématique • pour le suivi épidémiologique de souches bactériennes • pour décrire l’évolution des génomes Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003

More Related