540 likes | 731 Views
Utilisation de la plateforme web d’analyse de données Galaxy. Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud , Mathieu Bahin , Claudia Hériveau , Olivier Quenez , Olivier Sallou , Aurélien Roult , Olivier Collin Plateforme Bio-informatique GenOuest
E N D
Utilisation de la plateforme web d’analyse de données Galaxy Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier Quenez, Olivier Sallou, Aurélien Roult, Olivier Collin Plateforme Bio-informatique GenOuest CNRS UMR 6074 IRISA-INRIA, Campus de Beaulieu, 35042 Rennes Cedex
INTRODUCTION Concepts, principes, principaux outils
Life Sciences Researchevolution Data quantity Data heterogeneity Data size Technological Evolutions Uses Evolution http://en.genomics.cn/navigation/show_navigation.action?navigation.id=143 High Performance Computing • Life sciences data = digital
Evolution de la recherche Spectromètre de masse IRM Séquenceur Sondeurs Microscopes électronique Caméra sous marine GPS Puce à ADN
Galaxy Concepts, Principe, Présentation
Concepts • Portail web d’analyse de données initialement orienté NGS • Interface « user friendly » pour utiliser des outils bio-informatiques pas toujours « user friendly » • Utilisation de formulaires xml pour recréer les lignes de commandes • Intégration d’outils en différents langage (Python, Perl, Bash, R, Ruby, …) • Utilisation « explicite » pour un non informaticien • Faciliter la réanalyse • Optimiser les ressources de traitements (calcul, stockage et réseaux • Outil équivalent : Mobyle (ex : http://mobyle.genouest.org/)
Concepts • Faciliter l’intégration d’outils • Pas de développement « graphique » • Création d’un descripteur • Liaison avec le logiciel ou le script • Supporte de nombreux langages dont Bash, Python, Perl, R, … • Faciliter l’analyse par des non-bio-informaticiens • Pas besoin de connaitre des langages de programmation • Enchaînements d’outils différents (provenance, type de langage, …) dans une même interface • Gain de temps -> à utiliser pour mieux connaître le fonctionnement des outils • Faciliter le partage • jeux de données, historiques, visualisations, workflows, pages, … • Optimisation des ressources informatiques
Concepts • Orientation principalement NGS • mais flexible! • Protéomique, Métabolomique, Génétique quantitative, Bio-imagerie, SHS, … • La fonctionnalité de workflow : La cerise sur le gâteau! • Galaxy = Environnement complet • Analyse, Visualisation, Workflows, Partage, … • Vision simplifiée mais efficace • Prise en main intuitive • Rapidité et simplicité • Outil essentiel dans le cadre du 4ième paradigme • Accessibilité • Reproductibilité • Transparence • Optimisation
Principe -cluster -poste de travail -cloud … Ressources de stockage 1 -cluster -poste de travail -cloud … Ressources de calcul 6 4 5 1-Récupération de la donnée 2-Recherche et utilisation d’un outil 3-besoin de données externes? 4-envoi de l’analyse sur calculateur 5-récupération des résultats 6-Enregistrement des données générées 3 2 -Génomes -Protéines -structures … -Blast -Bowtie -Velvet … Banques de données biologiques Logiciels bio-informatiques
Présentation Barre de menu Analyse / workflow / Shared data / visualisation Historique Panneau d’ outils Espace d’affichage des informations Formulaire d’un Outil, donnée, historiques sauvegardés, …
Présentation : Mode analyse Get Data Upload File
Présentation : Mode analyse 1er jeu de données de l’historique
Présentation : Mode analyse 1er jeu de données de l’historique
Présentation : Mode analyse Contenu du fichier Prévisualisation
Présentation : Mode analyse Formulaire de l’outil Paramètres de l’outil Outil Cutcolumnsfrom a table Jeu de données d’entrée
Présentation : Mode analyse Exécution de l’outil Nouveau jeu de données en création
Présentation : Mode analyse Remplissage de l’historique Visualisation du nouveau jeu de données en création
Présentation : Mode visualisation Trackster : orienté NGS et génomique Visualisation d’un jeu de donnée par piste, ici 8, en fonction des positions génomiques
Présentation : Mode visualisation Phyloviz : Arbres phylogénétique Visualisation d’un jeu de donnée par visualisation
Les workflows Concepts, principes, principaux outils
Concepts • Google : Requête « workflow + bio-informatique » • Galaxy • Biorigami • Wokflow ou automatisation de processus • Pérennisation des processus analytiques • Sortir de la logique « projet » • Création de processus d’analyses génériques • Outil permettant d’exécuter un ensemble de processus de façon automatique • Pipelines très présents en bio-info même si peu utilisés! • Permet aux chercheurs en Biologie d’analyser leurs données de façon relativement transparente et quasiment sans l’aide d’informaticiens
Principes • Génériques • Automatisation des processus d’analyse (outil/composant) en les reliant dans un pipeline • Lancer des analyses sur des architectures matérielles complexes • Cluster • Grilles de calculs • Cloud • Formalisation du processus d’analyse • Enchaînement de boîtes
Exemples d’outils • Faciles à prendre en main mais moins flexibles • Galaxy • Mobyle • Taverna • Knime • BioMOBY • … • Difficiles à prendre en main mais plus flexibles • Ergatis • Pegasys • WildFire • Kepler • …
Principes extrait de « Accelerating the scientific exploration process with scientific workflows« IlkayAltintaset al 2006 J. Phys.: Conf. Ser.46 468 doi:10.1088/1742-6596/46/1/065
Workflow pour la Biologie Biologie -Trouver des biomarqueurs -Comprendre la structure génétique de populations -Modéliser le comportement d’un système Bio-informatique -Créer un outil de comparaison de séquences -Développer de nouvelles méthodologies -Concevoir un portail web dédié à l’analyse Informatique -Proposer des ressources techniques fiables et adaptées
Worklow in Galaxy Fonctionnement
Galaxy • Workflows et… workflows • Coût de développement variable • Création en 10 minute. Un workflow = 1 outil! • Projet de collaboration sur x années • Portée variable • nombre d’utilisateurs • nombre de communautés utilisatrices
Des données au workflow : L’historique Notion d’historique Notion de workflow Conversion vers un workflow Provenance des données Suivi des traitements
Galaxy by GenOuest Avantages, limites et verrous identifiés
Avantages génériques • Gestion des ressources • Mécanisme d’intégration
Avantages génériques • Gestion des métadonnées • Exploitation au niveau des composants • Type de données d’entrée et sortie • Annotation de l’outil
Avantages génériques • Gestion de l’accessibilité • Reproductibilité
Avantages génériques • Gestion de l’accessibilité • Partage, échange, publication
Avantages génériques • Gestion de l’accessibilité • Partage, échange, publication
Avantages génériques • Gestion d’exécution • Dans Galaxy
Avantages génériques • Gestion d’exécution • Dans Galaxy • Gestion des jobs sur un cluster
Avantages génériques • Gestion d’exécution • Dans Galaxy • Gestion des jobs sur un cluster • À distance : API • Cloud
Avantages génériques • Gestion d’exécution • Dans Galaxy • Gestion des jobs sur un cluster • À distance : API
Avantages : Worflows • Gestion de l’édition • Visualisation • Mécanisme d’intégration
Avantages : Worflows • Gestion des composants • Liens entre composants • Ajout, modification, suppression facilité • Ajout/suppression de composants
Avantages : Worflows • Gestion des actions • Modification des actions d’un composant • Renommer la sortie • Changer le format de donnée • Assigner des colonnes • Notification par email • Sorties d’outils = sorties de workflow? • Si oui, le préciser • Si non, les sorties seront cachées
Avantages • Administration
Limites et verrous • Quelques difficultés • Version des outils
Limites et verrous • Quelques difficultés • Version des outils
Limites et verrous • Quelques difficultés • Version des outils • Simplifié… donc • Difficulté à gérer les entrées et sorties multiples • Modifications lors du lancement possibles mais limitées
Limites et verrous • Quelques difficultés • La parallélisation Pistes : Utilisation de l’API et du cloud…
Solutions proposées • Local, en ligne ou via le cloud • Interface utilisateur uniquement via un serveur web • Installation locale en moins de 10 minutes
Solutions proposées • Local, en ligne ou via le cloud • Interface utilisateur uniquement via un serveur web • Installation locale en moins de 10 minutes • Mais nécessite • De s’occuper de l’administration complète • la présence des outils (liens vides souvent) • Perte des avantages du système • Notre vision • Pas ou peu fait pour une utilisation locale • Privilégier le cloud