550 likes | 703 Views
my Grid: Une Vision globale. Franck Tanoh http://www.mygrid.org.uk. Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10. my Grid. Le projet my Grid a un ensemble de composants destinés à soutenir la réalisation d’expériences in silico en biologie .
E N D
myGrid: Une Vision globale Franck Tanoh http://www.mygrid.org.uk Rencontre autour de la plate-forme bioinformatiques Rennes, 2008-04-10
myGrid Le projet myGrid a un ensemble de composants destinés à soutenir la réalisation d’expériences in silico en biologie. • Taverna workbench = Un système de gestion de workflows • Feta = découverte des services web • myExperiment = collaboration + réutilisation des workflows open source
Partenaires Première étape du projet fiancée par l’EPSRC
OMII-UK Soutenir la communauté ‘e-Science’ aux Royaumes Unis et ses collaborateurs internationaux.
Motivations NAR 2007 – 968 base de données EMBL database growth
Problèmes • Tout est distribuées: • Données • Ressources • Scientifiques • Ressources hétérogènes • Très peu de standards • formats d’entrée et de sortie • représentation • annotation des données L’intégration des données, l’interopérabilité des ressources très difficile.
Intégration des données bioinformatiques 12181 acatttctac caacagtgga tgaggttgtt ggtctatgtt ctcaccaaat ttggtgttgt 12241 cagtctttta aattttaacc tttagagaag agtcatacag tcaatagcct tttttagctt 12301 gaccatccta atagatacac agtggtgtct cactgtgatt ttaatttgca ttttcctgct 12361 gactaattat gttgagcttg ttaccattta gacaacttca ttagagaagt gtctaatatt 12421 taggtgactt gcctgttttt ttttaattgg gatcttaatt tttttaaatt attgatttgt 12481 aggagctatt tatatattct ggatacaagt tctttatcag atacacagtt tgtgactatt 12541 ttcttataag tctgtggttt ttatattaat gtttttattg atgactgttt tttacaattg 12601 tggttaagta tacatgacat aaaacggatt atcttaacca ttttaaaatg taaaattcga 12661 tggcattaag tacatccaca atattgtgca actatcacca ctatcatact ccaaaagggc 12721 atccaatacc cattaagctg tcactcccca atctcccatt ttcccacccc tgacaatcaa 12781 taacccattt tctgtctcta tggatttgcc tgttctggat attcatatta atagaatcaa Couper-coller
Intégration des données bioinformatiques Couper-coller • Avantages: • Technologie très simple • Analyse des résultats pendant l’intégration • Inconvénients: • Demande beaucoup de temps • Répétition difficile • Limitée aux petites données • Exposés aux erreurs Impossible d’appliquer cette technologie au génome/protéome/métabolome
Intégration des données bioinformatiques Pipeline programmation • Avantages • Reproductible • Automatique • Rapide, fiable, efficace • Inconvénients • Exige des compétences en programmation • Difficile a modifier • Nécessite outils et maintenance des bases de données !!!
Meilleurs solutions ?? Un système qui: • Permet d’automatiser l’intégration des données • Fonctionne sur des ressources distribuées • Facilite la répétition, la vérification et le partage des expériences scientifiques • Nécessite peu ou pas de compétences en programmation • Fonctionne à partir d’un ordinateur de bureau/portable
La solution myGrid myGrid permit d’automatiser l’exécution d'expériences in silico sur des ressources distribuées à partir d’un simple ordinateur de bureau. Technologie basée sur: • Services web • Workflows • Web sémantique
European Bioinformatics Institute API submissions has risen to 3,166,901 for 2007 (Sarah Hunter) Services web Un Service Web est un programme informatique permettant la communication et l'échange de données entre applications et systèmes hétérogènes dans des environnements distribués(Wikipedia). Avantages: • Interopérabilité entre divers logiciels • fonctionne sur diverses plate-forme • Utilise des standards et protocoles ouverts
sequence DNA GenScan Service web Blast Service web Workflows Workflow = chaîne de traitement Automatisation d'un processus au cours duquel des ressources Passent d'un participant à un autre. Décrivez ce que vous voulez faire Pas besoin d’êtres programmeur
Moteur de workflows Différentslangages, accès, domaines
Taverna Le tout en un logiciel exécutable à partir de votre ordinateur Taverna est : • Un moteur de workflow basé sur le flot des données. • Un environnement pour la construction et l’édition de workflows. • Un système d'exécution des workflows sur des données fournies par l’utilisateur • Un système de visualisation des résultats (3d, html…)
Taverna Workflow Workbench http://taverna.sf.net
Taverna • >45000 téléchargements • International: US, Singapore, UK, Europe, Australie • Parmi les 200 logiciels sur sourceforge en Juin 2007
Taverna Par défaut, Taverna interopère avec: • SOAP services web • Biomart Entrepôts de données • Soaplab outils de ligne de commande • BioMoby services web • Interprète script Beanshell (proche de Java)
Taverna dans la recherche • Biologie des systèmes • Biologie moléculaire • Annotation Gene/protéine • Analyse des données microarray • Analyse d’images médicales • Simulation cardiaque • Etude des Génotypes/Phénotypes • Informatique médicale • Astronomie • Chimie informatique • Intégration de données
La trypanosomiase chez les bovins Steve Kemp Andy Brass Paul Fisher http://www.genomics.liv.ac.uk/tryps/trypsindex.html
Trypanosomiase chez les bovins Une forme de la maladie du sommeil chez les bovins connue sous le nom n’gana causée par Trypanosoma brucei. Les bovins en Afrique (Kenya) résistent a cette forme, ce qui n’est pas le cas des bovins Anglais. Quelles sont les causes des différences?
Trypanosomiase chez les bovins Comprendre le phénotype • Comparaison des souches sensibles vs résistants – Microarrays Comprendre le génotype • Analyse de QTL (Loci de Caractères Quantitatifs )
Etude de la Trypanosomiase A – Trouver les gènes dans les régions QTL B – Annotation des gènes avec des bases de données externes C – Faire correspondre KEGG ids et gène ids D – Récupérer les données microarray E – pour chaque KEGG gène retrouver sa voie métabolique F – obtenir la description de chaque voie métabolique G – obtenir l’annotation de chaque KEGG gène
Résultats Identification du gène (Daxx) qui semblerait jouer un rôle dans la résistance à la trypanosomiase. Au préalable, l’analyse manuelle des même données n’a pas réussi à identifier ce gène comme un candidat.
Succès du workflow? • Chaque donnée est systématiquement analysée • Pas besoin de filtrer les données ou émettre des hypothèses en vu de réduire le volume de données. • Enregistrement de la ‘provenance’ des données • Volume de données réduit a l’issue de l’expérience
Gestion des erreurs La plupart des services web n’appartiennent pas à myGrid . Impossible donc de vérifier leur fiabilité. Taverna a plusieurs mécanismes pour y remédier: • Encourager l’utilisation des services fournis par de grands organismes come EMBL, NCBI, DDBJ … • Informer l’utilisateur lorsqu'un service ne fonctionne pas • Ré-exécuterles services • Remplacement des services
Découverte des services web • Plus de 24 000 services web (seekda 03/08) • Difficile de trouver un service particulier? • Majorité des services sans descriptions • WSDL: input0:string, Output0:string • Nom des services fonction des services.e.g serachsimple, seqret On ne peut donc pas uniquement ‘Google’ les services web
La solution myGrid • Découverte des services en fonction de leurs: • Noms • Fonctions • Paramètres (entrées et sorties) • Ressources utilisées • Annotation Sémantique: Annotation manuelle ou automatique des services web à partir de vocabulaires contrôlés (ontologies).
Annotation des services web Ontologie bioinformatique WSDL Marquer chaque description avec des termes dans l’ontologie.
Annotation des services web • Plus de 600 services dans le catalogue de myGrid . • Annotation faite par des experts en bioinformatique. • En démontrant l‘importance de l’annotation dans l’utilisation des services, myGrid vise à encourager les développeurs de services à fournir les annotations à l'avenir.
Feta découverte sémantique • Feta, composant de myGrid interroge le catalogue des services web . Exemple de questions: Trouve-moi tous les services qui effectuent un alignement des séquences et acceptent pour input des séquences de protéines avec le format FASTA
Provenance et Origine • Workflows peuvent générer beaucoup d’informations: • Données • Métadonnées • origine de l’expérience • Scientifiques ont besoin de revenir ou réutiliser les résultats passés, de comparer, partager les workflows avec des collègues Comment gérer de telles donnes?
Le Logbook de myGrid Smart Tea • qui, quoi, ou, quand, pourquoi?, comment? • Contexte • Interprétation • Reproductibilité • Vérification • Crédibilité BioMOBY Bonnes pratiques scientifiques
Motivations • Workflows = nouvelles rock and roll • “L'ère” des Services web en bioinformatiques
Motivations Recyclage, Réutilisation, Réorientation des workflows
Motivations Communauté scientifique distribuée et sous équipée
myExperiment est… Réseau social pour le scientifique
myExperiment Demo http://www.myexperiment.org
Taverna2ouT2 myGrid: nouvelledirection • Moteur workflow (enactor) totalement réécrit avec plus de points d'extensions • Adresser les problèmes de sécurité des données • Taverna sur le grid • Glisser-déposer (Drag and drop )
T2: un avant-goût Les erreurs sont également des données
T2: un avant-goût Data Manager:plusieurs gestionnaires de données • Mémoire • Fichiers • Disque dur • Serveurs