160 likes | 252 Views
Vers une génération automatique du mapping de sources biomédicales. Fleur Mougin, Christine Golbreich, Anita Burgun & Pierre Le Beux Laboratoire d'Informatique Médicale, Rennes. Introduction. Besoin des biologistes et médecins de disposer de l’information accessible sur Internet
E N D
Vers une génération automatique du mapping de sourcesbiomédicales Fleur Mougin, Christine Golbreich,Anita Burgun & Pierre Le Beux Laboratoire d'Informatique Médicale, Rennes WSM 2004 - Rouen
Introduction • Besoin des biologistes et médecins de disposer de l’information accessible sur Internet • Sources biomédicales • Multiple hétérogénéité • Évolution très rapide • Ajout fréquent nécessité de créer un système homogène manipulant de l’information à jour WSM 2004 - Rouen
Objectifs • Système d’intégration virtuelle • Faciliter la collecte d’information • Offrir un accès global • Description explicite des sources : mapping • Le plus automatiquement possible • Pour faire face aux mises à jour et ajouts éventuels • Définir un schéma par source WSM 2004 - Rouen
Système de médiation • Médiateur (SIMS, IM, Picsel, DWQ, TSIMMIS) • Composants • Les sources • Des adaptateurs associés • Un (ou plusieurs) médiateur(s) • Différents types de mapping (GAV, LAV, GLAV) • Peer-to-peer • Composants : les sources • Principe • Pas de schéma global • Définition du mapping en fonction des schémas des sources WSM 2004 - Rouen
Schéma des sources • Rarement disponible ou sous une forme difficilement exploitable • Aucun standard existant • Identifier le schéma de la source en utilisant la structure sous-jacente des banques de données biomédicales • Extraction à partir des pages Web du site de chaque source • 2 méthodes différentes en fonction du format de sortie de l’outil d’interrogation des sources • HTML • XML WSM 2004 - Rouen
Schéma de Swiss-Prot WSM 2004 - Rouen
Format HTML : méthode (1/2) • Basée sur la similarité intra-pages • Programmes CGI • Même structure HTML • Corpus • 100 termes biomédicaux • Genetics Home Reference • ex : breast cancer 1, early onset + BRCA1 (HGNC) • Interrogation de la source • Dynamiquement • Pour chaque terme du corpus Constitution d’un échantillon de 100 pages Web WSM 2004 - Rouen
Format HTML : méthode (2/2) • Traitement par page • Nettoyage des en-tête et pied de page • Nettoyage des balises HTML non informatives • Extraction de couples (balise,termes) • Traitement de l’échantillon • Regroupement des couples (balise,termes) similaires • Ceux présents dans + de 75% des pages sont gardés WSM 2004 - Rouen
Principe WSM 2004 - Rouen
Format XML : méthode Exploitation de la DTD • Associée aux fichiers XML • Ontologie correspondant à une vue abstraite du domaine [1] • Pour obtenir les métadonnées [1] Giraldo G., Reynaud C., Construction semi-automatique d'ontologies à partir de DTDs relatives à un même domaine, 13èmes journées francophones d'Ingénierie des Connaissances, Rouen, 28-30 Mai 2002 WSM 2004 - Rouen
Premiers résultats • Banques de données • OMIM (gène ou pathologie) • Swiss-Prot (protéine) • Genecards (symbole du gène) • Termes obtenus • Attributs (schéma de BD) ou relations (RDF) • Indiquent le type d’informations contenues dans la source WSM 2004 - Rouen
Exemple OMIM WSM 2004 - Rouen
Exemple Swiss-Prot WSM 2004 - Rouen
Perspectives • Étape suivante : définir le schéma de chaque source • Sous forme d’une ontologie locale • Exploitation des termes extraits • Les organiser • Les trier • Choix d’un vocabulaire commun • Mapper les ontologies locales • Systèmes existant (Prompt, Chimaera, …) ? WSM 2004 - Rouen
Conclusion • BioMeKE (GO et UMLS) • Méthode simple • Extraire des métadonnées d’une source • Pour réaliser un système d’intégration • Gérer l’évolution du système WSM 2004 - Rouen
GDR STIC-SANTE : Journée Thématique Informatique Médicale dans le cadre du thème C : Systèmes d’information médicaux et bases de données Ontologies biomédicales partagées pour l’intégration de données et d’outils distribués Michel Dojat & Christine Golbreich WSM 2004 - Rouen