1 / 16

Vers une génération automatique du mapping de sources biomédicales

Vers une génération automatique du mapping de sources biomédicales. Fleur Mougin, Christine Golbreich, Anita Burgun & Pierre Le Beux Laboratoire d'Informatique Médicale, Rennes. Introduction. Besoin des biologistes et médecins de disposer de l’information accessible sur Internet

evers
Download Presentation

Vers une génération automatique du mapping de sources biomédicales

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Vers une génération automatique du mapping de sourcesbiomédicales Fleur Mougin, Christine Golbreich,Anita Burgun & Pierre Le Beux Laboratoire d'Informatique Médicale, Rennes WSM 2004 - Rouen

  2. Introduction • Besoin des biologistes et médecins de disposer de l’information accessible sur Internet • Sources biomédicales • Multiple hétérogénéité • Évolution très rapide • Ajout fréquent  nécessité de créer un système homogène manipulant de l’information à jour WSM 2004 - Rouen

  3. Objectifs • Système d’intégration virtuelle • Faciliter la collecte d’information • Offrir un accès global • Description explicite des sources : mapping • Le plus automatiquement possible • Pour faire face aux mises à jour et ajouts éventuels • Définir un schéma par source WSM 2004 - Rouen

  4. Système de médiation • Médiateur (SIMS, IM, Picsel, DWQ, TSIMMIS) • Composants • Les sources • Des adaptateurs associés • Un (ou plusieurs) médiateur(s) • Différents types de mapping (GAV, LAV, GLAV) • Peer-to-peer • Composants : les sources • Principe • Pas de schéma global • Définition du mapping en fonction des schémas des sources WSM 2004 - Rouen

  5. Schéma des sources • Rarement disponible ou sous une forme difficilement exploitable • Aucun standard existant • Identifier le schéma de la source en utilisant la structure sous-jacente des banques de données biomédicales • Extraction à partir des pages Web du site de chaque source • 2 méthodes différentes en fonction du format de sortie de l’outil d’interrogation des sources • HTML • XML WSM 2004 - Rouen

  6. Schéma de Swiss-Prot WSM 2004 - Rouen

  7. Format HTML : méthode (1/2) • Basée sur la similarité intra-pages • Programmes CGI • Même structure HTML • Corpus • 100 termes biomédicaux • Genetics Home Reference • ex : breast cancer 1, early onset + BRCA1 (HGNC) • Interrogation de la source • Dynamiquement • Pour chaque terme du corpus  Constitution d’un échantillon de 100 pages Web WSM 2004 - Rouen

  8. Format HTML : méthode (2/2) • Traitement par page • Nettoyage des en-tête et pied de page • Nettoyage des balises HTML non informatives • Extraction de couples (balise,termes) • Traitement de l’échantillon • Regroupement des couples (balise,termes) similaires • Ceux présents dans + de 75% des pages sont gardés WSM 2004 - Rouen

  9. Principe WSM 2004 - Rouen

  10. Format XML : méthode Exploitation de la DTD • Associée aux fichiers XML • Ontologie correspondant à une vue abstraite du domaine [1] • Pour obtenir les métadonnées [1] Giraldo G., Reynaud C., Construction semi-automatique d'ontologies à partir de DTDs relatives à un même domaine, 13èmes journées francophones d'Ingénierie des Connaissances, Rouen, 28-30 Mai 2002 WSM 2004 - Rouen

  11. Premiers résultats • Banques de données • OMIM (gène ou pathologie) • Swiss-Prot (protéine) • Genecards (symbole du gène) • Termes obtenus • Attributs (schéma de BD) ou relations (RDF) • Indiquent le type d’informations contenues dans la source WSM 2004 - Rouen

  12. Exemple OMIM WSM 2004 - Rouen

  13. Exemple Swiss-Prot WSM 2004 - Rouen

  14. Perspectives • Étape suivante : définir le schéma de chaque source • Sous forme d’une ontologie locale • Exploitation des termes extraits • Les organiser • Les trier • Choix d’un vocabulaire commun • Mapper les ontologies locales • Systèmes existant (Prompt, Chimaera, …) ? WSM 2004 - Rouen

  15. Conclusion • BioMeKE (GO et UMLS) • Méthode simple • Extraire des métadonnées d’une source • Pour réaliser un système d’intégration • Gérer l’évolution du système WSM 2004 - Rouen

  16. GDR STIC-SANTE : Journée Thématique Informatique Médicale dans le cadre du thème C : Systèmes d’information médicaux et bases de données Ontologies biomédicales partagées pour l’intégration de données et d’outils distribués Michel Dojat & Christine Golbreich WSM 2004 - Rouen

More Related