1 / 24

Intégration texte-représentation formelle dans la gestion de documents XML

Intégration texte-représentation formelle dans la gestion de documents XML. Raphaël Troncy. Problématique (1/2). Web = espace d’information Problème : difficulté à trouver et à utiliser l’information disponible Exemple : on cherche la page personnelle d’un chercheur nommé Smith

jacob-gross
Download Presentation

Intégration texte-représentation formelle dans la gestion de documents XML

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Intégration texte-représentation formelle dans la gestion de documents XML Raphaël Troncy INRIA Rhône-Alpes - Action EXMO

  2. Problématique (1/2) • Web = espace d’information • Problème : difficulté à trouver et à utiliser l’information disponible • Exemple : on cherche la page personnelle d’un chercheur nommé Smith • résultats à propos de forgeron (problème de précision) • on souhaite aussi connaître son prénom (problème d’utilisation) INRIA Rhône-Alpes - Action EXMO

  3. Problématique (2/2) • Principe : représenter la connaissance contenue dans les documents de façon à ce que celle-ci soit exploitable par des machines • Quels moyens faut-il mettre en œuvre pour représenter la connaissance contenue dans des documents et produire le système qui va en tirer parti ? INRIA Rhône-Alpes - Action EXMO

  4. Action de recherche ESCRIRE • But : comparaison de trois classes de formalisme de représentation de connaissance • Méthodologie : INRIA Rhône-Alpes - Action EXMO

  5. Présentation du corpus de travail • Résumés d’articles scientifiques traitant d’interaction géniques chez la drosophile pendant son processus de segmentation • Drosophile = petite mouche utilisée pour la recherche en biologie dans le domaine de la génétique INRIA Rhône-Alpes - Action EXMO

  6. Plan de la présentation • I) Les solutions existantes • II) Des éléments de réponse • III) Proposition d’implémentation INRIA Rhône-Alpes - Action EXMO

  7. Le langage SHOE (1/2) • Maryland, 1996 : Heflin, Spector, Hendler, Luke et Roger • Langage permettant de définir des ontologies : • définition de classe <DEF-CATEGORY NAME="gap" ISA="gene-class" /> • définition de relation <DEF-RELATION NAME="interaction"> <DEF-ARG POS="1" TYPE="gene" /> <DEF-ARG POS="2" TYPE="gene" /> </DEF-RELATION> • règles d’inférence INRIA Rhône-Alpes - Action EXMO

  8. Le langage SHOE (2/2) • Langage permettant de définir des instances : <CATEGORY NAME="gap"/> <RELATION NAME="interaction"> <ARG POS="1" VALUE=me /> <ARG POS="2" VALUE="hb" /> </RELATION> • Outils associés à SHOE : • agent EXPOSE • outil permettant d’annoter graphiquement les pages Web • interface graphique pour composer des requêtes INRIA Rhône-Alpes - Action EXMO

  9. Le système ONTOBROKER (1/2) • Karlsruhe, 1997 : Studer, Decker, Erdmann et Fensel • Architecture générale : INRIA Rhône-Alpes - Action EXMO

  10. Le système ONTOBROKER (2/2) • Langage de représentation : • Classes : Object[]. Gene::Object. Interaction::Object. • Attributs : Interaction[promoter =>> Gene; target =>> Gene]. • Langage d’annotation : • <a onto="page:Interaction[promoter = tll, target = hb]"></a> • Langage de requête : • FORALL O  O : C[A >>V] • Outils associés à ONTOBROKER : • interface de requête, moteur d’inférence, « webcrawler » INRIA Rhône-Alpes - Action EXMO

  11. Bilan (1/2) • Multitude de systèmes (OIL, XOL, OML ...) • Points communs : • définition d’une ontologie, description de faits, possibilité de formuler des requêtes • interface XML • Inconvénients : • systèmes performants pour des applications précises INRIA Rhône-Alpes - Action EXMO

  12. Bilan (2/2) • Comment représenter la connaissance contenue dans un document ? • Quels éléments du document va-t-on décrire ? • A quel type de requête désire-t-on répondre ? • Comment intégrer cette formalisation de la connaissance au sein du document ? INRIA Rhône-Alpes - Action EXMO

  13. II) Des éléments de réponse (1/5) • Comment représenter la connaissance contenue dans un document ? • Nature des documents • fiction vs non-fiction • Constructeurs de représentation de connaissance utiles • classes, objets, relations, règles d’inférence INRIA Rhône-Alpes - Action EXMO

  14. II) Des éléments de réponse (2/5) Quelle description du document va-t-on donner ? • Image en couleur • Il y a 2 hommes • Il y a 2 présidents • Il y a Jacques Chirac et Boris Yeltsin • Jacques Chirac et Boris Yeltsin se serrent la main • Jacques Chirac et Boris Yeltsin se serrent la main le 30 mai 1997 devant l’Elysée INRIA Rhône-Alpes - Action EXMO

  15. II) Des éléments de réponse (3/5) • Quels éléments du document va-t-on décrire ? • le document fait allusion à 2 gènes • ces gènes appartiennent aux classes gap et pair-rule • ces gènes sont tailless (tll) et fushi-tarazu (ftz) • ces 2 gènes ont une influence • tll inhibe ftz dans la partie antérieure de la mouche INRIA Rhône-Alpes - Action EXMO

  16. II) Des éléments de réponse (4/5) • A quel type de requête désire-t-on répondre ?Quels sont les documents qui traitent d’interactions entre les classes gap et pair-rule ? • Langage de requête : (OQL, XML-QL)SELECT FROM interaction:I WHERE I.promoter-class = "gap" AND I.target-class = "pair-rule" • Interprétation : inférences locales vs inférences globales INRIA Rhône-Alpes - Action EXMO

  17. II) Des éléments de réponse (5/5) • Comment intégrer cette formalisation de la connaissance au sein du document ? • à l’intérieur des documents • dans l’en-tête d’une page HTML, encapsulée dans des balises RDF • à l’extérieur des documents • dans des fichiers séparés reliés au document via un serveur d’annotation INRIA Rhône-Alpes - Action EXMO

  18. III) Proposition d’implémentation (1/5) • Annotation des documents INRIA Rhône-Alpes - Action EXMO

  19. III) Proposition d’implémentation (2/5) • Exemple d’annotation : <esc:objref id="gap" /> <esc:objref id="pair-rule" /> <esc:relation type="interaction"> <esc:role name="promoter-class"> <esc:objref id="gap" /> </esc:role> <esc:role name="target-class"> <esc:objref id="pair-rule" /> </esc:role> </esc:relation> INRIA Rhône-Alpes - Action EXMO

  20. III) Proposition d’implémentation (3/5) • Interrogation des documents : INRIA Rhône-Alpes - Action EXMO

  21. III) Proposition d’implémentation (4/5) • Exemple de requête : <esc:select /> <esc:from> <esc:relvar type="interaction" id="I" /> </esc:from> <esc:where> <esc:and> <esc:eq> <esc:path> <esc:relvarref type="interaction" id="I" /> <esc:attribute name="promoter" /> </esc:path> <esc:objref id="gt" /> </esc:eq> <esc:eq> <esc:path> <esc:relvarref type="interaction" id="I" /> <esc:attribute name="target" /> </esc:path> <esc:objref id="Hb" /> </esc:eq> </esc:and> </esc:where> INRIA Rhône-Alpes - Action EXMO

  22. III) Proposition d’implémentation (5/5) • Annotation des documents • Applet de composition d’une requête • Analyseur de requêtes(Expat) • Évaluateur de requêtes (optimisation) • Intégration dans TROEPS • Affichage des réponses INRIA Rhône-Alpes - Action EXMO

  23. Conclusion • Plusieurs granularités de description possible (le choix des éléments à annoter dépend de l’application résultante) • Structures générales : classes, objets, relations • Mise en œuvre dans TROEPS, un langage de RCO et proposition d’un processus permettant d’interroger les documents • Proposition d’un langage de requête INRIA Rhône-Alpes - Action EXMO

  24. Perspectives • Application à tout le corpus sur la drosophile • Comparaison des performances du SRCO avec les autres formalismes de représentation de connaissance • Remise en question de certains choix • Utilisation d’autres corpus de documents pour dégager des grandes classes d’application INRIA Rhône-Alpes - Action EXMO

More Related