240 likes | 368 Views
Intégration texte-représentation formelle dans la gestion de documents XML. Raphaël Troncy. Problématique (1/2). Web = espace d’information Problème : difficulté à trouver et à utiliser l’information disponible Exemple : on cherche la page personnelle d’un chercheur nommé Smith
E N D
Intégration texte-représentation formelle dans la gestion de documents XML Raphaël Troncy INRIA Rhône-Alpes - Action EXMO
Problématique (1/2) • Web = espace d’information • Problème : difficulté à trouver et à utiliser l’information disponible • Exemple : on cherche la page personnelle d’un chercheur nommé Smith • résultats à propos de forgeron (problème de précision) • on souhaite aussi connaître son prénom (problème d’utilisation) INRIA Rhône-Alpes - Action EXMO
Problématique (2/2) • Principe : représenter la connaissance contenue dans les documents de façon à ce que celle-ci soit exploitable par des machines • Quels moyens faut-il mettre en œuvre pour représenter la connaissance contenue dans des documents et produire le système qui va en tirer parti ? INRIA Rhône-Alpes - Action EXMO
Action de recherche ESCRIRE • But : comparaison de trois classes de formalisme de représentation de connaissance • Méthodologie : INRIA Rhône-Alpes - Action EXMO
Présentation du corpus de travail • Résumés d’articles scientifiques traitant d’interaction géniques chez la drosophile pendant son processus de segmentation • Drosophile = petite mouche utilisée pour la recherche en biologie dans le domaine de la génétique INRIA Rhône-Alpes - Action EXMO
Plan de la présentation • I) Les solutions existantes • II) Des éléments de réponse • III) Proposition d’implémentation INRIA Rhône-Alpes - Action EXMO
Le langage SHOE (1/2) • Maryland, 1996 : Heflin, Spector, Hendler, Luke et Roger • Langage permettant de définir des ontologies : • définition de classe <DEF-CATEGORY NAME="gap" ISA="gene-class" /> • définition de relation <DEF-RELATION NAME="interaction"> <DEF-ARG POS="1" TYPE="gene" /> <DEF-ARG POS="2" TYPE="gene" /> </DEF-RELATION> • règles d’inférence INRIA Rhône-Alpes - Action EXMO
Le langage SHOE (2/2) • Langage permettant de définir des instances : <CATEGORY NAME="gap"/> <RELATION NAME="interaction"> <ARG POS="1" VALUE=me /> <ARG POS="2" VALUE="hb" /> </RELATION> • Outils associés à SHOE : • agent EXPOSE • outil permettant d’annoter graphiquement les pages Web • interface graphique pour composer des requêtes INRIA Rhône-Alpes - Action EXMO
Le système ONTOBROKER (1/2) • Karlsruhe, 1997 : Studer, Decker, Erdmann et Fensel • Architecture générale : INRIA Rhône-Alpes - Action EXMO
Le système ONTOBROKER (2/2) • Langage de représentation : • Classes : Object[]. Gene::Object. Interaction::Object. • Attributs : Interaction[promoter =>> Gene; target =>> Gene]. • Langage d’annotation : • <a onto="page:Interaction[promoter = tll, target = hb]"></a> • Langage de requête : • FORALL O O : C[A >>V] • Outils associés à ONTOBROKER : • interface de requête, moteur d’inférence, « webcrawler » INRIA Rhône-Alpes - Action EXMO
Bilan (1/2) • Multitude de systèmes (OIL, XOL, OML ...) • Points communs : • définition d’une ontologie, description de faits, possibilité de formuler des requêtes • interface XML • Inconvénients : • systèmes performants pour des applications précises INRIA Rhône-Alpes - Action EXMO
Bilan (2/2) • Comment représenter la connaissance contenue dans un document ? • Quels éléments du document va-t-on décrire ? • A quel type de requête désire-t-on répondre ? • Comment intégrer cette formalisation de la connaissance au sein du document ? INRIA Rhône-Alpes - Action EXMO
II) Des éléments de réponse (1/5) • Comment représenter la connaissance contenue dans un document ? • Nature des documents • fiction vs non-fiction • Constructeurs de représentation de connaissance utiles • classes, objets, relations, règles d’inférence INRIA Rhône-Alpes - Action EXMO
II) Des éléments de réponse (2/5) Quelle description du document va-t-on donner ? • Image en couleur • Il y a 2 hommes • Il y a 2 présidents • Il y a Jacques Chirac et Boris Yeltsin • Jacques Chirac et Boris Yeltsin se serrent la main • Jacques Chirac et Boris Yeltsin se serrent la main le 30 mai 1997 devant l’Elysée INRIA Rhône-Alpes - Action EXMO
II) Des éléments de réponse (3/5) • Quels éléments du document va-t-on décrire ? • le document fait allusion à 2 gènes • ces gènes appartiennent aux classes gap et pair-rule • ces gènes sont tailless (tll) et fushi-tarazu (ftz) • ces 2 gènes ont une influence • tll inhibe ftz dans la partie antérieure de la mouche INRIA Rhône-Alpes - Action EXMO
II) Des éléments de réponse (4/5) • A quel type de requête désire-t-on répondre ?Quels sont les documents qui traitent d’interactions entre les classes gap et pair-rule ? • Langage de requête : (OQL, XML-QL)SELECT FROM interaction:I WHERE I.promoter-class = "gap" AND I.target-class = "pair-rule" • Interprétation : inférences locales vs inférences globales INRIA Rhône-Alpes - Action EXMO
II) Des éléments de réponse (5/5) • Comment intégrer cette formalisation de la connaissance au sein du document ? • à l’intérieur des documents • dans l’en-tête d’une page HTML, encapsulée dans des balises RDF • à l’extérieur des documents • dans des fichiers séparés reliés au document via un serveur d’annotation INRIA Rhône-Alpes - Action EXMO
III) Proposition d’implémentation (1/5) • Annotation des documents INRIA Rhône-Alpes - Action EXMO
III) Proposition d’implémentation (2/5) • Exemple d’annotation : <esc:objref id="gap" /> <esc:objref id="pair-rule" /> <esc:relation type="interaction"> <esc:role name="promoter-class"> <esc:objref id="gap" /> </esc:role> <esc:role name="target-class"> <esc:objref id="pair-rule" /> </esc:role> </esc:relation> INRIA Rhône-Alpes - Action EXMO
III) Proposition d’implémentation (3/5) • Interrogation des documents : INRIA Rhône-Alpes - Action EXMO
III) Proposition d’implémentation (4/5) • Exemple de requête : <esc:select /> <esc:from> <esc:relvar type="interaction" id="I" /> </esc:from> <esc:where> <esc:and> <esc:eq> <esc:path> <esc:relvarref type="interaction" id="I" /> <esc:attribute name="promoter" /> </esc:path> <esc:objref id="gt" /> </esc:eq> <esc:eq> <esc:path> <esc:relvarref type="interaction" id="I" /> <esc:attribute name="target" /> </esc:path> <esc:objref id="Hb" /> </esc:eq> </esc:and> </esc:where> INRIA Rhône-Alpes - Action EXMO
III) Proposition d’implémentation (5/5) • Annotation des documents • Applet de composition d’une requête • Analyseur de requêtes(Expat) • Évaluateur de requêtes (optimisation) • Intégration dans TROEPS • Affichage des réponses INRIA Rhône-Alpes - Action EXMO
Conclusion • Plusieurs granularités de description possible (le choix des éléments à annoter dépend de l’application résultante) • Structures générales : classes, objets, relations • Mise en œuvre dans TROEPS, un langage de RCO et proposition d’un processus permettant d’interroger les documents • Proposition d’un langage de requête INRIA Rhône-Alpes - Action EXMO
Perspectives • Application à tout le corpus sur la drosophile • Comparaison des performances du SRCO avec les autres formalismes de représentation de connaissance • Remise en question de certains choix • Utilisation d’autres corpus de documents pour dégager des grandes classes d’application INRIA Rhône-Alpes - Action EXMO