130 likes | 205 Views
Utilisation et utilité d’un extracteur de dépendances. Claude Roux. Analyse Syntaxique. L’analyse syntaxique représente traditionnellement l’information sous la forme d’un arbre. La configuration de l’arbre est aussi une interprétation sémantique.
E N D
Utilisation et utilité d’un extracteur de dépendances Claude Roux
Analyse Syntaxique • L’analyse syntaxique représente traditionnellement l’information sous la forme d’un arbre. • La configuration de l’arbre est aussi une interprétation sémantique. • Difficulté de représenter une information dispersée (Latin) • Pulchram domina rosam amat
Représentation sous la forme d’un graphe de dépendance • Qu’est qu’une dépendance ? • C’est une relation entre les mots d’une phrase, indépendemment de la position de ces mots. • La maîtresse aime la belle rose • Pulchram domina rosam amat • Épithète(rose,belle) • Épithète(rosam,pulchram) • Sujet(aime,maîtresse) • Sujet(amat, domina)
Extraction de dépendances • Première phase: le groupage • La dame aime la belle rose Pulchram domina rosam amat
Extraction de dépendances • Deuxième phase: l’extraction • Par configuration de noeuds • épithète(rose,belle) • Sur la base de traits semblables • épithète(rosam,pulcram)
Différentes générations d’outils • IFSP (Incremental Finite-State Parser) • Salah Ait-Mokhtar & Jean-Pierre Chanod (1998) • Anglais • Français • Espagnol • XIP (Xerox Incremental Parser) • Salah Ait-Mokhtar, Jean-Pierre Chanod, Claude ROUX (2001) • Anglais • Français
Désambiguïsation sémantique Frédérique Segond, Caroline Brun XRCE Grenoble • Définition (cf. (Ide&Véronis98)) • Associer à un mot dans un texte une définition ou un sens qui se distingue des autres sens potentiellement associables à ce mot. • 2 étapes sont nécessaires : • déterminer tous les sens d’un mot • assigner le sens approprié à ce mot dans le contexte du discours
Désambiguïsation sémantique United State federal agents seized a surface-to-air rocket launcher, a rocket motor, rangefinders and a variety of military manuals. Analyse syntaxique donne: SUJET(seize,agent) COD(seize,launcher) Règle (construite grâce au dictionnaire): Si Sujet(seize,humain) et COD(seize,arme) Alors SENS(I.4)=saisir seize Sens I Verb. Trans. 4. Jur saisir [arm,drugs]
Extraction d’informationCampagne Amaryllis (2000)David Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxRecherche d’information en français et traitement automatique des langues (TAL 2000) • Utilisation d’information syntaxique dans la recherche d’information • Les documents sont indexés sur la base des mots qu’ils contiennent plus les dépendances qui lient ces mots entre eux. • Exemple: • Les joueurs convient les membres de leur équipe. • Indexation sur les chaînes suivantes: • joueur, convier, membres, équipe, SUJET(convier,joueur),COD(convier,membre), COMPNOM(membre,équipe)
Extraction d’informationCampagne Amaryllis (2000)David Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxRecherche d’information en français et traitement automatique des langues (TAL) • Mesure de rappel et de précision n’est pas vraiment améliorée. • En revanche, un résultat important: L’examen des dix premiers documents montre que l’utilisation de cette méthode d’indexation augmente la pertinence de ceux-ci. • Autrement dit, dans le cadre d’une recherche d’information, on améliore la présentation des documents, en propulsant en tête, les documents les plus pertinents. • Cela correspond aux habitudes des utilisateurs des moteurs de recherche qui examinent rarement les pages situées au-delà du premier écran de réponse.
MunninDenys Proux (Thèse de doctorat 2000) • Extraction de faits sur la génétique à partir d’articles sicentifiques dans le domaine (en anglais) • Les gènes et les protéines peuvent être identifiées en fonction de leur contexte syntaxique • Utilisation de patrons syntaxiques
repress (Acteur) (Cible) (Lieu) (Lieu) ? ? disc disc (relier_à) (relier_à) (relier_à) (relier_à) dpp Pka-C1 imaginal eye Munnin Denys Proux Sélection d’un extrait d’un article scientifique: “Pka-C1 is a component of the signalling pathway that repressesdpp expression in the anterior compartment in appendage imaginal discs and anterior to the morphogenetic furrow in eye discs. ” Extraction d’information Synthesis: Action: repress Acteur: Pka-C1 Cible: dpp Lieu : imaginal disc Lieu: eye disc
Conclusion • L’analyse syntaxique permet d’affiner la recherche d’information • Elle offre aussi un concours précieux dans le cadre de l’extraction d’information en offrant des patrons plus raffinés que le simple pattern matching • Démonstration de Xerox Incremental Parser