1 / 18

Cécile Frérot, ERSS Séminaire du Limsi, groupe LIR, 27 janvier 2004

Résolution d’ambiguïtés de rattachement prépositionnel : intégration de ressources exogènes dans un analyseur syntaxique de corpus endogène. Cécile Frérot, ERSS Séminaire du Limsi, groupe LIR, 27 janvier 2004.

irving
Download Presentation

Cécile Frérot, ERSS Séminaire du Limsi, groupe LIR, 27 janvier 2004

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Résolution d’ambiguïtés de rattachement prépositionnel : intégration de ressources exogènes dans un analyseur syntaxique decorpus endogène Cécile Frérot, ERSS Séminaire du Limsi, groupe LIR, 27 janvier 2004

  2. Syntex : un analyseur syntaxique de corpus français/anglais (Bourigault, Fabre, 2000) • En entrée, corpus étiqueté (Treetagger, Cordial) • Calcule des relations de dépendance entre mots dans la phrase (sujet, objet direct, complément prépositionnel, épithète…) • Identifie des syntagmes nominaux (transfert de gènes), verbaux (prélever des cellules) • Construit un réseau de mots et syntagmes • Elaboration de ressources lexicales spécialisées (terminologie, ontologie, lexique…) (Bourigault et Lame, 2002, Le Moigno et al. 2002)

  3. Apprentissage endogène(Bourigault, 1994) • Acquisition en corpus d’informations de sous-catégorisation • Résolution ambiguïtés de rattachement syntaxique (adjectival, prépositionnel) • Utilisation délicate de ressources lexico-syntaxiques génériques • Propriétés syntaxiques de sous-catégorisation inédites(Basili et al. 1997, Basili et al. 1999, Fabre, Bourigault, 2001) - Comportement imprédictible  données établies en langue - Variation inter-corpus • « Capter » la réalisation d’un mot en corpus

  4. Limites d’une approche « tout endogène » • Ambiguïtés résiduelles : prépositions régies par des verbes • Mesures endogènes basées sur la productivité • Exploitation d’indices bruités  • Données non supervisées • Propagation des erreurs d’acquisition au calcul des indices endogènes • Champ d’action de l’analyseur élargi • Textes spécialisés  textes « tout venant » • Réapprentissage sur chaque nouveau corpus

  5. Hypothèse de travail – problématique • Approche endogène : spécificités du corpus traité • Optimisable par des ressources exogènes • Données de sous-catégorisation verbale • « Très ténus quantitativement » (Habert, Zweigenbaum, 2002) en corpus, banals en langue - Non (mal) captés par l’endogène basé sur la productivité Sous-catégorisation verbale à distance pour de : numériquement infime (remplir le tiroir de documents) • Régulières et « transportables » inter-corpus

  6. Quelles ressources exogènes ? Ressources construites vs à construire • Utilisation de ressources existantes • Lexique-grammaire (LG) - Constituées a priori, démarche introspective, indépendamment de tout corpus et tout domaine - Objectif d’exhaustivité, français « standard » • Acquisition à partir de corpus - Le Monde • Exploitation des deux types (intersection)

  7. Quelle collaboration endogène/exogène ? « Déclinaisons » possibles 1. Filtrage : données exogènes vont conforter (reévaluer) les indices endogènes 2. « Relais » : indice supplémentaire (données non redondantes « insensibles » à l’acquisition en corpus) • Enjeu : proposer des critères de désambiguïsation exogènes compatibles avec des procédures endogènes

  8. Expérience d’intégration de ressources exogènes dans Syntex • Description de l’ambiguïté structurelle à résoudre • Constitution des ressources exogènes (lexique grammaire, acquisition en corpus) • Corpus annotés pour l’évaluation • Stratégies de désambiguïsation • Résultats • Confrontation avec résultats obtenus sur de

  9. Description de l’ambiguïté à résoudre • Configuration syntaxique V SN SP(à, dans, sur) • V:verbe à l’actif, SN : nom simple, composé, adjectif, participe passé • Lapréposition régit un nom • Rattachements possibles V: informer les automobilistes sur les conditions de circulation, envoyer la feuille de soins aux caisses d’assurance maladie, plonger le thermocouple dans la lave chaude, injecter des particules de sulfate dans la stratosphère N: accorder des aides individuelles au reclassement, assurer un lent travail de sensibilisationà la culture, condamner un éventuel recoursà la force A: procurer des informations relativesà l’article 1.2 , verser une rémunération supérieureau salaire minimum Ppa: rappeler la faculté offerteà l’handicapé, définir les modalités viséesà l’article

  10. Exploitation du lexique-grammaire • Extraire l’information sur la sous-catégorisation verbale à distance des prépositions à, dans, sur • Appartenance à la forme canonique N0 V N1 Prep N2 • Filtrage des données : on exclut les restrictions de sélection • Nature sémantique du syntagme prépositionnel non encodée dans analyseur (traits humain, non humain…) • Total : 1637 couples (verbe, prep) - liste LG

  11. Acquisition à partir de corpus Choix du corpus • Corpus d’apprentissage : Le Monde (40 millions de mots) • Taille et hétérogénéité thématique • Acquisition de données relativement génériques Méthode d’acquisition • Résultats de l’analyse syntaxique sur Le Monde (LM) • Contextes d’acquisition non ambigus Vb au passif : les logiciels ont été installés sur la machine  (installer, sur, machine) Ppa épithète : les logiciels installés sur la machine  (installer, sur, machine) Objet à distance : on a installé sur la machine un logiciel  (installer, sur, machine)  215 693 triplets filtrés par fréquence et productivité • Total : 1261 couples (verbe, prep) - liste LM Recouvrement listes LM et LG : 501 couples – liste EXO

  12. Corpus annotés pour l’évaluation (1) • Cohérence avec la variabilité syntaxique des corpus • Stratégies et règles sur corpus diversifiés • Limiter les biais d’implémentation (approche mono-corpus) • Base d’annotation : 3000 cas • Règles d’annotation • Stratégies de désambiguïsation évaluées sur trois corpus • VOLC corpus scientifique, en volcanologie • CTRA corpus juridique, Code du Travail • MOND corpus journalistique, Le Monde

  13. Corpus annotés pour l’évaluation (2) • Occurrences des recteurs impliqués dans les cas validésVNAPpa VOLC710 280 32 84 CTRA488 296 110 153 MOND 591 329 28 59 • Types de recteurs impliqués dans les cas validés CTRA 258 couples (recteur, prep) VOLC 553 ~ MOND 501 ~ • Redondance lexicale CTRA > VOLC et MOND : endogène plus performant

  14. Stratégies de désambiguïsation (1) • Quatre stratégies • Pas de décision par défaut • Rattachements motivés par indices linguistiques • Stratégie exogène : si verbe dans LG, choix verbe • Stratégie endogène : deux indices, arget prod indice arg : si le candidat est recteur d’une préposition ayant le même régi ailleurs dans le corpus dans un contexte non ambigu  son indice arg vaut 1 Ex : le gouvernement a accordé une aide supplémentaire aux sinistrés Contexte ambigu : c1:supplémentaire, c2:aide, c3:accorder Contexte non ambigu: un montant identique a été accordé aux sinistrés  indice arg : accorder : 1 - (accorder, à, sinistré)

  15. Stratégies de désambiguïsation (2) indice prod : productivité d’un couple (recteur, prep) : nb noms différents régis par la préposition dans un contexte non ambigu Contextes non ambigus : un montant identique a été accordé à la population sinistrée, le gouvernement a accordé aux habitants les montants espérés prod (accorder, à) : 2 – (accorder, à) (population, habitants) + si candidat, vb ou nom déverbal, productivité et celle de son déverbal (lexique Verbaction)  indice prod du candidat vaut 1 si valeur > seuil Si candidat avec arg, l’analyseur le choisit Sinon, il choisit le candidat avec prod En cas de concurrence, l’analyseur choisit le candidat avec valeur prod maximale.

  16. Stratégies de désambiguïsation (3) • Stratégie mixte 1 : mesure apport endogène verbal vs exogène verbal  Stratégie endogène SAUF aucune mesure endogène pour les verbes  Si verbe dans EXO, indice prod pour vb vaut 1 • Stratégie mixte 2 : exploite conjointement informations endogènes et exogènes  Stratégie endogène ET liste EXO  Si valeur > seuil ou si verbe dans EXO, indice prod pour vb vaut 1

  17. Résultats • Taux de précision : nb cas correctement rattachés/nb cas rattachés • Taux de rappel : nb cas correctement rattachés/nb cas à rattacher • Stabilité des performances • Gain exogène sur rappel • Disparités inter-corpus : VOLCmix2vs CTRAmix2 • Résultats dégradés : VOLCexo vs VOLCendo • Cas mal résolus • Conflits indiciels, concurrence forte avec prod Ex : accorder des aides individuelles au reclassement, reporter sa visite à Meudon

  18. Rattachement verbal à distance de la préposition « de » • Comportement syntaxique de  à, dans, sur • Rattachement verbal à distance : Le Monde : de : 10%,à, dans, sur : 59% • Projection lexique verbal (LG) en corpus (stratégie exogène) • Ressource « catégorique » inefficace  Capter l’optionalité du 2nd argument remplir [V] [les tiroirs [obj] de la commode][SN] [Ø] [SP]  Polysémie A. cerner l’attente du client B. cerner la ville de troupes • Nécessité de probabiliser les évènements linguistiques

More Related