1 / 27

La désambiguïsation de corpus monolingues par des approches de type Lesk

La désambiguïsation de corpus monolingues par des approches de type Lesk. Florentina Vasilescu vasilesf@iro.umontreal.ca DIRO Université de Montréal. Schéma de la présentation. Désambiguïsation sémantique Cadre d’évaluation Senseval Approche de Lesk (1986) Notre système

lynda
Download Presentation

La désambiguïsation de corpus monolingues par des approches de type Lesk

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. La désambiguïsation de corpus monolingues par des approches de type Lesk Florentina Vasilescu vasilesf@iro.umontreal.ca DIRO Université de Montréal

  2. Schéma de la présentation • Désambiguïsation sémantique • Cadre d’évaluation Senseval • Approche de Lesk (1986) • Notre système • Résultats expérimentaux • Conclusions

  3. Désambiguïsation sémantique 1 • Ambiguïté :propriété de certains énoncés d'avoir plusieurs significations en fonction de contexte : • "La vitesse moyenne du pigeon voyageur n'est dépassée que par le vol de l'hirondelle (67 mètres à la seconde) " • Désambiguïsation:vol = ? • "déplacement actif dans l’air" ou • "action de dérober"

  4. Désambiguïsation sémantique 2 • Applications :(Ide et Véronis 1998) • traduction automatique • fr. grille→ ang. bar, gate, grid, scale, etc. • recherche d’information • court – ensemble des magistrats / entourage d’un souverain • synthèse vocale • « He conjured up an image » / « I conjured you to help me » : create something in the mind / implore • analyse grammaticale – POS tagging • « L’étagère plie sous les livres» - livre= n.f ou n.m.?

  5. Cadre d’évaluation Senseval 1 • Trois éléments importants pour évaluer les systèmes de désambiguïsation automatique: • corpus étalons (gold standard); • mesures de performance • estimation de la limite inférieure et supérieure de ces mesures

  6. Cadre d’évaluation Senseval 2 • Senseval1 (1998) : • 17 systèmes participants; • 3 langues (anglais, italien, français) ; • 3 catégories grammaticales (noms, verbes, adjectifs) + indéterminés • 1 type de tâche - Lexical Sample Task • Senseval2 (2001) : • 94 systèmes participants • 12 langues (anglais, italien, chinois, japonais, basque, estonien, danois, coréen, espagnol, tchèque, suédois, hollandais); • 3 types de tâches (Lexical Sample, All Words – noms, verbes, adjectifs et adverbes,Translation – japonais); • Senseval3 (2004) : • 90 équipes ont pour le moment manifesté leur intérêt • 8 langues (anglais, italien, chinois, basque, catalan, espagnol, suédois, roumain); • 7 types de tâches (Lexical Sample, All Words, Multilingual Lexical Sample, Word-Sense Disambiguation of WordNet Glosses, Automatic Subcategorization Acquisition, Automatic Labeling of Semantic Roles, Identification of Logic Forms in English). http://www.senseval.org

  7. Cadre d’évaluation Senseval 3 Précision et rappel – Senseval2, English All Words http://www.senseval.org

  8. … ... … pine cone = ? Approche de Lesk (1986) 1 • Idée : compter le nombre de mots communs (overlaps) entre les définitions des sens de cone et les définitions de pine. cone – 1. solid body which narrows to a point … 2. something of this shape whether solid or hollow …; 3. fruit of certain evergreen tree …". pine – 1. kind of evergreen tree with needle-shaped leaves ... 2. waste away through sorrow or illness … • Choix :définition3 (cone) = fruit définition3 (cone)∩ définitions(pine) = {evergreen, tree}

  9. Approche de Lesk (1986) 2 • Avantages : • simplicité; • méthode non-supervisée. • Désavantages : • dictate du dictionnaire • Applications : • méthode de référence pour les compétitionsSenseval1 et 2, lexical sample task; • études dérivées de ce type d’approche • … (Kilgarriff et Rosenzweig 2000),(Sidorov et Gelbukh 2001), (Stevenson et Wilks 2001), (Banerjee et Pedersen 2002) ...

  10. MODULE DE PRETRAITEMENT données de test en forme brute • mise en forme des données de test • extraction de définitions et de relations de WordNet WordNet MODULE DE DESAMBIGUISATION fichier de test prétraité fichiers de définitions et de relations • choix de la méthode • choix de la longueur du contexte • désambiguïsation des mots cibles MODULE D’ANALYSE fichier de réponses fichiers clés • évaluation des réponses • classification des réponses • analyse du corpus de test fichiers de résultats d’analyse Notre système – Architecture globale 1

  11. Notre système – Module de désambiguïsation 2 • Variantes de base: • méthode de Lesk originelle (Lesk 1986) • définition du sens candidat∩définitions des mots du contexte; • méthode de Lesk simplifiée (Kilgarriff et Rosenzweig 2000) • définition du sens candidat∩mots du contexte. • Versions : • non-pondérées; • pondérées; • sélection des mots du contexte. • Descriptions de sens (extraites de WordNet): • définitions (glosses) + exemples; • relations (synonymes et hyperonymes); • définitions + exemples + relations. • Longueur du contexte : • 4,6,16,20,50 mots pleins (N,V,Adj,Adv) autour du mot cible

  12. Notre système – Variantes non-pondérée et pondérées 3 • Variante non-pondérée: • score = nb. overlaps • Variantes pondérées : • score = poidssens * nb. overlaps ou • score = ∑ poidsoverlap • Facteurs considérés : • taille de la description de sens; • log2(taille de la description de sens); • fréquence d’usage des overlaps; • log2(fréquence d’usage des overlaps) • distance du mot à désambiguïser.

  13. Notre système – Sélection des mots du contexte 4 • Chaînes lexicales :enchaînements logiques de mots co-occurant dans un même contexte(Hirst et St-Onge 1998). • Idée :enlever l’ambiguïté d’un mot en utilisant seulement des mots appartenant à la même chaîne lexicale.

  14. group, grouping social group B A organization, organisation gathering, assemblage assembly committee2, citizens committee unit, social unit administrative unit, administrative body legislature,  legislative assembly,  general assembly,  law-makers  committee1, comission Notre système – Appartenance à la même chaîne lexicale5 • Relations :synonymes et hyperonymes (WordNet) • Mesure de similarité :formule de Jackard : > seuil (voir aussi Resnik 1995)

  15. Résultats expérimentaux – Performances. Taille du contexte 1

  16. Résultats expérimentaux - Décisions par défaut (overlaps = 0) et précision2

  17. TOTAL REPONSES (C) correctes incorrectes (C ) ovlps = 0 (E) (E) ovlps≠ 0 ovlps = 0 (E) (E) ovlps ≠ 0 ≠ BASE =BASE = BASE =BASE ≠BASE =BASE CE=B CE=B CE=B CE=B CE≠B IncorrectBASE CorrectBASE CE≠B CE≠B Résultats expérimentaux - Topologie des réponses 3

  18. Résultats expérimentaux – Topologie des réponses 4 NonPondérée NonPondérée NonPondérée Pondérée Pondérée Pondérée Chaîneslexicales Chaîneslexicales Chaîneslexicales

  19. Résultats expérimentaux – Catégorie grammaticale. Granularité de sens 5 • Catégorie grammaticale : • Prec(Adv) > Prec(N) > Prec(Adj) > Prec(V) • Catégorie grammaticale = filtre: work – 34 sens, work (N) – 7 sens • Catégorie grammaticale détectée : is → be (V) (règles WordNet) • Granularité du découpage de sens : • Fine-grained (exact match) • Coarse-grained (regroupement de sens): write#1(produce a literary work) = write#3 (publish); hypéronyme immédiate commun = create verbally  (create with or from words)

  20. Résultats expérimentaux - Etude comparative 6

  21. Conclusions • Influence des paramètres • Taille de la fenêtre de contexte. Décisions effectives • Performances avec le contexte • Performances avec le nombre de décisions effectives • améliorations possibles • Catégorie grammaticale. Granularité du découpage des sens • Prec(Adv) > Prec (N) > Prec(Adj) > Prec(V) • Gains absolus > si la catégorie grammaticale est connue • Gains absolus > si le découpage de sens est moins fin • Topologie des réponses. Evaluation comparative • "Barrière" du choix du sens le plus fréquent pas facile à franchir. • Directions futures • ressourcescombinées(lexicales, sémantiques, syntaxiques, de type corpus etc.) • combinaison de plusieurs décideurs selon des critères probabilistes (gain maximal 5.65%-8.53%). • prise de décision dépendante des choix antérieurs (HMM) • exploitation de features par des méthodes de type maximum entropie (Palmer et al. 2002).

  22. Références bibliographiques • Banerjee Satanjeev, Pedersen Ted, An Adapted Algorithm for Word Sense Disambiguation Using WordNet, Proceedings of the Third International Conference on Intelligent Text Processing and Computational Linguistics, February 17-23, Mexico City, 2002. • Hirst Graeme, St-Onge David, Lexical Chains as Representations of Context for the etection and Correction of Malapropisms, WordNet an Electronic Lexical Database, MIT Press, 1998,pp. 305-331. • Ide Nancy, Véronis Jean, Word Sense Disambiguation: The State of Art, Computational Linguistics, Vol.24, No.1, March 1998, pp.1-40. • Kilgarriff Adam and Rosenzweig Joseph, English SENSEVAL: Report and Results. In Proc. LREC, Athens, May-June 2000. • Lesk Michael, Automatic Sense Disambiguation Using Machine Readable Dictionaries: How to Tell a Pine Cone from an Ice Cream Cone, ACM SIGDOC '86, The Fifth International Conference on Systems Documentation, Proceedings of ACM Press, 1986. • Palmer Martha, Dang Hoa Trang, Fellbaum Christiane,Making fine-grained and coarse-grained sense distinctions, both manually and automatically, Journal of Natural language Engineering, revisions due in march 2003, LREC 2002 Workshop Publications. • Resnik Philip,Using information content to evaluate semantic similarity in a taxonomy. Proceedings of the Fourteenth International Joint Conference on Articial Intelligence (IJCAI-95), 1995, pp. 448-453. • Sidorov Grigori, Gelbukh Alexander, Word Sense Disambiguation in a Spanish Explanatory Dictionary, Proceedings TALN-2001, pp. 398-402, Tours, France, July 2-5, 2001. • Stevenson Mark, Wilks Yorick, The Interaction of Knowledge Sources in Word Sense Disambiguation, Computational Linguistics, Vol. 27, No. 3, September 2001, pp. 321–351.

  23. Résultats expérimentaux - Performances. 2(Pondération par la fréquence relative des sens candidats)

  24. Semcor –gains fine-grained APOS Gains fine-grained par rapport à différentes performnaces de base, si la catégorie grammaticale est connue (corpus Semcor)

  25. Semcor – gains fine-grained v.simple (POS detectee) Gains fine-grained par rapport à BASE (corpus Semcor)

  26. Corpus de test Structure globale du fichier de test Senseval 2 Structure globale des fichiers de test extraits de Semcor

  27. Polysémie dans WordNet Polysémie moyenne dans WordNet Indicateur de "familiarité" par catégorie grammaticale, selon WordNet

More Related