1 / 29

Acquisition de probabilités de sous-catégorisation à partir de très gros corpus

Acquisition de probabilités de sous-catégorisation à partir de très gros corpus. Didier BOURIGAULT Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr www.univ-tlse2.fr/erss/. TAL, linguistique et méthodes quantitatives.

sutton
Download Presentation

Acquisition de probabilités de sous-catégorisation à partir de très gros corpus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Acquisition de probabilités desous-catégorisation à partir de très gros corpus Didier BOURIGAULT Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr www.univ-tlse2.fr/erss/

  2. TAL, linguistique et méthodes quantitatives • TAL : intégrer dans un analyseur syntaxique automatique (Syntex) une ressource de sous-catégorisation syntaxique pour améliorer la résolution des ambiguïtés de rattachement prépositionnel • Linguistique (de corpus) : évaluer sur un corpus de grande taille les informations de sous-catégorisation syntaxique extraites d’un lexique (le Lexique Grammaire) construit par des linguistes D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  3. Contexte (TAL) : résoudre les ambiguïtés de rattachement prépositionnel en analyse syntaxique automatique • Syntex, un analyseur syntaxique en dépendance • Résoudre les ambiguïté de rattachement prépositionnel • Propriétés de sous-catégorisation syntaxique nécessaires • issues du Lexique-Grammaire • acquises automatiquement à partir de corpus voir + avec ? homme + avec ? manger + avec ? pizza + avec ? • Je vois un homme avec un télescope • Je mange une pizza avec des olives D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  4. Syntex : un analyseur syntaxique de corpus • Analyseur en dépendance • Architecture modulaire • En entrée : un corpus étiqueté morpho-syntaxiquement (parties du discours) • Un module par relation : Déterminant, Sujet, Objet, Préposition, Adjectif • En sortie : corpus annotés avec des relations syntaxiques entre mots • Chaque module est « écrit à la main » • Par des linguistes informaticiens • Selon une approche empirique et expérimentale basée sur l’analyse de corpus D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  5. Un exemple d’analyse Le chat de Marie mange une petite souris. Etiquetage morphosyntaxique (Treetagger) Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom. Analyse syntaxique (Syntex) SUJ OBJ Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom. D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  6. Les relations syntaxiques • Dans chaque phrase, Syntex pose des relations de dépendance syntaxique entre les mots • Les mots ont été préalablement étiquetés • Une relation de dépendance syntaxique est orientée • d’un régivers son recteur • Contrainte 1 : un régi n’a qu’un seul recteur • Contrainte 2 : Les relations de dépendance ne se croisent pas. • Principales relations : • SUJ : sujet de verbe • OBJ : complément d’objet direct de verbe • PREP : complément d’objet indirect de verbe, de nom, d’adjectif • ADJ : épithète de nom D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  7. Algorithme OBJET : « premier nom à droite » • Parcours des mots de la phrase • Point de départ : le verbe (le recteur) • Si pronom clitique objet juste à gauche : arrêt • Sinon direction : droite • Saut de certaines séquences entre virgules (incises) • Arrêt : au premier Nom OBJ le|Det chat|Nommange|Vb une|Det petite|Adj souris|Nom OBJ Marie|Nominstalle|Vb sur|Prep son|Det ordinateur|Nom un|Det logiciel|Nom D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  8. Algorithme SUJET : « dernier nom à gauche » • Parcours des mots de la phrase • Point de départ : le verbe (le recteur) • Direction : gauche • Saut de certaines séquences entre virgules (incises) • Arrêt : au dernier Nom ou Pronom • Si échec (sujet inversé) : • Point de départ : le verbe • Direction : droite • Arrêt : au premier Nom ou Pronom SUJ le|Det petit|Adj chat|Nom de|Prep Marie|Nommange|Vb D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  9. Algorithme PREP : ambiguïté de rattachement prépositionnel • 1- Rechercher_candidats • Parcours des mots de la phrase • Point de départ : la préposition (le régi) et Direction : gauche • Noms, participe passé, adjectif, verbes • 2- Sélectionner_candidat • À l’aide d’indices • dont propriété de sous-catégorisation syntaxique ? Marie|Nom installe|Vb un|Det logiciel|Nomsur|Prep son|Det ordinateur|Nom installer + sur ? logiciel + sur ? D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  10. Propriétés de sous-catégorisation syntaxique : où les trouver (pour le français) ? • Dictionnaires (électroniques) existants • Le Lexique-Grammaire du LADL • TLFi (Trésor de la Langue Française informatisé) • (…) • Acquisition de probabilités de sous-catégorisation à partir de corpus • A partir d’un corpus étiqueté automatiquement • Corpus Le Monde • Web • A partir d’un corpus annoté manuellement (~ Penn Tree Bank) D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  11. Lexique grammaire • Choix de la ressource : • Objectif d’exhaustivité, français « standard » • Démarche introspective, indépendamment de tout corpus et tout domaine • Mode de constitution (C. FREROT, ERSS) • Extraire l’information sur la sous-catégorisation verbale à distance des prépositions à, dans, sur • Appartenance à la forme canonique N0 V N1 Prep N2 • Filtrage des données : on exclut les restrictions de sélection • Nature sémantique du syntagme prépositionnel non encodée dans l’analyseur (traits humain, non humain…) • Ex : N1 = : « coup » : Max a (allongé, balancé, envoyé, mis) une gifle à Ida • Liste LG : 1659 couples (vb,prep) ; 1182 verbes différents D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  12. Calcul des probabilités de sous-catégorisation • Corpus partiellement annoté • Le Monde (1990-1996) : 140 millions de mots • Étiquetage morpho-syntaxique (Treetagger) + premiers modules Syntex • A partir des cas non ambigus : 1- Pour une préposition p, qui régit le mot m’, le module Recherche_candidats a trouvé un seul candidat recteur : m 2- Pour un mot m, le module Recherche_candidats ne l’a retenu comme candidat recteur pour aucune préposition 1- freq (m, p,m’) + 1 2- freq (m,0) + 1 Je l’ai mangé avec une fourchette freq (manger, avec, fourchette) + 1 Jean a mangé. freq (manger, 0) + 1 D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  13. freq(m,p) proba(m,p) = freq(m) log ( 1 + prod(m,p) ) * k Calcul des probabilités de sous-catégorisation fréquence de m sans préposition : freq(m,0) fréquence de m avec la préposition p : freq(m,p) =  m’ freq(m,p,m’) fréquence totale de m : freq(m) = freq(m,0) +  p freq(m,p) productivité de m avec p : prod(m,p)=Card { m’ / freq(m,p,m’) > 0 } freq (manger, avec, Jean)=5 freq(manger,à,restaurant|maison|self|cantine|table)=1 freq(manger,avec)=5 freq(manger,à)=5 prod(manger,avec)=1 prod(manger,à)=5 proba(manger,avec)=0.28 proba(manger,à)=0.72 D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  14. Calcul des probabilités de sous-catégorisation • Exemple de ressource endogène : résultats sur un corpus médical D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  15. Calcul des probabilités de sous-catégorisation • Itérations • Etape 0 : ressources exogènes R0 • Etape i : • Résoudre les ambiguïtés de rattachement à l’aide de la ressource construite à l’étape i-1 (Ri-1) • Pour chaque cas ambigu : { (mj, p,m’) , j=1 à ncand } • S’il existe un candidat k tel que prob(mk, P) >> prob(mjk,P) : (rattachement certain) • freq(mk,p,m’) + 1 • freq(mjk,0) + 1 • Sinon (rattachement incertain) • freq(mj,P,m’) + 1 / ncand pour j=1 à ncand • Recalculer les probabilités avec ces nouvelles fréquences plus les fréquences calculées sur les cas non ambigus (étape 0) : Ri D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  16. Calcul des probabilités de sous-catégorisation • Résultats • Corpus d’apprentissage de 140 M mots (Le Monde, 1990-96) • Convergence après 4 itérations • Nombre de couples (m,p) : 10 759 • freq(m)>=50 • proba(m,p) >0.05 D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  17. Probabilités de sous-catégorisation de noms D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  18. Validation de la liste LG sur le corpus LM • Histogramme des fréquences des verbes de LG dans le corpus LM nb 770 verbes / 1182 1 117 couples (vb, prep) / 1659 500 400 300 200 100 (412) (375) (271) (124) 1000 10000 100000 100 freq D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  19. Verbes de LG écartés de l’analyse Verbes de LG dont la fréquence d’occurrence dans le corpus LM est nulle : chourer ; abouter ; begayer ; discounter ; cabler ; condondre ; hâbler ; mendigoter ; faire tenir ; camionner ; râcler ; rencoquiller ; radotter ; sussurer ; encabaner ; encuver ; affimer ; postposer ; annoner ; redevoir ; asséner ; renfoncer ; trimbaler ; avoir à redire ; écornifler ; trompéter ; faire revenir ; pelotonner ; grognonner ; contrecoller ; enchainer ; piauler ; rencogner ; réexpédier ; exhiler ; enchrister ; goupiller ; insufler ; céler ; faire accroître ; pieuter ; faire valoir ; ébouler ; surjeter ; mender ; Verbes de LG dont la fréquence d’occurrence dans le corpus LM est inférieure à 100 : aboucher (1) ; abouler (1) ; abêtir (11) ; accouder (4) ; accoutumer (84) ; accroupir (16) ; affaisser (3) ; affaler (20) ; affermer (16) ; agenouiller (14) ; agrafer (10) ; agripper (66) ; aguerrir (37) ; ahaner (31) ; aiguiller (98) ; alléguer (80) ; alunir (1) ; amarrer (90) ; amerrir (9) ; ameuter (32) ; apitoyer (32) ; aplatir (67) ; apponter (4) ; apprêter (34) ; arnaquer (30) ; assermenter (8) ; attabler (30) ; attarder (38) ; atteler (44) ; aventurer (23) ; aérer (99) ; (…) D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  20. Probabilités des couples (vb,prep) de LG calculées sur le corpus LM lg = 1 si (vb,prep) LG f = freq(vb,prep) f tot =freq(vb) p = f / f tot cat = catégorie du régi de prep D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  21. Histogramme des probabilités des couples (vb,prep) de LG • Si seuil probabilité = 0.05 • 550 couples « infirmés » par le corpus • freq(vb,prep) = 0 • Ou p(vb,prep) < 0.05 • 567 couples « confirmés » par le corpus • p(vb,prep)>= 0.05 D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  22. Couples (vb,prep) de LG absents du corpus D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  23. Couples (vb,prep) de LG de probabilité inférieure à 0.05 pas (peu) fréquent/probable, (…) , très fréquent/probable ≠ «impossible », « * », « facultatif », « optionnel », (…) , « obligatoire » D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  24. Couples (vb,prep) de LG de probabilité supérieure à 0.05 Rappel : la liste LG est construite à partir du schéma : N0 V N1 prep N2 Proportion des cas oùvb est construit avec prep et vb n’a pas d’objet (analyse Syntex) D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  25. Couples de LG (vb,prep) sans objet dans le corpus LM D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  26. Compléter LG : couples (vb, prep) du corpus LM absents de la liste LG à (243) dans (135) dans (65) D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  27. Réflexions • La vérité ne jaillit pas d’elle-même « du » corpus • Même si le corpus est très gros • Même si les méthodes quantitatives sont très sophistiquées • Le linguiste • choisit le corpus, • choisit les méthodes, • en fonction de son projet (hypothèses, cadre théorique, application) • Les entités manipulées par les outils ne sont pas équivalentes aux unités travaillées par le linguiste • Par exemple : • Outils : lemme+catégorie, relation de rection • Linguiste : sens de verbe, cadre syntactico-sémantique de sous-catégorisation D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  28. « gro cé bo ? » Oui, Il faut de la quantité pour évaluer des probabilités La quantité vient compenser les erreurs d’analyse, les approximations, la faible précision des outils automatiques Mais : « Il faut battre les corpus », pour mesurer la stabilité, la robustesse des résultats Il faut procéder à des analyses contrastives inter-corpus « probabiliser les événements linguistiques » En particulier, les outils de traitements automatique des langues ont besoin de propriétés probabilisées Réflexions (suite) : quantitatif/qualitatif D. BOURIGAULT Sémantique et corpus, 2 juin 2004

  29. Résultats de l’évaluation % précision choix par défaut : le dernier 100 90 80 70 60 50 base endo exo mixte D. BOURIGAULT Sémantique et corpus, 2 juin 2004

More Related