Acquisition de probabilités de sous-catégorisation à partir de très gros corpus

Acquisition de probabilités desous-catégorisation à partir de très gros corpus Didier BOURIGAULT Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail didier.bourigault@univ-tlse2.fr www.univ-tlse2.fr/erss/

TAL, linguistique et méthodes quantitatives • TAL : intégrer dans un analyseur syntaxique automatique (Syntex) une ressource de sous-catégorisation syntaxique pour améliorer la résolution des ambiguïtés de rattachement prépositionnel • Linguistique (de corpus) : évaluer sur un corpus de grande taille les informations de sous-catégorisation syntaxique extraites d’un lexique (le Lexique Grammaire) construit par des linguistes D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Contexte (TAL) : résoudre les ambiguïtés de rattachement prépositionnel en analyse syntaxique automatique • Syntex, un analyseur syntaxique en dépendance • Résoudre les ambiguïté de rattachement prépositionnel • Propriétés de sous-catégorisation syntaxique nécessaires • issues du Lexique-Grammaire • acquises automatiquement à partir de corpus voir + avec ? homme + avec ? manger + avec ? pizza + avec ? • Je vois un homme avec un télescope • Je mange une pizza avec des olives D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Syntex : un analyseur syntaxique de corpus • Analyseur en dépendance • Architecture modulaire • En entrée : un corpus étiqueté morpho-syntaxiquement (parties du discours) • Un module par relation : Déterminant, Sujet, Objet, Préposition, Adjectif • En sortie : corpus annotés avec des relations syntaxiques entre mots • Chaque module est « écrit à la main » • Par des linguistes informaticiens • Selon une approche empirique et expérimentale basée sur l’analyse de corpus D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Les relations syntaxiques • Dans chaque phrase, Syntex pose des relations de dépendance syntaxique entre les mots • Les mots ont été préalablement étiquetés • Une relation de dépendance syntaxique est orientée • d’un régivers son recteur • Contrainte 1 : un régi n’a qu’un seul recteur • Contrainte 2 : Les relations de dépendance ne se croisent pas. • Principales relations : • SUJ : sujet de verbe • OBJ : complément d’objet direct de verbe • PREP : complément d’objet indirect de verbe, de nom, d’adjectif • ADJ : épithète de nom D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Algorithme SUJET : « dernier nom à gauche » • Parcours des mots de la phrase • Point de départ : le verbe (le recteur) • Direction : gauche • Saut de certaines séquences entre virgules (incises) • Arrêt : au dernier Nom ou Pronom • Si échec (sujet inversé) : • Point de départ : le verbe • Direction : droite • Arrêt : au premier Nom ou Pronom SUJ le|Det petit|Adj chat|Nom de|Prep Marie|Nommange|Vb D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Algorithme PREP : ambiguïté de rattachement prépositionnel • 1- Rechercher_candidats • Parcours des mots de la phrase • Point de départ : la préposition (le régi) et Direction : gauche • Noms, participe passé, adjectif, verbes • 2- Sélectionner_candidat • À l’aide d’indices • dont propriété de sous-catégorisation syntaxique ? Marie|Nom installe|Vb un|Det logiciel|Nomsur|Prep son|Det ordinateur|Nom installer + sur ? logiciel + sur ? D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Propriétés de sous-catégorisation syntaxique : où les trouver (pour le français) ? • Dictionnaires (électroniques) existants • Le Lexique-Grammaire du LADL • TLFi (Trésor de la Langue Française informatisé) • (…) • Acquisition de probabilités de sous-catégorisation à partir de corpus • A partir d’un corpus étiqueté automatiquement • Corpus Le Monde • Web • A partir d’un corpus annoté manuellement (~ Penn Tree Bank) D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Lexique grammaire • Choix de la ressource : • Objectif d’exhaustivité, français « standard » • Démarche introspective, indépendamment de tout corpus et tout domaine • Mode de constitution (C. FREROT, ERSS) • Extraire l’information sur la sous-catégorisation verbale à distance des prépositions à, dans, sur • Appartenance à la forme canonique N0 V N1 Prep N2 • Filtrage des données : on exclut les restrictions de sélection • Nature sémantique du syntagme prépositionnel non encodée dans l’analyseur (traits humain, non humain…) • Ex : N1 = : « coup » : Max a (allongé, balancé, envoyé, mis) une gifle à Ida • Liste LG : 1659 couples (vb,prep) ; 1182 verbes différents D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Calcul des probabilités de sous-catégorisation • Corpus partiellement annoté • Le Monde (1990-1996) : 140 millions de mots • Étiquetage morpho-syntaxique (Treetagger) + premiers modules Syntex • A partir des cas non ambigus : 1- Pour une préposition p, qui régit le mot m’, le module Recherche_candidats a trouvé un seul candidat recteur : m 2- Pour un mot m, le module Recherche_candidats ne l’a retenu comme candidat recteur pour aucune préposition 1- freq (m, p,m’) + 1 2- freq (m,0) + 1 Je l’ai mangé avec une fourchette freq (manger, avec, fourchette) + 1 Jean a mangé. freq (manger, 0) + 1 D. BOURIGAULT Sémantique et corpus, 2 juin 2004

freq(m,p) proba(m,p) = freq(m) log ( 1 + prod(m,p) ) * k Calcul des probabilités de sous-catégorisation fréquence de m sans préposition : freq(m,0) fréquence de m avec la préposition p : freq(m,p) =  m’ freq(m,p,m’) fréquence totale de m : freq(m) = freq(m,0) +  p freq(m,p) productivité de m avec p : prod(m,p)=Card { m’ / freq(m,p,m’) > 0 } freq (manger, avec, Jean)=5 freq(manger,à,restaurant|maison|self|cantine|table)=1 freq(manger,avec)=5 freq(manger,à)=5 prod(manger,avec)=1 prod(manger,à)=5 proba(manger,avec)=0.28 proba(manger,à)=0.72 D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Calcul des probabilités de sous-catégorisation • Exemple de ressource endogène : résultats sur un corpus médical D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Calcul des probabilités de sous-catégorisation • Itérations • Etape 0 : ressources exogènes R0 • Etape i : • Résoudre les ambiguïtés de rattachement à l’aide de la ressource construite à l’étape i-1 (Ri-1) • Pour chaque cas ambigu : { (mj, p,m’) , j=1 à ncand } • S’il existe un candidat k tel que prob(mk, P) >> prob(mjk,P) : (rattachement certain) • freq(mk,p,m’) + 1 • freq(mjk,0) + 1 • Sinon (rattachement incertain) • freq(mj,P,m’) + 1 / ncand pour j=1 à ncand • Recalculer les probabilités avec ces nouvelles fréquences plus les fréquences calculées sur les cas non ambigus (étape 0) : Ri D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Calcul des probabilités de sous-catégorisation • Résultats • Corpus d’apprentissage de 140 M mots (Le Monde, 1990-96) • Convergence après 4 itérations • Nombre de couples (m,p) : 10 759 • freq(m)>=50 • proba(m,p) >0.05 D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Probabilités de sous-catégorisation de noms D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Validation de la liste LG sur le corpus LM • Histogramme des fréquences des verbes de LG dans le corpus LM nb 770 verbes / 1182 1 117 couples (vb, prep) / 1659 500 400 300 200 100 (412) (375) (271) (124) 1000 10000 100000 100 freq D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Verbes de LG écartés de l’analyse Verbes de LG dont la fréquence d’occurrence dans le corpus LM est nulle : chourer ; abouter ; begayer ; discounter ; cabler ; condondre ; hâbler ; mendigoter ; faire tenir ; camionner ; râcler ; rencoquiller ; radotter ; sussurer ; encabaner ; encuver ; affimer ; postposer ; annoner ; redevoir ; asséner ; renfoncer ; trimbaler ; avoir à redire ; écornifler ; trompéter ; faire revenir ; pelotonner ; grognonner ; contrecoller ; enchainer ; piauler ; rencogner ; réexpédier ; exhiler ; enchrister ; goupiller ; insufler ; céler ; faire accroître ; pieuter ; faire valoir ; ébouler ; surjeter ; mender ; Verbes de LG dont la fréquence d’occurrence dans le corpus LM est inférieure à 100 : aboucher (1) ; abouler (1) ; abêtir (11) ; accouder (4) ; accoutumer (84) ; accroupir (16) ; affaisser (3) ; affaler (20) ; affermer (16) ; agenouiller (14) ; agrafer (10) ; agripper (66) ; aguerrir (37) ; ahaner (31) ; aiguiller (98) ; alléguer (80) ; alunir (1) ; amarrer (90) ; amerrir (9) ; ameuter (32) ; apitoyer (32) ; aplatir (67) ; apponter (4) ; apprêter (34) ; arnaquer (30) ; assermenter (8) ; attabler (30) ; attarder (38) ; atteler (44) ; aventurer (23) ; aérer (99) ; (…) D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Probabilités des couples (vb,prep) de LG calculées sur le corpus LM lg = 1 si (vb,prep) LG f = freq(vb,prep) f tot =freq(vb) p = f / f tot cat = catégorie du régi de prep D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Histogramme des probabilités des couples (vb,prep) de LG • Si seuil probabilité = 0.05 • 550 couples « infirmés » par le corpus • freq(vb,prep) = 0 • Ou p(vb,prep) < 0.05 • 567 couples « confirmés » par le corpus • p(vb,prep)>= 0.05 D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Couples (vb,prep) de LG absents du corpus D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Couples (vb,prep) de LG de probabilité inférieure à 0.05 pas (peu) fréquent/probable, (…) , très fréquent/probable ≠ «impossible », « * », « facultatif », « optionnel », (…) , « obligatoire » D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Couples (vb,prep) de LG de probabilité supérieure à 0.05 Rappel : la liste LG est construite à partir du schéma : N0 V N1 prep N2 Proportion des cas oùvb est construit avec prep et vb n’a pas d’objet (analyse Syntex) D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Couples de LG (vb,prep) sans objet dans le corpus LM D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Compléter LG : couples (vb, prep) du corpus LM absents de la liste LG à (243) dans (135) dans (65) D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Réflexions • La vérité ne jaillit pas d’elle-même « du » corpus • Même si le corpus est très gros • Même si les méthodes quantitatives sont très sophistiquées • Le linguiste • choisit le corpus, • choisit les méthodes, • en fonction de son projet (hypothèses, cadre théorique, application) • Les entités manipulées par les outils ne sont pas équivalentes aux unités travaillées par le linguiste • Par exemple : • Outils : lemme+catégorie, relation de rection • Linguiste : sens de verbe, cadre syntactico-sémantique de sous-catégorisation D. BOURIGAULT Sémantique et corpus, 2 juin 2004

« gro cé bo ? » Oui, Il faut de la quantité pour évaluer des probabilités La quantité vient compenser les erreurs d’analyse, les approximations, la faible précision des outils automatiques Mais : « Il faut battre les corpus », pour mesurer la stabilité, la robustesse des résultats Il faut procéder à des analyses contrastives inter-corpus « probabiliser les événements linguistiques » En particulier, les outils de traitements automatique des langues ont besoin de propriétés probabilisées Réflexions (suite) : quantitatif/qualitatif D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Résultats de l’évaluation % précision choix par défaut : le dernier 100 90 80 70 60 50 base endo exo mixte D. BOURIGAULT Sémantique et corpus, 2 juin 2004

Acquisition de probabilités de sous-catégorisation à partir de très gros corpus