1 / 44

Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus

Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus. Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS gala@xrce.xerox.com. S éminaire du groupe Langage et Cognition Orsay, 5 décembre 2000. Analyseurs robustes.

toki
Download Presentation

Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS gala@xrce.xerox.com Séminaire du groupe Langage et Cognition Orsay, 5 décembre 2000

  2. Analyseurs robustes Caractéristiques générales : • analyse par étapes déterministes • plutôt que globale et recursive • resultats exploitables • quelle que soit la ‘propreté’ du texte en entrée--applications réelles • approches diverses • grammaires [Joshi 61] / statistiques [Church 88]

  3. Fondements linguistiques “Certains accessoires inappropiés modifient la position normale de pilotage.” • Grammaires Syntagmatiques Noyau (chunks) [Certains accessoires]NP[inappropiés]AP [modifient]VP[la position]NP[normale]AP [de pilotage]PP. S O C A Certains accessoires inappropiés modifient la position normale de pilotage. • Grammaires de Dépendances A A C C • Systèmes Mixtes [Certains accessoires]NP[inappropiés]AP [modifient]VP[la position]NP[normale]AP [de pilotage]PP. SUBJ(accessoires,modifier) NADJ(accesoires, inappropiés) OBJ(modifier,position)

  4. Quelques Analyseurs robustes • CASS (Abney, 91; 96) • Fidditch (Hindle, 93); • ENGCC (Karlsson et al. 95) ; • FDG (Functional Dependency Grammar, Conexor, Tapanainen et Järvinen, 97); • Sextant (Grefenstette, 94); • Analyseur du GREYC (Giguet et Vergne, 97); • IFSP (Aït-Mokhtar et Chanod, 97);

  5. Plan de ce séminaire • Problématique de la thèse • Architecture générale proposée: • Reconfigurabilité • Adaptabilité • Un parseur modulaire • Chunking • (a) Grammaire noyau • (b) Module de diagnostic • (c) Grammaires spécialisées • Dépendances • Conclusions et perspectives

  6. 1. Problématique de la thèse • Texte “libre” en grandes quantités • Grande variété de phénomènes • Encodage de l’information • formes appauvries (phrases dans des mails, titres “télégraphiques”…) • formes enrichies (marques structurelles, marques pragmatiques…)

  7. Variété et Hétérogénéité des corpus • Phénomènes “non standard” pour une grammaire : • séquences linguistiques ou extralinguistiques non modelisées • Présents dans les corpus de façon hétérogène: • fréquents dans tous les domaines • particuliers à un type de corpus .

  8. Exemples de Phénomènes “non standard” Télécoms : l'italien STET s'allie avec l'américain ATT (Les Echos) L’Ecole des hautes études en sciences sociales (EHESS, 54 boulevard Raspail, Paris 6)accueille du 28 janvier au 6 mars “Les images médiatiques et la ville” , une exposition comprenant 45.000 timbres de France, d’Allemagne, d’Espagne et des pays de l’ex-bloc de l’Est. (Le Monde)

  9. Autres Exemples “non standard” Sur les modèles à partir de 1966: 1 - Enlevez les caches plastiques (4) qui se trouvent sur le côté intérieur du tambour, 2 - Repérez les deux ouvertures qui permettent d'accéder aux molettes de réglage. (Manuel technique) 017 -- oui là je malheureusement je / je peux vous le confirmer (Transcription de l’oral)

  10. Problèmes actuels • Ensemble de phénomènes “non standard”: pourcentage considérable dans les corpus. • Les architectures des analyseurs actuels ne permettent pas une adaptation facile à des domaines différents. Analyse syntaxique input Grammaire output

  11. 2. Architecture Proposée Réconfigurabilité (modularité) Adaptabilité (apprentissage)

  12. input Grammaire ‘noyau’ G0 G1 G2 G3 … Gn Grammaires spécialisées output Réconfigurabilité (modularité) Module de ‘diagnostic’

  13. input Ressources lexico-sém. Grammaire ‘noyau’ G0 Module apprentissage G1 G2 G3 … Gn Grammaires spécialisées Analyse préliminaire output Adaptabilité (apprentissage) Module de ‘diagnostic’

  14. Récapitulatif sur l’architecture • Réconfigurabilitédes grammaires • en fonction du contenu des corpus (modularité: grammaire noyau et grammaires spécialisées) ; • Adaptabilité du résultat • par rapport à des structures déjà bien analysées (apprentissage).

  15. 3. Création d’un parseur modulaire • Entrée: • texte étiquetté morphologiquement (tagged) • Sortie: • texte découpé en constituants avec liste de relations de dépendance pour chaque phrase

  16. Moteur utilisé • Parseur incrémental mixte • (S. Aït-Mokhtar, J.P. Chanod, C.Roux) • Moteur écrit en C++ • indépendant des règles de la grammaire • expressions regulières améliorées avec traits • Nous utilisons ce moteur pour créer notre propre… • découpage en constituants (chunking) • extraction de dépendances • De façon modulaire

  17. input Chunking Extraction de dépendances output Vue d’ensemble du parseur Parseur Traitements morphologiques

  18. 3.1 Chunking • Découpage en constituants • Approche modulaire linguistiquement motivée(prise en compte de la variété de phénomènes dans des corpus très différents) • Trois étapes de traitement différentes faites par: • un grammaire noyau • un module de diagnostic • des grammaires spécialisées

  19. input Chunking output noyau gn diagnostic g2 g1 Vue d’ensemble du parseur Extraction de dépendances Traitements morphologiques

  20. (a) Grammaire Noyau • Ensemble de règles de l’analyseur • permettant • le découpage d’un corpus en constituants ; • l’envoi de quelques phrases vers le module d’extraction de dépendances ; • garantisant • un taux de couverture minimale pour tout corpus (e.g. 25%); • un rappel et une précision maximales quel que soit le type de corpus (e.g. plus que 90%).

  21. Mesures • couverture: • phrases analysées correctement avec GN • total des phrases • rappel: • phrases ratées par GN • total des phrases • précision: • phrases analysées correctement • phrases couvertes

  22. Découpage en constituants • Méthode d’analyse (sur corpus étiquetté): • marquage de segments de base • NP AP PP FV IV GV • marquage de segments additionnels selon la version de la grammaire • BG SBC ANP PNP PFV S; • marquage de phrases de premier niveau.

  23. Méthode • Découpage en segments de base: “En dépit d’un désaccord persistant, les principaux acteurs politiques du pays ont donné leur feu vert à la réunion d’une conférence qui relancerait le processus démocratique.” [Le Monde] 22>PP{En NP{dépit}} PP{d' NP{un désaccord}}AP{persistant}, NP{les AP{principaux} acteurs}AP{politiques}PP{du NP{pays}}FV{ont donné}NP{leur feu}AP{vert}PP{à NP{la réunion}} PP{d' NP{une conférence}} quiFV{relancerait}NP{le processus}AP{démocratique}.

  24. Méthode • Découpage en segments additionnels • Marquage de phrases de premier niveau 22>S{ANP{PP{En NP{dépit}} PP{d' NP{un désaccord}} AP{persistant},}NP{les AP{principaux} acteurs}PNP{AP{politiques} PP{du NP{pays}}}FV{ont donné}PFV{NP{leur feu} AP{vert} PP{à NP{la réunion}} PP{d' NP{une conférence}} SBC{BG{qui} FV{relancerait}} NP{le processus} AP{démocratique}}.}

  25. Objectifs de la Grammaire Noyau • Analyser des phrases depremierniveau • structures couvertes par la Grammaire Noyau quel que soit le type de corpus; • Détecter des phrases de deuxième niveau • pour lesquelles il faudra des modules d’analyse spécialisés.

  26. input premier niveau deuxième niveau Chunking et Tri Modules spécialisés output Module de ‘diagnostic’ Architecture Module noyau Dépendances

  27. Versions • Création de plusieurs versions de la grammaire • Moyen de contrôler la diversité de structures des corpus tout venant • Chaque version plus riche que la précédente (admettant des structures plus complexes du point de vue de l’analyse syntaxique)

  28. Versions • Maintient d’un taux de précision et de rappel très élévés • Quand la précision et le rappel vont se dégrader de façon considérable par l’ajout de nouvelles règles dans la grammaire noyau, on aura atteint un seuil (limite entre premier et deuxième niveau) • Les phrases analysées avec une précision faible auront besoin de traitements syntaxiques plus puissants

  29. Versions

  30. Evaluation Grammaire Noyau • Corpus detest: 104.515 mots • Corpus d’évaluation: 7.757 mots • Domaines: • journaux (Le Monde, Libération) • rapports scientifiques (chimie, physique, médecine) • rapports juridiques • manuels techniques (tracteur, moto, photocopieur) • documents d’économie et finances

  31. Résultats du chunking

  32. input premier niveau Chunking et Tri Modules spécialisés output Rappel architecture Module noyau deuxième niveau Module de ‘diagnostic’ Dépendances

  33. (b) Module de diagnostic • Les phrases en entrée ont été partiellement découpées en constituants de base par le module noyau • En raison de la présence de structures de deuxième niveau ce découpage peut être • imprécis • totalement erroné

  34. Exemples d’analyse erroné 443>MAX{NP{SURVEILLANCE} NP{La surveillance} des apparentés PP{de NP{patients}} atteints PP{de NP{mélanome}} FV{est abordée} PFV{PP{dans NP{le chapitre}} NP{Prévention} AP{secondaire}} .}

  35. Exemples d’analyse imprécis 176>MAX{NP{Le secteur} PNP{non structuré} FV{est formé} : - NP{des démarcheurs} ( NP{vendeurs} PP{de NP{rue}} et PP{de NP{marchés}} PP{aux NP{puces}} ) ;} 177>MAX{- NP{des clubs} et NP{des associations} (NP{groupements} PP{de NP{femmes}} , principalement ) ;} 178>MAX{- NP{des tavernes} ( PP{des NP{banlieues}} ) .}

  36. Buts du module de diagnostic • détecter le ou les phénomène(s) syntaxiques complexes présents dans chaque phrase • les orienter vers la grammaire spécialisée correspondante • Module fondamental car les traitements syntaxiques suivants dépendent du diagnostic établi ici.

  37. (c) Modules spécialisés • Chacun est dedié à l’analyse d’un phénomène spécifique ; • Une même phrase peut être dirigée à plus d’un module si elle contient plus d’un phénomène ; • Enumérations, coordinations ambiguës… • Titres, listes…

  38. input premier niveau Chunking et Tri Modules spécialisés output Rappel architecture deuxième niveau Module de ‘diagnostic’ Dépendances

  39. 3.2 Extraction de dépendances • Relations syntaxiques entre les mots d’une phrase; • Entrée: phrase découpée en constituants; • Sortie: liste de dépendances pour chaque phrase; SUBJ(peuvent,accessoires) COMP_INF(peuvent,nuire) VPP(nuire,à,sécurité) NPP(sécurité,de,conduite) 344>MAX{S{NP{Des accessoires}PNP{mal installés ou mal conçus}FV{peuvent}PFV{IV{nuire} PP{à NP{la sécurité}} PP{de NP{conduite}}} .}}

  40. Extraction de dépendances SUBJ COMP VN VADJ VPP VAG VADV NN NPP NADJ ADJN Jean mange une pomme Jeanmange une pomme Jean est pompier Jean est gentil Jean vient de ParisJean estappellé par PaulJeanvient rapidementJean Dupontest gentil Jean mange une pomme du jardinJean mange unepomme verteJean craint sesvieux ennemis

  41. Evaluation des dépendances …sur des phrases de premier niveau

  42. Récapitulatif sur l’évaluation Grammaire Noyau • Couverture minimale = 20 % • Rappel = entre 97 %et 100 % • Précision segmentation = 91 % • Précision moyenne des dépendances = 91,5 %

  43. 4. Conclusions • Analyse syntaxique robuste • Approche modulaire et adaptative • Modularité linguistiquement motivée: étude de la diversité de phénomènes syntaxiques sur des corpus tout venants • Apprentissage symbolique: • utilisation de structures analysées avec haute précision pour améliorer le resultat final.

  44. … et perspectives • Modularité • amélioration du module de diagnostic (en cours) • définition de phénomènes de deuxième niveau • création de modules spécialisés • Adaptabilité -introduction de stratégie(s) d’apprentissage symbolique

More Related