1 / 20

Patrick Paroubek / Limsi-CNRS

la campagne EASY : Evaluation des Analyseurs Syntaxiques du fran çais. Patrick Paroubek Laboratoire pour la Mécanique et les Sciences de l’Ingénieur Centre National de la Recherche Scientifique. Patrick Paroubek / Limsi-CNRS. La campagne EASY Annotations pour l’analyse syntaxique

omer
Download Presentation

Patrick Paroubek / Limsi-CNRS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. la campagne EASY : Evaluation des Analyseurs Syntaxiques du français Patrick Paroubek Laboratoire pour la Mécanique et les Sciences de l’Ingénieur Centre National de la Recherche Scientifique Patrick Paroubek / Limsi-CNRS

  2. La campagne EASY • Annotations pour l’analyse syntaxique • Les données • Les résultats préliminiaires

  3. Objectif: évaluation d’analyse syntaxique 5 fournis. corpus, 13 participants, 16 systèmes évalués • France Telcom R&D • GREYC • INRIA (ATOLL 1,2) • LATL • LIC2M • LIRMM • LORIA • XEROX • LPL (1,2 & 3) • PERTIMM • SYNAPSE • ERSS • TAGMATICA

  4. Les fournisseurs de corpus : • ATILF (littéraire) • DELIC (oral transcrit, emails) • ELDA (oral ESTER, MLCC, sénat, questions TREC traduites, questions Amaryllis, web) • LLF (Le Monde) • STIM (médical) Il arrive en retard, avec, dans sa poche, un discours qu’il est obligé de garder.

  5. Guide d’annotation (A. Vilnat) : http://www.limsi.fr/Recherche/CORVAL/easy/PEAS_reference_annotations_v1.6.html 5 types de constituants • GN groupe nominal • GP groupe prépositionnel • NV noyau verbal • GA groupe adjectival • GR groupe adverbial

  6. 14 types de relations • Sujet - Verbe • Auxiliaire - Verbe • Objet direct - Verbe • Complément - Verbe • Modifieur – Verbe • Complémenteur • Attribut -Sujet/Objet • Modifieur - Nom • Modifieur - Adjectif • Modifieur – Adverbe • Modifieur – Préposition • Coordination • Apposition • Juxtaposition

  7. Outil d’annotation : éditeur HTML + conversion XML (I. Robba) Annotation manuelle en constituants Énoncé 1 En quelle annéeDesmond Mpilo Tutua-t-il reçule prix Nobel … Énoncé 1 GP1 GN 2 NV3 NV4 GN5 En quelle année Desmond Mpilo Tutu a-t-il reçu le prix Nobel … Et en relations etc… 1 11 10 9 8 8 7 4 6 3 5 2

  8. Énoncé 12 NV1 GN2 NV3 GR4 GA5 Je pense que monsieur est très inquiet . 1 2 3 4 5 6 7 8 Complémenteur NV prop. sub. Verbe COD NV 3 NV1 NV 3 NV1 Représentation interne des données au format XML / UTF8 (DTD EASY).

  9. Outils de validation : • éditeur graphique (E. Giguet)

  10. Les données ont été fournies aux participants : • Brut • Segmentées en énoncés • Segmentées en mots et en énoncés • Segmentées en mots et en énoncés et annotées morphosyntaxiquement (WinBrill + étiquettes GRACE) • Corpus de test annoté par les participants : • 769 154 formes40 260 énoncés • Corpus de mesure : • 83 925 formes 4 269 énoncés

  11. Corpus de test Corpus de mesure Genre Formes Enoncés Formes Enoncés

  12. Les énoncés sont définis à partir de la typographie au moyen d’expressions régulières. Les formes sont définies avec ces mêmes expressions et avec une liste pour les formes composées (non nominales). Les données DELIC ont été segmentées en énoncé manuellement (manque de ponctuation). Toutes les autres données ont été segmentées automatiquement avec les outils EASY

  13. a_contrario Rgp A_contrario Rgp à_contre-pied Rgp À_contre-pied Rgp à_côté_d' Sp À_côté_d' Sp à_côté_de Sp À_côté_de Sp à_côté_des Sp À_côté_des Sp à_côté_du Sp À_côté_du Sp à_coup_sûr Rgp À_coup_sûr Rgp à_court_terme Rgp Liste des formes composées pour la segmentation de référence. 1730 formes 38 Adjectifs 218 Conjonctions 8 Interjections 184 Déterminants 128 Pronoms 626 Adverbes 528 Prépositions 2 Prepositions ou Adverbes

  14. <DOCUMENT fichier="oral_delic_1.xml"> <E ID="E1"> <F ID="E1F1">fref-f-c3</F> </E> <E ID="E2"> <F ID="E2F1">voilà</F> </E> <E ID="E3"> <F ID="E3F1">ben</F> <F ID="E3F2">je</F> <F ID="E3F3">travaille</F> <F ID="E3F4">dans</F> <F ID="E3F5">un</F> <F ID="E3F6">pressing</F> </E>

  15. <DOCUMENT fichier="oral_elda_1.xml"> <E ID="E1"> <F ID="E1F1">14</F> <F ID="E1F2">heures</F> <F ID="E1F3">À </F> <F ID="E1F4">Paris</F> <F ID="E1F5">,</F> <F ID="E1F6">midi</F> <F ID="E1F7">en</F> <F ID="E1F8">temps</F> <F ID="E1F9">universel</F> <F ID="E1F10">,</F> <F ID="E1F11">l'</F> <F ID="E1F12">information</F> <F ID="E1F13">continue</F> <F ID="E1F14">sur</F> <F ID="E1F15">RFI</F> <F ID="E1F16">.</F> </E>

  16. <?xml version="1.0" encoding="UTF-8"?> <DOCUMENT fichier="\Oral Elda\oral_elda_1EASY.UTF8.xml" xmlns:xlink="http://www.w3.org/1999/xlink"> <E id="E1"> <constituants> <Groupe type="GN" id="E1G1"> <F id="E1F1">14</F> <F id="E1F2">heures</F> </Groupe> <Groupe type="GP" id="E1G2"> <F id="E1F3">à</F> <F id="E1F4">Paris</F> </Groupe> <F id="E1F5">,</F> <Groupe type="GN" id="E1G3"> <F id="E1F6">midi</F> </Groupe> <Groupe type="GP" id="E1G4"> <F id="E1F7">en</F> <F id="E1F8">temps</F> </Groupe> <Groupe type="GA" id="E1G5"> <F id="E1F9">universel</F> </Groupe> <F id="E1F10">,</F> <Groupe type="GN" id="E1G6"> <F id="E1F11">l'</F> <F id="E1F12">information</F> </Groupe> <Groupe type="NV" id="E1G7"> <F id="E1F13">continue</F> </Groupe> ANNOTATIONS EN CONSTITUANTS

  17. <Groupe type="GP" id="E1G8"> <F id="E1F14">sur</F><F id="E1F15">RFI</F></Groupe> <F id="E1F16">.</F><F id="E1F17">§</F></constituants><relations><relation xlink:type="extended" type="MOD-N" id="E1R2"><modifieur xlink:type="locator" xlink:href="E1G4"/><nom xlink:type="locator" xlink:href="E1F6"/><a-propager booleen="faux"/></relation><relation xlink:type="extended" type="SUJ-V" id="E1R3"><sujet xlink:type="locator" xlink:href="E1G6"/><verbe xlink:type="locator" xlink:href="E1G7"/></relation><relation xlink:type="extended" type="CPL-V" id="E1R4"><verbe xlink:type="locator" xlink:href="E1G7"/><complement xlink:type="locator" xlink:href="E1G8"/></relation><relation xlink:type="extended" type="MOD-N" id="E1R5"><modifieur xlink:type="locator" xlink:href="E1G5"/><nom xlink:type="locator" xlink:href="E1F8"/><a-propager booleen="faux"/></relation><relation xlink:type="extended" type="MOD-N" id="E1R6"><modifieur xlink:type="locator" xlink:href="E1F1"/><nom xlink:type="locator" xlink:href="E1F2"/> <a-propager booleen="faux"/> </relation> </relations> </E> ANNOTATIONS EN RELATIONS

  18. Mesures de précision et rappel : • par participant, • type de constituant, • par type de corpus. • Mesures strictes (égalité stricte des adresses) et relachement de contrainte sur les adresses de début et de fin de groupes (+/-1). • Pour les relations, sugérnération pour certaines relation de la référence (modifieur nom-adjectif intra groupe).

  19. Evaluation en constituants pour 12 systèmes (prec., rap., f-mes., et les mêmes en mode relaché)

  20. Evaluation préliminaire en relations pour 11 systèmes sur sénat, mlcc et littéraire1.

More Related