1 / 33

OUTILEX Présentation des résultats

Ministère de l'Industrie Vendredi 24 novembre 2006. OUTILEX Présentation des résultats. O rdre du jour. Présentation synthétique des résultats - Eric Laporte - Université de Marne-la-Vallée Démonstrations Plate-forme - Matthieu Constant - Université de Marne-la-Vallée

jalen
Download Presentation

OUTILEX Présentation des résultats

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ministère de l'Industrie Vendredi 24 novembre 2006 OUTILEXPrésentation des résultats

  2. Ordre du jour • Présentation synthétique des résultats - Eric Laporte - Université de Marne-la-Vallée • Démonstrations • Plate-forme - Matthieu Constant - Université de Marne-la-Vallée • Moteur de recherche interlingue - Romaric Besançon - CEA • Reconnaissance d'expressions multi-mots - Hugues de Mazancourt - Lingway • Moteur de recherche dans des documents XML - Massih Amini - Université Paris 6 • Filtrage thématique de messages audio - Bénédicte Goujon - Thales R&T • Extraction d'information pour alimentation d'une base de connaissances - Catherine Gouttas - Thales Com • Discussion

  3. Objectifs et structure du projet

  4. Plate-forme du RNTL : traitement des langues naturelles • Budget et durée : environ 3,2 M€ / 4 ans • Démarrage : 1er octobre 2002 • 10 partenaires • Structure • 2002-2005 : Spécifications, réalisation et tests de la plate-forme • 2005-2006 : Réalisation de démonstrateurs • Répartition • Grands groupes, grands instituts : 35 % • PME : 31 % • Instituts, universités : 34 %

  5. Industriels et grands instituts • PME, start-ups • LCI • Lingway • Systran • Thales R&T • Thales Com • CEA • Instituts de recherche, universités • Université de Marne-la-Vallée (IGM), coordinateur • Université Paris 6 (LIP6) • Inria (Loria) • Université de Rouen (PSY.CO)

  6. Enjeux et objectifs du projet • Normalisation des formats des ressources linguistiques • Mise à la disposition de la communauté d'outils logiciels et de ressources linguistiques de base • Interopérabilité avec les autres systèmes • Fluidifier le marché des outils logiciels et des ressources

  7. Systèmes existants • GATE (Sheffield) • FSM (AT&T) • NLTK (communauté open-source) • Intex (Univ. Franche-Comté) • Unitex (Univ. Marne-la-Vallée)

  8. La plate-forme

  9. Architecture générale

  10. Ressources linguistiques • dictionnaires morphosyntaxiques • pour le français (109 912 lemmes simples et 86 337 lemmes composés) • pour l'anglais (166 150 lemmes simples et 13 361 lemmes composés) • format XML (compatible avec LMF) • jeu d'étiquettes riche et structuré (13 catégories grammaticales, 18 codes flexionnels, divers traits syntactico-sémantiques) • niveau de généralité : langues européennes à suffixes

  11. Description du jeu d'étiquettes <lingdef lang='fr'><attrtype name="gender" type='enum'> <value name='m' alias='masculine'/> <value name='f' alias='feminine'/></attrtype><attrtype name='nounsubcat' type='enum'> <value name='abst' alias='Abst,abstract,abs'/> <value name='conc' alias='Conc,concret'/> <value name='hum' alias='Hum,human'/> [,,,] <value name='tps' alias='Tps,temporal'/></attrtype><pos name='noun' cutename='N'> <attribute name='subcat' type='nounsubcat' shortcut='yes'/> <attribute name='gender' type='gender' shortcut='yes'/> [,,,] <attribute name='proper' type='proper' default='false'/></pos>

  12. Ressources linguistiques • dictionnaires terminologiques • aéronautique • dictionnaires bilingues • une sélection des entrées des dictionnaires morphosyntaxiques • format XML

  13. Chaîne de traitement générale

  14. Segmentation • texte brut, HTML, RTF, PDF... en entrée • segmentation en paragraphes, en phrases et en tokens • pré-étiquetage des tokens (information sur l'alphabet, la casse, ponctuation ouvrante, etc.) • opération réversible

  15. Segmentation La police a saisi 164 procès-verbaux jeudi dernier<document original_format="txt"><par id="1"><tu id="s0"><token type="word" id="t1" alph="latin" case="capit">La</token> <token type="word" id="t2" alph="latin">police</token> <token type="word" id="t3" alph="latin">a</token> <token type="word" id="t4" alph="latin">saisi</token> <token type="numeric" id="t5">164</token> <token type="word" id="t6" alph="latin">proc&#xE8;s</token><token type="punctuation" id="t7" subt="Pc">-</token><token type="word" id="t8" alph="latin">verbaux</token> <token type="word" id="t9" alph="latin">jeudi</token> <token type="word" id="t10" alph="latin">dernier</token><token type="punctuation" id="t11">.</token></tu></par></document>

  16. Etiquetage morpho-syntaxique • étiquetage lexical par consultation des lexiques • représentation de l'ambiguïté par automate (MAF) • 4,7 % de silence suite à l'application des dictionnaires livrés avec la plate-forme sur un corpus de dépèches AFP • silence de 0,4 % en déduisant les mots inconnus commençant par une majuscule

  17. Etiquetage morpho-syntaxique • consultation des lexiques tolérante • redressage orthographique et typographique • texte étiqueté : représentation compatible avec le modèle MAF • représentation plus compacte • convertisseurs

  18. Etiquetage morpho-syntaxique

  19. Traitements par grammaires • formalisme des RTN pondérés (ou WRTN) • plus puissant que les automates et transducteurs finis • possibilité de sorties (cf. transducteurs) • poids : peuvent être établis grâce à des méthodes statistiques (démonstrateur Thales RT) • opérations sur les grammaires • conversion de formats XML (graphique ou opérationnel) • émondation, déterminisation, minimisation... • import/export : Unitex, dot

  20. Traitements par grammaires • moteur d'analyse basé sur l'algorithme d'Earley • résultat sous la forme d'une forêt partagée d'arbres d'analyse pondérés et annotés par les sorties de la grammaire • forêt fournie en entrée à des modules de traitement extérieurs durant l'analyse du corpus (phrase par phrase)

  21. Applications • concordancier • format XML • annotation de textes • reconnaissance et étiquetage d'entités nommées et autres motifs • extraction d'informations • options : sortie texte ou sortie automate (itération possible) • options : les parties reconnues sont conservées ou supprimées • option : seuil sur le poids du chemin dans la grammaire • analyse syntaxique avec unification

  22. Exemple de grammaire

  23. Annotation sur l'automate du texte

  24. Autre grammaire

  25. Gestion des ressources linguistiques • module de flexion • flexion des mots composés • indexation des dictionnaires de formes fléchies • efficace : 63 s pour 1,3 million de formes • transcodage des ressources dans différents formats : • texte (lisible, édition, maintenance) • XML (format d'échange, maintenance) • binaires (traitements)

  26. Interfaces • interface graphique utilisateur • mise au point des ressources linguistiques • utilisation en ligne de commande • mise au point des traitements • API • optimisation • utile pour le traitement de documents nombreux

  27. Normalisation

  28. Textes • texte tokenisé • texte étiqueté • référence : MAF • cadre d'annotation morphosyntaxique

  29. Lexiques • référence : LMF • cadre de balisage de lexiques • structuration de lexiques • noms propres • lexiques terminologiques

  30. Diffusion

  31. Le site web • communication entre partenaires • après la fin du projet : distribution de la plate-forme et des ressources • cotisation annuelle : 100 euros • paiement sécurisé sur le site

  32. Publications • nationales et internationales • formats • applications • présentations générales

  33. Conclusion • http://www.at-lci.com/outilex • opérations de base sur les textes • utilisation de ressources à large couverture • la plate-forme sera bientôt disponible et ouverte au développement collaboratif (licence LGPL) • nouvelles fonctionnalités • nouvelles langues

More Related