330 likes | 558 Views
Ministère de l'Industrie Vendredi 24 novembre 2006. OUTILEX Présentation des résultats. O rdre du jour. Présentation synthétique des résultats - Eric Laporte - Université de Marne-la-Vallée Démonstrations Plate-forme - Matthieu Constant - Université de Marne-la-Vallée
E N D
Ministère de l'Industrie Vendredi 24 novembre 2006 OUTILEXPrésentation des résultats
Ordre du jour • Présentation synthétique des résultats - Eric Laporte - Université de Marne-la-Vallée • Démonstrations • Plate-forme - Matthieu Constant - Université de Marne-la-Vallée • Moteur de recherche interlingue - Romaric Besançon - CEA • Reconnaissance d'expressions multi-mots - Hugues de Mazancourt - Lingway • Moteur de recherche dans des documents XML - Massih Amini - Université Paris 6 • Filtrage thématique de messages audio - Bénédicte Goujon - Thales R&T • Extraction d'information pour alimentation d'une base de connaissances - Catherine Gouttas - Thales Com • Discussion
Plate-forme du RNTL : traitement des langues naturelles • Budget et durée : environ 3,2 M€ / 4 ans • Démarrage : 1er octobre 2002 • 10 partenaires • Structure • 2002-2005 : Spécifications, réalisation et tests de la plate-forme • 2005-2006 : Réalisation de démonstrateurs • Répartition • Grands groupes, grands instituts : 35 % • PME : 31 % • Instituts, universités : 34 %
Industriels et grands instituts • PME, start-ups • LCI • Lingway • Systran • Thales R&T • Thales Com • CEA • Instituts de recherche, universités • Université de Marne-la-Vallée (IGM), coordinateur • Université Paris 6 (LIP6) • Inria (Loria) • Université de Rouen (PSY.CO)
Enjeux et objectifs du projet • Normalisation des formats des ressources linguistiques • Mise à la disposition de la communauté d'outils logiciels et de ressources linguistiques de base • Interopérabilité avec les autres systèmes • Fluidifier le marché des outils logiciels et des ressources
Systèmes existants • GATE (Sheffield) • FSM (AT&T) • NLTK (communauté open-source) • Intex (Univ. Franche-Comté) • Unitex (Univ. Marne-la-Vallée)
Ressources linguistiques • dictionnaires morphosyntaxiques • pour le français (109 912 lemmes simples et 86 337 lemmes composés) • pour l'anglais (166 150 lemmes simples et 13 361 lemmes composés) • format XML (compatible avec LMF) • jeu d'étiquettes riche et structuré (13 catégories grammaticales, 18 codes flexionnels, divers traits syntactico-sémantiques) • niveau de généralité : langues européennes à suffixes
Description du jeu d'étiquettes <lingdef lang='fr'><attrtype name="gender" type='enum'> <value name='m' alias='masculine'/> <value name='f' alias='feminine'/></attrtype><attrtype name='nounsubcat' type='enum'> <value name='abst' alias='Abst,abstract,abs'/> <value name='conc' alias='Conc,concret'/> <value name='hum' alias='Hum,human'/> [,,,] <value name='tps' alias='Tps,temporal'/></attrtype><pos name='noun' cutename='N'> <attribute name='subcat' type='nounsubcat' shortcut='yes'/> <attribute name='gender' type='gender' shortcut='yes'/> [,,,] <attribute name='proper' type='proper' default='false'/></pos>
Ressources linguistiques • dictionnaires terminologiques • aéronautique • dictionnaires bilingues • une sélection des entrées des dictionnaires morphosyntaxiques • format XML
Segmentation • texte brut, HTML, RTF, PDF... en entrée • segmentation en paragraphes, en phrases et en tokens • pré-étiquetage des tokens (information sur l'alphabet, la casse, ponctuation ouvrante, etc.) • opération réversible
Segmentation La police a saisi 164 procès-verbaux jeudi dernier<document original_format="txt"><par id="1"><tu id="s0"><token type="word" id="t1" alph="latin" case="capit">La</token> <token type="word" id="t2" alph="latin">police</token> <token type="word" id="t3" alph="latin">a</token> <token type="word" id="t4" alph="latin">saisi</token> <token type="numeric" id="t5">164</token> <token type="word" id="t6" alph="latin">procès</token><token type="punctuation" id="t7" subt="Pc">-</token><token type="word" id="t8" alph="latin">verbaux</token> <token type="word" id="t9" alph="latin">jeudi</token> <token type="word" id="t10" alph="latin">dernier</token><token type="punctuation" id="t11">.</token></tu></par></document>
Etiquetage morpho-syntaxique • étiquetage lexical par consultation des lexiques • représentation de l'ambiguïté par automate (MAF) • 4,7 % de silence suite à l'application des dictionnaires livrés avec la plate-forme sur un corpus de dépèches AFP • silence de 0,4 % en déduisant les mots inconnus commençant par une majuscule
Etiquetage morpho-syntaxique • consultation des lexiques tolérante • redressage orthographique et typographique • texte étiqueté : représentation compatible avec le modèle MAF • représentation plus compacte • convertisseurs
Traitements par grammaires • formalisme des RTN pondérés (ou WRTN) • plus puissant que les automates et transducteurs finis • possibilité de sorties (cf. transducteurs) • poids : peuvent être établis grâce à des méthodes statistiques (démonstrateur Thales RT) • opérations sur les grammaires • conversion de formats XML (graphique ou opérationnel) • émondation, déterminisation, minimisation... • import/export : Unitex, dot
Traitements par grammaires • moteur d'analyse basé sur l'algorithme d'Earley • résultat sous la forme d'une forêt partagée d'arbres d'analyse pondérés et annotés par les sorties de la grammaire • forêt fournie en entrée à des modules de traitement extérieurs durant l'analyse du corpus (phrase par phrase)
Applications • concordancier • format XML • annotation de textes • reconnaissance et étiquetage d'entités nommées et autres motifs • extraction d'informations • options : sortie texte ou sortie automate (itération possible) • options : les parties reconnues sont conservées ou supprimées • option : seuil sur le poids du chemin dans la grammaire • analyse syntaxique avec unification
Gestion des ressources linguistiques • module de flexion • flexion des mots composés • indexation des dictionnaires de formes fléchies • efficace : 63 s pour 1,3 million de formes • transcodage des ressources dans différents formats : • texte (lisible, édition, maintenance) • XML (format d'échange, maintenance) • binaires (traitements)
Interfaces • interface graphique utilisateur • mise au point des ressources linguistiques • utilisation en ligne de commande • mise au point des traitements • API • optimisation • utile pour le traitement de documents nombreux
Textes • texte tokenisé • texte étiqueté • référence : MAF • cadre d'annotation morphosyntaxique
Lexiques • référence : LMF • cadre de balisage de lexiques • structuration de lexiques • noms propres • lexiques terminologiques
Le site web • communication entre partenaires • après la fin du projet : distribution de la plate-forme et des ressources • cotisation annuelle : 100 euros • paiement sécurisé sur le site
Publications • nationales et internationales • formats • applications • présentations générales
Conclusion • http://www.at-lci.com/outilex • opérations de base sur les textes • utilisation de ressources à large couverture • la plate-forme sera bientôt disponible et ouverte au développement collaboratif (licence LGPL) • nouvelles fonctionnalités • nouvelles langues