190 likes | 363 Views
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005). Thierry Poibeau LIPN (CNRS et U. Paris 13) http://www-lipn.univ-paris13.fr/~poibeau. De quoi parle-t-on ?.
E N D
Architectures articulant des représentations hétérogènesL’exemple de Gate(Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS et U. Paris 13) http://www-lipn.univ-paris13.fr/~poibeau
De quoi parle-t-on ? • Architecture permettant de recevoir des outils linguistiques de natures diverses • Diversité des langages informatiques employés • Diversité des langues traitées (multilinguisme) • Diversité des types d’annotation • Diversité des formats de données • etc.
Pourquoi de telles architectures ? • Faciliter la conception d’applications • Chaînage d’outils linguistiques • Réutilisation de modules existants • Gestion aisée des données (corpus et annotations) • Nouveaux besoins liés au web • Informatique répartie • Multilinguisme
Quelques plates-formes, classées par type d’annotation • Ajout d’annotations au corpus LT-NSL/LT-XML toolkit, Edimburgh • Stockage des annotations à part TIPSTER (dont Gate, Ellogon, Alembic…) • Représentation uniforme (théorie ling.) Xtag U. Penn ; ENJU, U. Tokyo ; Alep … • Aucun mode de gestion pré-définie ICE Intarc, VerbMobil ; TalLab, I-CDC
L’exemple de Gate http://www.gate.ac.uk • Développé à Sheffield depuis 1996 • Gratuit et open source • Largement distribué (projets européens… ) « …des milliers d’utilisateurs sur des centaines de sites… » • Initialement développé dans le cadre Tipster • Gate 2 (depuis 2002) • Entièrement en java (multi plate-forme) • Unicode (multilinguisme)
Principaux composants • Une infrastructure (architecture) • Un ensemble de modules • Un ensemble de données (textes, ressources, annotations) • Une interface graphique permettant de manipuler • les données • Les traitements (chaînage de composant)
Outils intégrés • Un système d’extraction d’information pour l’anglais (Segmentation, analyse morpho-syntaxique, entités nommées…) • Un système de gestion de regex (Jape, module d’ expressions régulières en java) • Interface d’annotation manuelle • Outils d’évaluation (comparaison de l’annotation d’un module/référence)
Gestion des annotations • Format Tipster • Informations sous forme attribut-valeur • Stockage en dehors du document • Référence au document par des indices de position • Format Gate 2 • Possibilités de « sorties » au format XML • Nouveau types de données supportées (dictionnaires, ontologies, etc) Données demandant des liens entre éléments, plus complexe que le format attribut-valeur
Développement d’applications • Principales utilisations • Extraction d’information, résumé automatique • Annotation sémantique (AKT) • Construire une application • Choisir des composants • Les intégrer à Gate (créolisation) • Chaîner les traitements
L’expérience du projet Ecran • Projet européen (1996-1998) • But • Développer des systèmes d’extraction d’information en anglais, français, grec • Moyens • Plate-forme commune : Gate v1 • Composants développés avec différents langages • Français : extraction + indexation sémantique
Chaîne logicielle • Modules intégrés • Modules développés hors-projet (Multext) • Modules propres (U. Fribourg, Thomson-CSF)
Visualiseur d’annotations Visualiseur de Gate 1 (format propre)
Résultat de l’extraction Formulaire d’extraction (développé en dehors de Gate, à partir des résultats de l’analyse)
Bilan du projet Ecran • Des points intéressants • Réutilisabilité des modules • Visualiseurs intégrés • Architecture modulable (chaînage) • Des points problématiques • Insertion de composants délicate (créolisation) • Format d’annotation propriétaire (pas XML) • Relativement « lourd » et lent
Quelques éléments sur Gate 2 • Environnement de création d’application • Cf. environnements de développement d’applications informatiques • Enchaînement en pipe-line ou en parallèle • Gestion intégrée des ressources • Intégration d’outils de développement de base • Jape : bibliothèque d’automates à états finis • Annotation auto./manuelle de textes • Plusieurs types de visualiseurs
Bilan sur Gate 2 • Un environnement séduisant • Nombreux modules disponibles • Facilité de manipulation et de construction d’application • Évaluation • Quelques limites • « Créolisation » de composants extérieurs • Efficacité de java ?
Conclusion • Des environnements nécessaires • Réutilisation et intégration d’applications • Modularité, évolutivité • Échanges de données et de traitements • Un investissement rentable pour le TAL