1 / 19

Thierry Poibeau LIPN (CNRS et U. Paris 13) www-lipn.univ-paris13.fr/~poibeau

Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005). Thierry Poibeau LIPN (CNRS et U. Paris 13) http://www-lipn.univ-paris13.fr/~poibeau. De quoi parle-t-on ?.

kinsey
Download Presentation

Thierry Poibeau LIPN (CNRS et U. Paris 13) www-lipn.univ-paris13.fr/~poibeau

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Architectures articulant des représentations hétérogènesL’exemple de Gate(Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS et U. Paris 13) http://www-lipn.univ-paris13.fr/~poibeau

  2. De quoi parle-t-on ? • Architecture permettant de recevoir des outils linguistiques de natures diverses • Diversité des langages informatiques employés • Diversité des langues traitées (multilinguisme) • Diversité des types d’annotation • Diversité des formats de données • etc.

  3. Pourquoi de telles architectures ? • Faciliter la conception d’applications • Chaînage d’outils linguistiques • Réutilisation de modules existants • Gestion aisée des données (corpus et annotations) • Nouveaux besoins liés au web • Informatique répartie • Multilinguisme

  4. Quelques plates-formes, classées par type d’annotation • Ajout d’annotations au corpus LT-NSL/LT-XML toolkit, Edimburgh • Stockage des annotations à part TIPSTER (dont Gate, Ellogon, Alembic…) • Représentation uniforme (théorie ling.) Xtag U. Penn ; ENJU, U. Tokyo ; Alep … • Aucun mode de gestion pré-définie ICE Intarc, VerbMobil ; TalLab, I-CDC

  5. L’exemple de Gate http://www.gate.ac.uk • Développé à Sheffield depuis 1996 • Gratuit et open source • Largement distribué (projets européens… ) « …des milliers d’utilisateurs sur des centaines de sites… » • Initialement développé dans le cadre Tipster • Gate 2 (depuis 2002) • Entièrement en java (multi plate-forme) • Unicode (multilinguisme)

  6. Principaux composants • Une infrastructure (architecture) • Un ensemble de modules • Un ensemble de données (textes, ressources, annotations) • Une interface graphique permettant de manipuler • les données • Les traitements (chaînage de composant)

  7. Outils intégrés • Un système d’extraction d’information pour l’anglais (Segmentation, analyse morpho-syntaxique, entités nommées…) • Un système de gestion de regex (Jape, module d’ expressions régulières en java) • Interface d’annotation manuelle • Outils d’évaluation (comparaison de l’annotation d’un module/référence)

  8. Gestion des annotations • Format Tipster • Informations sous forme attribut-valeur • Stockage en dehors du document • Référence au document par des indices de position • Format Gate 2 • Possibilités de « sorties » au format XML • Nouveau types de données supportées (dictionnaires, ontologies, etc) Données demandant des liens entre éléments, plus complexe que le format attribut-valeur

  9. Développement d’applications • Principales utilisations • Extraction d’information, résumé automatique • Annotation sémantique (AKT) • Construire une application • Choisir des composants • Les intégrer à Gate (créolisation) • Chaîner les traitements

  10. L’expérience du projet Ecran • Projet européen (1996-1998) • But • Développer des systèmes d’extraction d’information en anglais, français, grec • Moyens • Plate-forme commune : Gate v1 • Composants développés avec différents langages • Français : extraction + indexation sémantique

  11. Chaîne logicielle • Modules intégrés • Modules développés hors-projet (Multext) • Modules propres (U. Fribourg, Thomson-CSF)

  12. Visualiseur d’annotations Visualiseur de Gate 1 (format propre)

  13. Résultat de l’extraction Formulaire d’extraction (développé en dehors de Gate, à partir des résultats de l’analyse)

  14. Bilan du projet Ecran • Des points intéressants • Réutilisabilité des modules • Visualiseurs intégrés • Architecture modulable (chaînage) • Des points problématiques • Insertion de composants délicate (créolisation) • Format d’annotation propriétaire (pas XML) • Relativement « lourd » et lent

  15. Quelques éléments sur Gate 2 • Environnement de création d’application • Cf. environnements de développement d’applications informatiques • Enchaînement en pipe-line ou en parallèle • Gestion intégrée des ressources • Intégration d’outils de développement de base • Jape : bibliothèque d’automates à états finis • Annotation auto./manuelle de textes • Plusieurs types de visualiseurs

  16. Construire une application (Gate 2)

  17. Annotation sémantique (Gate2)

  18. Bilan sur Gate 2 • Un environnement séduisant • Nombreux modules disponibles • Facilité de manipulation et de construction d’application • Évaluation • Quelques limites • « Créolisation » de composants extérieurs • Efficacité de java ?

  19. Conclusion • Des environnements nécessaires • Réutilisation et intégration d’applications • Modularité, évolutivité • Échanges de données et de traitements • Un investissement rentable pour le TAL

More Related