1 / 16

Normalisation pour les corpus et les lexiques multilingues

Normalisation pour les corpus et les lexiques multilingues. Laurent Romary Laboratoire Loria-INRIA (Nancy, France) JADT 2004, Table ronde: « Lexicométrie et corpus multilingues ». Objectifs généraux. Partager des ressources (corpus annotés)

cicero
Download Presentation

Normalisation pour les corpus et les lexiques multilingues

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Normalisation pour les corpus et les lexiques multilingues Laurent Romary Laboratoire Loria-INRIA (Nancy, France) JADT 2004, Table ronde: « Lexicométrie et corpus multilingues »

  2. Objectifs généraux • Partager des ressources (corpus annotés) • Partager des outils (annotation, visualisation, accès) • Partager des pratiques • E.g. recueil de données, manuels d’annotation, méthodes d’évaluation • Hypothèse: la définition et la diffusion de normes internationales devraient nous permettre de progresser dans ce sens

  3. Lexicométrie et corpus multilingues • Notion de corpus parallèle ou comparable • Point de vue linguistique: role de l’expert • Point de vue technique: • Adoption de formats « similaires »: codage primaire, niveaux d’annotation • Comparaisons de la sémantique des annotations • E.g. définition transversale de concepts génériques paramétrant un étiquetage morpho-syntaxique • Est-il réaliste/justifié de vouloir disposer d’un répertoire de catégories de données dans le domaine des langues?

  4. Lexicométrie et corpus multilingues (suite) • Représentation consistante des structures lexicales • Savoir choisir (spécifier) la structure lexicale qui convient au recueil de données envisagé • Croiser les observations avec des dictionnaires existants • interopérabilité • Deux aspects • Organisation générale des entrées lexicales (méta-modèle) • Choix des catégories de données permettant de décorer un modèle particulier

  5. Bases de travail • Quelles initiatives devons nous considérer? • De multiples projets ont visité le domaine • EAGLES, ISLE, Mate, NITE, OLAC, ATLAS • Quelques points de référence • W3C • TEI • ISO • Autres?

  6. Le W3C • World Wide Web Consortium • Principalement des industriels, 3 partenaires académiques (MIT, ERCIM, Keio) • Apporte des normes (recommandations) horizontales • XML, XSLT, chemins, pointeurs, liens • RDF, RDFS, OWL • SVG, SMIL

  7. La TEI • Text Encoding Initiative • Consortium académique à forte orientation sciences humaines • Création : 1987 ; TEI P3 : 1992 ; TEI P4 (XML) : 2002 ; TEI P5 (plus modulaire): 2004! • Les éléments principaux • En-tête : base documentaire riche • Composants de base : prose, poésie, théâtre, oral… • Modules spécifiques: liens (cf. alignement multilingue), noms et dates, apparat critique etc.

  8. ISO • Organisation internationale de standardisation • Association travaillant pour le compte de ses membres: les organisations nationales de normalisation (AFNOR, ANSI, DIN, BSI etc.) • Organisé en comités techniques et sous-comités • Couvre tous les domaines

  9. ISO - exemples • ISO-IEC/JTC1 • E.g. ISO 10646 / Unicode pour l’identification et la représentatioin universelle de caractères • ISO/TC 37 (Terminologie et autres ressources linguistiques) • SC 1: Méthodes en terminologie • SC 2: e.g. Codes langues; ISO 639-1 (en, fr) • SC 3: Terminologies informatisés; ISO 16642 (TMF) • SC 4: Ressources linguistiques

  10. L’ISO/TC 37/SC 4 • Objectif: définir des plates-formes de représentation et d’annotation de ressources linguistiques • Mécanismes de base: e.g. structures de traits • Répertoires de catégories de données • Processus souple de spécification d’un format d’annotation • Domaines abordés/à aborder • Morpho-syntaxe, syntaxe, contenus sémantiques, discours, lexiques, données multilingues, langages de requêtes, évaluation http://www.tc37sc4.org

  11. 1..1 1..1 1..1 0..n Lexical extensions Lexical extension Lexical extension Global Info Lexical Entry 1..1 1..1 1..1 0..n 1..1 0..1 0..n Sense Paradigm Form 1..1 1..1 0..n Flexion LMF: le modèle Lexical DB Lexical extension for morphology Lexical Entry Lexical Entry 1..1 1..1 Lexical extensions 1..1 1..1 Morphology Morphology

  12. Lexical DB 1..1 1..1 1..1 0..n Entry Global Info 1..1 1..1 Morphology 1..1 1..1 0..1 0..n Paradigm Inflexion Méta-modèle d’un lexique morphologique

  13. Lexical DB 1..1 0..n Entry 1..1 1..1 Morphology 1..1 1..1 0..1 0..n Paradigm Inflexion Décoration du modèle 1..1 /lemma/ /POS/ 1..1 Global Info /word form/ /gender/ /number/ /tense/ …

  14. Une entrée du DCR Entry Identifier: gender Profile: morpho-syntax Definition (fr): Catégorie grammaticale reposant, selon les langues et les systèmes, sur la distinction naturelle entre les sexes ou sur des critères formels (Source: TLFi) Definition (en): Grammatical category… (Source: TLFi (Trad.)) Conceptual Domain: {/feminine/, /masculine/, /neuter/} Object Language: fr Name: genre Conceptual Domain: {/feminine/, /masculine/} Object Language: en Name: gender Object Language: de Name: Geschlecht Conceptual Domain: {/feminine/, /masculine/, /neuter/}

  15. Un format compatible avec le modèle <struct type='lexical entry'> <feat type='lemma'>chat</feat> <feat type=’grammatical category’>noun</feat> <struct type=’morphology’> <struct type=‘paradigm’> <feat type=’paradigm identifier'>fr-s-plural</feat> </struct> <struct type='inflexion'> <feat type='word form'>chat</feat> <feat type=’number’>singular</feat> </struct> <struct type='inflexion'> <feat type='word form'>chats</feat> <feat type=’number’>plural</feat> </struct> … </struct> </struct>

  16. Et maintenant… • Engagez-vous… ;-) • Participation comme expert au sein des groupes nationaux miroir de l’ISO/TC 37/SC 4 • Application directes (projets ATILF-Loria) • Morphalou: un lexique morphologique ouvert • Téléchargement+ patch+fair use • FReeBank: une base de ressources libres annotées • Dépôt en ligne (En-têtes TEI) • Téléchargement d’un simple clic • Fair use

More Related