270 likes | 385 Views
Normalisation des échanges de données en terminologie. Le cas des relations dites « conceptuelles » Laurent Romary & Marc Van Campenhoudt avec la voix d ’André Schaaff. Représentation et échange des relations : état des lieux. Kif ( Knowledge Interchange Format )
E N D
Normalisation des échanges de données en terminologie Le cas des relations dites « conceptuelles » Laurent Romary & Marc Van Campenhoudt avec la voix d ’André Schaaff
Représentation et échange des relations : état des lieux • Kif (Knowledge Interchange Format) • CGS (Conceptual Graph Standard) • Oil (Ontology Inference Layer) • XTM (XML Topic Maps :Iso 13250 2000)
Normes d ’échanges : bref historique • Micromater • TEI, chapitre 13 • Martif (ISO 12 200, 1999) • Fondé sur Iso 12620 • Nouveaux projets ISO : • Geneter, MSC - DXLT (projet Salt),TMF • Olif 2
Principes généraux • Expression de contraintes au niveau de la représentation de terminologies informatisées • Quelle est la structure sous-jacente des terminologies informatisées ? • Quelle sont les catégories de données utilisées et sous quelles conditions ? • Maintient de l’interopérabilité entre représentations • Proposer un outil conceptuel pour la comparaison de deux formats donnés
Définitions • TMF: Terminological Mark-up Framework • Définition de structures sous-jacentes et de mécanismes nécessaires à la représentation informatisée de données terminologiques • Indépendance vis-à-vis des formats spécifiques • GMT: Generic Mapping Tool • Un format XML abstrait équivalent au modèle sous-jacent de TMF • TML: Terminological Mark-up Language • Une représentation spécifique générée dans le cadre de TMF
Une famille de formats… TMF … TML1 TML2 TML3 TMLi (Geneter) (DXLT) GMT
Meta-modèle Représentation de la structure sous-jacente de données terminologiques
Modèle conceptuel : structure typique • 1 concept • Décrit et défini dans n langues • Désigné par n termes
Exemple : la fiche Dhydro Langue 1 Langue 2 « Concept » Langue ... Langue 3 Définition Terme 1 Terme 2 Terme... ... Grammaire Usage Contexte
Le squelette structurel Terminological Data Collection (TDC) Global Information (GI) Complementary Information (CI) * Terminological Entry (TE) * Language Section (LS) * Term Level (TL) * Term Component Level (TCL)
Comment cela fonctionne ? Étudions un exemple…
Exemple DXLT : <termEntryid="ID67"> <descrip type="subjectField">manufacturing</descrip> <descrip type="definition">A value between 0 and 1 used in ... </descrip> <langSetlang="en"> <tig> <term>alpha smoothing factor</term> <termNote type="termType">fullForm</termNote> </tig> </langSet> <langSetlang="hu"> <tig> <term>Alfa ...</term> </tig> </langSet> </termEntry>
id=‘ID67’ [attribute] subjectField=‘ manufacturing ’ [typedElement] definition=‘A value…’ [typedElement] TE lang=‘ en ’ [attribute] LS lang=‘ hu ’ [attribute] TS term=‘…’ [element] term=‘alpha smoothing factor’ [element] termType=‘fullForm’ [typedElement] Identification du squelette structurel TE: Terminological Entry LS: Language Section TS: Term Section
Modèle TMF niveau information id=‘ID67’ subjectField=‘ manufacturing ’ definition=‘A value…’ TE LS LS lang=‘ hu ’ lang=‘ en ’ term=‘alpha smoothing factor’ termType=‘fullForm’ TS term=‘…’ TS
Représentation GMT <structtype="TE"> <feat type="id">ID67</feat> <feat type="subjectField">manufacturing</feat> <feat type="definition">A value between 0 and 1 used in ...</feat> <structtype="LS"> <feat type="lang">en</feat> <structtype="TS"> <feat type="term">alpha smoothing factor</feat> <feat type="termType">fullForm</feat> </struct> </struct> <structtype="LS"> <feat type="lang">hu</feat> <structtype="TS"> <feat type="term">Alfa ...</feat> </struct> </struct> </struct>
Catégories de données Une description formelle
Quel modèle pour les catégories de données ? • Utilisation de XML : • Cohérence avec les principes de TMF • Utilisation de feuilles de style pour la génération de schémas et de filtres • Utilisation de RDF (Resource Description Framework) • Futur format pour la représentation de méta-données : • La description de catégories de données est synonyme de méta-donnée dans l’approche TMF
Description d’une catégorie de données DCIdentifier DCParent DCName dcsd:DCIdentifier dcsd:DCParent DCDefinition dcsd:DCName dcsd:DCDefinition dcsd:DCType DCType (S, C) Data Category dcsd:DCExample DCExample dcsd:DCAdmin dcsd:DCComment dcsd:Content dcsd:Level DCAdmin DCComment Locus Content Salt 2000-11-08/SEW
Niveaux et contenus Content dcsd:DataType dcsd:TargetType Level/Loci rdf:Alt rdf:Alt TargetType DataType List of References List of References rdf:Alt rdf:li Ref to other datcats rdf:li List of References Ref to other datcat(s) rdf:li Ref to other datcat(s)
Relations implicites et explicites • Relations implicites • Synonymie • Équivalence • Relations à expliciter • liens lexicaux entre termes : • ‘abréviation de’, ‘troncation de’, ‘symbole de’, etc. • liens sémantiques entre « concepts » • ‘type de’, ‘cause de’, ‘au-dessus de’, etc.
Situer les relations conceptuelles • Au niveau interlangue • la relation est valide pour tout équivalent • Concept = noyau de sens commun • Au niveau de chaque langue • la relation est valide pour tout synonyme • Concept = unité de compréhension • Au niveau de chaque terme • La relation est valide pour un terme donné • Concept = ?
Quelle typologie des relations? • ISO 12620 (1999) • typologie élémentaire • espèce-genre, partie-tout, séquentielle (spatiales, temporelles, causales) et associative • imprécision • la place de chaque concept dans la relation n’est pas toujours précisée
Olif 2 (2000) • Open Lexicon Interchange Format • inventaire nettement plus étoffé prenant en compte : • les théories de la méronymie • l’interaction entre relations sémantiques et syntaxe • mélange des relations • lexicales : ‘abréviation de’ • sémantiques : ‘synonyme de’ • conceptuelles : ‘ fils de’
Quelles informations échanger? • classification typologique du lien • niveau de validité • « concept », langue, terme? • autres informations • direction éventuelle du «vecteur» • formulation du lien dans chaque langue • propriétés de la relation • restriction • trait distinctif • ...
Conclusion • Un modèle général pour l’analyse et la représentation de collections de données terminologiques • Un formalisme sous-jacent exprimé en XML, RDF • Outils associés • DCSEditor, • DCSBrowser, • Génération automatique de filtres XSLT et de schémas XML pour une spécification donnée de TML