170 likes | 291 Views
Constitution semi- automatique de bases onto- terminologiques à partir de corpus numérisés. comment repérer et combler les lacunes dans les arborescences terminologiques des langues à faible diffusion. Violaine Prince, professeur à l’Université Montpellier 2.
E N D
Constitution semi-automatique de bases onto-terminologiquesàpartir de corpus numérisés comment repérer et combler les lacunesdans les arborescencesterminologiques des languesàfaiblediffusion Violaine Prince, professeur à l’Université Montpellier 2
Plan de la communication écrite • Introduction • I- Les ressourceslexicales : constitution de dictionnairesàpartir de corpus numérisés • 1.1 Dictionnairesmonolingues pour languesfaiblementdotées • 1.1.1 Créationabinitio • 1.1.2 Amélioration de dictionnairesexistants • 1.2 Dictionnairesmultilingues pour languesfaiblementdotées • 1.3 Dictionnairesexplicatifs, de synonymes • II Bases onto-terminologiques : l'avenir pour l'augmentation de la diffusion des languesfaiblementdiffusées • 2.1 Ontologies et Onto-terminologies • 2. 2 Onto-terminologies : création • 2.3 Les onto-terminologies de spécialité et les languesàfaible diffusion • Conclusion
Le pourquoi… • La diffusion sur le Web : une chance ? • Le patrimoine langagier : effets de la numérisation • Les ressources lexicales • Dictionnaires « humains » • Ontologies et onto-terminologies => indexer, rechercher des documents. • Comment l’informatique (dont le TAL) peut aider à diffuser et populariser, au delà de la seule conservation
Production de ressources lexicales • Production de dictionnaires numérisés « humains » • méthodes • Numérisation de documents « papier » => avantage aux langues dotées • Extraction de termes à partir de corpus, en amont du travail lexicologique, ou de manière incrémentale.=> aide pour les langues de moindre diffusion • Objectifs • Patrimoine linguistique • Aide à la compréhension et à la traduction (humain) • Aide à la rédaction (humain)
Production de ressources lexicales • Types de dictionnaires • Monolingues • Bilingues, multilingues • Dictionnaires de synonymes • Ressources nécessaires • Corpus écrits numérisés • Dictionnaires existants (*) • Outils de TAL : au moins un lemmatiseur, étiqueteur morphosyntaxique (*), analyseur syntaxique (*) • Type de tâche • Création • Incrémentation (enrichissement) => le statut de l’emprunt et celui du néologisme.
Production d’onto-terminologies • Pourquoi ? • Les dictionnaires humains ne sont pas exploitables par les machines => moteurs de recherche, « robots » • Dans les tâches de recherche, indexation, organisation du web sémantique, diffusion, etc… • Solution • Créer une structure directement exploitable : un graphe (algorithmique très développée) • Qui représente les connaissances et les termes qui leurs sont associés • Et les relations qu’entretiennent ces termes entre eux
Concept 3 concept1 Mode de transport animal Sous-classe de Partie-de Sous-classe de Sous-classe de Sous-classe de Concept 2 Concept 4 Véhicule monture Partie-de roue Ontologies conceptuelles avec relations typées
Mode de transport Est un terme de Moyen de locomotion Mode de locomotion Mode de transport Moyen de déplacement Onto-terminologies Relation terme-concept => introduction des relations lexicales typiques Synonymie, polysémie, antonymie
Les graphes de connaissances • Avantages • Les structures de graphe permettent de « remonter » les chemins • Calculer les voisinages terminologiques et/ou conceptuels • Faire du multilinguisme
Mode de transport Est un terme de Transportwesen Beförderung Mode de transport transportation Onto-terminologies multilingues
Onto-terminologies de spécialité • Désambiguiser un terme : => • Savoir à quelle branche conceptuelle il appartient. • Cheval : mode de transport ?Sport ? Loisir ? Animal ? Unité de puissance ? • Les spécialités utilisent la langue générale, mais élaguent les branches non pertinentes pour elles.
PHYSIQUE Onto-terminologie de domaine mesure Sorte de grandeur attribut dimensions Sorte de température Sorte de Est un terme de Température constante adiabatique synonymie
PHYSIQUE médecine mesure grandeur dimensions maladie Sorte de synonyme Maladie infectieuse fièvre température température Partie-de Sorte de Température élévée terme Température constante adiabatique synonyme
PHYSIQUE médecine mesure grandeur dimensions maladie Sorte de synonyme température Maladie infectieuse fièvre température Partie-de température terme chaleur ensoleillement Température constante adiabatique Météorologie
Onto-terminologies de spécialité et multilinguisme • La décomposition onto-terminologique n’est pas aussi profonde dans toutes les langues : • En arabe, fièvre, température et chaleur sont désignées par le même terme • Les relations terminologiques absentes sont d’excellents indicateurs des problèmes de couverture d’une langue=> détecteurs…. • Comment augmenter cette couverture ? • Emprunts ? Ex : mail • Néologismes ? Ex : courriel • Termes composés ? Ex : message électronique
Algorithmes de proposition pour les onto-terminologies en domaine restreint (communication)=> • proposer aux lexicologues • Un récapitulatif des manques • des inventaires de termes (emprunts), • des « voisinages » • et attendre, en retour, des termes ou des choix pour les nœuds terminologiques sans « nom ».
Conclusion • Les langues « minorisées » partagent quelques caractéristiques avec les langues de spécialité • En particulier, elles ont les mêmes problèmes de lacunes terminologiques • En utilisant les mêmes algorithmes, on peut améliorer leur accessibilité par les processus automatiques, et donc une meilleure diffusion pour une plus grande survie...