1 / 17

Constitution semi- automatique de bases onto- terminologiques à partir de corpus numérisés

Constitution semi- automatique de bases onto- terminologiques à partir de corpus numérisés. comment repérer et combler les lacunes dans les arborescences terminologiques des langues à faible diffusion. Violaine Prince, professeur à l’Université Montpellier 2.

walt
Download Presentation

Constitution semi- automatique de bases onto- terminologiques à partir de corpus numérisés

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Constitution semi-automatique de bases onto-terminologiquesàpartir de corpus numérisés comment repérer et combler les lacunesdans les arborescencesterminologiques des languesàfaiblediffusion Violaine Prince, professeur à l’Université Montpellier 2

  2. Plan de la communication écrite • Introduction • I- Les ressourceslexicales : constitution de dictionnairesàpartir de corpus numérisés • 1.1 Dictionnairesmonolingues pour languesfaiblementdotées • 1.1.1 Créationabinitio • 1.1.2 Amélioration de dictionnairesexistants • 1.2 Dictionnairesmultilingues pour languesfaiblementdotées • 1.3 Dictionnairesexplicatifs, de synonymes • II Bases onto-terminologiques : l'avenir pour l'augmentation de la diffusion des languesfaiblementdiffusées • 2.1 Ontologies et Onto-terminologies • 2. 2 Onto-terminologies : création • 2.3 Les onto-terminologies de spécialité et les languesàfaible diffusion • Conclusion

  3. Le pourquoi… • La diffusion sur le Web : une chance ? • Le patrimoine langagier : effets de la numérisation • Les ressources lexicales • Dictionnaires « humains » • Ontologies et onto-terminologies => indexer, rechercher des documents. • Comment l’informatique (dont le TAL) peut aider à diffuser et populariser, au delà de la seule conservation

  4. Production de ressources lexicales • Production de dictionnaires numérisés « humains » • méthodes • Numérisation de documents « papier » => avantage aux langues dotées • Extraction de termes à partir de corpus, en amont du travail lexicologique, ou de manière incrémentale.=> aide pour les langues de moindre diffusion • Objectifs • Patrimoine linguistique • Aide à la compréhension et à la traduction (humain) • Aide à la rédaction (humain)

  5. Production de ressources lexicales • Types de dictionnaires • Monolingues • Bilingues, multilingues • Dictionnaires de synonymes • Ressources nécessaires • Corpus écrits numérisés • Dictionnaires existants (*) • Outils de TAL : au moins un lemmatiseur, étiqueteur morphosyntaxique (*), analyseur syntaxique (*) • Type de tâche • Création • Incrémentation (enrichissement) => le statut de l’emprunt et celui du néologisme.

  6. Production d’onto-terminologies • Pourquoi ? • Les dictionnaires humains ne sont pas exploitables par les machines => moteurs de recherche, « robots » • Dans les tâches de recherche, indexation, organisation du web sémantique, diffusion, etc… • Solution • Créer une structure directement exploitable : un graphe (algorithmique très développée) • Qui représente les connaissances et les termes qui leurs sont associés • Et les relations qu’entretiennent ces termes entre eux

  7. Concept 3 concept1 Mode de transport animal Sous-classe de Partie-de Sous-classe de Sous-classe de Sous-classe de Concept 2 Concept 4 Véhicule monture Partie-de roue Ontologies conceptuelles avec relations typées

  8. Mode de transport Est un terme de Moyen de locomotion Mode de locomotion Mode de transport Moyen de déplacement Onto-terminologies Relation terme-concept => introduction des relations lexicales typiques Synonymie, polysémie, antonymie

  9. Les graphes de connaissances • Avantages • Les structures de graphe permettent de « remonter » les chemins • Calculer les voisinages terminologiques et/ou conceptuels • Faire du multilinguisme

  10. Mode de transport Est un terme de Transportwesen Beförderung Mode de transport transportation Onto-terminologies multilingues

  11. Onto-terminologies de spécialité • Désambiguiser un terme : => • Savoir à quelle branche conceptuelle il appartient. • Cheval : mode de transport ?Sport ? Loisir ? Animal ? Unité de puissance ? • Les spécialités utilisent la langue générale, mais élaguent les branches non pertinentes pour elles.

  12. PHYSIQUE Onto-terminologie de domaine mesure Sorte de grandeur attribut dimensions Sorte de température Sorte de Est un terme de Température constante adiabatique synonymie

  13. PHYSIQUE médecine mesure grandeur dimensions maladie Sorte de synonyme Maladie infectieuse fièvre température température Partie-de Sorte de Température élévée terme Température constante adiabatique synonyme

  14. PHYSIQUE médecine mesure grandeur dimensions maladie Sorte de synonyme température Maladie infectieuse fièvre température Partie-de température terme chaleur ensoleillement Température constante adiabatique Météorologie

  15. Onto-terminologies de spécialité et multilinguisme • La décomposition onto-terminologique n’est pas aussi profonde dans toutes les langues : • En arabe, fièvre, température et chaleur sont désignées par le même terme • Les relations terminologiques absentes sont d’excellents indicateurs des problèmes de couverture d’une langue=> détecteurs…. • Comment augmenter cette couverture ? • Emprunts ? Ex : mail • Néologismes ? Ex : courriel • Termes composés ? Ex : message électronique

  16. Algorithmes de proposition pour les onto-terminologies en domaine restreint (communication)=> • proposer aux lexicologues • Un récapitulatif des manques • des inventaires de termes (emprunts), • des « voisinages » • et attendre, en retour, des termes ou des choix pour les nœuds terminologiques sans « nom ».

  17. Conclusion • Les langues « minorisées » partagent quelques caractéristiques avec les langues de spécialité • En particulier, elles ont les mêmes problèmes de lacunes terminologiques • En utilisant les mêmes algorithmes, on peut améliorer leur accessibilité par les processus automatiques, et donc une meilleure diffusion pour une plus grande survie...

More Related