1 / 26

Utilisation de re ssource s ling ui sti que s

Utilisation de re ssource s ling ui sti que s. Eric Laporte Institut Gaspard-Monge Université de Marne-la-Vallée, CNRS France http://www-igm.univ-mlv.fr/~laporte/.

fruma
Download Presentation

Utilisation de re ssource s ling ui sti que s

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Utilisation de ressources linguistiques Eric LaporteInstitut Gaspard-MongeUniversité de Marne-la-Vallée, CNRSFrancehttp://www-igm.univ-mlv.fr/~laporte/

  2. 1. Ressources linguistiques de l’IGM : contenu, statutComment les exploiter sans introduire de la complexité dans les structures de données et les algorithmes ?2. Lemmatisation améliorée3. Cascades de transducteurs4. Enrichissement de lexiques

  3. 1. Ressources linguistiques de l’IGM L’IGM est spécialiste de construction, maintenance et exploitation de ressources linguistiques de qualitéLes données linguistiques et le personnel du LADL ont été intégrés à l’IGM en 2001 et 20021.1. Lexiques morpho-syntaxiquesLes informations morpho-syntaxiques ne sont pas prévisibles à partir de la forme des mots :mouvement, nom brièvement, adverbetendre, verbe tendre, adjectifLes lexiques électroniques recensent les mots et les étiquettes correspondantesUne entrée lexicale est l’association d’une forme et des informations lexicales correspondantes

  4. Mots composés, termes techniques Exemplesmetteur en scène acteur petit déjeuner déjeuner point de vue opinion base de données annuaire à peine juste tout à fait complètement

  5. Nombre d’entrées dans les dictionnaires DELA90 000 entrées de lemmes simples (680 000 entrées fléchies simples)Mémoire occupée : 21 MoForme comprimée avec accès rapide adaptée au traitement direct : 1,8 Mo (automate minimal, 100 000 états, 230 000 transitions)270 000 entrées fléchies composéesMémoire occupée : 13 MoForme comprimée avec consultation rapide : 7,2 Mo (automate minimal, 840 000 états, 1 080 000 transitions)

  6. Quantité d’information lexicale Nombre de valeurs possibles d’un trait donné :- 2 (mot grammatical/mot plein) : Google- 15 (catégorie grammaticale) : corpus classiques- des dizaines de milliers (lemme) : lexiques inclus dans Unitex, thésaurusLe nombre de valeurs différentes d’un trait mesure la quantité d’information qu’il apporte

  7. Jeux d’étiquettes lexicales Les corpus classiques n’incluent pas le lemme parmi les informations lexicales Brown (1981) : 4 lemmes, 119 étiquettes, presque sans mots composésPenn (1993) : 1 lemme, 36 étiquettes, presque sans mots composésLes lexiques inclus dans Unitex sont beaucoup plus informatifs :DELAF (1990) : 170 000 lemmes, 950 000 étiquettes, réductibles à1 000 sans perte d’information

  8. Normes de codage des lexiques Norme en construction (ISO), XMLProjets associés : plate-forme Outilex, RNIL NormalangueLe projet de norme concerne seulement la forme lisible des lexiques, non adaptée au traitement direct

  9. Statut des ressources lexicales La majeure partie des ressources lexicales est licenciée LGPL-LRLGPL-LR : licence agréée par la FSF, équivalent de la LGPL pour les ressources linguistiques- Possibilité d’inclure une ressource dans un produit commercial payant comportant aussi du logiciel ou des ressources non libres- En cas de modification de la ressource en clair (nouvelle version), obligation de rendre la nouvelle version publiquement disponible en clair- Obligation de mentionner l’origine de la ressourceReliquat hors licence LGPL-LRContrat avec l’UMLV, suivant les cas : recherche ou développement, gratuit ou onéreuxPermet d’établir une collaboration avec les utilisateurs les plus avancés pour orienter la construction et la maintenance des ressources

  10. Consultation d’un lexique sur un texte Les informations lexicales trouvées dans le lexique sont incluses dans la représentation du texteEn cas d’ambiguïtés, toutes les hypothèses peuvent être représentées Unitex :- pré-traitement- application des ressources lexicales (par la fenêtre du pré-traitement, ou par le menu Text)- pour visualiser les entrées trouvées dans le lexique : Word Lists- pour engendrer les automates des phrases : menu Text, Construct FST-Text

  11. Norme de codage de textes En constructionMot au sens typographique : <token>Mot au sens linguistique : <wordForm>Elément <wordForm>, attributs "entry" et "tokens" Les mots composés produisent des ambiguïtés lexicalesPendant certaines phases des traitements, les ambiguïtés peuvent ne pas avoir été levéesLes ambiguïtés lexicales sont représentées par des automates finis acycliquesEléments <token>Elément <fsm>Eléments <state>, attributs "id" et "type" Eléments <transition>, attributs "source" et "target"

  12. 1.2. Graphes de mots Représentation d’ensembles de séquences de mots par des automates finis, par exemple comme profil de recherche (Glossanet) ou pour produire des concordancesOrganisation en petits graphes lisibles : chaque graphe a un nom ; une boîte peut invoquer un grapheL’ensemble constitue un réseau de transitions récursif (RTN)Exemple : noms propres de personnesEn préparation : bibliothèque de graphes (M. Constant, J. Sastre)

  13. Représentation des automates dans Unitex FST-XML : format XML d’échange de FST2 (J. Sastre, 2004)GRFGraphe orienté, une boîte initiale, une boîte finale, séquences dans les boîtesEquivalence mathématique avec les automates finis GRF-XML : format XML d’échange de GRF (J. Sastre, 2004)Editeur FSGraphConstruction manuelle de graphes. Exemple : ". <PRE>"Plusieurs lignes dans une boîte représentent des chemins parallèlesGénération de FST2 à partir de GRF

  14. 1.3. Lexique-grammaire Arguments : remplacés par des appels à des sous-graphesPrédicat : si on le remplace par un autre prédicat, le reste du graphe peut ne plus être valableN0 recouvrir N1 de N2N0 demander N1 à N2N0 placer N1 Loc N2N0 regarder N1N0 étudier N1N0 faire une étude sur N1N0 maquiller N1N0 faire le maquillage de N1

  15. Lexique-grammaire : liens interlexicaux Les relations sont de nature sémantique et syntaxiqueDérivation : confondre/confusionElles sont liées aux autres informations lexicales : la dérivation tendre/tension n’est valable que pour tendre verbeRelations purement sémantiques (thésaurus) :manger/repasRelations sémantico-syntaxiques (lexique-grammaire) :N0confondre N1 (avec + et) N2N0faire Det confusion entreN1etN2

  16. Lexicalisation - On construit à la main des graphes valables pour plusieurs prédicats (graphes paramétrés)- On les adapte automatiquement à chaque prédicat (lexicalisation)Lexicalisation au niveau de classes de prédicatsLe graphe contient des paramètres qui prennent une valeur pour chaque classe :- interrompre ou non un chemin- valeur d'un mot grammaticalUne table donne les valeurs des paramètres pour chaque classe- lignes : les classes- colonnes : les paramètresLexicalisation au niveau des prédicatsLe graphe contient des paramètres qui prennent une valeur pour chaque prédicat

  17. Traitements sans lexique 2. Lemmatisation améliorée Lemmatisation sans lexique (stemming)Algorithme de Martin Porter (1980)Etiquetage par apprentissage automatiqueCompatible avec des jeux d’étiquettes réduits (10 à 100)Résultats : une séquence d’étiquettes

  18. Complexité des résultats d’Unitex - étiquettes structurées - ambiguïtés lexicales, représentation du texte par un automate acyclique (« treillis » de mots) La levée des ambiguïtés reste un problème ouvert Approximations pour linéariser l’automate acyclique du texte Les traitements appelés par Unitex peuvent être appelés depuis un script, et combinés avec d’autres traitements (cf. Info Console ou le manuel) Les résultats des traitements sont des fichiers intermédiaires dont le format est décrit dans le manuel d’utilisation

  19. Méthodes de simplification Priorités entre analyses d’une séquence - une analyse comportant un mot composé est presque toujours meilleure qu’une analyse concurrente sans mots composés - les lexiques morpho-syntaxiques comportent un marquage de plausibilité d’emploi des mots simples (+z1, +z2, +z3) ex. : continuer,.V+z1:W impériale,.N+z2:fs parsi,.A+z3:ms Poids : même principe, mais on conserve des analyses concurrentes avec une pondération des analyses ou des étiquettes

  20. 3. Cascades de transducteurs But : reconnaissance et marquage de motifs Exemple : entités nommées Applications : indexation, classification, classement par pertinence, extraction d’informations, extraction de terminologie, élimination des mots grammaticaux... Ne nécessite pas de lever les ambiguïtés lexicales du texte : Unitex applique le transducteur à l’automate et produit une nouvelle version (linéaire) du texte. Composition de plusieurs transducteurs possible (« cascade ») Unitex fait une application glissante des transducteurs (en commençant à tous les mots du texte ; l’application peut se terminer à n’importe quel mot)

  21. Transducteurs Un automate fini contient des séquences qui peuvent être reconnues dans un texte existant Un transducteur fini est utilisé pour engendrer une nouvelle version du texte : il contient des séquences qui seront reconnues (séquences d’entrée) et d’autres qui seront insérées (séquences de sortie)Exemple : insérer des balises <campus> et </campus> avant et après les séquences désignant le campus de l’université (nombreuses variantes)Avec Unitex, les séquences de sortie sont affichées au-dessous des boîtes Pour créer un transducteur, insérer une barre (/) entre la séquence d’entrée et la séquence de sortie correspondantePour appliquer le transducteur, indiquer si les séquences de sortie doivent être insérées à gauche des séquences d’entrée correspondantes, ou si elles doivent les remplacer

  22. Informations lexicales et recherche de formes Une fois les lexiques appliqués à un texte, les informations incluses dans le texte peuvent être exploitées pour rechercher des formes linguistiques dans le texte (Unitex)Masques lexicauxExpressions qui reconnaissent des mots en fonction de propriétés lexicales- lemme : <droit> reconnaît droit, droits, droite, droites- catégorie grammaticale : <V> reconnaît n’importe quel verbe (utiliser les conventions des lexiques consultés)- autres traits présents dans le lexique : <N:s> reconnaît n’importe quel substantif singulier- combinaisons de ces informations : <pouvoir.N> reconnaît seulementpouvoir et pouvoirs- autres masques lexicaux : <MOT>, <PRE>, <MAJ>... (v. manuel)- les informations issues du lexique-grammaire sont utilisables

  23. Ambiguïtés des transducteurs Un transducteur est ambigu lorsque plusieurs chemins distincts s’appliquent à une même séquence d’entréeComme Unitex ne produit qu’une sortie linéaire, seul un des chemins sera pris en compte (choix arbitraire)Pour contrôler le résultat du traitement, éviter de construire des transducteurs trop ambigusAmbiguïtés de recouvrement : deux séquences reconnues ont une partie commune

  24. 4. Enrichissement de lexiques Unitex offre des fonctions de traitement de lexiques (forme en clair/forme comprimée) - compression d’un lexique avec accès rapide - flexion automatique Ajouts d’information possibles : - fréquences d’emploi tirées d’un corpus - mesure de la spécificité des mots à un domaine spécialisé - interfaçage entre lexique morpho-syntaxique (avec formes fléchies) et thésaurus ou ontologies

  25. Ajouts d’entrées : - liens avec formes dérivées (face/facial), par graphes de dérivation approximatifs - inclusion de collocations spécifiques à un domaine, ex. : dans les bulletins météo, alternance de passages nuageux et d’éclaircies

  26. Conclusion Des ressources linguistiques complexes, élaborées à la main par des linguistes (1967-2005) Des outils logiciels adaptés Les méthodes de TALN avec et sans ressources lexicales sont restées très cloisonnées, mais sont combinables (systèmes hybrides)

More Related