490 likes | 776 Views
Quelques opérations texte-->sens et texte-->sens-->texte utilisant une sémantique universaliste apriorique Dominique DUTOIT Université de Caen. Une sémantique linguistique. Sens des Significations. La Sémantique Générale a le mérite de distinguer sens et signification .
E N D
Quelques opérations texte-->sens et texte-->sens-->texteutilisant unesémantique universaliste aprioriqueDominique DUTOITUniversité de Caen Soutenance doctorat : D. Dutoit
Une sémantique linguistique Sens des Significations • La Sémantique Générale a le mérite de distinguer sens et signification. • Nous étudions les rapports entre signification et texte. Signification des textes(commentaire à propos des signes) Avec l’idée qu’on saura associer des sens à des invariants de signification (sens dans la théorie sens-->texte). Soutenance doctorat : D. Dutoit
Rapports signe/signification/sens Soutenance doctorat : D. Dutoit
Les domaines Nos calculs concernent les mots et les textes. --> Pas de domaine terminologiqueCes calculs ont des effets - linguistiques - cybernétiques - réels. --> Pas de domaine applicatifL’universalisme et l’apriorisme caractérisent notre sémantique linguistique. Soutenance doctorat : D. Dutoit
Universalisme et apriorisme • universalisme : les significations sont déclarées ainsi que leurs expressions. • apriorisme : les effets potentiels des significations sont déclarés. Soutenance doctorat : D. Dutoit
Des opérations linguistiques • Opération texte-->sens : la désambiguïsation lexico-sémantique • Plusieurs Opérations texte-->sens-->texte Par exemple, • Dictionnaire à l’envers (réduction lexicale) • Résumé lexical, thématique • Paraphrases d’énoncés courts • filtrage d’information, ajout de co-texte, signature sémantique • ... Soutenance doctorat : D. Dutoit
La démarche de présentation • Les données : le Dictionnaire Intégral • Les traitements sémantiques : Le Sémiographe Soutenance doctorat : D. Dutoit
Les données Le Dictionnaire Intégral (DI)
Le Dictionnaire Intégral • Description qualitative • TST, Sémantique componentielle et CYC • Cohérence des trois théories • L’exemple de riche adj. • Conclusion • Description quantitative • Par rapport à WordNet • Par rapport aux trois théories Soutenance doctorat : D. Dutoit
Description qualitative la TST Produire toutes les paraphrases d’un “sens”. “sens” ou Représentation Sémantique profonde : graphe formel construit à partir des entrées numérotées du Dictionnaire Explicatif et Combinatoire (DEC). Un même sens pourra produire : La lune éclipse le soleil ET l’éclipse du soleil par la lune Le DEC est fait de fonctions lexico-sémantiques S0(éclipser) = éclipse (nominalisation), S1(éclipser) = corps céleste Soutenance doctorat : D. Dutoit
Description qualitative La sémantique componentielle La sémantique componentielle décompose les significations en traits plus élémentaires (sèmes) et espère, depuis cette décomposition, découvrir des lois de composition. TraitSém(éclipse) = [abstrait] [cacher] [action] [fait]… Soutenance doctorat : D. Dutoit
Description qualitative CYC CYC a pour ambition de décrire les connaissances courantes d’un écolier Il arrive que la lune passe devant le soleil et le cache à nos yeux pendant quelques minutes…il fait alors nuit durant le jour… Soutenance doctorat : D. Dutoit
Description qualitative Intégrationle syntagme et le paradigme Problèmes posés: A) Pourquoi ne lit-on jamais le mangeur mange? B) Pourquoi le gourmand mange peut se rencontrer? C) Pourquoi l’avocat mange n’est pas ambigu pour nous? D) Qu’est ce qui distingue ces trois énoncés? Soutenance doctorat : D. Dutoit
Description qualitative Réponses A) Parce qu’on ne parle pas pour ne rien dire sauf dans le dictionnaire où l’on parle de la langue elle-même (DEC). B) Parce que la redondance est incomplète (sémantique componentielle). C) Parce que les gens mangent et que les fruits ne mangent pas (CYC). D) Un point de vue sur la langue. Notre sémantique tente de regrouper ces points de vue différents : c’est le Dictionnaire Intégral. Soutenance doctorat : D. Dutoit
Description qualitative Les relations • TST X (mot-sens ou sens) <FL>Y (mot-sens ou sens) mangeur <FL>manger • Sémantique componentielle \X (trait de sens, concept) //// \Y (concept) gourmand=Spec mangeur //// \nourriture, manger • CYC \X (concept actanciel) //// \Y (concept actanciel) avocat //// \verbes vie animale isotopies Relation actancielle SV Soutenance doctorat : D. Dutoit
Description qualitative Graphique complet Relation actancielle SV V des animaux avocat Isotopies : nourriture, vivant... • mangeur <FL : S1> manger • <Gen> • gourmand Le mangeur mange : vert, rouge et bleule gourmand mange : rouge et bleul’avocat mange : bleu Soutenance doctorat : D. Dutoit
Description qualitative Les 3 théories et les textes Le mangeur mange : vert, rouge et bleu Vert (TST) est absent du syntagme le gourmand mange : rouge et bleu Rouge (Sém. Comp.) peut se rechercher en et hors syntagme ; l’avocat mange : bleu Bleu est absent hors syntagme Soutenance doctorat : D. Dutoit
Description qualitative Un exempleriche adj. Que dit-on dans les emplois Une riche récolte, Un style riche Une rime riche Une mine riche en or Un sol riche Une personne riche Un appartement riche Un vêtement riche Soutenance doctorat : D. Dutoit
Description qualitative • Les emploisattestent l’usage par définition • Les emplois correspondent à des compréhensions Compréhension : représentation sémantique, sens (dont paraphrase) ; modèle de mémoire Comme il y a autant de compréhensions que de sens, combien de sens pour riche ? Soutenance doctorat : D. Dutoit
Description qualitative Pour riche adj.,il y a 4 sens principauxet des emplois à propriétés particulières. Soutenance doctorat : D. Dutoit
récolte développer. récolte Qté=bcp sol 1,1 Qté=bcp biens qualité personne style posséder posséder variété Qté=bcp n,m or mine contenir 1,1 bcp • Pour Une riche récolte • Pour Un style, une rime riche • Pour Une mine riche en or • Pour Un sol riche • Pour Une personne riche Soutenance doctorat : D. Dutoit
Description qualitative Riche sens 1 (récolte) Relation actancielle SA indénombrables Adj des indénombables? Isotopies : [bcp en masse], [fav.], [chose indénombrable...] Emploisrécolte, production... • riche <FL : S1> enrichir, pauvre, ... • abondant Soutenance doctorat : D. Dutoit
Description qualitative Riche dans Lexidiom 1e _riche adj. seul ¦ \qui est en grande qté d'une façon favorable [FC ADJ]/FC Gen ¦ \récolte [FD ADJjugement]/FDJN, Jugement 2e_riche adj. seul ¦ \qui (s')est développé en grande diversité (fav.) [FC ADJ]/FC Gen ¦ \riche (style) [FD ADJjugement]/FDJN, Jugement ¦ \bon (pour un discours) [FD ADJjugement]/FDJN, Jugement ¦ \qui est garni, décoré d'ornements [FC ADJ]/FDJN, Jugement ¦ \rime [FD ADJdescript.]/FDJN, Jugement ¦ \langue et langage [FD ADJdescript.]/FDJN, Jugement ¦ \qualificatif de la voix [FDADJdescript.]/FDJN, Jugement 3e _riche adj. seul _ ¦ \J + en + comp [Cons0]/->ConsLar ¦ \J + de + comp [Cons0]/->ConsLar ¦ \qui contient qqch en abondance: riche en (fav.) [FC ADJ]/FC Gen ¦ \qualificatif favorable d'un sol agricole [FD ADJjugement]/FDJN, Jugement ¦ \substance minérale [FD ADJdescript.]/FDJN, Jugement Soutenance doctorat : D. Dutoit
Description qualitative 4e _riche adj. seul ¦ \qui par sa richesse permet un grand dévelop.(fav. [FC ADJ]/FC Gen _ ¦ \qui a la propriété de nourrir bcp [FC ADJ]/FC SpecEnc ¦ \qualificatif favorable d'un sol agricole [FD ADJjugement]/FDJN, Jugement ¦ \qualificatif de qualité du caractère [FD ADJjugement]/FDJN, Jugement 5E _riche adj. seul ¦ \qui est riche de biens ou d'argent [FC ADJ]/FC Gen 6E _riche Nom M.S., flex : F ¦ \personne riche [FC N]/FC Gen ¦ _riche adj. seul/personne J 7e _riche adj. seul ¦ \fastueux et cher [FC ADJ]/FC Spec ¦ \appartement [FD ADJjugement]/FDJN, Jugement Collocations gosse de #riche Nom M.S., flex : F nouveau #riche Nom M.S. ... Soutenance doctorat : D. Dutoit
Description qualitative Conclusion Le Dictionnaire Intégral comporte trois niveaux de description complémentaires à rôle précisLe découpage en sens du Dictionnaire Integral est conditionné par le modèle de compréhension. Soutenance doctorat : D. Dutoit
Description quantitative Comparaison avec WordNet : les mots Soutenance doctorat : D. Dutoit
Description quantitative Comparaison avec WordNet : les relations WordNetDI Fonctions lexicales TST0 sauf synonymie Oui si accord Concepts isotopiques0 hors Spec Oui Connaissance CYC0Oui si générale Soutenance doctorat : D. Dutoit
Description quantitative Utilisation actuelle dans les algorithmes Le Sémiographe Fonctions lexicales TST Non Concepts isotopiques Oui Connaissance CYC Non Pour la désambiguïsation sémantique l’actuel Sémiographe n’utilise que le Rouge des isotopies. Soutenance doctorat : D. Dutoit
Les traitements Le Sémiographe
Le Sémiographe • Des traitements de base • La désambiguïsation lexico-sémantique • La réduction lexicale • Des traitements plus applicatifs • Le résumé lexical de textes, la thématique • La paraphrase d’énoncés courts • Le filtrage d’informations, l’ajout de co-texte... Soutenance doctorat : D. Dutoit
Les traitements de base La désambiguïsation lexico-sémantique
La WSD Problème posé information sur le sens d’un énoncé probabilité P de résolution :1/80 < P < 1/36) L’aviateur, abattu en plein vol, réussit à rejoindre ses lignes en manœuvrant un parachute probabilité P de résolution : 1/30982 < P < 1/900) Soutenance doctorat : D. Dutoit
La WSD Moyen utilisé • Les isotopies uniquement==> pas de connaissances courantes ni de TST==> pas de différence de traitement syntagme/espace hors syntagme==> des énoncés non solutionnables comme l’avocat mange un avocat Soutenance doctorat : D. Dutoit
La WSD Deux algorithmes • L’activation : unification par les meilleurs isotopes partagés • Activation (poissonE, filet) Activation (bateauE, filet) Activation (merE, filet) Activation (pêcheur, filet) Activation (pêcher, filet) Soutenance doctorat : D. Dutoit
La WSD • La proximité sémantique : unification sur tous les isotopes et prise en compte des différences Prox(poissonE, filet) Activation (poissonE, filet) + Racine du vivant Laproximité sémantique est asymétrique : Prox(vendeur,fleuriste) Activation (vendeur, fleuriste) Prox(fleuriste,vendeur) Activation (fleuriste, vendeur) + Racine des plantes Soutenance doctorat : D. Dutoit
La WSD Les résultats Pour 35 mots étudiés dans le manuscrit, 172 sens au total (5 sens par mot en moy.), 115 sens incorrects sont éliminés et 1 seul “bon sens” est éliminé. La probabilité d’atteindre aléatoirement un résultat aussi bon ou meilleur est : 0,5%. ==> Le système est statistiquement efficace hors domaine en utilisant les seuls moyens de l’isotopie! Soutenance doctorat : D. Dutoit
Les traitements de base La réduction lexicale
La réduction lexicale Réduction lexicale, dictionnaire à l’envers, forme en N… : différents noms pour un même principe. Passer d’une expression comportant plusieurs mots à une expression comportant moins de mots. Monnaie du Japon = yen Monnaie de Tokyo = yen Monnaie de Hiro Hito = yen Soutenance doctorat : D. Dutoit
La réduction lexicale Fonctionnement La réduction lexicale est une opération : Texte-->sens-->texte : le texte généré reflète les significations calculées du texte de départ. Dans les cas simples, elle dessine une forme en N : monnaie Isotope Japon Gen de Japon yen Soutenance doctorat : D. Dutoit
ceux Isotope divination Isotope : source Gen de Voir l’avenir source ??? La réduction lexicale Fonctionnement Dans des cas plus compliqués, elle dessine une forme en “usine” : Seuls ceux qui voient l’avenir dans les sources prédisent convenablement le futur. P(ceux) = 1/10000 qui Soutenance doctorat : D. Dutoit
La réduction lexicale • Algorithme utilisé Proximité sémantique • Manque Les définitions • Résultats Souvent bons, produit des listes analogiques au texte de départ Soutenance doctorat : D. Dutoit
Traitements TST applicatifs Le résumé lexical d’un texte • Principe : un texte traitant d’un sujet active abondamment tous les isotopes de ce sujet billard : [billard thème] [jouer thème] [adresse thème] [gagner thème] [salle thème]… • Algorithme : activation d’isotopes, proximité • Usage : indexation et filtrage • Résultats : apporte un plus, très bons Soutenance doctorat : D. Dutoit
Traitements TST applicatifs Le routage, nomenclature... • Principe : un texte doit dirigé automatiquement vers une boîte à lettres comme : [guerre du kosovo] : guerre;kosovo • Algorithme : activation ou proximité • Résultats : peu de silence, peuvent être très bon pour les sujets référentiels Soutenance doctorat : D. Dutoit
Traitements TST applicatifs Signature sémantique • Principe : un texte doit être surchargé de lexiques désambiguïsant ses principaux mots. Billard (jeu), Billard (chirurgie), ... Algorithme : Sens-->texte • Résultats : utile pour la recherche, ralenti l’indexation. Soutenance doctorat : D. Dutoit
Traitements TST applicatifs Signature sémantique • Principe : un texte doit être surchargé de lexiques désambiguïsant ses principaux mots. Billard (jeu), Billard (chirurgie), ... Algorithme : Sens-->texte • Résultats : utile pour la recherche, ralenti l’indexation. Soutenance doctorat : D. Dutoit
Conclusion générale • Au plan scientifique, nous avons : • montré une intégration réaliste de trois théories actuellement indépendantes • anticipé les conséquences de cette intégration sur les calculs sémantiques • montré que des mots chargés a priori de sens génèrent des modèles de données au sens informatique • montré que ces modèles décident pour une large part de l’homonymie ou de la polysémie • en définitive, nous avons montré comment construire un DICTIONNAIRE INTEGRAL Soutenance doctorat : D. Dutoit
Conclusion générale • Au plan des réalisations, nous avons : • décrit l’un des plus gros projets au plan mondial • décrit l’une des réalisations les plus avancées • montré la faisabilité de la réalisation en avançant • Au plan des techniques, nous avons : • réussi à diviser en sous-projets, pendant 10 ans, le projet général, permettant ainsi son financement • malgré que nous soyons l’équipe la plus petite au plan mondial, réussi à développer tant les données que les traitements et la théorie générale. Soutenance doctorat : D. Dutoit
Conclusion générale En terme prospectif, nous prévoyons dans les 3 ans à venir • au plan scientifique : • d’instancier en définition les modèles de sens (tel celui de riche) pour les 2000 mots les plus courants du français • de lancer une étude portant sur les conséquences en terme de nature de calcul de ces modèles. • au plan des réalisations : • de plus développer les outils sens-->texte et texte-->sens pour mieux mémoriser les textes, préparer l’extraction de connaissances (lien syntaxe/mot-sens) • de favoriser la pénétration de nos outils et méthodes • de développer des relations maintenues vers d’autres langues Soutenance doctorat : D. Dutoit