1 / 49

Quelques opérations texte-->sens et texte-->sens-->texte utilisant une sémantique universaliste apriorique Dom

Quelques opérations texte-->sens et texte-->sens-->texte utilisant une sémantique universaliste apriorique Dominique DUTOIT Université de Caen. Une sémantique linguistique. Sens des Significations. La Sémantique Générale a le mérite de distinguer sens et signification .

aric
Download Presentation

Quelques opérations texte-->sens et texte-->sens-->texte utilisant une sémantique universaliste apriorique Dom

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Quelques opérations texte-->sens et texte-->sens-->texteutilisant unesémantique universaliste aprioriqueDominique DUTOITUniversité de Caen Soutenance doctorat : D. Dutoit

  2. Une sémantique linguistique Sens des Significations • La Sémantique Générale a le mérite de distinguer sens et signification. • Nous étudions les rapports entre signification et texte. Signification des textes(commentaire à propos des signes) Avec l’idée qu’on saura associer des sens à des invariants de signification (sens dans la théorie sens-->texte). Soutenance doctorat : D. Dutoit

  3. Rapports signe/signification/sens Soutenance doctorat : D. Dutoit

  4. Les domaines Nos calculs concernent les mots et les textes. --> Pas de domaine terminologiqueCes calculs ont des effets - linguistiques - cybernétiques - réels. --> Pas de domaine applicatifL’universalisme et l’apriorisme caractérisent notre sémantique linguistique. Soutenance doctorat : D. Dutoit

  5. Universalisme et apriorisme • universalisme : les significations sont déclarées ainsi que leurs expressions. • apriorisme : les effets potentiels des significations sont déclarés. Soutenance doctorat : D. Dutoit

  6. Des opérations linguistiques • Opération texte-->sens : la désambiguïsation lexico-sémantique • Plusieurs Opérations texte-->sens-->texte Par exemple, • Dictionnaire à l’envers (réduction lexicale) • Résumé lexical, thématique • Paraphrases d’énoncés courts • filtrage d’information, ajout de co-texte, signature sémantique • ... Soutenance doctorat : D. Dutoit

  7. La démarche de présentation • Les données : le Dictionnaire Intégral • Les traitements sémantiques : Le Sémiographe Soutenance doctorat : D. Dutoit

  8. Les données Le Dictionnaire Intégral (DI)

  9. Le Dictionnaire Intégral • Description qualitative • TST, Sémantique componentielle et CYC • Cohérence des trois théories • L’exemple de riche adj. • Conclusion • Description quantitative • Par rapport à WordNet • Par rapport aux trois théories Soutenance doctorat : D. Dutoit

  10. Description qualitative la TST Produire toutes les paraphrases d’un “sens”. “sens” ou Représentation Sémantique profonde : graphe formel construit à partir des entrées numérotées du Dictionnaire Explicatif et Combinatoire (DEC). Un même sens pourra produire : La lune éclipse le soleil ET l’éclipse du soleil par la lune Le DEC est fait de fonctions lexico-sémantiques S0(éclipser) = éclipse (nominalisation), S1(éclipser) = corps céleste Soutenance doctorat : D. Dutoit

  11. Description qualitative La sémantique componentielle La sémantique componentielle décompose les significations en traits plus élémentaires (sèmes) et espère, depuis cette décomposition, découvrir des lois de composition. TraitSém(éclipse) = [abstrait] [cacher] [action] [fait]… Soutenance doctorat : D. Dutoit

  12. Description qualitative CYC CYC a pour ambition de décrire les connaissances courantes d’un écolier Il arrive que la lune passe devant le soleil et le cache à nos yeux pendant quelques minutes…il fait alors nuit durant le jour… Soutenance doctorat : D. Dutoit

  13. Description qualitative Intégrationle syntagme et le paradigme Problèmes posés: A) Pourquoi ne lit-on jamais le mangeur mange? B) Pourquoi le gourmand mange peut se rencontrer? C) Pourquoi l’avocat mange n’est pas ambigu pour nous? D) Qu’est ce qui distingue ces trois énoncés? Soutenance doctorat : D. Dutoit

  14. Description qualitative Réponses A) Parce qu’on ne parle pas pour ne rien dire sauf dans le dictionnaire où l’on parle de la langue elle-même (DEC). B) Parce que la redondance est incomplète (sémantique componentielle). C) Parce que les gens mangent et que les fruits ne mangent pas (CYC). D) Un point de vue sur la langue. Notre sémantique tente de regrouper ces points de vue différents : c’est le Dictionnaire Intégral. Soutenance doctorat : D. Dutoit

  15. Description qualitative Les relations • TST X (mot-sens ou sens) <FL>Y (mot-sens ou sens) mangeur <FL>manger • Sémantique componentielle \X (trait de sens, concept) //// \Y (concept) gourmand=Spec mangeur //// \nourriture, manger • CYC \X (concept actanciel) //// \Y (concept actanciel) avocat //// \verbes vie animale isotopies Relation actancielle SV Soutenance doctorat : D. Dutoit

  16. Description qualitative Graphique complet Relation actancielle SV V des animaux avocat Isotopies : nourriture, vivant... • mangeur <FL : S1> manger • <Gen> • gourmand Le mangeur mange : vert, rouge et bleule gourmand mange : rouge et bleul’avocat mange : bleu Soutenance doctorat : D. Dutoit

  17. Description qualitative Les 3 théories et les textes Le mangeur mange : vert, rouge et bleu Vert (TST) est absent du syntagme le gourmand mange : rouge et bleu Rouge (Sém. Comp.) peut se rechercher en et hors syntagme ; l’avocat mange : bleu Bleu est absent hors syntagme Soutenance doctorat : D. Dutoit

  18. Description qualitative Un exempleriche adj. Que dit-on dans les emplois Une riche récolte, Un style riche Une rime riche Une mine riche en or Un sol riche Une personne riche Un appartement riche Un vêtement riche Soutenance doctorat : D. Dutoit

  19. Description qualitative • Les emploisattestent l’usage par définition • Les emplois correspondent à des compréhensions Compréhension : représentation sémantique, sens (dont paraphrase) ;  modèle de mémoire Comme il y a autant de compréhensions que de sens, combien de sens pour riche ? Soutenance doctorat : D. Dutoit

  20. Description qualitative Pour riche adj.,il y a 4 sens principauxet des emplois à propriétés particulières. Soutenance doctorat : D. Dutoit

  21. récolte développer. récolte Qté=bcp sol 1,1 Qté=bcp biens qualité personne style posséder posséder variété Qté=bcp n,m or mine contenir 1,1 bcp • Pour Une riche récolte • Pour Un style, une rime riche • Pour Une mine riche en or • Pour Un sol riche • Pour Une personne riche Soutenance doctorat : D. Dutoit

  22. Description qualitative Riche sens 1 (récolte) Relation actancielle SA indénombrables Adj des indénombables? Isotopies : [bcp en masse], [fav.], [chose indénombrable...] Emploisrécolte, production... • riche <FL : S1> enrichir, pauvre, ... • abondant Soutenance doctorat : D. Dutoit

  23. Description qualitative Riche dans Lexidiom 1e _riche adj. seul ¦ \qui est en grande qté d'une façon favorable [FC ADJ]/FC Gen ¦ \récolte [FD ADJjugement]/FDJN, Jugement 2e_riche adj. seul ¦ \qui (s')est développé en grande diversité (fav.) [FC ADJ]/FC Gen ¦ \riche (style) [FD ADJjugement]/FDJN, Jugement ¦ \bon (pour un discours) [FD ADJjugement]/FDJN, Jugement ¦ \qui est garni, décoré d'ornements [FC ADJ]/FDJN, Jugement ¦ \rime [FD ADJdescript.]/FDJN, Jugement ¦ \langue et langage [FD ADJdescript.]/FDJN, Jugement ¦ \qualificatif de la voix [FDADJdescript.]/FDJN, Jugement 3e _riche adj. seul _ ¦ \J + en + comp [Cons0]/->ConsLar ¦ \J + de + comp [Cons0]/->ConsLar ¦ \qui contient qqch en abondance: riche en (fav.) [FC ADJ]/FC Gen ¦ \qualificatif favorable d'un sol agricole [FD ADJjugement]/FDJN, Jugement ¦ \substance minérale [FD ADJdescript.]/FDJN, Jugement Soutenance doctorat : D. Dutoit

  24. Description qualitative 4e _riche adj. seul ¦ \qui par sa richesse permet un grand dévelop.(fav. [FC ADJ]/FC Gen _ ¦ \qui a la propriété de nourrir bcp [FC ADJ]/FC SpecEnc ¦ \qualificatif favorable d'un sol agricole [FD ADJjugement]/FDJN, Jugement ¦ \qualificatif de qualité du caractère [FD ADJjugement]/FDJN, Jugement 5E _riche adj. seul ¦ \qui est riche de biens ou d'argent [FC ADJ]/FC Gen 6E _riche Nom M.S., flex : F ¦ \personne riche [FC N]/FC Gen ¦ _riche adj. seul/personne J 7e _riche adj. seul ¦ \fastueux et cher [FC ADJ]/FC Spec ¦ \appartement [FD ADJjugement]/FDJN, Jugement Collocations gosse de #riche Nom M.S., flex : F nouveau #riche Nom M.S. ... Soutenance doctorat : D. Dutoit

  25. Description qualitative Conclusion Le Dictionnaire Intégral comporte trois niveaux de description complémentaires à rôle précisLe découpage en sens du Dictionnaire Integral est conditionné par le modèle de compréhension. Soutenance doctorat : D. Dutoit

  26. Description quantitative Comparaison avec WordNet : les mots Soutenance doctorat : D. Dutoit

  27. Description quantitative Comparaison avec WordNet : les relations WordNetDI Fonctions lexicales TST0 sauf synonymie Oui si accord Concepts isotopiques0 hors Spec Oui Connaissance CYC0Oui si générale Soutenance doctorat : D. Dutoit

  28. Description quantitative Utilisation actuelle dans les algorithmes Le Sémiographe Fonctions lexicales TST Non Concepts isotopiques Oui Connaissance CYC Non Pour la désambiguïsation sémantique l’actuel Sémiographe n’utilise que le Rouge des isotopies. Soutenance doctorat : D. Dutoit

  29. Les traitements Le Sémiographe

  30. Le Sémiographe • Des traitements de base • La désambiguïsation lexico-sémantique • La réduction lexicale • Des traitements plus applicatifs • Le résumé lexical de textes, la thématique • La paraphrase d’énoncés courts • Le filtrage d’informations, l’ajout de co-texte... Soutenance doctorat : D. Dutoit

  31. Les traitements de base La désambiguïsation lexico-sémantique

  32. La WSD Problème posé information sur le sens d’un énoncé probabilité P de résolution :1/80 < P < 1/36) L’aviateur, abattu en plein vol, réussit à rejoindre ses lignes en manœuvrant un parachute probabilité P de résolution : 1/30982 < P < 1/900) Soutenance doctorat : D. Dutoit

  33. La WSD Moyen utilisé • Les isotopies uniquement==> pas de connaissances courantes ni de TST==> pas de différence de traitement syntagme/espace hors syntagme==> des énoncés non solutionnables comme l’avocat mange un avocat Soutenance doctorat : D. Dutoit

  34. La WSD Deux algorithmes • L’activation : unification par les meilleurs isotopes partagés • Activation (poissonE, filet)  Activation (bateauE, filet) Activation (merE, filet) Activation (pêcheur, filet) Activation (pêcher, filet) Soutenance doctorat : D. Dutoit

  35. La WSD • La proximité sémantique : unification sur tous les isotopes et prise en compte des différences Prox(poissonE, filet) Activation (poissonE, filet) + Racine du vivant Laproximité sémantique est asymétrique : Prox(vendeur,fleuriste) Activation (vendeur, fleuriste) Prox(fleuriste,vendeur) Activation (fleuriste, vendeur) + Racine des plantes Soutenance doctorat : D. Dutoit

  36. La WSD Les résultats Pour 35 mots étudiés dans le manuscrit, 172 sens au total (5 sens par mot en moy.), 115 sens incorrects sont éliminés et 1 seul “bon sens” est éliminé. La probabilité d’atteindre aléatoirement un résultat aussi bon ou meilleur est : 0,5%. ==> Le système est statistiquement efficace hors domaine en utilisant les seuls moyens de l’isotopie! Soutenance doctorat : D. Dutoit

  37. Les traitements de base La réduction lexicale

  38. La réduction lexicale Réduction lexicale, dictionnaire à l’envers, forme en N… : différents noms pour un même principe. Passer d’une expression comportant plusieurs mots à une expression comportant moins de mots. Monnaie du Japon = yen Monnaie de Tokyo = yen Monnaie de Hiro Hito = yen Soutenance doctorat : D. Dutoit

  39. La réduction lexicale Fonctionnement La réduction lexicale est une opération : Texte-->sens-->texte : le texte généré reflète les significations calculées du texte de départ. Dans les cas simples, elle dessine une forme en N : monnaie Isotope Japon Gen de Japon yen Soutenance doctorat : D. Dutoit

  40. ceux Isotope divination Isotope : source Gen de Voir l’avenir source ??? La réduction lexicale Fonctionnement Dans des cas plus compliqués, elle dessine une forme en “usine” : Seuls ceux qui voient l’avenir dans les sources prédisent convenablement le futur. P(ceux) = 1/10000 qui Soutenance doctorat : D. Dutoit

  41. La réduction lexicale • Algorithme utilisé Proximité sémantique • Manque Les définitions • Résultats Souvent bons, produit des listes analogiques au texte de départ Soutenance doctorat : D. Dutoit

  42. Les traitements applicatifs

  43. Traitements TST applicatifs Le résumé lexical d’un texte • Principe : un texte traitant d’un sujet active abondamment tous les isotopes de ce sujet billard : [billard thème] [jouer thème] [adresse thème] [gagner thème] [salle thème]… • Algorithme : activation d’isotopes, proximité • Usage : indexation et filtrage • Résultats : apporte un plus, très bons Soutenance doctorat : D. Dutoit

  44. Traitements TST applicatifs Le routage, nomenclature... • Principe : un texte doit dirigé automatiquement vers une boîte à lettres comme : [guerre du kosovo] : guerre;kosovo • Algorithme : activation ou proximité • Résultats : peu de silence, peuvent être très bon pour les sujets référentiels Soutenance doctorat : D. Dutoit

  45. Traitements TST applicatifs Signature sémantique • Principe : un texte doit être surchargé de lexiques désambiguïsant ses principaux mots. Billard (jeu), Billard (chirurgie), ... Algorithme : Sens-->texte • Résultats : utile pour la recherche, ralenti l’indexation. Soutenance doctorat : D. Dutoit

  46. Traitements TST applicatifs Signature sémantique • Principe : un texte doit être surchargé de lexiques désambiguïsant ses principaux mots. Billard (jeu), Billard (chirurgie), ... Algorithme : Sens-->texte • Résultats : utile pour la recherche, ralenti l’indexation. Soutenance doctorat : D. Dutoit

  47. Conclusion générale • Au plan scientifique, nous avons : • montré une intégration réaliste de trois théories actuellement indépendantes • anticipé les conséquences de cette intégration sur les calculs sémantiques • montré que des mots chargés a priori de sens génèrent des modèles de données au sens informatique • montré que ces modèles décident pour une large part de l’homonymie ou de la polysémie • en définitive, nous avons montré comment construire un DICTIONNAIRE INTEGRAL Soutenance doctorat : D. Dutoit

  48. Conclusion générale • Au plan des réalisations, nous avons : • décrit l’un des plus gros projets au plan mondial • décrit l’une des réalisations les plus avancées • montré la faisabilité de la réalisation en avançant • Au plan des techniques, nous avons : • réussi à diviser en sous-projets, pendant 10 ans, le projet général, permettant ainsi son financement • malgré que nous soyons l’équipe la plus petite au plan mondial, réussi à développer tant les données que les traitements et la théorie générale. Soutenance doctorat : D. Dutoit

  49. Conclusion générale En terme prospectif, nous prévoyons dans les 3 ans à venir • au plan scientifique : • d’instancier en définition les modèles de sens (tel celui de riche) pour les 2000 mots les plus courants du français • de lancer une étude portant sur les conséquences en terme de nature de calcul de ces modèles. • au plan des réalisations : • de plus développer les outils sens-->texte et texte-->sens pour mieux mémoriser les textes, préparer l’extraction de connaissances (lien syntaxe/mot-sens) • de favoriser la pénétration de nos outils et méthodes • de développer des relations maintenues vers d’autres langues Soutenance doctorat : D. Dutoit

More Related