1 / 98

Modèles pour le Traitement Automatique des Langues

Modèles pour le Traitement Automatique des Langues. Alain Lecomte M1-ICPS. Le Traitement Automatique des Langues. Traduction automatique (ou assistée) Interfaces en langue naturelle Dialogue homme – machine Indexation automatique de documents Web sémantique

lesa
Download Presentation

Modèles pour le Traitement Automatique des Langues

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Modèles pour le Traitement Automatique des Langues Alain Lecomte M1-ICPS

  2. Le Traitement Automatique des Langues • Traduction automatique (ou assistée) • Interfaces en langue naturelle • Dialogue homme – machine • Indexation automatique de documents • Web sémantique • Par exemple, quand je tape dans Google « Statistical NLP », il n’est pas fichu de me renvoyer les documents concernant « Statistical Natural Language Processing »!!! • Recherche d’information • Aide à la rédaction dans des langues simplifiées

  3. Exemples dans les stages soutenus en 2005 • Sur six mémoires soutenus en septembre, quatre portaient sur du TAL: • Extraction des entités nommées (Digimind, veille technologique) • Indexation sémantique de documents (Xerox, projet «document intelligent ») • Moteur d’interrogation synchrone de plusieurs dictionnaires en ligne (sté Babeling) • Mémoires de traduction (sté Babeling) • Un site pour les apprenants du chinois (U. Stendhal)

  4. Groupe NLP de Microsoft (1) • The goal of the Natural Language Processing (NLP) group is to design and build software that will analyze, understand, and generate languages that humans use naturally, so that eventually you will be able to address your computer as though you were addressing another person. • This goal is not easy to reach. "Understanding" language means, among other things, knowing what concepts a word or phrase stands for and knowing how to link those concepts together in a meaningful way. It's ironic that natural language, the symbol system that is easiest for humans to learn and use, is hardest for a computer to master. Long after machines have proven capable of inverting large matrices with speed and grace, they still fail to master the basics of our spoken and written languages.

  5. Groupe NLP de Microsoft (2) • The challenges we face stem from the highly ambiguous nature of natural language. As an English speaker you effortlessly understand a sentence like "Flying planes can be dangerous". Yet this sentence presents difficulties to a software program that lacks both your knowledge of the world and your experience with linguistic structures. Is the more plausible interpretation that the pilot is at risk, or that the danger is to people on the ground? Should "can" be analyzed as a verb or as a noun? Which of the many possible meanings of "plane" is relevant? Depending on context, "plane" could refer to, among other things, an airplane, a geometric object, or a woodworking tool. How much and what sort of context needs to be brought to bear on these questions in order to adequately disambiguate the sentence?

  6. Groupe NLP de Microsoft (3) • We address these problems using a mix of knowledge-engineered and statistical/machine-learning techniques to disambiguate and respond to natural language input. Our work has implications for applications like text critiquing, information retrieval, question answering, summarization, gaming, and translation. The grammar checkers in Office for English, French, German, and Spanish are outgrowths of our research; Encarta uses our technology to retrieve answers to user questions; Intellishrink uses natural language technology to compress cellphone messages; Microsoft Product Support uses our machine translation software to translate the Microsoft Knowledge Base into other languages. As our work evolves, we expect it to enable any area where human users can benefit by communicating with their computers in a natural way.

  7. Y a-t-il un modèle universel de traitement des langues? • Principales difficultés: • La très grande variété des solutions choisies par les langues pour exprimer le « sens » • Modèles existants développés surtout à partir des langues dominantes :langues indo-européennes (surtout l’anglais!), japonais, chinois… • La très grande complexité du langage humain • Problème NP-dur, voire indécidable?

  8. Langue et système de communication • À quoi sert le langage? • Insuffisance de la thèse selon laquelle il « sert à communiquer » • La langue n’est pas un simple « code » • Le rôle de la langue pour : • Argumentation (Dessalles) • Narration (Victorri)

  9. des structures universelles? • On s’accorde pour reconnaître l’importance de plusieurs types de structure: • Structure en constituants (ou syntagmatique) • Structure thématique • Structure morphologique

  10. Structure syntagmatique (1) • Importance de la décomposition en syntagmes • Concept syntaxique ou concept sémantique? • Rôle de la structure en constituants dans la détermination d’une entité

  11. Structure syntagmatique (2) • Offre la possibilité de regrouper les prédicats qui se rapportent à la même variable • Un syntagme = une tête + des compléments + (éventuellement) un spécifieur ou sujet • A l’intérieur d’un même syntagme : partage d’argument • La notion d’arbre rend bien compte de ces notions

  12. Ex: syntagme nominal • Le petit chat de Marie N’’ Det N’ N SP Adj N petit(x) chat(x)

  13. Syntagme nominal • Le petit chat de Marie N’’ Det N’ N SP petit(x)&chat(x) Adj N petit(x) chat(x)

  14. Syntagme nominal • Le petit chat de Marie N’’ Det N’ N SP petit(x)&chat(x) possède(Marie, x) Adj N petit(x) chat(x)

  15. Syntagme nominal • Le petit chat de Marie N’’ petit(x)&chat(x)& possède(Marie, x) Det N’ N SP petit(x)&chat(x) possède(Marie, x) Adj N petit(x) chat(x)

  16. Syntagme nominal • Le petit chat de Marie Le x tel que petit(x)&chat(x)& possède(Marie, x) N’’ petit(x)&chat(x)& possède(Marie, x) Det N’ N SP petit(x)&chat(x) possède(Marie, x) Adj N petit(x) chat(x)

  17. Tous les noeuds ont une variable commune, • Le syntagme a trois niveaux : • Niveau 0 : position de la tête, possibilité d’insertion lexicale d’un N • Niveau 1 : la tête + ses compléments (eux-mêmes des syntagmes « complets ») • Niveau 2 : le syntagme de niveau 1 + son spécifieur

  18. phrase • Analyse classique: • Pourquoi? S SV SN V SN Mary Peter likes

  19. phrase • Analyse classique: S SUJET SV SN OBJET V SN Mary Peter likes

  20. phrase (2) • X-barre? une solution: S = IP I’ SV Infl V’ V

  21. phrase (2) • X-barre? une solution: S = IP I’ SV ? Infl V’ SN sujet ? V

  22. phrase (2) • X-barre? une solution: S = IP I’ SV Infl V’ SN V

  23. phrase (2) • X-barre? une solution: S = IP I’ SN SV Infl V’ MOVE t V

  24. phrase (2) • X-barre? une solution: S = IP I’ cas nominatif SN SV Infl V’ MOVE t V

  25. Profondeur des arbres • Est-ce que les arbres élémentaires ont toujours trois niveaux? • Qu’est-ce qui sert de tête dans le cas de la « phrase » (nœud S)? • Le nœud SV est-il toujours nécessaire? • Y a-t-il des langues plus «plates» que d’autres?

  26. Tullius vidit Paulum Paulum vidit Tullius Tullium vidit Paulus Paulus vidit Tullium Mettre un nœud SV est inutile, puisque le sujet est reconnu par sa marque morphologique Cas du latin S SN V SN

  27. Rôles thématiques • On appelle rôles thématiques les rôles joués par les entités mises en jeu dans le discours • J.L. Dessalles appelle segmentation thématique le processus visant à présenter une situation sous la forme d’un énoncé linéaire mettant en évidence ces rôles

  28. exemple • Pierre va de Paris à Londres • Trois entités mises en jeu : Pierre, Paris, Londres • Pierre est l’entité qui se déplace : le « thème » • Paris est l’origine du déplacement : la « source » • Londres en est : « le but »

  29. suite • Noter que ce n’est pas si simple… • Le nuage (chimique!) va de Pont-de-Claix à Echirolles • Ici, rien ne se déplace à proprement parler • On peut néanmoins continuer d’attribuer ces rôles thématiques à le nuage, Pt-de-Claix et Echirolles

  30. rôles thématiques (2) • Pierre coupe la viande avec son couteau AGENT PATIENT INSTRUMENT sujet objet complément ind. • Pierre utilise son couteau pour couper la viande AGENT INSTR. BUT PATIENT sujet objet compl. objet • La viande se coupe facilement avec un couteau PATIENT INSTR. sujet compl. • Le couteau coupe bien la viande INSTRUMENT PATIENT sujet objet

  31. rôles thématiques (3)cas du sanskrit – Pânini (500 av JC) • les six karaka • agent (kartr), objet (karman), intrument (karana), destinataire (sampradana), origine (apadana), location (adhikarana) • Devadattah pacati odanam indique que le nom avec –h est agent • AGENT ACTION OBJET • Devadatta cuisine le riz • Devadattena pacyata odanah indique que le nom avec –h est objet • Le riz est cuisiné par devadattena

  32. Autonomie relative de la syntaxe • Le lien fonction grammaticale – rôle thématiquen’est pas systématique (cf. passif). • Le gardien de but relance le ballon sujet = agent • Le ballon est relancé par le gardien de but sujet = patient • « la part d’arbitraire dans le rapport entre grammaire et sens contribue à conférer une autonomie à la syntaxe ».

  33. Structure morphologiqueex. d’une langue bantoue • Le mot Nàïkimiyiïà : « II le mange pour elle », comporte 8 parties : • n- : marqueur de focus • -à- : accord de classe avec le sujet (il existe 16 classes : humain singulier, humain pluriel, objets fins, objets étendus, objets en paquets, objets allant par paires, paires elles-mêmes, paquets, instruments, animaux, parties du corps, diminutifs de petitesse et d'affection, qualités abstraites, localisations précises, localisations vagues). Ici: humain singulier • -î- : temps présent (temps : aujourd'hui, plus tôt aujourd'hui, hier, pas plus tôt qu'hier, hier ou avant, dans le passé lointain, habituellement, en train, consécutivement, hypothétique, futur, temps indéterminé, pas encore, parfois). • -kî-: accord avec l'objet, classe animaux (classe 10) • - m - : marqueur indiquant que le bénéficiaire de l'action est de la classe 1 • -lyi -: verbe manger • -1- : modification du verbe pour indiquer la présence d'un rôle de bénéficiaire • -à : mode indicatif

  34. focus benef accord suj. hum.sing. présent racine verbale manger modif verbale mode indicatif accord obj. animaux nàïkimiyiïà n à ï ki m iyi ï à

  35. Différentes propriétés des langues • Accusativité et ergativité • Exemple du tibétain: • Les constructions ergatives peuvent paraître surprenantes au début dans la mesure où elles fonctionnent à l’inverse des constructions accusatives dans les langues européennes. Dans ces dernières ainsi qu’en chinois, le sujet n’est pas marqué tandis que l’objet l’est, soit par un cas spécial, l’accusatif (cf. latin , russe), soit par sa position, en étant rejeté après le verbe. Le tibétain, lui, choisit de marquer non pas l’objet mais le sujet par un cas, l’ergatif. Le sujet marqué par l’ergatif correspond presque toujours à un agent humain. Le cas de l’objet correspond à l’absence de marque formelle et est appelé « absolutif ».

  36. ergativité • Latin : ego ill-um libr-um legi • Russe : ja èt-u knig-u procëi • (nom) (ce+acc) (livre+acc) lire (passé) • Chinois: wo kan-guo zhe-ben shu • Français: j’ ai lu ce livre • Anglais : I read this book • (nom) lire (passé) (ce) (livre) • Tibétain : ngä thep tä-payin • (erg) (livre+abs) (lire-passé)

  37. Langues isolantes vs agglutinantes • Inuit (inuktitut) : • Je pense lui donner un kayak • qajaqartinniarpara (un seul mot) • qajaq : kayak • qar : avoir • ti : le faire • niar : vouloir • pa : but • ra : mon • Conséquence : • Difficulté de définir ce que l’on entend par « un mot »

  38. Pro-drop • Français : il pleut • Anglais : it rains • Italien : piove • Espagnol : llueve • Italien : Verrà Gianni / Gianni verrà • Français : Jean vient / *vient Jean mais : il est arrivé quelqu’un • Anglais: which book did you think that Mary read? *who did you think that read those books? • Français: quel livre crois-tu que Marie a lu? *qui crois-tu que a lu ces livres? • Italien: chi credi che verra?

  39. Ordre des constituants Ordre pourcentage exemples des langues SVO 42 anglais, edo, indonésien SOV 45 japonais, turc, quetchua VSO 9 zapotec, gallois VOS 3 totzil, malagasy OVS 1 hixkaryana OSV 0

  40. Structure en constituants vs marquage morphologique • Français : La sœur de Yann a retrouvé le petit chat noir • Warlpiri : La(SU) de Yann(SU) a retrouvé chat(OB) sœur(SU) petit(OB) noir(OB)

  41. récursivité • Récursivité évidente du système de branchement en syntagmes • un, un plus un, un plus un plus un, etc. • Marquage morphologique non récursif? • Allemand : • Der Vater des Schülers shämt sich • Der Vater schämt sich des Schülers

  42. L’ancien géorgien • igi sisxl-i saxl-isa-j m-is Saül-is-isa-j • le-nom sang-nom maison-gen-nom la-gen Saül-gen-gen-nom • N1-nom N2-gen-nom N3-gen2-nom - … - Nk-genk-nom

  43. à différencier du… sumérien • maison du roi (king’s house) • é lugal-ak • maison roi-GEN • dans la maison du roi • é lugal-ak-a • maison roi-GEN-LOC • dans la maison du frère du roi • é ses lugal-ak-ak-a • maison frère roi-GEN-GEN-LOC

  44. relativisation • Paul achète un livre que Jean a acquis • c’est grâce à ‘que’ que le deuxième argument de acquérir peut être partagé avec livre • ainsi que effectue un déplacement qui permet de rapprocher cet argument de la tête livre.

  45. Le SN un livre que Jean a acquis N’’ Det N’ un *** N livre I’’ que I’ SN Jean I V’’ a SN V’ t SN V acquis t’

  46. Le SN un livre que Jean a acquis N’’ Det N’ un a_acquis(Jean, y) & x = y *** N livre(x) a_acquis(Jean, y) I’’ que a_acquis(z, y) I’ SN Jean I V’’ a SN V’ z t SN V acquis t’ y

  47. Paul achète un livre que Jean a acquis • xachète(Paul, x) & livre(x) & a_acquis(Jean, x)

  48. commentaire • que transporte la variable qui tient lieu de deuxième argument du verbe enchâssé vers une position où elle devient visible pour le prédicat livre(x) • Le lien x = y résulte alors de la relation de gouvernement qui existe entre la position occupée par livre et celle occupée par que, et qui traduit la notion de proximité au sein d’un syntagme, • C’est le système mouvement-trace qui permet à un argument de se hisser à l’extérieur de son prédicat pour être visible depuis le prédicat supérieur.

  49. relativisation (2) • Tibétain : • J’ai acheté-NOM GEN chemise • nominalisateur + génitif

  50. Formation de questions • En oui/non : • Pierre est-il parti en vacances ? • Did Peter go in holidays ? • Fait-il beau là où tu es ? • Is the weather fine, at the place you are presently ? • Chinois: • ni shi faguo ren  ni shi faguo ren ma ? • tu es français  tu es français – interr (es-tu français ?) • Tibétain: • thep yö  thep yö-pä • tu as des livres  as-tu des livres ?

More Related