1 / 73

TAL (Traitement automatique des langues)

TAL (Traitement automatique des langues). Présenté par: L.BERDJEGHLOUL. Sommaire. Introduction à TAL Traduction Automatique Correction automatique Recherche d’information et fouille de texte Résumé automatique Reconnaissance vocale Synthèse vocale Conclusion et bibliographie.

venecia
Download Presentation

TAL (Traitement automatique des langues)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

  2. Sommaire • Introduction à TAL • Traduction Automatique • Correction automatique • Recherche d’information et fouille de texte • Résumé automatique • Reconnaissance vocale • Synthèse vocale • Conclusion et bibliographie

  3. Introduction à TAL

  4. Définition • Application des programmes et techniques informatiques sur le langage naturel [Wikipedia] • « Le TAL s’intéresse aux traitements informatisés mettant en jeu du matériau linguistique. » (Jacquemin & Zweigenbaum 2000). TAL Informatique Linguistique Intelligence Artificielle

  5. Applications TAL • Traduction automatique • Correction automatique • Recherche de l’information et Fouille de texte • Résumé automatique de texte • Synthèse de la parole • Reconnaissance vocale • …etc.

  6. Traduction automatique

  7. Définition • Premier domaine de TAL (1950) • TA a pour entrée un texte "t1", ou texte source écrit dans une langue « L1 » ou langue cible. • TA a pour sortie un texte "t2" ou texte traduit écrit dans une langue « L2 » ou langue cible • Exemples: • SYSTRAN • ALPS • Translator

  8. Historique • 1950: • Traduction mot à mot • 1970: • Moteur de traduction: Systran • 1990: • Systèmes à mémoire de traduction

  9. Méthodes • TA : Traduction automatique • Traduire entièrement un texte sans intervention de l’humain • TAO : Traduction assistée par ordinateur • L’humain traduit, avec l’aide du support informatique

  10. Difficultés • Écueils linguistiques propres à la langue naturelle • Ambiguïtés • Lexicales • Syntaxiques • Sémantique • Nécessité du contexte ! Mais comment le représenter informatiquement ?

  11. Techniques • Mot à mot + arrangement de surface • Syntagmes + arrangement de surface • Dictionnaire (ou base de données) • Régles • Alignement de corpus • Meilleure prise en compte du contexte • Réalisations linguistiques « attestées »

  12. Évaluation des logiciels TA • Quelques campagnes d’évaluation existantes : • OpenMT (Open Machine Translation,NIST) • CESTA (Technolangue) • Tâche à accomplir : traduction d’un texte d’une langue source vers une langue cible • Protocole : on donne un texte au système, on compare le résultat (texte candidat) à une traduction faite par l’humain (texte référent), et on attribue une note • Ressources • Textes en langue source • Traduction référence pour chaque texte

  13. Eurotra • La France participe actuellement à un projet expérimental de Traduction Automatique de grande envergure, le projet "Eurotra". • lancé vers 1975 • objectif de mettre au point un système informatique multilingue capable de traduire des textes relatifs au fonctionnement de la Communauté Européenne depuis - et vers - chacune des langue de la Communauté : anglais, allemand, danois, français, espagnol, grec, italien, néerlandais, portugais, soit 72 couples de langues.

  14. Correction automatique

  15. Correction automatique • Correcteur orthographique vs grammatical 1. Orthographe d’usage ou lexicale • écriture du mot en lui-même, sans considération des rapports qu’il entretient avec le reste de la phrase – ex. fôte, ortografe, lappin, etc. 2. Orthographe grammaticale partie qui dépend des relations grammaticales – accords : des faute d’orthographe, nous sommes venu – conjugaisons : je vous aimez, nous avons manger – homographes grammaticaux : c’est – ces –ses, à – a, etc.

  16. Techniques • Distinguer Vérification (détection des erreurs potentielles) – Approche statistique de la détection – Consultation de dictionnaires • Correction (suggestions ordonnées pour corriger l’erreur identifiée)

  17. Techniques : distance lexicographique • Calcul du nombre minimum d’insertion, suppression et substitution de lettres nécessaires pour transformer un mot en un autre: – Suppression : beauoup – Insertion : beazcoup – Substitution : bezucoup – Interversion : baeucoup • Puis vérification au dictionnaire • Principe de base: les mots les plus proches seront • proposés Exemple: – *Prèferrer préférer (distance=1) puis préféré, préfère (distance=2) puis préférée (distance=3) Exemple: prèferre

  18. Techniques : réinterprétation phonétique • Algorithme: 1. mot inconnu  phonétiseur  transcription phonétique (ex.*puit /pyi/) 2. transcription phonétique = clé pour rechercher dans dictionnaire toutes les orthographes pour cette séquence de sons 3. si aucun mot n’est trouvé avec la transcription phonétique entière, quels mots orthographiques sont proches de la chaîne phonétique? 4. on propose comme correction le(s) mot(s) ainsi réinterprété(s) (puis, puits)

  19. Evaluation

  20. caractéristiques • L’analyse en temps réel • Attirer l’attention de l’utilisateur afin de corriger Des propositions de correction • L’utilisateur peut être amener à compléter le dictionnaire intégré (noms propres) • Spécifiés de la langue: • Anglais: Les mots s’écrivent toujours de la même façon

  21. Antidote • Antidote est un logiciel de correction grammaticale et d’aide à la rédaction en français qui réunit : • un correcteur : fait une analyse par phrase, souligne les erreurs et propose des corrections. • dix dictionnaires: pour les définitions ,synonymes,antonymes,… • Dix guides linguistiques: pour la syntaxe, ponctuation,…

  22. Antidote • Le prisme de révision: pour améliorer le contenu et le contenu • Filtre de style: phrases longues • Filtre pour l’abréviation

  23. Recherche de l’information et fouille de texte

  24. Définitions • Définition:retrouver des documents textuels répondant à un besoin d’information spécifié par une requête • recherche d'information : « Ensemble des méthodes, procédures et techniques permettant, en fonction de critères de recherche propres à l’usager, de sélectionner l’information dans un ou plusieurs fonds de documents plus ou moins structurés ». • recherche de l'information : « Ensemble des méthodes, procédures et techniques ayant pour objet d’extraire d’un document ou d’un ensemble de documents les informations pertinentes ».

  25. Méthodes de RI • Deux aspects: • Indexation des corpus • l'interrogation du fonds documentaire ainsi constitué. • Les étapes de la RI • Prétraitement: indexation du document • Recherche: l’approche ensembliste (SQL) • Mesures: pour sélectionner les meilleurs documents • Prise en compte de l'utilisateur

  26. Moteur de recherche • Le modèle de l’Information Retrieval : • Constitué de l’usager,la BDD des documents,et le spécialiste de l’information • Un moteur de recherche est un logiciel permettant de retrouver des ressources, constitué des étapes: • L’exploration • Indexation • Recherche

  27. Fouille de Texte • définition: extraction des connaissances dans des textes • Constituée des deux étapes: • Analyse:reconnaître les mots, les phrases • Interprétation de l’analyse:pour faire la sélection • Exemple: classification des courriers en spams

  28. Architecture KENiA® : Knowledge Extraction and Notification Architecture • développée dans le langage Java en tenant compte de techniques et de ressources exclusivement linguistiques (aucun appel à la statistique)

  29. Résumé automatique

  30. Résumé automatique (Définition) • Une transformation réductrice d’un texte source vers un résumé par compression du contenu à l’aide d’une sélection et/ou généralisation de ce qui est important dans le texte source.

  31. Fonction AutoSummarize de MS Office

  32. Caractéristiques d’un résumé • Indicatif ou Informatif • Indicatif: indique la nature du texte • Informatif: tente de se substituer au texte • Extrait ou abrégé • Extrait: phrases ou passages tirés du texte • Abrégé: reformule, compresse le texte • Court ou long • Taux de compression =

  33. Mécanique de construction d’un résumé • Document → Repr. interne du document • Repr. interne du document→ Repr. interne du résumé • Repr. interne du résumé → Texte du résumé

  34. Facteurs à considérer • Facteurs d’entrée: • Forme: structure, type de langue,… • Type de sujet: ordinaire, spécialisé. • Facteurs d’intentions: • Audience: ciblée, non ciblée • Utilisation: Tache (recherche, sommaire,…) • Facteurs de sortie: • Contenu: tous le sujet ou bien le sujet central • Style: indicatif, informatif,..

  35. Approches étalon • Approche aléatoire • On sélectionne n phrases au hasard dans le document • Approche en-tête • On sélectionne les n premières phrases du document

  36. Approche basée sur la RI • Luhn 1958 • Extrait = phrases significatives • Une phrase significative contient des mots significatifs (mots-clés) • Mots significatifs = entre A et B

  37. Approches basée sur la structure du texte • Edmundson 69 • Mots-repères (cues) • Mots-bonus: greatest, significant, … • Mots-malus: hardly, impossible, … • Mots-titre • Mots-clés se trouvant dans le titre et les sous-titres

  38. Approches basée sur la structure du texte • Positionnement • Début du texte • Fin du texte • Première phrase d’un paragraphe • Dernière phrase d’un paragraphe • Toutes les méthodes! • 1Mots-repère + 2Mots-clés + 3Mots-titre + 4Positionnement

  39. Évaluation (Edmundson) • Corpus d’entraînement avec des extraits sélectionnés manuellement (compression 25%) • Comparaison entre les résumés obtenus manuellement et automatiquement

  40. Exemple • Pertinence Summarizer

  41. Système de traduction automatique du langage texto

  42. Système de traduction automatique du langage texto • Proposé à Université de Franche-Comté – Besançon – FRANCE • Apparition du langage texto avec le développement des nouvelles formes de communication écrite : • Sur internet : chat, forum de discussion, courrier électronique (e-mail) • Sur téléphone portable : sms ( En 2003 : 8 milliards de SMS envoyés )

  43. Le langage texto : caractéristiques • simplification de la langue • une situation de communication particulière nécessitant une certaine précision de langage et une rapidité de réponse • Objectif: • Être concis et compris • Besoin d’un traducteur et correcteur automatique

  44. Traduction automatique • Utilité d'un tel système : • Plusieurs niveaux d'utilisateurs : novice, expert. (sur les 8 milliards de SMS envoyés en 2003, 75% l’ont été par les 8-24 ans. Les utilisateurs qui en envoient le plus sont les 8-15 ans : 55 textos par mois et par personne. [Que choisir, déc. 2003] ) • Connaître les nouvelles tendances de troncation, de symboles utilisés. • Si on ne connait pas la “norme” alors difficile de lire le texto : • gain de temps à écrire • perte de temps à déchiffrer • perte de temps à déchiffrer

  45. Traduction automatique • Intérêt d'un traducteur automatique • C T ki ? --> c'était qui ? • kestufé ? --> qu'est-ce que tu fais ? • Publicité pour Nokia, 2002 :

  46. La démarche • Bi-directionnel : français-texto / texto-français • Architecture générale • Trois étapes : • 1 : lecture du texte source • 2 : langage pivot • 3 : génération du texte cible

  47. La démarche • Etape 1 : Lecture du texte source • L'utilisateur entre son texte : • Soit sous forme texto : • HT du p1 E D poiro (acheter du pain et des poireaux) • Soit en français : • J'ai une bonne idée (G 1 bon ID)

  48. La démarche • Etape 2 : Langage pivot • Transcription à l'aide d'un système de règles • Utilisation d'un langage pivot adéquat

  49. La démarche • Etape 3 : Génération du texte cible • A partir du langage pivot : • Système de règles pour générer le texte • Système de validation des formes produites • Pour sms-français : désambiguïsation lexico-syntaxique et sémantique • Pour français-sms : plusieurs productions sont possibles (ce qui correspond à la réalité)

  50. Exemple • Phrase de départ : G 1 ID • Langage pivot : • G –> Ze • 1 –> U~/ yn yn@ • ID –> ide • Génération du Français : • Ze –> jé, jet, jei, jai, jais, jay, j'é, j'ai... • U~/ –> un, ein, ain, in... • yn –> une, hune... • Yn@ –> une, hune... • Ide –> idé, idée, idai...

More Related