110 likes | 219 Views
Tutoriel TAL des NFCE Journée ATALA 5 Juin 2004. Emilie Guimier De Neef. chui en fisic ta pa 1 id geeeniaaale 2 kdo pr ludo :-> a2m1 steph. Pré-traitement linguistique. Synthèse vocale. Je suis en physique t'as pas une idée de cadeau géniale pour ludo hahaha ! À demain Stèph.
E N D
Tutoriel TAL des NFCEJournée ATALA5 Juin 2004 Emilie Guimier De Neef
chui en fisic ta pa 1 id geeeniaaale 2 kdo pr ludo :->a2m1 steph Pré-traitement linguistique Synthèse vocale Je suis en physique t'as pas une idée de cadeau géniale pour ludo hahaha ! À demain Stèph 4. Un exemple de traitement automatique :Pré-traiter des SMS avant vocalisation
Plan • Architecture du système • L’analyseur de textes «TiLT» • Adaptations de TiLT au pré-traitement des SMS • Limites du pré-traitement • Démonstration du système
Architecture du système • Combinaison de 3 briques logicielles de FTR&D : • Prolix : identification de la langue • TiLT : analyse linguistique • CVOX : synthèse vocale • Le message SMS reçu est… • …envoyé à un serveur Prolix de reconnaissance de langue. • …pré-traité linguistiquement par TiLT (SMS français uniquement) • …envoyé à un serveur CVOX de synthèse vocale anglaise, allemande ou française
L'analyseur de textes TiLT Principales étapes et données :
Adaptations de TiLT au pré-traitement des SMS (1) • Objectif : améliorer/permettre la vocalisation des SMS • "corriger" les formes SMS même écrites phonétiquement • restituer certaines marques formelles importantes (apostrophes, tirets, majuscules etc) • repérer les smileys pour bloquer leur épellation
Adaptations de TiLT au pré-traitement des SMS (2) • Procédés d'écriture : • Abréviations dsl pr staprem / MDR le 6né • Recensement des formes les plus fréquentes (un millier environ) • Association à une/plusieurs formes expansées • Ecriture phonétique et par rébus: on se dbrouille / g ht du kfé • Données de segmentation adaptées (chiffres dans les mots) • Recensement des fomes les plus fréquentes (une centaine) • Modification du phonétiseur pour interprétation dynamique en mode correction phonétique • Troncation des mots : Veuillez m'appeler à ce numér • Correction de la troncature à 1 caractère • Agglutination de mots : jatend son cou 2fil • Adaptation du mode correctif séparation
Adaptations de TiLT au pré-traitement des SMS (3) • Marques émotionnelles : • Smileys : slt ;-> / pq tapel pa :( • Données de segmentation adaptées • Restitution sous forme de balises sonores • Modification expressive de la graphie : g u 16 en fisic suupppeeer • Développement d'un mode de correction tolérant à la répétition de caractères
Adaptations de TiLT au pré-traitement des SMS (4) • Corrections et abréviations génèrent une ambiguïté plus importante qu'en langue standard • L'absence de certaines marques formelles (apostrophes, signes de ponctuation, majuscules, tirets etc.) brouille les repères de la grammaire • Adaptation de la grammaire pour : • Affiner certaines descriptions (questions, mots réduits à une lettre) • Cerner des 'îlots de confiance' (salutations pour l'identification des noms propres etc.) • Décider contextuellement de l'interprétation d'une chaîne
Adaptations de TiLT au pré-traitement des SMS (4) • Mise en forme du message : • Elisions : J n en ai pa l droit • Décidée contextuellement à la restitution du message • Tirets : va t on se boir un verre? • Ajout de tirets dans des configurations syntaxiques particulières • Majuscule en début de nom propre : Bjr jean claude ca va?
Limites de l'approche • Tous les phénomènes ne sont pas traités : • Pas de procédés dynamiques pour tous les mécanismes d'écriture • Difficulté d'interprétation si cumul de procédés (agglutination de mots + écriture phonétique) • Segmentation des unités lexicales impossible en l'absence de séparateur • Difficulté augmente avec la longueur du message • …