140 likes | 237 Views
Synthèse de la parole à partir de courriels et évaluation de la conversion graphème-phonème. Philippe Boula de Mareüil LIMSI-CNRS mareuil@limsi.fr. Introduction. Nouvelles formes de communication écrite (NFCE) courrier électronique (e-mail), forums… chat (IRC, ICQ…)
E N D
Synthèse de la parole à partir de courriels et évaluation de la conversion graphème-phonème Philippe Boula de Mareüil LIMSI-CNRS mareuil@limsi.fr Paris, 5 juin 2004
Introduction • Nouvelles formes de communication écrite (NFCE) • courrier électronique (e-mail), forums… • chat (IRC, ICQ…) • pages personnelles (blogs, webzines, wiki…) • nouveaux besoins en synthèse de la parole • applications embarquées (automotive) • multimédia • télécommunications Paris, 5 juin 2004
Introduction • Problèmes typiques des mails • absence d’accentuation, néologismes, et autres abréviations • fautes de frappe ou d’orthographe • mails sans majuscule (ou au contraire sans minuscules) • Difficultés pour recueillir un corpus de mails • séparer le corpus du message des entêtes et signatures • rendre anonymes les adresses par un générateur aléatoire Paris, 5 juin 2004
Architecture d’un système de synthèse vocale Paris, 5 juin 2004
Normalisation du texte Paris, 5 juin 2004
Prétraitements usuels • Signes non alphanumériques, sigles, symboles et autres abréviations • Nombres décimaux, ordinaux, écrits en chiffres romains… • Notations liées à l’informatique @portia.psyc.queensu.ca @nytud.hu @uasoiro.freenet.ua @physik.hu-berlin.de @elka.pw.edu.pl, @lettere.unibo.it Paris, 5 juin 2004
État de l’art pour le français • Le Mail Itineris (France Télécom R&D) • Dial & play(Elan) Paris, 5 juin 2004
Le système d’Elan • filtre les entêtes et les séparateurs répétés plus de 2 fois • opère une réaccentuation partielle • prend en compte les heures, les adresses électroniques… Ex. : ([01]?[0-9]|2[0-4]):[0-5][0-9] [[:alnum:]][[:alnum:].-]*[[:alnum:]]@[[:alnum:]][[:alnum:].-]*[[:alnum:]] où [:alnum:] désigne « alphanumérique » et où les parenthèses délimitent les arguments du « ou » (|). • épelle la 1re consonne de pnom@adresse.ll si le groupe pn n’est pas attesté en début de mot, et épelle le suffixe composé de 2 lettres Paris, 5 juin 2004
Le système d’Elan • peut être paramétré pour lire >, @... • traite les items spécifiques comme @+, :) () • peut tirer profit de la forme isolée des signatures (pour les numéros de téléphone, les codes postaux) • prévoit de décrire les documents au format HTML (ex. les énumérations) • détecte la langue du message sur la base des 200 mots les plus fréquents, et lance le moteur de synthèse correspondant Paris, 5 juin 2004
Évaluation de la conversion graphème-phonème (GP) • Le volet EvaSy du projet Technolangue EVALDA : évaluation de la synthèse de la parole à partir du texte en français corpus en cours de construction au DELIC, réutilisable dans des études futures 2 tâches envisagées pour la conversion GP : - liste de noms propres - courriers électroniques • L’ARC ILOR B3 de la campagne AUPELF Paris, 5 juin 2004
Problèmes spécifiques aux mails ? Delphine m’a transmis vos questions. Voici quelques éléments de réponse. /@|/ /o|O/ /e|E/ /@z|z|/ /e|E/ /e|E/ @|/… Question des variantes abréviations épellation (ex. qqch, bcp, ds, ns, pb) g pour « j’ai » /e/ c important pour « c’est important » /se pt/ (pas de liaison) vs pour « vous » /ves/ (conflit homonymique avec « versus ») Même la dégradation provenant d’absence de diacritiques ne représente qu’un faible pourcentage des erreurs observées. Paris, 5 juin 2004
Problèmes spécifiques aux mails ? Delphine m’a transmis vos questions. Voici quelques éléments de réponse. /@|/ /o|O/ /e|E/ /@z|z|/ /e|E/ /e|E/ @|/… Question des variantes abréviations épellation (ex. qqch, bcp, ds, ns, pb) g pour « j’ai » /e/ c important pour « c’est important » /se pt/ (pas de liaison) vs pour « vous » /ves/ (conflit homonymique avec « versus ») Même la dégradation provenant d’absence de diacritiques ne représente qu’un faible pourcentage des erreurs observées. Paris, 5 juin 2004
Problèmes spécifiques aux mails ? Delphine m’a transmis vos questions. Voici quelques éléments de réponse. /@|/ /o|O/ /e|E/ /@z|z|/ /e|E/ /e|E/ @|/… Question des variantes abréviations épellation (ex. qqch, bcp, ds, ns, pb) g pour « j’ai » /e/ c important pour « c’est important » /se pt/ (pas de liaison) vs pour « vous » /ves/ (conflit homonymique avec « versus ») Même la dégradation provenant d’absence de diacritiques ne représente qu’un faible pourcentage des erreurs observées. Paris, 5 juin 2004
Conclusion Évaluation coûteuse plus de 99 % de mots bien prononcés par le meilleur système, sur des textes journalistiques majorité d’erreurs provenant des noms propres Autres situations : Audiotel, alerte de bord, bulletins météo ou circulation, textes de droit, bibliographies, pages Web, manuels utilisateurs, recettes de cuisine, petites annonces, horoscopes, articles de bourse… plus d’erreurs potentielles Paris, 5 juin 2004