1 / 41

Aix-MARSEC: un corpus, une méthodologie

Aix-MARSEC: un corpus, une méthodologie. Caroline Bouzon, Cyril Auran & Daniel Hirst. Laboratoire Parole et Langage, UMR 6057 CNRS. Disponible sur http://www.lpl.univ-aix.fr/~EPGA/. Séminaire Prosodie, 20 novembre 2003. Aix-MARSEC :. Introduction.

stuart
Download Presentation

Aix-MARSEC: un corpus, une méthodologie

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Aix-MARSEC: un corpus, une méthodologie Caroline Bouzon, Cyril Auran & Daniel Hirst Laboratoire Parole et Langage, UMR 6057 CNRS Disponible sur http://www.lpl.univ-aix.fr/~EPGA/ Séminaire Prosodie, 20 novembre 2003

  2. Aix-MARSEC : Introduction Idée reçue : « tout ce qui est rare est cher » Constat n°1: les corpus, notamment oraux, sont relativement rares Constat n°2: les corpus oraux transcrits et alignés sont très rares un corpus oral, un corpus transcrit, des outils, et une méthodologie … gratuits! Séminaire Prosodie, 20 novembre 2003

  3. Plan Aix-MARSEC : les origines La méthodologie Aix-MARSEC 1. Phonétisation brute 2. Optimisation de la phonétisation 3. Alignement automatique 4. Autres niveaux d’analyse Perspectives et Conclusion Séminaire Prosodie, 20 novembre 2003

  4. Aix-MARSEC Les origines Séminaire Prosodie, 20 novembre 2003

  5. Aix-MARSEC : les origines MARSEC SEC Spoken English Corpus MAchine Readable SEC Séminaire Prosodie, 20 novembre 2003

  6. Aix-MARSEC : les origines SEC: Spoken English Corpus 55 000 mots, 339 min. et 18 sec. Archives de la BBC (années 1980) 11 types d’enregistrement radio Parole naturelle (critère perceptif) 53 locuteurs (17 locutrices et 36 locuteurs) Transcription orthographique Annotation prosodique: 14 symboles de type tonetic stress marks Séminaire Prosodie, 20 novembre 2003

  7. Aix-MARSEC : les origines MARSEC: MAchine Readable Spoken English Corpus Alignement temporel au niveau du mot et de l’unité intonative (mineure & majeure) Annotation prosodique: homogénéisation des symboles utilisés pour le SEC pour ne contenir que des symboles ASCII (G. Knowles & B. Williams) Séminaire Prosodie, 20 novembre 2003

  8. 14 symboles ASCII pour l’annotation prosodique : (Roach, 1994) • , low rise • ‘ low fall • ,\ (low rise-fall – not used) • \, low fall-rise • * stressed but unaccented • | minor intonation unit boundary • || major intonation unit boundary • _ low level • ~ high level • < step-down • > step-up • /’ (high) rise-fall • ‘/ high • \ high fall fall-rise • / high rise Aix-MARSEC : les origines Séminaire Prosodie, 20 novembre 2003

  9. Aix-MARSEC : les origines Pré-traitements et homogénéisation du corpus Suppression des fichiers son défectueux ou étiquettes manquantes Conversion des fichiers étiquettes au format ‘textgrid’ (Praat) Vérification et correction des étiquettes de mot avec Praat (fenêtre minimale de correction: 50ms) Modification d’étiquettes dans 82 fichiers Marquage des fichiers modifiés par ajout de ‘mod’ dans le nom Séminaire Prosodie, 20 novembre 2003

  10. Aix-MARSEC : les origines Pré-traitements: prédiction de la durée des phonèmes Campbell (1992) Séminaire Prosodie, 20 novembre 2003

  11. Méthodologie Aix-MARSEC Séminaire Prosodie, 20 novembre 2003

  12. Méthodologie Aix-MARSEC • Phonétisation brute • Optimisation de la phonétisation • Alignement automatique • Autres niveaux d’analyse • MOMEL et INTSINT Séminaire Prosodie, 20 novembre 2003

  13. Méthodologie Aix-MARSEC : Phonétisation brute Séminaire Prosodie, 20 novembre 2003

  14. Phonétisation brute Méthode par dictionnaires Fonctionnement général : Recherche automatique dans le dictionnaire de prononciation (‘Advanced Learners’ Dictionary’,Oxford University Press) 71 000 mots en entrée Traitement automatique : langage Perl Conversion en SAMPA Séminaire Prosodie, 20 novembre 2003

  15. Phonétisation brute Fonctions PERL traitant : • Chiffres et combinaisons de lettres + chiffres • Suites de majuscules (abréviations) • Génitifs et les formes contractées • Pluriel/3ème pers. sing. & part. passé/prétérit réguliers Séminaire Prosodie, 20 novembre 2003

  16. Phonétisation brute Utilisation de quatre dictionnaires différents : Dictionnaire "général" Advanced Learners’ Dictionary (formes de citation) Dictionnaire "mots complémentaires" (700 mots transcrits manuellement) Dictionnaire "formes problématiques"(hésitations, coupures) Dictionnaire "formes réduites" Séminaire Prosodie, 20 novembre 2003

  17. Phonétisation brute Traitement des formes réduites But: améliorer la phonétisation Création d’un dictionnaire des formes réduites en anglais à partir de O’Connor (1967) et Faure (1975) Condition de réduction: absence de marque prosodique (TSM) Exemple: précédé d’une TSM, ‘/and -> transcrit /{nd/ non précédé d’une TSM, and -> transcrit /@nd/ (dictionnaire de formes réduites) Séminaire Prosodie, 20 novembre 2003

  18. 2. Dates (chiffres entre 1000 et 1999 traités comme des dates) Système de reconnaissance Phonétisation brute Problèmes non résolus • Doublons (mots avec deux entrées dans le dictionnaire) • Exemples: object, wind • Aucune solution automatique (pas d’accent lexical, 1er cas)… • … mais possibilité de différenciation avec un système de reconnaissance Séminaire Prosodie, 20 novembre 2003

  19. Méthodologie Aix-MARSEC : Optimisation de la phonétisation Séminaire Prosodie, 20 novembre 2003

  20. 1) Méthode "brute" fondée sur l’extraction de lexique Récupération des formes de citation 2) L’oral est caractérisé par certains phénomènes de production (élisions, réductions, assimilations, métathèses, …) Nécessité de modéliser ces phénomènes pour générer une phonétisation plus proche du signal : optimisation de la phonétisation « phonologique » Optimisation de la phonétisation Séminaire Prosodie, 20 novembre 2003

  21. Optimisation de la phonétisation • Utilisation de règles contraintes : • 1. Paramètres intonatifs • 2. Paramètres temporels • 3. Paramètres phonotactiques Séminaire Prosodie, 20 novembre 2003

  22. Optimisation de la phonétisation 1. Paramètres intonatifs: présence / absence de TSM • 2. Paramètres temporels • Seuil minimal: 5ms • Seuils pour certains phonèmes (Klatt, 1979) • /t – d/= 55ms; /@/= 55ms; /T/= 110ms • Transformée z : z < 0  élision • z ≥ 0  pas d’élision 3. Paramètres phonotactiques Séminaire Prosodie, 20 novembre 2003

  23. 12 règles d’élision Optimisation de la phonétisation Paramètres phonotactiques : règles d’élision de phonèmes Littérature : Jones (1990), Wells (1990) et Gimson (réédité par Cruttenden, 1997) Observation d’un échantillon des données du corpus Séminaire Prosodie, 20 novembre 2003

  24. Optimisation de la phonétisation Règles Phonèmes Contextes Contraintes Exemples 0 < 5ms 1 d and TSM and then 2 h he ('s/ll/d) him his her TSM in her case 3 t d {[t][d]} # {[t][d]} seuil - sauf '-ed' I've got to – {[ ][ ]} 4 t d seuil mustn't lose C + {[t][d]} # C j h 1 2 nasale homorganique + 5 p k glimpse – {[r][l][j]} {[p][k]} (#) C 6 l [O:] + [l] (#) C always 7 T C + [T] (#) [s]  seuil twelfths 8 ptk bdg [s|z] + {[p|b][t|d][k|g]} (#) [s|z] tourists [@] + {[l][r]} (#) + 9 @ seuil - */rl/ camera voyelle réduite {[I][@]} 10 @ # [k@n] ('syll (syll )) #  TSM - seuil confront [0…n] 11 @ {[k][p]} + [@] + [n] # seuil open Séminaire Prosodie, 20 novembre 2003

  25. Optimisation de la phonétisation 4083 phonèmes élidés sur les 199.770 du corpus (≈ 2 %) Évaluation des règles d’élision de phonèmes (comparaison avec fichiers observés) Séminaire Prosodie, 20 novembre 2003

  26. Méthodologie Aix-MARSEC : Alignement automatique Séminaire Prosodie, 20 novembre 2003

  27. Alignement automatique On considère généralement (Di Cristo et Hirst, 1997) qu’il faut 16 h pour transcrire et aligner 1 minute de parole au niveau phonématique Soit 5280 heures pour les 5h30 du corpus (plus de 1 an et demi à raison de 10h par jour 7 jours par semaine) Séminaire Prosodie, 20 novembre 2003

  28. Alignement automatique Méthode Alignement réalisé par Christophe Lévy et Pascal Nocéra du Laboratoire d’Informatique d’Avignon (cf. Nocéra et al., 2000) Modèles de Markov Cachés (HMMs) entraînés sur le corpus TIMIT Alignement par application de l’algorithme Viterbi contraint par la phonétisation (« force Viterbi ») Séminaire Prosodie, 20 novembre 2003

  29. Alignement automatique Évaluation (1) Absence de biais lié aux élisions lors de la phase d’alignement (Tests de Wilcoxon et de Kolmogorov-Smirnov sous R) Séminaire Prosodie, 20 novembre 2003

  30. Alignement automatique Évaluation (2) Séminaire Prosodie, 20 novembre 2003

  31. Méthodologie Aix-MARSEC : Autres niveaux d’analyse Séminaire Prosodie, 20 novembre 2003

  32. Autres niveaux d’analyse Regroupements et alignements automatiques Syllabes (Principe d’Attaque Maximale; Pulgram, 1970) Constituants syllabiques (Attaque, Noyau et Coda) Pieds Accentuels (Abercrombie, 1967) Unités rythmiques (Jassem, 1952) Mots Unités intonatives (mineures & majeures) Séminaire Prosodie, 20 novembre 2003

  33. Autres niveaux d’analyse Autres traitements Application de l’algorithme MOMEL Codage des points cibles par l’algorithme INTSINT Utilisation au sein de Praat / Approche modulaire Séminaire Prosodie, 20 novembre 2003

  34. En parlant d’outils… • Outils spécifiques Aix-MARSEC • Conversion de format (vers et depuis TextGrid, xml, représentation tabulaire, …) • Génération de données (traitements, sélection des niveaux, …) Outils généraux PROZED … Utilisation au sein de Praat / Approche modulaire Séminaire Prosodie, 20 novembre 2003

  35. Perspectives & conclusion Séminaire Prosodie, 20 novembre 2003

  36. Perspectives et Conclusion Amélioration de la phonétisation : Nouvelles règles (exemple: the) Affinement des contraintes Utilisation d’annotations syntaxiques (CLAWS et grammaire de propriétés) Suppression fondée sur l’alignement automatique Séminaire Prosodie, 20 novembre 2003

  37. Perspectives et Conclusion Amélioration de l’alignement : Utilisation de modèles phonétiques plus adaptés Application itérative d’un algorithme de programmation dynamique (DTW) (cf. Di Cristo & Hirst, 1997) Séminaire Prosodie, 20 novembre 2003

  38. Perspectives et Conclusion Aix-MARSEC : une méthodologie … Un système de phonétisation fiable (94,79 % de phonèmes prédits correctement) Un système portable (scripts multi-plateformes en langages Perl et Praat, dictionnaires modulaires) Un ensemble d’outils de génération de granularités variables (regroupements automatiques à divers niveaux) Séminaire Prosodie, 20 novembre 2003

  39. Perspectives et Conclusion … et un corpus : - 5h30 de parole continue - 53 locuteurs - 11 types d’enregistrement radio - 195.687 phonèmes, 88.794 syllabes, 54.083 mots - alignement aux niveaux du phonème, constituant syllabique, syllabe, mot, pied, unité rythmique, cibles MOMEL/INTSINT, unité intonative (mineure / majeure) Séminaire Prosodie, 20 novembre 2003

  40. Illustration

  41. Merci de votre attention  Disponible sur le site: http://www.lpl.univ-aix.fr/~EPGA/ Séminaire Prosodie, 20 novembre 2003

More Related