Aix-MARSEC: un corpus, une méthodologie

Aix-MARSEC: un corpus, une méthodologie Caroline Bouzon, Cyril Auran & Daniel Hirst Laboratoire Parole et Langage, UMR 6057 CNRS Disponible sur http://www.lpl.univ-aix.fr/~EPGA/ Séminaire Prosodie, 20 novembre 2003

Aix-MARSEC : Introduction Idée reçue : « tout ce qui est rare est cher » Constat n°1: les corpus, notamment oraux, sont relativement rares Constat n°2: les corpus oraux transcrits et alignés sont très rares un corpus oral, un corpus transcrit, des outils, et une méthodologie … gratuits! Séminaire Prosodie, 20 novembre 2003

Plan Aix-MARSEC : les origines La méthodologie Aix-MARSEC 1. Phonétisation brute 2. Optimisation de la phonétisation 3. Alignement automatique 4. Autres niveaux d’analyse Perspectives et Conclusion Séminaire Prosodie, 20 novembre 2003

Aix-MARSEC Les origines Séminaire Prosodie, 20 novembre 2003

Aix-MARSEC : les origines MARSEC SEC Spoken English Corpus MAchine Readable SEC Séminaire Prosodie, 20 novembre 2003

Aix-MARSEC : les origines SEC: Spoken English Corpus 55 000 mots, 339 min. et 18 sec. Archives de la BBC (années 1980) 11 types d’enregistrement radio Parole naturelle (critère perceptif) 53 locuteurs (17 locutrices et 36 locuteurs) Transcription orthographique Annotation prosodique: 14 symboles de type tonetic stress marks Séminaire Prosodie, 20 novembre 2003

Aix-MARSEC : les origines MARSEC: MAchine Readable Spoken English Corpus Alignement temporel au niveau du mot et de l’unité intonative (mineure & majeure) Annotation prosodique: homogénéisation des symboles utilisés pour le SEC pour ne contenir que des symboles ASCII (G. Knowles & B. Williams) Séminaire Prosodie, 20 novembre 2003

14 symboles ASCII pour l’annotation prosodique : (Roach, 1994) • , low rise • ‘ low fall • ,\ (low rise-fall – not used) • \, low fall-rise • * stressed but unaccented • | minor intonation unit boundary • || major intonation unit boundary • _ low level • ~ high level • < step-down • > step-up • /’ (high) rise-fall • ‘/ high • \ high fall fall-rise • / high rise Aix-MARSEC : les origines Séminaire Prosodie, 20 novembre 2003

Aix-MARSEC : les origines Pré-traitements et homogénéisation du corpus Suppression des fichiers son défectueux ou étiquettes manquantes Conversion des fichiers étiquettes au format ‘textgrid’ (Praat) Vérification et correction des étiquettes de mot avec Praat (fenêtre minimale de correction: 50ms) Modification d’étiquettes dans 82 fichiers Marquage des fichiers modifiés par ajout de ‘mod’ dans le nom Séminaire Prosodie, 20 novembre 2003

Aix-MARSEC : les origines Pré-traitements: prédiction de la durée des phonèmes Campbell (1992) Séminaire Prosodie, 20 novembre 2003

Méthodologie Aix-MARSEC Séminaire Prosodie, 20 novembre 2003

Méthodologie Aix-MARSEC • Phonétisation brute • Optimisation de la phonétisation • Alignement automatique • Autres niveaux d’analyse • MOMEL et INTSINT Séminaire Prosodie, 20 novembre 2003

Méthodologie Aix-MARSEC : Phonétisation brute Séminaire Prosodie, 20 novembre 2003

Phonétisation brute Méthode par dictionnaires Fonctionnement général : Recherche automatique dans le dictionnaire de prononciation (‘Advanced Learners’ Dictionary’,Oxford University Press) 71 000 mots en entrée Traitement automatique : langage Perl Conversion en SAMPA Séminaire Prosodie, 20 novembre 2003

Phonétisation brute Fonctions PERL traitant : • Chiffres et combinaisons de lettres + chiffres • Suites de majuscules (abréviations) • Génitifs et les formes contractées • Pluriel/3ème pers. sing. & part. passé/prétérit réguliers Séminaire Prosodie, 20 novembre 2003

Phonétisation brute Utilisation de quatre dictionnaires différents : Dictionnaire "général" Advanced Learners’ Dictionary (formes de citation) Dictionnaire "mots complémentaires" (700 mots transcrits manuellement) Dictionnaire "formes problématiques"(hésitations, coupures) Dictionnaire "formes réduites" Séminaire Prosodie, 20 novembre 2003

Phonétisation brute Traitement des formes réduites But: améliorer la phonétisation Création d’un dictionnaire des formes réduites en anglais à partir de O’Connor (1967) et Faure (1975) Condition de réduction: absence de marque prosodique (TSM) Exemple: précédé d’une TSM, ‘/and -> transcrit /{nd/ non précédé d’une TSM, and -> transcrit /@nd/ (dictionnaire de formes réduites) Séminaire Prosodie, 20 novembre 2003

2. Dates (chiffres entre 1000 et 1999 traités comme des dates) Système de reconnaissance Phonétisation brute Problèmes non résolus • Doublons (mots avec deux entrées dans le dictionnaire) • Exemples: object, wind • Aucune solution automatique (pas d’accent lexical, 1er cas)… • … mais possibilité de différenciation avec un système de reconnaissance Séminaire Prosodie, 20 novembre 2003

Méthodologie Aix-MARSEC : Optimisation de la phonétisation Séminaire Prosodie, 20 novembre 2003

1) Méthode "brute" fondée sur l’extraction de lexique Récupération des formes de citation 2) L’oral est caractérisé par certains phénomènes de production (élisions, réductions, assimilations, métathèses, …) Nécessité de modéliser ces phénomènes pour générer une phonétisation plus proche du signal : optimisation de la phonétisation « phonologique » Optimisation de la phonétisation Séminaire Prosodie, 20 novembre 2003

Optimisation de la phonétisation • Utilisation de règles contraintes : • 1. Paramètres intonatifs • 2. Paramètres temporels • 3. Paramètres phonotactiques Séminaire Prosodie, 20 novembre 2003

Optimisation de la phonétisation 1. Paramètres intonatifs: présence / absence de TSM • 2. Paramètres temporels • Seuil minimal: 5ms • Seuils pour certains phonèmes (Klatt, 1979) • /t – d/= 55ms; /@/= 55ms; /T/= 110ms • Transformée z : z < 0  élision • z ≥ 0  pas d’élision 3. Paramètres phonotactiques Séminaire Prosodie, 20 novembre 2003

12 règles d’élision Optimisation de la phonétisation Paramètres phonotactiques : règles d’élision de phonèmes Littérature : Jones (1990), Wells (1990) et Gimson (réédité par Cruttenden, 1997) Observation d’un échantillon des données du corpus Séminaire Prosodie, 20 novembre 2003

Optimisation de la phonétisation Règles Phonèmes Contextes Contraintes Exemples 0 < 5ms 1 d and TSM and then 2 h he ('s/ll/d) him his her TSM in her case 3 t d {[t][d]} # {[t][d]} seuil - sauf '-ed' I've got to – {[ ][ ]} 4 t d seuil mustn't lose C + {[t][d]} # C j h 1 2 nasale homorganique + 5 p k glimpse – {[r][l][j]} {[p][k]} (#) C 6 l [O:] + [l] (#) C always 7 T C + [T] (#) [s] seuil twelfths 8 ptk bdg [s|z] + {[p|b][t|d][k|g]} (#) [s|z] tourists [@] + {[l][r]} (#) + 9 @ seuil - */rl/ camera voyelle réduite {[I][@]} 10 @ # [k@n] ('syll (syll )) # TSM - seuil confront [0…n] 11 @ {[k][p]} + [@] + [n] # seuil open Séminaire Prosodie, 20 novembre 2003

Optimisation de la phonétisation 4083 phonèmes élidés sur les 199.770 du corpus (≈ 2 %) Évaluation des règles d’élision de phonèmes (comparaison avec fichiers observés) Séminaire Prosodie, 20 novembre 2003

Méthodologie Aix-MARSEC : Alignement automatique Séminaire Prosodie, 20 novembre 2003

Alignement automatique On considère généralement (Di Cristo et Hirst, 1997) qu’il faut 16 h pour transcrire et aligner 1 minute de parole au niveau phonématique Soit 5280 heures pour les 5h30 du corpus (plus de 1 an et demi à raison de 10h par jour 7 jours par semaine) Séminaire Prosodie, 20 novembre 2003

Alignement automatique Méthode Alignement réalisé par Christophe Lévy et Pascal Nocéra du Laboratoire d’Informatique d’Avignon (cf. Nocéra et al., 2000) Modèles de Markov Cachés (HMMs) entraînés sur le corpus TIMIT Alignement par application de l’algorithme Viterbi contraint par la phonétisation (« force Viterbi ») Séminaire Prosodie, 20 novembre 2003

Alignement automatique Évaluation (1) Absence de biais lié aux élisions lors de la phase d’alignement (Tests de Wilcoxon et de Kolmogorov-Smirnov sous R) Séminaire Prosodie, 20 novembre 2003

Alignement automatique Évaluation (2) Séminaire Prosodie, 20 novembre 2003

Méthodologie Aix-MARSEC : Autres niveaux d’analyse Séminaire Prosodie, 20 novembre 2003

Autres niveaux d’analyse Regroupements et alignements automatiques Syllabes (Principe d’Attaque Maximale; Pulgram, 1970) Constituants syllabiques (Attaque, Noyau et Coda) Pieds Accentuels (Abercrombie, 1967) Unités rythmiques (Jassem, 1952) Mots Unités intonatives (mineures & majeures) Séminaire Prosodie, 20 novembre 2003

Autres niveaux d’analyse Autres traitements Application de l’algorithme MOMEL Codage des points cibles par l’algorithme INTSINT Utilisation au sein de Praat / Approche modulaire Séminaire Prosodie, 20 novembre 2003

En parlant d’outils… • Outils spécifiques Aix-MARSEC • Conversion de format (vers et depuis TextGrid, xml, représentation tabulaire, …) • Génération de données (traitements, sélection des niveaux, …) Outils généraux PROZED … Utilisation au sein de Praat / Approche modulaire Séminaire Prosodie, 20 novembre 2003

Perspectives & conclusion Séminaire Prosodie, 20 novembre 2003

Perspectives et Conclusion Amélioration de la phonétisation : Nouvelles règles (exemple: the) Affinement des contraintes Utilisation d’annotations syntaxiques (CLAWS et grammaire de propriétés) Suppression fondée sur l’alignement automatique Séminaire Prosodie, 20 novembre 2003

Perspectives et Conclusion Amélioration de l’alignement : Utilisation de modèles phonétiques plus adaptés Application itérative d’un algorithme de programmation dynamique (DTW) (cf. Di Cristo & Hirst, 1997) Séminaire Prosodie, 20 novembre 2003

Perspectives et Conclusion Aix-MARSEC : une méthodologie … Un système de phonétisation fiable (94,79 % de phonèmes prédits correctement) Un système portable (scripts multi-plateformes en langages Perl et Praat, dictionnaires modulaires) Un ensemble d’outils de génération de granularités variables (regroupements automatiques à divers niveaux) Séminaire Prosodie, 20 novembre 2003

Perspectives et Conclusion … et un corpus : - 5h30 de parole continue - 53 locuteurs - 11 types d’enregistrement radio - 195.687 phonèmes, 88.794 syllabes, 54.083 mots - alignement aux niveaux du phonème, constituant syllabique, syllabe, mot, pied, unité rythmique, cibles MOMEL/INTSINT, unité intonative (mineure / majeure) Séminaire Prosodie, 20 novembre 2003

Illustration

Merci de votre attention  Disponible sur le site: http://www.lpl.univ-aix.fr/~EPGA/ Séminaire Prosodie, 20 novembre 2003

Aix-MARSEC: un corpus, une méthodologie

Aix-MARSEC: un corpus, une méthodologie

Presentation Transcript

corpus linguistics: a general introduction

Corpus Linguistics Case study

FESTA DE CORPUS CHRISTI

Corpus Linguistics: Introduction

Les Données Textuelles

Corpus Linguistics

Corpus Christi School Council

Corpus Christi School Council

Initiative : Corpus de référence du français

Corpus analysis (1)

Math, Music, and the Brain (Biology 22020) Dec. 11, 2012

Corpus Stylistics

Publishing a Corpus

The METER Corpus: A corpus for analysing journalistic text reuse

Visão geral da Lingüística de Corpus

LA ACCION DE HABEAS CORPUS

Corpus 01

Cdr.KAYSER MARSEC COE Transformation Dep.Head

Corpus analysis (2)

Corpus Linguistics (6)

Using Corpus-based Research for Language Teaching and Learning