160 likes | 251 Views
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles. MIDL 29-30 nov 2004 Paris. Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS. Position du problème. Peut-on identifier une langue ou un dialecte à partir de la prosodie ?
E N D
Indices prosodiques caractérisant un style d'élocutionet ses variantes individuelles MIDL 29-30 nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker LIMSI CNRS
Position du problème • Peut-on identifier une langue ou un dialecte à partir de la prosodie ? • Il faut d'abord savoir de quel type de parole il s'agit • Problématique générale de la variabilité • Les contenus (ou types d'information) du signal de parole • le contenu linguistique (celui qui fait l'objet d'un code linguistique reconnu par une collectivité) • mais aussi, dans le même signal: • les caractéristiques physiques du locuteur: sexe, taille, âge … • ses caractéristiques psychiques et physiologiques • son origine linguistique, sa langue et son dialecte • le contexte de l'interaction parlée, l'interlocuteur supposé • les rôles socioculturels joués par chacun des interlocuteurs • les conditions acoustiques de la communication … • Tout cela se traduit par d'énormes variations prosodiques; Il faut savoir lesquelles sont pertinentes pour le problème posé
Priorités • identifier les contenus présents dans le signal • identifier les indices acoustiques ou leurs combinaisons qui servent de support à chaque contenu • un guide utile: la notion de style d'élocution, qui permet de catégoriser l'infinie diversité des situations de communication: • Exemples • commentaire sportif • cours en amphi • débat entre pairs • lecture à voix haute en ambiance scolaire • brève de comptoir • etc
Objectif et corpus • Caractériser un style d'élocution "lecture à voix haute" • même texte • ensemble homogène de lecteurs • mêmes conditions d'élocution • même consigne • Et ses variations • - existe-t-il une "réalisation moyenne" ? • - où se placent les variations individuelles ? Texte Les Français, qui consacrent une partie appréciable de leur journée à la poignée de main, passent également un temps considérable à se prier réciproquement d'entrer dans leurs maisons. Les uns prient les autres d'entrer, les autres jurent qu'ils n'en feront rien. Les premiers disent : "Moi non plus". Et, de fil en aiguille, les Français ont passé (environ) trois siècles et demi depuis Charlemagne sur le pas de leurs portes. On est même étonné d'en trouver quelques-uns chez eux. Extrait de: Pierre Daninos Les carnets du major Thompson Corpus Leblanc - 48 locutrices, étudiantes psycho Nanterre - 2 élocutions - texte présenté en un seul paragraphe séquence référence (07)
De l'approche phonétique à l'approche acoustique • L'objectif • comparer les indices prosodiques des 96 séquences alignées • Première approche: utiliser la transcription phonétique • Aligner chaque séquence sur sa transcription phonétique par reconnaissance automatique • Problème: trop de variations segmentales individuelles • pauses • transcription normative ou réaliste ? • quelles unités segmentales ? • Seconde approche: partir du seul signal acoustique • Le but étant l'étude de la prosodie, on ne s'intéresse qu'aux segments vocaliques et aux pauses • Alignement des séquences et mesure des indices prosodiques sont effectués sans référence à la transcription phonétique
Répartition des pauses • La majorité des locutrices observe 6 ou 7 pauses, correspondant aux principales ponctuations • respect majoritaire de la norme imposée par le texte Hors de cette norme chaque locutrice ajoute ou supprime des pauses, mais pas n'importe où • sur ponctuations secondaires • sur ruptures de sens • sur ruptures syntaxiques Le choix des pauses effectives est une manière d'interpréter le texte Pause: chûte du niveau sonore d'au moins 12 dB par rapport à la moyenne (en énergie) de la séquence, et durant plus que 1,8 fois la durée moyenne des Groupes Vocaliques, soit environ 300 ms. Valeurs non critiques, modulées en fonction du débit moyen de la locutrice
Noyaux et groupes vocaliques, indices prosodiques • Noyau vocalique NV • segment centré sur un maximum de la fonction d'énergie BF • (<1 kHz) évaluée sur fenêtre 50 ms. • limites à –3 dB • ce n'est pas une "voyelle phonétique" • Groupe vocalique GV • segment compris entre deux minima d'énergie BF, hors pauses • approximation: mi-distance de deux centres NV successifs • ce n'est pas une "syllabe phonétique" • Indices prosodiques (définis pour chaque GV) • F0 au centre du NV sur fenêtre 100 ms, en demi-tons/100 Hz • dF0 différence F0 (fin NV) – F0 (début NV) • intensité au centre du NV, en dB • Durée durée du GV
84.42 80 70 60 50 40 30 25.32 0 0 1 2 3 4 5 6 7 8 8.25075 Time (s) Noyaux et groupes vocaliques, indices prosodiques Exemple: début séquence 01 5000 Ici le spectrogramme de la séquence ci-dessus (début séquence 01 0 0 8.25075 Time (s) En bleu: intensité BF En rouge: F0 interpolé
Calcul d'une prosodie moyenne Choix d'une séquence de référence par écoute critique: écarter toute séquence entachée de défauts trop apparents (reprises, hésitations, erreurs de lecture, voix trop lente, trop rapide, accent régional...) Alignementde tous les tableaux de GV sur cette séquence de référence par programmation dynamique sur critères spectraux (8 mfcc) Moyennage des 96 tableaux alignés temporellement pour obtenir le tableau prosodique représentant la séquence moyenne (notion abstraite) Ne pas confondre séquence de référence, séquence moyenne, prototype stylistique Etiquetage (pour interprétation visuelle) Rétro-étiquetage possible: connaissant un étiquetage segmental de la séquence moyenne, on peut l'appliquer à toutes les séquences du corpus
F0 (st) dF0 (st) int (dB) dur (s) F0 double déclinaison - marqueur de fin de groupe - dF0 - corrélation int/F0 - évolution durée • Al • Q
Prosodie moyenne • Trois grands types de groupes prosodiques pour ce corpus • Grands groupes (entre deux pauses: "groupes de souffle" ?) • découpage visible sur tous les indices • double déclinaison (F0, intensité) • marqueur de fin de groupe, sur les derniers GV • Petits groupes: "mots prosodiques" ? • concerne un petit nombre de GV: 1 à 4 • se manifeste surtout dans F0 et durée • structure unitaire propre à la langue ou au dialecte ? • Groupes intermédiaires: "groupes de sens" ? • soumis à considérations linguistiques: syntaxe, sémantique, et à l'interprétation du texte par la locutrice • ces groupes intermédiaires peuvent évoluer selon l'interprétation, allant du mot prosodique au groupe de souffle
Variantes individuelles • Pour chaque indice, deux types de dissemblances entre séquences: • Décalage ou écart en moyenne: différence des moyennes de l'indice sur chaque séquence • Profil ou écart des valeurs: covariance, ou distance entre valeurs correspondantes (centrées) dans les deux séquences • Pour chacun des indices prosodiques on a défini deux mesures: • en décalage (DF0, DdF0, Dint, Ddur) • en profil (PF0, PdF0, Pint, Ddur) • Même chose pour la forme d'ensemble du spectre, par le biais des 4 premiers mfcc: Dcc1 … Dcc4, Pcc1 … Pcc4 • Décalages différences "statiques" entre séquences (F0 moyen, débit moyen, spectre à long terme…) indépendantes du contenu et de l'élocution • Profils différences "dynamiques" (évolution de F0, int, durée, forme spectrale), liées au contenu linguistique (ici: le même) et à l'élocution
Ddur Dint DF0 DdF0 Dcc1 Dcc2 Dcc3 Dcc4 16,1 17,8 13,6 33,5 16,5 12,1 13,2 14,5 Pdur Pint PF0 PdF0 Pcc1 Pcc2 Pcc3 Pcc4 17,8 24,8 14,7 23,3 24,5 16,3 20,8 16,0 décalage prosodique décalage spectral profil prosodique profil spectral 13,6 13,8 21,0 17,5 Cohérence des mesures Cohérence d'une mesure: différence des rangs (1 à 96) dans le classement de deux séquences jumelles (issues de la même locutrice) comparées à la séquence moyenne, pour l'indice ou l'ensemble d'indices considérés (chance 48) Cohérence obtenue avec chaque mesure prise isolément Cohérence obtenue avec chaque groupe de 4 mesures (3 dans le premier groupe) Remarque: la séquence (07) choisie comme référence pour l'alignement n'apparaît jamais comme la plus proche de la séquence moyenne, ce qui justifie a posteriori la méthode proposée
Exemples de variations Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais) et 40 (la plus éloignée - en trait fin) Les premiers disent: "Moi non plus". Et, de fil en aiguille… (52) (40)
Exemples de variations Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais) et 79 (la plus proche de la moyenne pour les mesures de profil prosodique - en trait fin) • Les premiers disent: "Moi non plus". Et, de fil en aiguille… • (52) (79) Noter que F0 ne suffit pas à expliquer les différences perçues, il faut aussi dF0 et durée
Conclusions • L'approche proposée • Vise à permettre une étude comparative de séquences ayant sensiblement le même contenu segmental • Et à mettre en correspondance des indices acoustiques avec des contenus (rôle de la perception) • Style d'élocution • Importance du placement des pauses (grands groupes) • Intérêt d'étudier la transition grands groupes groupes intermédiaires • Structures multi-indicielles des 3 types de groupes • Langue, dialecte • Voir du côté des mots prosodiques • Rôle des facteurs spectraux à approfondir (interférence avec l'aspect segmental)