230 likes | 422 Views
SP1 : Transfert de technologie. Transfert des logiciels de la thèse de J. Cernocky G. Baudoin. Plan de la présentation. Fournitures prévues et planning Travail réalisé Contenu du CD-ROM Description des différentes étapes de traitement. Fournitures prévues et planning. T0+6 mois
E N D
SP1 : Transfert de technologie Transfert des logiciels de la thèse de J. Cernocky G. Baudoin Projet RNRT SYMPATEX
Plan de la présentation • Fournitures prévues et planning • Travail réalisé • Contenu du CD-ROM • Description des différentes étapes de traitement Projet RNRT SYMPATEX
Fournitures prévues et planning • T0+6 mois • Rapport technique • Démonstration du système de codage de base • Monolocuteur, synthèse LPC simple par concaténation, hors temps réel. • Système existant • Programmes en C sous LINUX ou UNIX. • Fichiers de commande shell et quelques uns en PERL. Projet RNRT SYMPATEX
Travail réalisé • Système transféré pour faciliter le portage sous Windows Visual C • Programmes en C ANSI sous LINUX Red-hat 6.1. • Fichiers de commandes tous en PERL. • Document de description et documentation des logiciels et scripts perl. • CD ROM avec logiciels, scripts, documentation, exemples. • Terminé fin février 2000, • Réalisé en partie à Brno en collaboration avec Jan Cernocky, Petr Motlicek et Y.-P. Nakache. Projet RNRT SYMPATEX
Contenu du CD-ROM • Contenu du CD-ROM • Logiciels (PROGS) et scripts perl (SCRIPTS) nécessaires pour réaliser les expériences de codage à très bas débit. • Extrait de la base de données BU radio corpus (DATA). • Résultats des expériences sur cet extrait (WORK). • Logiciels utilitaires : perl et emacs (WIN_SOFT). • Documentation sur les logiciels C et les scripts (DOC). • Publication générale • G. Baudoin, J. Cernocky, P. Gournay, G. Chollet. Codage de la parole à bas et très bas débit. Annales des télécommunications, n°55, à paraître en 2000. Projet RNRT SYMPATEX
Codage à très bas débit par indexation d’unités de taille variable • Approche segmentale nécessaire. • Pour des débits inférieurs à 500 bps, Il faut prendre en compte les dépendances inter-trames. • EX : LPC10 : 500bps spectre, 2000bps excitation. • Ensemble d’unités acoustiques obtenues automatiquement • Représentant de manière précise et concise les sons d’une langue. • Sans recourir à une base de donnée étiquetée phonétiquement. • Unités ALISP Automatic Language Independant Speech Processing. Projet RNRT SYMPATEX
Vocodeurs à très bas débits, phonétiques ou pseudo-phonétique • Codeur à reconnaissance-synthèse: • Effectue, dans la phase d’analyse, une reconnaissance d’unités acoustiques de codage • Linguistiques (phonèmes, transitions entre phonèmes,…) • Nécessite une base de données étiquetées • Unités acoustiques obtenues automatiquement par des techniques statistiques : codeur pseudo-phonétiques. • base de données non étiquetées. • Effectue au décodage la synthèse du signal de parole par concaténation d’unités de synthèse. Projet RNRT SYMPATEX
Analyse spectrale Codeur à très bas débit Dictionnaire d’unités de codage Dictionnaire d’unités de synthèse Parole originale parole synthétique Indice unité acoustique Synthèse par concaténation HNM, PSOLA Reconnaissance unité acoustique Analyse prosodique Paramètres de prosodie CODEUR DECODEUR Projet RNRT SYMPATEX
Description des différentes étapes de traitement • Préparation des données • Suppression des en-tête, retournement octets, découpage en fichiers courts, création de listes. • Apprentissage des unités de codage et de synthèse • Utilisation du vocodeur : Codage-décodage ou analyse-synthèse d’une phrase • Reconnaissance des unités de codage . • Synthèse par concaténation des unités de synthèse. Projet RNRT SYMPATEX
Apprentissage non supervisé des unités de codage • Analyse et Segmentation initiale du corpus d’apprentissage par décomposition temporelle. • Cibles spectrales et fonction d’interpolation (Atal, Bimbot) • Classification des segments par quantification vectorielle sur les cibles spectrales. 1ère transcription. • Modélisation des classes par HMM • Itération segmentation, apprentissage des HMM. • Raffinement des classes et modèles • Itération de la procédure segmentation-transcription par les HMM, ré-estimation des HMM. Projet RNRT SYMPATEX
Détermination des unités de codage, analyse, décomposition temporelle • Analyse spectrale • LPCC, trames 20 ms, déplacement 10 ms. • Soustraction du vecteur cepstral moyen pour minimiser l’influence des variations de conditions d’enregistrement. • Décomposition temporelle • Segmentation prenant en compte la co-articulation • Modélise une suite de vecteurs spectraux comme une suite de cibles spectrales reliées par des fonctions d’interpolation se recouvrant partiellement. Projet RNRT SYMPATEX
Décomposition temporelle 17 événements/s en moyenne Projet RNRT SYMPATEX
Classification des cibles de la décomposition temporelle • Après DT, base de données segmentée en événements de la DT (1 cible, 1 FI). • On regroupe les segments en 64 classes par Quantification vectorielle ->transcription • Le dictionnaire est appris sur les vecteurs spectraux au centre de gravité des FI. • La classification est faite en comparant les distances d’un segment aux différentes classes. • 1ère Transcription • f2b.sym, f2b.plim, f2b.seg,*.phn (3 colonnes). Projet RNRT SYMPATEX
Modélisation stochastique HMM des classes obtenues après DT et QV • Modélisation facilite reconnaissance, • Permet d’affiner le jeu d’unités de codage. • Quelques itérations (typiquement 5): • Apprentissage des modèles HMM, à partir d’une segmentation et d’une transcription du corpus. • Re-segmentation et transcription avec ces modèles. • Au fur à mesure, la vraisemblance des modèles et la cohérence acoustique des classes augmentent. • Logiciel HTK Projet RNRT SYMPATEX
a22 a33 a44 1 2 3 4 5 a12 a23 a34 a25 Topologie des modèles HMM 3 états émetteurs Modèle de langage : unigrammes, facteur de langage g. Observation T trames : 3 flux de paramètres indépendants et de mêmes poids : LPCC; DLPCC; D log(E). Pour chaque flux une loi gaussienne simple. Projet RNRT SYMPATEX
Allongement des unités de codage • Technique de Multigramme appliquée sur : • les séquences de symboles de la QV • Pour une unité de i symboles, 1 HMM à 2i+1 états • Beaucoup de HMM à entraîner. • Les séquences de symboles HMM. • Utilisation • Diminution du débit • Unités de synthèse. • Allongement du retard Projet RNRT SYMPATEX
Expériences et résultats • Essais sur le corpus Boston university Radio Corpus (anglais), Martin Ruzek (radio tchèque), CD audio en français. • Fe=16 000 Hz ou 11 025 Hz. • monolocuteur, 1 h de parole par locuteur. Projet RNRT SYMPATEX
Résultats codage de l’enveloppe spectrale et des unités de synthèse Projet RNRT SYMPATEX
Détermination des unités de synthèse • Dans chaque classe d’unité acoustique de codage, on choisit 8 représentants pour la synthèse. • Les 8 plus longs segments. • Pour coder un segment s attribué à une classe Ci, on compare par DTW le segment s aux 8 représentants de la classe. Projet RNRT SYMPATEX
Représentant A1 HMM A Représentant A8 Dictionnaire des modèles HMM des unités ALISP … Indice unité ALISP Analyse spectrale Détermination des unités de synthèse Choix unité de synthèse par DTW parole Reconnaissance HMM Indice unité de synthèse Pitch, énergie, temps Analyse prosodique Codage prosodie Codeur Projet RNRT SYMPATEX
Représentant A1 … Représentant A8 Indice ALISP Parole synthétique Synthèse par concaténation Choix unité de synthèse N° représentant de synthèse Paramètres de prosodie Décodeur Projet RNRT SYMPATEX