370 likes | 744 Views
Réalisation d’un Framework pour la reconnaissance de la parole. Plans. Présentation du projet Contexte Objectif État de l’art Principe Traitement du Signal Modèle de reconnaissance de la parole Réalisation de chaînes de reconnaissance de la parole Les chaînes implémentées
E N D
Réalisation d’un Framework pour la reconnaissance de la parole
Plans • Présentation du projet • Contexte • Objectif • État de l’art • Principe • Traitement du Signal • Modèle de reconnaissance de la parole • Réalisation de chaînes de reconnaissance de la parole • Les chaînes implémentées • Tests et résultats • Conclusion et perspectives
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Contexte • Description du projet • Définition d’un framework • Les domaines de recherches de la reconnaissance automatique de la parole • Infrastructure • Un logiciel client générant des chaînes à partir de règles en prolog • Prise en charge des chaînes par le framework pour apprentissage et test
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Objectifs • Implémentation de chaînes de reconnaissance de la parole • Ensemble de bibliothèques et de conventions • Développement rapide • Facilité de maintenance • Souplesse et Évolutivité • Design Pattern • Traits et politiques
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Principe • Présentation • Un champ d’utilisation vaste • De nombreux problèmes • Travaux de recherches actifs • Reconnaissance des formes
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Principe • Prétraitement • Découpage en trames de courtes durées • Obtention d’un signal quasi stationnaire • Utilisation de fenêtres spécifiques (Hamming) • Extraction des caractéristiques • Méthodes basées sur l’analyse spectrale • Méthodes d’audition • Sélection des caractéristiques • Réduire la dimension des vecteurs • Minimiser l’entropie (informations redondantes, non significatives)
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Principe • Classification • Classification par méthodes probabilistes • Recherche de formes similaires • Construction de surfaces de décision dans l’espace des caractéristiques • Traitement automatique du langage • Analyseur lexical • Analyseur syntaxique • Analyseur sémantique
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Analyse fréquentielle • Bonne description de la parole en terme de fréquences • Signal non stationnaire • Représentation en temps-fréquence du signal • Transformée de Fourier discrète à court terme • Transformée réalisée sur une fenêtre temporelle • Problème de précision au niveau de la largeur de fenêtre
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Banc de filtres • Partitionnement du spectre en bandes de fréquences • Partitionnement se basant sur la perception humaine
Glotte Lèvre PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Analyse LPC (Linear Predicting Coding) • Modélisation du canal buccal sous forme de tubes cylindriques • Système autorégressif d’ordre N • Représentation du signal par une combinaison linéaire des N échantillons précédents • Ai coefficients de prédiction • Terme d’excitation représentant les sons voisés ou non voisés. Fundamentals of Speech Recognition, L.Rabiner, B.H Juang, 1993
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Analyse PLP (Perceptually Linear Predictive) • Se base sur l’analyse LPC • Introduit des méthodes d’audition • Banc de filtres simulant l’étagement en fréquence des filtres de la cochlée • Application de filtres pour rendre compte des courbes d’isotonie • intensités nécessaires pour obtenir une même sensation de volume sonore à différentes fréquences Perceptually Based Linear Predictive Analysis of Speech, Hermansky et al, 1985
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Analyse Rasta (RelAtive SpecTral Analysis) • Extension de l’analyse PLP • Plus robuste au bruit • suppression des variations temporelles trop lentes ou trop rapides • Se base sur le fait que l’oreille réagit aux valeurs relatives plus qu’aux valeurs absolues Rasta Processing of speech, Hermansky et al, 1991
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Analyse cepstrale • Inconvénient de l’analyse LPC qui tient compte de l’énergie du signal • Obtention d’une information normalisée • Coefficients MFCC • À partir d’une analyse en banc de filtres sur une échelle MEL • Coefficients BFCC • À partir d’une analyse en banc de filtres sur une échelle BARK • Coefficients LPCC • À partir d’une analyse LPC
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Réduction du bruit • Détection parole/non parole • 2 niveaux correspondant à l’énergie du signal et au silence • Marquage des trames « parole/non parole » • Détection des régions « parole/non parole »
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Modèle de reconnaissance de la parole • Dynamic Time Warping : DTW • comparaison dynamique entre un vecteur de référence et un vecteur de test
Mot 1 Mot 2 PrésentationÉtat de l’art Modélisation Réalisation Conclusion Modèle de reconnaissance de la parole • Modèle de Markov Caché • Mots isolés • Estimation des paramètres du modèle • Le modèle qui maximise la vraisemblance correspond au mot reconnu • Parole continue • Apprentissage des modèles de Markov Caché sur une unité acoustique (phonème)
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Modèle de reconnaissance de la parole • Modèle de Mélanges de lois Gaussiennes • Utilisé conjointement avec le modèle de Markov Caché lors d’observations continues • Détermine les probabilités d’émissions
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Modèle de reconnaissance de la parole • Réseaux de Neurones • Perceptron • Réseaux Multicouches à retard, Réseaux Récurrents • Ajout de la dimension temporelle des vecteurs caractéristiques • Donne de bons résultats en classification de phonèmes
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Modèle de reconnaissance de la parole • Machines à vecteur Support • Méthode de classification puissante • Utilisation problématique en reconnaissance de la parole • La classification multiclasse • Estimation de probabilités à posteriori • Les séquences de longueurs variables • De nombreux travaux de recherche pour l’adaptation de cette technique à la reconnaissance de la parole
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Conception du framework • Fonctionnalités • Création des chaînes de reconnaissance de la parole • Rajout d’algorithmes de façon simplifiée • Génération de tests • Construction de rapports de résultats
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Instanciation de chaînes de reconnaissance
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Ajout de fonctionnalités • Interfaces • Traitement du signal • Reconnaissance des formes • Chaîne de reconnaissance des formes • Outils • Interface matlab • Calcul matriciel • Calcul de distance • Méthodes d’évaluations
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Génération de rapports
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Génération de rapports
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Les chaînes implémentées • MFCC – PLP – RASTA - LPC • DTW • Modèle de Markov Caché • Réseau de neurones • SVM • KPPV • KFD
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Tests et résultats • Base de données • Chiffres de 0 à 9 • 360 sons • Chaque chiffre prononcé 2 fois par neuf hommes et neuf femmes
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Tests et résultats
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Tests et résultats
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Tests et résultats
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Tests et résultats
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Tests et résultats
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Discussion • Le mot comme unité • Aucune technique d’optimisation basée sur le contexte • Pas d’adaptation des algorithmes à la reconnaissance de la parole • Base de données d’apprentissage faible
PrésentationÉtat de l’art Modélisation Réalisation Conclusion Conclusion et perspectives • Enrichir le framework de fonctionnalités • Implémenter de nouvelles méthodes • Utilisation d’une base de données plus fournie • Merci de votre attention