1 / 33

Réalisation d’un Framework pour la reconnaissance de la parole

Réalisation d’un Framework pour la reconnaissance de la parole. Plans. Présentation du projet Contexte Objectif État de l’art Principe Traitement du Signal Modèle de reconnaissance de la parole Réalisation de chaînes de reconnaissance de la parole Les chaînes implémentées

mabli
Download Presentation

Réalisation d’un Framework pour la reconnaissance de la parole

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Réalisation d’un Framework pour la reconnaissance de la parole

  2. Plans • Présentation du projet • Contexte • Objectif • État de l’art • Principe • Traitement du Signal • Modèle de reconnaissance de la parole • Réalisation de chaînes de reconnaissance de la parole • Les chaînes implémentées • Tests et résultats • Conclusion et perspectives

  3. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Contexte • Description du projet • Définition d’un framework • Les domaines de recherches de la reconnaissance automatique de la parole • Infrastructure • Un logiciel client générant des chaînes à partir de règles en prolog • Prise en charge des chaînes par le framework pour apprentissage et test

  4. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Objectifs • Implémentation de chaînes de reconnaissance de la parole • Ensemble de bibliothèques et de conventions • Développement rapide • Facilité de maintenance • Souplesse et Évolutivité • Design Pattern • Traits et politiques

  5. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Principe • Présentation • Un champ d’utilisation vaste • De nombreux problèmes • Travaux de recherches actifs • Reconnaissance des formes

  6. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Principe • Prétraitement • Découpage en trames de courtes durées • Obtention d’un signal quasi stationnaire • Utilisation de fenêtres spécifiques (Hamming) • Extraction des caractéristiques • Méthodes basées sur l’analyse spectrale • Méthodes d’audition • Sélection des caractéristiques • Réduire la dimension des vecteurs • Minimiser l’entropie (informations redondantes, non significatives)

  7. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Principe • Classification • Classification par méthodes probabilistes • Recherche de formes similaires • Construction de surfaces de décision dans l’espace des caractéristiques • Traitement automatique du langage • Analyseur lexical • Analyseur syntaxique • Analyseur sémantique

  8. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Analyse fréquentielle • Bonne description de la parole en terme de fréquences • Signal non stationnaire • Représentation en temps-fréquence du signal • Transformée de Fourier discrète à court terme • Transformée réalisée sur une fenêtre temporelle • Problème de précision au niveau de la largeur de fenêtre

  9. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Banc de filtres • Partitionnement du spectre en bandes de fréquences • Partitionnement se basant sur la perception humaine

  10. Glotte Lèvre PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Analyse LPC (Linear Predicting Coding) • Modélisation du canal buccal sous forme de tubes cylindriques • Système autorégressif d’ordre N • Représentation du signal par une combinaison linéaire des N échantillons précédents • Ai coefficients de prédiction • Terme d’excitation représentant les sons voisés ou non voisés. Fundamentals of Speech Recognition, L.Rabiner, B.H Juang, 1993

  11. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Analyse PLP (Perceptually Linear Predictive) • Se base sur l’analyse LPC • Introduit des méthodes d’audition • Banc de filtres simulant l’étagement en fréquence des filtres de la cochlée • Application de filtres pour rendre compte des courbes d’isotonie • intensités nécessaires pour obtenir une même sensation de volume sonore à différentes fréquences Perceptually Based Linear Predictive Analysis of Speech, Hermansky et al, 1985

  12. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Analyse Rasta (RelAtive SpecTral Analysis) • Extension de l’analyse PLP • Plus robuste au bruit • suppression des variations temporelles trop lentes ou trop rapides • Se base sur le fait que l’oreille réagit aux valeurs relatives plus qu’aux valeurs absolues Rasta Processing of speech, Hermansky et al, 1991

  13. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Analyse cepstrale • Inconvénient de l’analyse LPC qui tient compte de l’énergie du signal • Obtention d’une information normalisée • Coefficients MFCC • À partir d’une analyse en banc de filtres sur une échelle MEL • Coefficients BFCC • À partir d’une analyse en banc de filtres sur une échelle BARK • Coefficients LPCC • À partir d’une analyse LPC

  14. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Réduction du bruit • Détection parole/non parole • 2 niveaux correspondant à l’énergie du signal et au silence • Marquage des trames « parole/non parole » • Détection des régions « parole/non parole »

  15. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Modèle de reconnaissance de la parole • Dynamic Time Warping : DTW • comparaison dynamique entre un vecteur de référence et un vecteur de test

  16. Mot 1 Mot 2 PrésentationÉtat de l’art Modélisation Réalisation Conclusion Modèle de reconnaissance de la parole • Modèle de Markov Caché • Mots isolés • Estimation des paramètres du modèle • Le modèle qui maximise la vraisemblance correspond au mot reconnu • Parole continue • Apprentissage des modèles de Markov Caché sur une unité acoustique (phonème)

  17. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Modèle de reconnaissance de la parole • Modèle de Mélanges de lois Gaussiennes • Utilisé conjointement avec le modèle de Markov Caché lors d’observations continues • Détermine les probabilités d’émissions

  18. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Modèle de reconnaissance de la parole • Réseaux de Neurones • Perceptron • Réseaux Multicouches à retard, Réseaux Récurrents • Ajout de la dimension temporelle des vecteurs caractéristiques • Donne de bons résultats en classification de phonèmes

  19. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Modèle de reconnaissance de la parole • Machines à vecteur Support • Méthode de classification puissante • Utilisation problématique en reconnaissance de la parole • La classification multiclasse • Estimation de probabilités à posteriori • Les séquences de longueurs variables • De nombreux travaux de recherche pour l’adaptation de cette technique à la reconnaissance de la parole

  20. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Conception du framework • Fonctionnalités • Création des chaînes de reconnaissance de la parole • Rajout d’algorithmes de façon simplifiée • Génération de tests • Construction de rapports de résultats

  21. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Instanciation de chaînes de reconnaissance

  22. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Ajout de fonctionnalités • Interfaces • Traitement du signal • Reconnaissance des formes • Chaîne de reconnaissance des formes • Outils • Interface matlab • Calcul matriciel • Calcul de distance • Méthodes d’évaluations

  23. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Génération de rapports

  24. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Génération de rapports

  25. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Les chaînes implémentées • MFCC – PLP – RASTA - LPC • DTW • Modèle de Markov Caché • Réseau de neurones • SVM • KPPV • KFD

  26. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Tests et résultats • Base de données • Chiffres de 0 à 9 • 360 sons • Chaque chiffre prononcé 2 fois par neuf hommes et neuf femmes

  27. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Tests et résultats

  28. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Tests et résultats

  29. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Tests et résultats

  30. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Tests et résultats

  31. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Tests et résultats

  32. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Discussion • Le mot comme unité • Aucune technique d’optimisation basée sur le contexte • Pas d’adaptation des algorithmes à la reconnaissance de la parole • Base de données d’apprentissage faible

  33. PrésentationÉtat de l’art Modélisation Réalisation Conclusion Conclusion et perspectives • Enrichir le framework de fonctionnalités • Implémenter de nouvelles méthodes • Utilisation d’une base de données plus fournie • Merci de votre attention

More Related