Réalisation d’un Framework pour la reconnaissance de la parole

Réalisation d’un Framework pour la reconnaissance de la parole

Plans • Présentation du projet • Contexte • Objectif • État de l’art • Principe • Traitement du Signal • Modèle de reconnaissance de la parole • Réalisation de chaînes de reconnaissance de la parole • Les chaînes implémentées • Tests et résultats • Conclusion et perspectives

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Contexte • Description du projet • Définition d’un framework • Les domaines de recherches de la reconnaissance automatique de la parole • Infrastructure • Un logiciel client générant des chaînes à partir de règles en prolog • Prise en charge des chaînes par le framework pour apprentissage et test

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Objectifs • Implémentation de chaînes de reconnaissance de la parole • Ensemble de bibliothèques et de conventions • Développement rapide • Facilité de maintenance • Souplesse et Évolutivité • Design Pattern • Traits et politiques

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Principe • Présentation • Un champ d’utilisation vaste • De nombreux problèmes • Travaux de recherches actifs • Reconnaissance des formes

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Principe • Prétraitement • Découpage en trames de courtes durées • Obtention d’un signal quasi stationnaire • Utilisation de fenêtres spécifiques (Hamming) • Extraction des caractéristiques • Méthodes basées sur l’analyse spectrale • Méthodes d’audition • Sélection des caractéristiques • Réduire la dimension des vecteurs • Minimiser l’entropie (informations redondantes, non significatives)

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Principe • Classification • Classification par méthodes probabilistes • Recherche de formes similaires • Construction de surfaces de décision dans l’espace des caractéristiques • Traitement automatique du langage • Analyseur lexical • Analyseur syntaxique • Analyseur sémantique

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Analyse fréquentielle • Bonne description de la parole en terme de fréquences • Signal non stationnaire • Représentation en temps-fréquence du signal • Transformée de Fourier discrète à court terme • Transformée réalisée sur une fenêtre temporelle • Problème de précision au niveau de la largeur de fenêtre

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Banc de filtres • Partitionnement du spectre en bandes de fréquences • Partitionnement se basant sur la perception humaine

Glotte Lèvre PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Analyse LPC (Linear Predicting Coding) • Modélisation du canal buccal sous forme de tubes cylindriques • Système autorégressif d’ordre N • Représentation du signal par une combinaison linéaire des N échantillons précédents • Ai coefficients de prédiction • Terme d’excitation représentant les sons voisés ou non voisés. Fundamentals of Speech Recognition, L.Rabiner, B.H Juang, 1993

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Analyse PLP (Perceptually Linear Predictive) • Se base sur l’analyse LPC • Introduit des méthodes d’audition • Banc de filtres simulant l’étagement en fréquence des filtres de la cochlée • Application de filtres pour rendre compte des courbes d’isotonie • intensités nécessaires pour obtenir une même sensation de volume sonore à différentes fréquences Perceptually Based Linear Predictive Analysis of Speech, Hermansky et al, 1985

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Analyse Rasta (RelAtive SpecTral Analysis) • Extension de l’analyse PLP • Plus robuste au bruit • suppression des variations temporelles trop lentes ou trop rapides • Se base sur le fait que l’oreille réagit aux valeurs relatives plus qu’aux valeurs absolues Rasta Processing of speech, Hermansky et al, 1991

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Analyse cepstrale • Inconvénient de l’analyse LPC qui tient compte de l’énergie du signal • Obtention d’une information normalisée • Coefficients MFCC • À partir d’une analyse en banc de filtres sur une échelle MEL • Coefficients BFCC • À partir d’une analyse en banc de filtres sur une échelle BARK • Coefficients LPCC • À partir d’une analyse LPC

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Traitement du signal • Réduction du bruit • Détection parole/non parole • 2 niveaux correspondant à l’énergie du signal et au silence • Marquage des trames « parole/non parole » • Détection des régions « parole/non parole »

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Modèle de reconnaissance de la parole • Dynamic Time Warping : DTW • comparaison dynamique entre un vecteur de référence et un vecteur de test

Mot 1 Mot 2 PrésentationÉtat de l’art Modélisation Réalisation Conclusion Modèle de reconnaissance de la parole • Modèle de Markov Caché • Mots isolés • Estimation des paramètres du modèle • Le modèle qui maximise la vraisemblance correspond au mot reconnu • Parole continue • Apprentissage des modèles de Markov Caché sur une unité acoustique (phonème)

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Modèle de reconnaissance de la parole • Modèle de Mélanges de lois Gaussiennes • Utilisé conjointement avec le modèle de Markov Caché lors d’observations continues • Détermine les probabilités d’émissions

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Modèle de reconnaissance de la parole • Réseaux de Neurones • Perceptron • Réseaux Multicouches à retard, Réseaux Récurrents • Ajout de la dimension temporelle des vecteurs caractéristiques • Donne de bons résultats en classification de phonèmes

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Modèle de reconnaissance de la parole • Machines à vecteur Support • Méthode de classification puissante • Utilisation problématique en reconnaissance de la parole • La classification multiclasse • Estimation de probabilités à posteriori • Les séquences de longueurs variables • De nombreux travaux de recherche pour l’adaptation de cette technique à la reconnaissance de la parole

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Conception du framework • Fonctionnalités • Création des chaînes de reconnaissance de la parole • Rajout d’algorithmes de façon simplifiée • Génération de tests • Construction de rapports de résultats

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Instanciation de chaînes de reconnaissance

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Ajout de fonctionnalités • Interfaces • Traitement du signal • Reconnaissance des formes • Chaîne de reconnaissance des formes • Outils • Interface matlab • Calcul matriciel • Calcul de distance • Méthodes d’évaluations

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Génération de rapports

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Les chaînes implémentées • MFCC – PLP – RASTA - LPC • DTW • Modèle de Markov Caché • Réseau de neurones • SVM • KPPV • KFD

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Tests et résultats • Base de données • Chiffres de 0 à 9 • 360 sons • Chaque chiffre prononcé 2 fois par neuf hommes et neuf femmes

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Tests et résultats

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Discussion • Le mot comme unité • Aucune technique d’optimisation basée sur le contexte • Pas d’adaptation des algorithmes à la reconnaissance de la parole • Base de données d’apprentissage faible

PrésentationÉtat de l’art Modélisation Réalisation Conclusion Conclusion et perspectives • Enrichir le framework de fonctionnalités • Implémenter de nouvelles méthodes • Utilisation d’une base de données plus fournie • Merci de votre attention

Réalisation d’un Framework pour la reconnaissance de la parole

Réalisation d’un Framework pour la reconnaissance de la parole

Presentation Transcript

COMUNICARE SENZA PAROLE

Techniques de prise de parole en public

Formation SPIP Nevers mai juin 2008 Animation en groupe de parole des auteurs de violences conjugales

Chapter 7 FASB’s Conceptual Framework

Chapter 10 Probation, Parole, and Community Corrections

Network Reconnaissance and Enumeration

LE FINANCEMENT DES PROJETS

Structure des cellules sanguines

Reconnaissance Tools

LABORATORIO DELLE PAROLE

Java Programming

Présenté par Julien Morat pour obtenir le grade de DOCTEUR DE L’INPG

Squad Tactics-Reconnaissance

Propositions pour une « autre » approche du patient…

LA GERIATRIE : POUR QUI ET COMMENT ?

Le Mouvement Mondial pour l´Abolition de la Viande

Desarrollo de Aplicaciones .Net

Vision industrielle

Les conseils du JDM Une présentation PowerPoint en 3 étapes

Notre délégation en Israël et en Palestine Du 11 au 15 avril 2009

Anne-Laure Bianne-Bernard 21 novembre 2011

Portraits de mathématiciennes Jean Céa