1 / 23

Reconnaissance Vocale

Reconnaissance Vocale. PFE – SCIA 2008. Julien Ass émat David Landais. Plan. Présentation générale Historique & Analyse M éthodes possibles, techniques… Notre démarche Structures HMM, algorithme N-grams… Développement Conclusion. Présentation générale (1/2). Nature du projet :

ulla
Download Presentation

Reconnaissance Vocale

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Reconnaissance Vocale PFE – SCIA 2008 Julien Assémat David Landais

  2. Plan • Présentation générale • Historique & Analyse • Méthodes possibles, techniques… • Notre démarche • Structures HMM, algorithme N-grams… • Développement • Conclusion

  3. Présentation générale (1/2) • Nature du projet : • Programme de reconnaissance vocale • Vocabulaire de grande taille • Orienté retranscription de fichiers audio • Technologies et notions utilisées : • Langage C++ • MFCC : FFT, DCT, … • HMM • N-grams

  4. Présentation générale (2/2) • Librairies • HTK : librairie de traitement du signal sonore • FFTW : calcul de transformée de Fourier • Applications envisagées • Commandes vocales • Retranscription de fichiers audio • Conversations • Extraits radiophoniques • Indexation sonore • Dictée vocale

  5. Historique (1/3) • Etapes de la reconnaissance vocale • Pour comprendre les problématiques • Pour comprendre le cheminement technique • Approche IA pure • Approche statistique • Pour choisir les techniques utiles à notre application • Taille du vocabulaire • Reconnaissance en temps réel ou non

  6. Historique (2/3) • Premiers pas de la reconnaissance vocale • 1950 : reconnaissance de chiffres et voyelles • Vocabulaire limité • 1968 : reconnaissance de mots isolés • Modèle de langage statistique • 1980 : N-grams

  7. Historique (3/3) • Commandes vocales • 1983 : domaine militaire (France) • Reconnaissance de parole continue • 1996 : première machine à dictée vocale (IBM)

  8. Analyse (1/4) • Deux méthodes principalement utilisées • Méthode explicite • Méthode basée sur l’utilisation de connaissances explicites • Méthode implicite • Méthode basée sur une approche statistique

  9. Analyse (2/4) • Méthode explicite • Première approche de la reconnaissance vocale • Basée sur l’utilisation de connaissances explicites : • Comparaison à des formes de référence (spectres…) • Utilisant des techniques d’IA pure • Systèmes multi-agents • Blackboards (Hearsay II) • Systèmes experts • Méthode peu performante à elle-seule à l’heure actuelle

  10. Analyse (3/4) • Méthode implicite • Approche orientée statistique du problème à 2 niveaux • Niveau acoustique (modèle acoustique) • Niveau linguistique (modèle de langue) • Nécessite un apprentissage sur des corpus conséquents • Techniques utilisées : • Hidden Markov Models (HMM) • Algorithme N-grams • Réseaux de neurones • Méthode la plus performante à l’heure actuelle

  11. Analyse (4/4) • Méthode implicite • Donne les meilleures performances (taux d’erreurs faible) • Reste la plus utilisée dans la reconnaissance vocale • Limites atteintes : gestion des accents, émotions, … • Dans le futur • Retour probable des techniques d’IA pure couplées avec les méthodes statistiques

  12. Notre démarche • Pour notre projet : • Méthode implicite est retenue • Méthode implicite comprend : • Modèle acoustique • Modèle linguistique

  13. Modèle acoustique (1/6) • Etapes : • Découpage du signal • Coefficients MFCC • Hidden Markov Models (HMM) • Résultat du modèle : • Donne la probabilité de correspondance à un phonème • Puis associer le phonème le plus probable à la tranche

  14. Modèle acoustique (2/6) • Découpage du signal en tranche • Signal = suite d’amplitudes • Tranches de 10 à 20 ms • Pour chaque tranche, extraction d’un vecteur caractéristique • Coefficients MFCC • Vecteur de 12 coefficients

  15. Modèle acoustique (3/6) • Coefficients MFCC(Mel Frequency Cepstral Coefficient) • Transformée de Fourier sur la tranche • On obtient le spectre du signal • Projection du spectre sur l’échelle de Mel • Bancs de filtres triangulaires • Approximation du système auditif humain • Application de la DCT (Discrete Cosinus Transform)

  16. Modèle acoustique (4/6) • Hidden Markov Models (DAVEUD) • Automates • Un HMM par phonème • Etats = caractéristiques du vecteur extrait • Un HMM par mot • Etats = phonèmes • Calculer la probabilité d’une séquence de phonèmes

  17. Modèle acoustique (5/6) • Hidden Markov Models (DAVEUD) • Automates • Un HMM par phonème • Etats = caractéristiques du vecteur extrait • Un HMM par mot • Etats = phonèmes • Calculer la probabilité d’une séquence de phonèmes

  18. Modèle acoustique (6/6) • Hidden Markov Models (DAVEUD) • Automates • Un HMM par phonème • Etats = caractéristiques du vecteur extrait • Un HMM par mot • Etats = phonèmes • Calculer la probabilité d’une séquence de phonèmes

  19. Modèle linguistique • Travail sur la syntaxe et la sémantique propre à la langue • Probabilité qu’une suite de mots existe dans la langue • Introduction de la notion d’approximation avec N-grams • Algorithme N-grams • Agrégation en 2 ou 3 mots avec une probabilité associée • Approximation de probabilités de séquences plus longues • Calcul des probabilités sur ces séquences plutôt que sur des mots • Probabilité d’obtenir un mot connaissant les mots précédents

  20. Méthode implicite : résumé

  21. Développement (1/2) • Implémentation du modèle acoustique • Analyse du signal • Découpage en tranches • Extraction des coefficients MFCC • Mise en pratique des HMM pour les phonèmes

  22. Développement (2/2) • Problèmes rencontrés • Corpus gratuits dédiés à l’apprentissage vocal très rares • Nécessite beaucoup de travail pour les éditeurs • Complexité mathématique de certaines notions • Utilisation de librairies spécifiques

  23. Conclusion • Nombreuses manières de voir le problème • Dépend de l’application : commandes, dictée vocale • Mise en pratique de concepts • Traitement du signal • FFT, DCT, MFCC • Traitement du langage naturel • N-grams • Permet une approche concrète de ces domaines

More Related