1 / 27

Recent Advances in the Automatic Recognition of Audiovisual Speech

Recent Advances in the Automatic Recognition of Audiovisual Speech. Leila Zouari, Fabian Brugger et Hervé Bredin. G. Potamianos, C. Neti, G. Gravier, A. Garg and A.W. Senior Proceedings of the IEEE, Vol. 91, NO. 9, September 2003. Objectif.

moe
Download Presentation

Recent Advances in the Automatic Recognition of Audiovisual Speech

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Recent Advances in the Automatic Recognition of Audiovisual Speech Leila Zouari, Fabian Brugger et Hervé Bredin G. Potamianos, C. Neti, G. Gravier, A. Garg and A.W. Senior Proceedings of the IEEE, Vol. 91, NO. 9, September 2003

  2. Objectif • Améliorer les performances des systèmes de reconnaissance de la parole • À l’aide de l’information visuelle • En milieu bruité essentiellement

  3. Sommaire • Paramètres audiovisuels • Modèles audiovisuels • Indices de confiance • Adaptation • Expériences et résultats • Nos premiers résultats sur BANCA

  4. Paramètres audio • 24 MFCCs • 100 échantillons par seconde • Soustraction de la moyenne • Ajout de l’information dynamique • concaténation de 9 trames centrées sur la trame courante • Réduction de la dimension • LDA + MLLT Dimension finale : 60

  5. Paramètres audio [2]Maximum Likelihood Linear Transformation • Objectifs • Réduire la dimension • Transformer les données • Pour vérifier au mieux la contrainte « covariance diagonale » • En maximisant la vraisemblance des données originales dans l’espace transformé

  6. Paramètres visuels • Détection et poursuite du visage • Sélection de la zone d’intérêt • Extraction et traitement des paramètres

  7. Paramètres visuels [2]Détection et poursuite du visage • Initialisation : recherche exhaustive • différentes tailles • différentes positions • Poursuite : recherche dans un voisinage • même méthode • Critères • classification par LDA (visage/non-visage) • distance à l’espace des visages

  8. Linear Discriminant Data Projection Visage / Non-Visage Minimiser la variance intra-classe SW Maximiser la variance inter-classe SB Trouver P maximisant Paramètres visuels [3]LDA et DFFS • Distance From Face Space Visage Eventuel Projection (PCA) Distance From Face Space eigenface 1 Espace des visages

  9. Paramètres visuels [4]Région d’intérêt • Localisation de points caractéristiques • Carré autour de la bouche • Normalisation • Echelle • Rotation • Eclairage • Masque

  10. Paramètres visuels [4]Traitement des paramètres • DCT • 100 coefficients de plus grande énergie • Interpolation linéaire • même fréquence d’échantillonnage que l’audio • soustraction de la moyenne • Réduction de la dimension (LDA+MLLT) • Ajout de l’information dynamique • Concaténation de 15 trames centrées sur la trame courante • Réduction de la dimension (LDA+MLLT) Dimension finale : 41

  11. Notations Classes : Flux : Observations : Probabilité d’émission : Probabilité de transition :

  12. Fusion des paramètres • Concaténation • Réduction de la dimension • LDA • MLLT • Modélisation HMM classique avec un flux • Comme pour la reconnaissance de la parole seule

  13. Fusion au niveau de la décisionPrincipe • Multistream HMM (mêmes classes) • Indice de confiance • Dépendant de la modalité seulement

  14. Fusion au niveau de la décisionEstimation des paramètres • Paramètres à estimer : • Estimation séparée • Algorithme EM pour a et v • Transition ou • Estimation jointe • Algorithme EM adapté • Estimation des indices de confiance

  15. Modélisation de l’asynchronismeNiveaux d’intégration Trois niveaux d’intégration : • Tôt : état • Tard : phrase (« rescoring » des n meilleures hypothèses) • Intermédiaire : mot ou phone ou syllabe. Niveaux 2 et 3 : asynchronisme entre séquences d’états audio et vidéo

  16. Etats compositesProbabilités d’émission

  17. Etats compositesProbabilités de transition • Hmms couplés : • Hmms produit :

  18. Modèles compositesEstimation des paramètres • 2 possibilités : • Séparément pour les 2 flux • Conjointement • Remarques : • Le deuxième schéma est préférable : modélise l’asynchronisme pendant l’apprentissage et le test. • Partage des paramètres par flux recommandé : nombre important de paramètres et souvent faible quantité de données d’apprentissage.

  19. Calcul des poidsIndicateurs de fiabilité Les n meilleures vraisemblances d’une observation sont triées dans l’ordre descendant. Argument : rapport de vraisemblance entre n décisions de classification est informatif sur la discrimination des classes. Indicateur de dispersion des n meilleures hypothèses Indicateurs de fiabilité,sur une phrase, sont corrélés avec le wer

  20. Calcul des poidsFonction sigmoïde • fonction sigmoïde : pour lier les indicateurs de fiabilité et coefficients de pondération Wi , paramètres du sigmoïde à estimer. Pour pouvoir calculer les indicateurs de fiabilité à chaque état un alignement forcé préalable est réalisé.

  21. Calcul des poidsEstimation des Wi Deux critères : • MCL : Maximum Conditional Likelihood • MCE : Minimum classification error

  22. Adaptation des paramètres • Pourquoi : bases de données audiovisuelles rares et leur collecte est coûteuse • Application: fusion discriminante des paramètres • Techniques: issus du traitement de la parole : • MLLR : maximum Likelihood Linear Regression • MAP : maximum a posteriori • Adaptation des transformations • Adapter les matrices de transformation LDA et MLLT en les calculant avec les données d’apprentissage et d’adaptation. • Ré estimation des paramètres

  23. Expériences • Bases de données : • Modèles acoustiques : Phones contextuels à états liés (159 pour les digits et 2800 pour le LVCSR). 3 états par phone, 5 contextes * 2 • Grammaire : • Boucle de mots : digits • Trigramme : LVCSR

  24. Résultats : vidéo • Chiffres • LVCSR

  25. Résultats AV: Chiffres

  26. Résultats AV : LVCSR

  27. Résultats sur BANCA

More Related