1 / 16

Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage

Etat de l’art - Multimodal Audio-vidéo Participants : Eurécom, LIA. Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage. Introduction. Combiner plusieurs modalités pour améliorer les performances;. Introduction.

nizana
Download Presentation

Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Etat de l’art - Multimodal Audio-vidéo Participants : Eurécom, LIA Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage

  2. Introduction • Combiner plusieurs modalités pour améliorer les performances;

  3. Introduction • Voix/vidéo : modalités peu intrusives et facilement disponibles; • Bimodalité audio-vidéo : • Fusion de deux systèmes → peu robuste • Extraction d’informations à partir des données de manière conjointe pour n’effectuer qu’un unique traitement

  4. Fusion : généralités • Fusion à 3 niveaux différents : • Fusion des paramètres d'entrée (ex. paramètres acoustiques et dimension de la bouche) • Fusion des espaces de représentation (ex. fusion d'un HMM audio et un HMM vidéo) • Fusion des sorties: • Niveau abstrait : liste de labels • Niveau des rangs : classification des labels par ordre de confiance • Niveau des scores : chaque modalité traitée de manière séparée jusqu’à obtention d’un score audio et un score vidéo

  5. Fusion : GMM Démonstrateur BioLogin : • Système d’authentification biométrique bimodale • Vérification de l’identité d’un client se présentant face à une caméra et prononcant une phrase • Fusion des scores audio et vidéo • Chaque module est basé sur des GMM (Gaussian Mixture Models)

  6. Fusion : HMM • Combinaison de 2 HMM (audio et vidéo) pour obtenir un HMM à deux dimensions. • Apprentissage séparé des deux HMM • Combinaison des HMM par un processus prenant en compte les différentes natures des données (ex. produits des probabilités de transition des états)

  7. Fusion : HMM avec synchronisation temporelle • Authentification bimodale basée sur les modèles de Markov cachés asynchrones : • Flux audio : phrase prononcée par une personne • Flux vidéo : visage de cette personne prononçant la phrase • Synchronisation des flux à partir des corrélations temporelles entre l’audio et la vidéo → Gain en robustesse dans un environnement bruité (Test sur XM2VTS)

  8. Classifieurs(Brunelli, Falavia) • Quantification vectorielle sur les MFCC • Détection du visage à partir de la vidéo puis normalisation • Calcul d’une distance (norme L1) entre l’image de référence et les images extraites • Application de 2 classifieurs audio et 3 vidéo • Calcul d’une moyenne géométrique de scores pondérées (poids : fonction de la distribution des scores). • Avantage : utilisation de plusieurs classifieurs permet de rejeter des données qui ne peuvent être classées avec une confiance suffisante.

  9. Classifieurs(Broun et Zhang) • Extraction des données audio sous la forme de LPC (Linear Predictive Coefficients) • Segmentation des données vidéo basée sur les couleurs, les paramètres géométriques des lèvres et de la bouche; • Classifieurs polynomiaux sur données audio et vidéo • Fusion au niveau des classes

  10. Corrélation audio-vidéo • Décomposition du problème en deux étapes pour conserver de bonnes performances : • Détection de « playback/liveness » : corrélations entre la parole et les mouvements de lèvres • Reconnaissance du locuteur

  11. Corrélation audio-vidéo • Extraction d’informations issues de 2 flux séparés → risque de redondance • Intéressant d’évaluer cette redondance pour exploiter les relations entre les différents jeux de données • Mesure des corrélations entre le tractus vocal, la position de plusieurs points au niveau de la bouche et la parole

  12. Analyse statistique de données • CANCOR (Canonical Correlation Cancor) : analyse canonique des corrélations • Maximisation de la corrélation entre deux jeux de données • COIA ( Coinertia Analysis) : • Méthode introduite pour résoudre des problèmes statistiques en écologie. • Tient compte des relations inter intra-classes pour les différents jeux de données

  13. COIA (Goecke) • Détection du visage puis du contour des lèvres • Extraction des paramètres sur l’ouverture de la bouche et sur les dimensions des lèvres • Extraction des coefficients MFCC et leurs dérivées du flux audio • Détermination du poids à accorder à chacune des données par une COIA • Reconnaissance à l’aide de HMM

  14. Test de « Liveness » (Chetty et Wagner) • Extraction des coefficients MFCC du flux audio • Données vidéo issues d’une PCA pratiquée sur une ROI autour des lèvres • Construction d’un modèle GMM à partir de la concaténation des vecteurs audio et vidéo • Test : • Comparaison du modèle du locuteur avec celui appris à l’entraînement • Comparaison à partir d’images fixes de la vidéo utilisées à la place de la séquence de test • Calcul d’un seuil du rapport bayésien pour déterminer si attaque

  15. Test de « Liveness »(Eveno, Besacier) • Données extraites des flux audio et vidéo de nature différente donc traitées de manière différente • Utilisation de la COIA • Corrélation entre l’audio et la vidéo très variable en fonction des locuteurs mais aussi des phonèmes prononcés par un même locuteur • Score de détection de « playback », basé sur l’évolution du coefficient de corrélation en décalant les signaux audio et vidéo • Déterminer si attaque en fonction du décalage observé sur la courbe du cœfficient de COIA

  16. Lipreading • Système de reconnaissance audio-vidéo de parole et non du locuteur • Calcul des MFCC à partir du flux audio • Vecteur vidéo pour chaque image : • Coefficients de la FT de la ROI des lèvres pour certaines bandes de fréquence • Coefficients issus d’une analyse linéaire discriminante de l’image sous-échantillonnée • Modélisation des phonèmes dans les domaines audio parallèlement aux visèmes vidéo • Modélisation des combinaisons multiphones • Reconnaissance par DTW

More Related