160 likes | 259 Views
Etat de l’art - Multimodal Audio-vidéo Participants : Eurécom, LIA. Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage. Introduction. Combiner plusieurs modalités pour améliorer les performances;. Introduction.
E N D
Etat de l’art - Multimodal Audio-vidéo Participants : Eurécom, LIA Sous-Projet 4 : Segmentation et Authentification conjointes de la voix et du visage
Introduction • Combiner plusieurs modalités pour améliorer les performances;
Introduction • Voix/vidéo : modalités peu intrusives et facilement disponibles; • Bimodalité audio-vidéo : • Fusion de deux systèmes → peu robuste • Extraction d’informations à partir des données de manière conjointe pour n’effectuer qu’un unique traitement
Fusion : généralités • Fusion à 3 niveaux différents : • Fusion des paramètres d'entrée (ex. paramètres acoustiques et dimension de la bouche) • Fusion des espaces de représentation (ex. fusion d'un HMM audio et un HMM vidéo) • Fusion des sorties: • Niveau abstrait : liste de labels • Niveau des rangs : classification des labels par ordre de confiance • Niveau des scores : chaque modalité traitée de manière séparée jusqu’à obtention d’un score audio et un score vidéo
Fusion : GMM Démonstrateur BioLogin : • Système d’authentification biométrique bimodale • Vérification de l’identité d’un client se présentant face à une caméra et prononcant une phrase • Fusion des scores audio et vidéo • Chaque module est basé sur des GMM (Gaussian Mixture Models)
Fusion : HMM • Combinaison de 2 HMM (audio et vidéo) pour obtenir un HMM à deux dimensions. • Apprentissage séparé des deux HMM • Combinaison des HMM par un processus prenant en compte les différentes natures des données (ex. produits des probabilités de transition des états)
Fusion : HMM avec synchronisation temporelle • Authentification bimodale basée sur les modèles de Markov cachés asynchrones : • Flux audio : phrase prononcée par une personne • Flux vidéo : visage de cette personne prononçant la phrase • Synchronisation des flux à partir des corrélations temporelles entre l’audio et la vidéo → Gain en robustesse dans un environnement bruité (Test sur XM2VTS)
Classifieurs(Brunelli, Falavia) • Quantification vectorielle sur les MFCC • Détection du visage à partir de la vidéo puis normalisation • Calcul d’une distance (norme L1) entre l’image de référence et les images extraites • Application de 2 classifieurs audio et 3 vidéo • Calcul d’une moyenne géométrique de scores pondérées (poids : fonction de la distribution des scores). • Avantage : utilisation de plusieurs classifieurs permet de rejeter des données qui ne peuvent être classées avec une confiance suffisante.
Classifieurs(Broun et Zhang) • Extraction des données audio sous la forme de LPC (Linear Predictive Coefficients) • Segmentation des données vidéo basée sur les couleurs, les paramètres géométriques des lèvres et de la bouche; • Classifieurs polynomiaux sur données audio et vidéo • Fusion au niveau des classes
Corrélation audio-vidéo • Décomposition du problème en deux étapes pour conserver de bonnes performances : • Détection de « playback/liveness » : corrélations entre la parole et les mouvements de lèvres • Reconnaissance du locuteur
Corrélation audio-vidéo • Extraction d’informations issues de 2 flux séparés → risque de redondance • Intéressant d’évaluer cette redondance pour exploiter les relations entre les différents jeux de données • Mesure des corrélations entre le tractus vocal, la position de plusieurs points au niveau de la bouche et la parole
Analyse statistique de données • CANCOR (Canonical Correlation Cancor) : analyse canonique des corrélations • Maximisation de la corrélation entre deux jeux de données • COIA ( Coinertia Analysis) : • Méthode introduite pour résoudre des problèmes statistiques en écologie. • Tient compte des relations inter intra-classes pour les différents jeux de données
COIA (Goecke) • Détection du visage puis du contour des lèvres • Extraction des paramètres sur l’ouverture de la bouche et sur les dimensions des lèvres • Extraction des coefficients MFCC et leurs dérivées du flux audio • Détermination du poids à accorder à chacune des données par une COIA • Reconnaissance à l’aide de HMM
Test de « Liveness » (Chetty et Wagner) • Extraction des coefficients MFCC du flux audio • Données vidéo issues d’une PCA pratiquée sur une ROI autour des lèvres • Construction d’un modèle GMM à partir de la concaténation des vecteurs audio et vidéo • Test : • Comparaison du modèle du locuteur avec celui appris à l’entraînement • Comparaison à partir d’images fixes de la vidéo utilisées à la place de la séquence de test • Calcul d’un seuil du rapport bayésien pour déterminer si attaque
Test de « Liveness »(Eveno, Besacier) • Données extraites des flux audio et vidéo de nature différente donc traitées de manière différente • Utilisation de la COIA • Corrélation entre l’audio et la vidéo très variable en fonction des locuteurs mais aussi des phonèmes prononcés par un même locuteur • Score de détection de « playback », basé sur l’évolution du coefficient de corrélation en décalant les signaux audio et vidéo • Déterminer si attaque en fonction du décalage observé sur la courbe du cœfficient de COIA
Lipreading • Système de reconnaissance audio-vidéo de parole et non du locuteur • Calcul des MFCC à partir du flux audio • Vecteur vidéo pour chaque image : • Coefficients de la FT de la ROI des lèvres pour certaines bandes de fréquence • Coefficients issus d’une analyse linéaire discriminante de l’image sous-échantillonnée • Modélisation des phonèmes dans les domaines audio parallèlement aux visèmes vidéo • Modélisation des combinaisons multiphones • Reconnaissance par DTW