320 likes | 344 Views
This study focuses on measuring eye movements during augmented audiovisual speech presentations to characterize visual attention in various conditions. Utilizing advanced technologies like Tobii Eye Tracker, the research delves into the effectiveness of visual information in enhancing speech perception and understanding.
E N D
DESS HANDINouvelles Technologies et HandicapsSensori-moteurs« Caractérisation de l’attention visuelle en situation de parole augmentée » Directeur de stage : BADIN PierreLieu du stage :Département Parole & Cognition GIPSA-lab, GrenobleCoordonnateur:J. LOPEZ KRAHE HUANG Lin MasterHandi Paris, Septembre 2008
Plan • Introduction • État de l’art • Préparation du test • Principe du test • Résultat • Conclusion, Applications et Perspectives
Introduction • Contexte • Information visuelle permet d’améliorer la perception et la compréhension de parole • Objectif • Mesure des mouvements du regard de l’auditeur lors de la présentation de stimuli audiovisuels pour différentes conditions de présentation de parole audiovisuelle augmentée • Caractérisation des attentions visuelles correspondantes • Méthodologie • Tête parlante • Oculomètre
Plan • Introduction • État de l’art • Préparation du test • Principe du test • Résultat • Conclusion, Applications et Perspectives
État de l’art • Information visuelle permet d’améliorer la perception et la compréhension de parole [Sumby et Pollack (1954)] • Information visuelle par la vue de côté est la plus efficace [Bauman et Hambrecht (1995)] • Tête parlante [Massaro et Light (2004)][Tarabalka et al. (2007)] • Information visuelle bien contrôlée • Visualisation des organes à l’intérieure • Mesure des mouvements du regard • Image d’œil, lentilles à bobines magnétique, système à lumière et caméra infrarouge (Tobii) ou visible
Plan • Introduction • État de l’art • Préparation du test • Principe du test • Résultat • Conclusion, Applications et Perspectives
Préparation du test (1)Tête parlante • Tête parlante de l’équipe MPACIF (Département Parole & Cognition, GIPSA-lab) • Assemblage des modèles 3D individuelles des organes pour parler (la langue, le palais, les lèvres, le mâchoire, les dents, le visage, etc.) • Modèles construits à partir d’images MRI, CT et de séquences de vidéo • Vision de la langue directe et complète (voir l’exemple à droite)
Préparation du test (2)Oculomètre Tobii ET-17 Fonctionnement: • Diodes infrarouges émettent la lumière sur les yeux • Réflexion sur la cornée et d’autres informations visuelles sont collectés par une caméra • Algorithmes de traitement d’image identifient les éléments pertinents • Mathématiques complexes sont utilisées pour calculer la position de trois dimensions du mouvement du regard • Un écran pour afficher les stimuli • Des diodes et une caméra infrarouges
Préparation du test (3)ClearView ClearView, par la technologie Tobii, est un logiciel pour visualiser les données du regard, et faciliter l’interprétation du comportement de sujet.
Fichiers textes par ClearView Fichier d’événement (EVD.txt) Fichier de coordonnées des points du regard (EFD.txt)
Préparation du test (4)Installation du système de test • Ce système est composé de: • Un ordinateur sous Windows qui enregistre les données de Tobii • Un ordinateur sous Linux qui contrôle la tête parlante • L’oculomètre Tobii ET-17 • Deux moniteurs standards
Préparation du test (5)Synchronisation • Synchronisation temporelle • Objectif : vérifier le décalage du temps entre l’enregistrement par Tobii et l’affichage de stimuli • Synchronisation spatiale • Objectif : synchroniser les coordonnés spatiales de l’enregistrement par Tobii et de stimuli
Synchronisation Conclusion : • Synchronisation temporelle • Décalage du temps par le réseau est aléatoire. • Il faut faire la synchronisation temporelle chaque fois avant le test de caractérisation • Synchronisation spatiale • Les coordonnées par Tobii et l’affichage de stimuli sont correspondants.
Plan • Introduction • État de l’art • Préparation du test • Principe du test • Résultat • Conclusion, Applications et Perspectives
Principe du test (1) • Un sujet bien entendant et bien voyant qui n’a pas d’expérience préliminaire de l’analyse des organes de parole • Tête parlante avec la vision de la langue directe et complète • 32 stimuli de séquences « Voyelle-Consonne-Voyelle » • 4 condition de présentation de stimuli • 4 niveaux du bruit • Les stimuli sont présentés successivement au sujet • La durée d’une séance de test complète est environ 30 minutes • Les mouvements du regard du sujet sont enregistrés par l’oculomètre Tobii ET-17
Principe du test (2) Conditions de présentation • Quatre conditions de présentation • plan médio-sagittal sans langue, avec les lèvres • + signal audio • 2. plan médio-sagittal sans lèvres, avec la langue • + signal audio • plan médio-sagittal avec langue et les lèvres • + signal audio • plan médio-sagittal avec • la texture de la peau • + signal audio
Principe du test (3) stimuli audiovisuels • 32 séquences VCV Par exemple, /aba/, /ada/, /idi/, …
Principe du test (4) Bruit • Quatre niveaux du rapport de signal/bruit (SNR): inf, +3dB, -9dB, -inf Exemple 1: stimulus /ada/ avec SNR = +3dB, présenté dans la condition « plan médio-sagittal sans langue, avec les lèvres + signal audio» Exemple 2 : stimulus /ibi/ avec SNR = -9dB, présenté dans la condition « plan médio-sagittal avec la texture de la peau + signal audio »
Plan • Introduction • État de l’art • Préparation du test • Principe du test • Résultat • Conclusion, Applications et Perspectives
Plan • Introduction • État de l’art • Préparation du test • Principe du test • Résultat • Conclusion, Applications et Perspectives
Conclusion • Un test de caractérisation de l’attention visuelle en situation de parole augmentée est effectué. • Une tête parlante est utilisée pour présenter les stimuli audiovisuels. • Différentes conditions de présentation de stimuli et différents niveaux du bruit sont utilisés. • L’oculomètre Tobii ET-17 enregistre les points du regard • Les résultats montrent que le sujet regarde plutôt la partie qui bouge. • De plus, si les lèvres et la langue sont présentés, quand le niveau du bruit augmente, les points du regard tendent toujours vers la région de la langue. • Le mouvement de la langue semble permettre d’aider l’identification des consonnes, en particulier avec du bruit.
Applications et perspectives • Applications du système de synthèse des stimuli audiovisuels avec la vision de la langue directe et complète • Apprentissage de parole et la correction phonétique, i.e. la réhabilitation de la parole des malentendants • Apprentissage des articulations en langue étrangère, • Enregistrement des articulations des langues en train de disparaître. • Perspectives • Mesure de l’influence de la fréquence de vibration des articulateurs pour l’attention visuelle de l’auditeur. • Évaluation de la contribution de la langue visuelle dans la perception des autre langages. • Utilisation de cette connaissance dans le cadre de méthodes d’apprentissage de la lecture de parole augmentée pour des malentendants.
Références • Badin, P. & Serrurier, A. (2006). Three-dimensional modeling of speech organs: Articulatory data and models. In Transactions on Technical Committee of Psychological and Physiological Acoustics, vol. 36, No 5, H-2006-77, pp. 421-426. Kanazawa, Japan, 20-21st July 2006. The Acoustical Society of Japan. • Bauman S.L. & Hambrecht G. (1995). Analysis of view angle used in speechreading training of sentences. American Journal of Audiology, 4 :67–70, November • Massaro, D. W. & Light, J. (2004). Using visible speech for training perception and production of speech for hard of hearing individuals. Journal of Speech, Language, and Hearing Research, vol. 47, no. 2, 304–320. • Sumby W. H. & Pollack I. (1954). Visual contribution to speech intelligibility in noise. Journal of Acoustical Society of America, 26(2) :212–215. • Tarabalka Y., Badin P., Elisei F., & Bailly G. (2007). Can you read tongue movements ? Evaluation of the contribution of tongue display to speech understanding. In Conférence Internationale sur l’Accessibilité et les systèmes de suppléance aux personnes en situation de Handicaps (ASSISTH), Toulouse France.
FIN Merci pour votre attention
réalité augmentée • Par un système de réalité augmentée on entend un système qui rend possible la superposition de l'image d'un modèle virtuel 3D ou 2D sur une image de la réalité