1 / 32

Characterization of Visual Attention in Augmented Speech Situation

This study focuses on measuring eye movements during augmented audiovisual speech presentations to characterize visual attention in various conditions. Utilizing advanced technologies like Tobii Eye Tracker, the research delves into the effectiveness of visual information in enhancing speech perception and understanding.

shubha
Download Presentation

Characterization of Visual Attention in Augmented Speech Situation

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DESS HANDINouvelles Technologies et HandicapsSensori-moteurs« Caractérisation de l’attention visuelle en situation de parole augmentée » Directeur de stage : BADIN PierreLieu du stage :Département Parole & Cognition GIPSA-lab, GrenobleCoordonnateur:J. LOPEZ KRAHE HUANG Lin MasterHandi Paris, Septembre 2008

  2. Plan • Introduction • État de l’art • Préparation du test • Principe du test • Résultat • Conclusion, Applications et Perspectives

  3. Introduction • Contexte • Information visuelle permet d’améliorer la perception et la compréhension de parole • Objectif • Mesure des mouvements du regard de l’auditeur lors de la présentation de stimuli audiovisuels pour différentes conditions de présentation de parole audiovisuelle augmentée • Caractérisation des attentions visuelles correspondantes • Méthodologie • Tête parlante • Oculomètre

  4. Plan • Introduction • État de l’art • Préparation du test • Principe du test • Résultat • Conclusion, Applications et Perspectives

  5. État de l’art • Information visuelle permet d’améliorer la perception et la compréhension de parole [Sumby et Pollack (1954)] • Information visuelle par la vue de côté est la plus efficace [Bauman et Hambrecht (1995)] • Tête parlante [Massaro et Light (2004)][Tarabalka et al. (2007)] • Information visuelle bien contrôlée • Visualisation des organes à l’intérieure • Mesure des mouvements du regard • Image d’œil, lentilles à bobines magnétique, système à lumière et caméra infrarouge (Tobii) ou visible

  6. Plan • Introduction • État de l’art • Préparation du test • Principe du test • Résultat • Conclusion, Applications et Perspectives

  7. Préparation du test (1)Tête parlante • Tête parlante de l’équipe MPACIF (Département Parole & Cognition, GIPSA-lab) • Assemblage des modèles 3D individuelles des organes pour parler (la langue, le palais, les lèvres, le mâchoire, les dents, le visage, etc.) • Modèles construits à partir d’images MRI, CT et de séquences de vidéo • Vision de la langue directe et complète (voir l’exemple à droite)

  8. Préparation du test (2)Oculomètre Tobii ET-17 Fonctionnement: • Diodes infrarouges émettent la lumière sur les yeux • Réflexion sur la cornée et d’autres informations visuelles sont collectés par une caméra • Algorithmes de traitement d’image identifient les éléments pertinents • Mathématiques complexes sont utilisées pour calculer la position de trois dimensions du mouvement du regard • Un écran pour afficher les stimuli • Des diodes et une caméra infrarouges

  9. Préparation du test (3)ClearView ClearView, par la technologie Tobii, est un logiciel pour visualiser les données du regard, et faciliter l’interprétation du comportement de sujet.

  10. Fichiers textes par ClearView Fichier d’événement (EVD.txt) Fichier de coordonnées des points du regard (EFD.txt)

  11. Préparation du test (4)Installation du système de test • Ce système est composé de: • Un ordinateur sous Windows qui enregistre les données de Tobii • Un ordinateur sous Linux qui contrôle la tête parlante • L’oculomètre Tobii ET-17 • Deux moniteurs standards

  12. Préparation du test (5)Synchronisation • Synchronisation temporelle • Objectif : vérifier le décalage du temps entre l’enregistrement par Tobii et l’affichage de stimuli • Synchronisation spatiale • Objectif : synchroniser les coordonnés spatiales de l’enregistrement par Tobii et de stimuli

  13. Synchronisation

  14. Synchronisation Conclusion : • Synchronisation temporelle • Décalage du temps par le réseau est aléatoire. • Il faut faire la synchronisation temporelle chaque fois avant le test de caractérisation • Synchronisation spatiale • Les coordonnées par Tobii et l’affichage de stimuli sont correspondants.

  15. Plan • Introduction • État de l’art • Préparation du test • Principe du test • Résultat • Conclusion, Applications et Perspectives

  16. Principe du test (1) • Un sujet bien entendant et bien voyant qui n’a pas d’expérience préliminaire de l’analyse des organes de parole • Tête parlante avec la vision de la langue directe et complète • 32 stimuli de séquences « Voyelle-Consonne-Voyelle » • 4 condition de présentation de stimuli • 4 niveaux du bruit • Les stimuli sont présentés successivement au sujet • La durée d’une séance de test complète est environ 30 minutes • Les mouvements du regard du sujet sont enregistrés par l’oculomètre Tobii ET-17

  17. Principe du test (2) Conditions de présentation • Quatre conditions de présentation • plan médio-sagittal sans langue, avec les lèvres • + signal audio • 2. plan médio-sagittal sans lèvres, avec la langue • + signal audio • plan médio-sagittal avec langue et les lèvres • + signal audio • plan médio-sagittal avec • la texture de la peau • + signal audio

  18. Principe du test (3) stimuli audiovisuels • 32 séquences VCV Par exemple, /aba/, /ada/, /idi/, …

  19. Principe du test (4) Bruit • Quatre niveaux du rapport de signal/bruit (SNR): inf, +3dB, -9dB, -inf Exemple 1: stimulus /ada/ avec SNR = +3dB, présenté dans la condition «  plan médio-sagittal sans langue, avec les lèvres + signal audio» Exemple 2 : stimulus /ibi/ avec SNR = -9dB, présenté dans la condition «  plan médio-sagittal avec la texture de la peau + signal audio »

  20. Plan • Introduction • État de l’art • Préparation du test • Principe du test • Résultat • Conclusion, Applications et Perspectives

  21. Résultats

  22. Plan • Introduction • État de l’art • Préparation du test • Principe du test • Résultat • Conclusion, Applications et Perspectives

  23. Conclusion • Un test de caractérisation de l’attention visuelle en situation de parole augmentée est effectué. • Une tête parlante est utilisée pour présenter les stimuli audiovisuels. • Différentes conditions de présentation de stimuli et différents niveaux du bruit sont utilisés. • L’oculomètre Tobii ET-17 enregistre les points du regard • Les résultats montrent que le sujet regarde plutôt la partie qui bouge. • De plus, si les lèvres et la langue sont présentés, quand le niveau du bruit augmente, les points du regard tendent toujours vers la région de la langue. • Le mouvement de la langue semble permettre d’aider l’identification des consonnes, en particulier avec du bruit.

  24. Applications et perspectives • Applications du système de synthèse des stimuli audiovisuels avec la vision de la langue directe et complète • Apprentissage de parole et la correction phonétique, i.e. la réhabilitation de la parole des malentendants • Apprentissage des articulations en langue étrangère, • Enregistrement des articulations des langues en train de disparaître. • Perspectives • Mesure de l’influence de la fréquence de vibration des articulateurs pour l’attention visuelle de l’auditeur. • Évaluation de la contribution de la langue visuelle dans la perception des autre langages. • Utilisation de cette connaissance dans le cadre de méthodes d’apprentissage de la lecture de parole augmentée pour des malentendants.

  25. Références • Badin, P. & Serrurier, A. (2006). Three-dimensional modeling of speech organs: Articulatory data and models. In Transactions on Technical Committee of Psychological and Physiological Acoustics, vol. 36, No 5, H-2006-77, pp. 421-426. Kanazawa, Japan, 20-21st July 2006. The Acoustical Society of Japan. • Bauman S.L. & Hambrecht G. (1995). Analysis of view angle used in speechreading training of sentences. American Journal of Audiology, 4 :67–70, November • Massaro, D. W. & Light, J. (2004). Using visible speech for training perception and production of speech for hard of hearing individuals. Journal of Speech, Language, and Hearing Research, vol. 47, no. 2, 304–320. • Sumby W. H. & Pollack I. (1954). Visual contribution to speech intelligibility in noise. Journal of Acoustical Society of America, 26(2) :212–215. • Tarabalka Y., Badin P., Elisei F., & Bailly G. (2007). Can you read tongue movements ? Evaluation of the contribution of tongue display to speech understanding. In Conférence Internationale sur l’Accessibilité et les systèmes de suppléance aux personnes en situation de Handicaps (ASSISTH), Toulouse France.

  26. FIN Merci pour votre attention

  27. réalité augmentée • Par un système de réalité augmentée on entend un système qui rend possible la superposition de l'image d'un modèle virtuel 3D ou 2D sur une image de la réalité

More Related