Characterization of Visual Attention in Augmented Speech Situation

DESS HANDINouvelles Technologies et HandicapsSensori-moteurs« Caractérisation de l’attention visuelle en situation de parole augmentée » Directeur de stage : BADIN PierreLieu du stage :Département Parole & Cognition GIPSA-lab, GrenobleCoordonnateur:J. LOPEZ KRAHE HUANG Lin MasterHandi Paris, Septembre 2008

Plan • Introduction • État de l’art • Préparation du test • Principe du test • Résultat • Conclusion, Applications et Perspectives

Introduction • Contexte • Information visuelle permet d’améliorer la perception et la compréhension de parole • Objectif • Mesure des mouvements du regard de l’auditeur lors de la présentation de stimuli audiovisuels pour différentes conditions de présentation de parole audiovisuelle augmentée • Caractérisation des attentions visuelles correspondantes • Méthodologie • Tête parlante • Oculomètre

État de l’art • Information visuelle permet d’améliorer la perception et la compréhension de parole [Sumby et Pollack (1954)] • Information visuelle par la vue de côté est la plus efficace [Bauman et Hambrecht (1995)] • Tête parlante [Massaro et Light (2004)][Tarabalka et al. (2007)] • Information visuelle bien contrôlée • Visualisation des organes à l’intérieure • Mesure des mouvements du regard • Image d’œil, lentilles à bobines magnétique, système à lumière et caméra infrarouge (Tobii) ou visible

Préparation du test (1)Tête parlante • Tête parlante de l’équipe MPACIF (Département Parole & Cognition, GIPSA-lab) • Assemblage des modèles 3D individuelles des organes pour parler (la langue, le palais, les lèvres, le mâchoire, les dents, le visage, etc.) • Modèles construits à partir d’images MRI, CT et de séquences de vidéo • Vision de la langue directe et complète (voir l’exemple à droite)

Préparation du test (2)Oculomètre Tobii ET-17 Fonctionnement: • Diodes infrarouges émettent la lumière sur les yeux • Réflexion sur la cornée et d’autres informations visuelles sont collectés par une caméra • Algorithmes de traitement d’image identifient les éléments pertinents • Mathématiques complexes sont utilisées pour calculer la position de trois dimensions du mouvement du regard • Un écran pour afficher les stimuli • Des diodes et une caméra infrarouges

Préparation du test (3)ClearView ClearView, par la technologie Tobii, est un logiciel pour visualiser les données du regard, et faciliter l’interprétation du comportement de sujet.

Fichiers textes par ClearView Fichier d’événement (EVD.txt) Fichier de coordonnées des points du regard (EFD.txt)

Préparation du test (4)Installation du système de test • Ce système est composé de: • Un ordinateur sous Windows qui enregistre les données de Tobii • Un ordinateur sous Linux qui contrôle la tête parlante • L’oculomètre Tobii ET-17 • Deux moniteurs standards

Préparation du test (5)Synchronisation • Synchronisation temporelle • Objectif : vérifier le décalage du temps entre l’enregistrement par Tobii et l’affichage de stimuli • Synchronisation spatiale • Objectif : synchroniser les coordonnés spatiales de l’enregistrement par Tobii et de stimuli

Synchronisation

Synchronisation Conclusion : • Synchronisation temporelle • Décalage du temps par le réseau est aléatoire. • Il faut faire la synchronisation temporelle chaque fois avant le test de caractérisation • Synchronisation spatiale • Les coordonnées par Tobii et l’affichage de stimuli sont correspondants.

Principe du test (1) • Un sujet bien entendant et bien voyant qui n’a pas d’expérience préliminaire de l’analyse des organes de parole • Tête parlante avec la vision de la langue directe et complète • 32 stimuli de séquences « Voyelle-Consonne-Voyelle » • 4 condition de présentation de stimuli • 4 niveaux du bruit • Les stimuli sont présentés successivement au sujet • La durée d’une séance de test complète est environ 30 minutes • Les mouvements du regard du sujet sont enregistrés par l’oculomètre Tobii ET-17

Principe du test (2) Conditions de présentation • Quatre conditions de présentation • plan médio-sagittal sans langue, avec les lèvres • + signal audio • 2. plan médio-sagittal sans lèvres, avec la langue • + signal audio • plan médio-sagittal avec langue et les lèvres • + signal audio • plan médio-sagittal avec • la texture de la peau • + signal audio

Principe du test (3) stimuli audiovisuels • 32 séquences VCV Par exemple, /aba/, /ada/, /idi/, …

Principe du test (4) Bruit • Quatre niveaux du rapport de signal/bruit (SNR): inf, +3dB, -9dB, -inf Exemple 1: stimulus /ada/ avec SNR = +3dB, présenté dans la condition « plan médio-sagittal sans langue, avec les lèvres + signal audio» Exemple 2 : stimulus /ibi/ avec SNR = -9dB, présenté dans la condition « plan médio-sagittal avec la texture de la peau + signal audio »

Résultats

Conclusion • Un test de caractérisation de l’attention visuelle en situation de parole augmentée est effectué. • Une tête parlante est utilisée pour présenter les stimuli audiovisuels. • Différentes conditions de présentation de stimuli et différents niveaux du bruit sont utilisés. • L’oculomètre Tobii ET-17 enregistre les points du regard • Les résultats montrent que le sujet regarde plutôt la partie qui bouge. • De plus, si les lèvres et la langue sont présentés, quand le niveau du bruit augmente, les points du regard tendent toujours vers la région de la langue. • Le mouvement de la langue semble permettre d’aider l’identification des consonnes, en particulier avec du bruit.

Applications et perspectives • Applications du système de synthèse des stimuli audiovisuels avec la vision de la langue directe et complète • Apprentissage de parole et la correction phonétique, i.e. la réhabilitation de la parole des malentendants • Apprentissage des articulations en langue étrangère, • Enregistrement des articulations des langues en train de disparaître. • Perspectives • Mesure de l’influence de la fréquence de vibration des articulateurs pour l’attention visuelle de l’auditeur. • Évaluation de la contribution de la langue visuelle dans la perception des autre langages. • Utilisation de cette connaissance dans le cadre de méthodes d’apprentissage de la lecture de parole augmentée pour des malentendants.

Références • Badin, P. & Serrurier, A. (2006). Three-dimensional modeling of speech organs: Articulatory data and models. In Transactions on Technical Committee of Psychological and Physiological Acoustics, vol. 36, No 5, H-2006-77, pp. 421-426. Kanazawa, Japan, 20-21st July 2006. The Acoustical Society of Japan. • Bauman S.L. & Hambrecht G. (1995). Analysis of view angle used in speechreading training of sentences. American Journal of Audiology, 4 :67–70, November • Massaro, D. W. & Light, J. (2004). Using visible speech for training perception and production of speech for hard of hearing individuals. Journal of Speech, Language, and Hearing Research, vol. 47, no. 2, 304–320. • Sumby W. H. & Pollack I. (1954). Visual contribution to speech intelligibility in noise. Journal of Acoustical Society of America, 26(2) :212–215. • Tarabalka Y., Badin P., Elisei F., & Bailly G. (2007). Can you read tongue movements ? Evaluation of the contribution of tongue display to speech understanding. In Conférence Internationale sur l’Accessibilité et les systèmes de suppléance aux personnes en situation de Handicaps (ASSISTH), Toulouse France.

FIN Merci pour votre attention

réalité augmentée • Par un système de réalité augmentée on entend un système qui rend possible la superposition de l'image d'un modèle virtuel 3D ou 2D sur une image de la réalité

Characterization of Visual Attention in Augmented Speech Situation

Characterization of Visual Attention in Augmented Speech Situation

Presentation Transcript

D y s p h a g i a

Stage Compositions – Total Condenser

Présentation du stage

The Cycle of Depression

Fats Domino on stage

Rapport de stage en entreprise

Meaningful Use Workgroup Pathways for Meaningful Use Stage 3

Manpower Selection – 5 Stage Process

The Stage

Stage Duinkerke

스테이지 STage 안내서

112. Aphid – Adult Stage

Conceptual Design TC comments ( II)

Cognition 2

Key Stage 4 Information Evening

New Zealand United World College

Stage Directions Types, and Positions Vocabulary

Interpreting Mechanical Displacements During Hydromechanical Well Tests in Fractured Rock

Engineering Entrepreneurship

Aligning with stage 1

Meaningful Use Workgroup Pathways for Meaningful Use Stage 3