340 likes | 507 Views
Multimodale Systeme Joulavskaia Natalie Nikoulina Irina. G liederung. Motivation Begriffsdefinitionen Eingabegeräte Geschichteüberblick Frühere multimodale Systeme Entwicklung des Eingabesystems VIENA: offene Eingabe CARE – Konzept CARE und VIENA VIENA/MEA
E N D
Multimodale Systeme Joulavskaia Natalie Nikoulina Irina
Gliederung • Motivation • Begriffsdefinitionen • Eingabegeräte • Geschichteüberblick • Frühere multimodale Systeme • Entwicklung des Eingabesystems • VIENA: offene Eingabe • CARE – Konzept • CARE und VIENA • VIENA/MEA • Multimodale Systeme/Ansätze
Modalität (oder Modus) Multimodalität Multimodale Systeme Multimodales Parsing/ Multimodales Generierung Motivation Definitionen
Motivation Eingabegeräte • Erfassung von Gesten - video-basiert - basiert auf Sensoren • Erfassung von Blickrichtungen - Eyertracker • Erfassung von der Sprache - Mikrophon - Tastatur
Motivation Geschichteüberblick
Frühere Systeme für Sprache & Gestik - SCHOLAR (Corbonell 70) - Put-That-There (Bolt 80) - XTRA (Allgayer et. Al. 1989) - CUBRICON (Neal/Shapiro 91) Merkmale - die Integration von Gesten erfolgt durch das Auftreten von sprachlichen Referenzausdrücken - kein allgemeiner wohldefinierter multimodaler Integrationsmechanismus - Beschränkung auf Zeigegesten Frühere multimodale Systeme Merkmale
1. Sequentielle Analyse/ Zusammenführung von Sprach- und Gesteneingaben [Put-That-There System (Bolt, 1980) CUBRICON (Neal & Skapira, 1991)] Parallele Verarbeitung (Koors, Sparrell & Thorisson, 1993; Bos, Huls & Claasen, 1994; Nigay & Coutaz, 1995) Offene Eingabe wurde von den früheren Ansätzen nicht benutzt/ keine Auflösung von Redundanzen und Inkonsistenzen Frühere multimodale Systeme Wie hat sich das Eingabesystem entwickelt?
VIENA VIENA -Virtuelle Entwurfsumgebung und Agenten(Wachsmuth&Cao, 1995) Sprachlich-gestische interaktive Manipulation eines 3-d virtuellen Büroraums
VIENA Manipulierbarer virtueller Raum im VIENA-Projekt
VIENA: offene Eingabe Eingabearchitektur von VIENA
Ziel der multimodalen Eingabearchitektur Entwicklung eines allgemeinen Verfahrens zur Integration Benutzereingaben VIENA: offene Eingabe Ziel der MEA
CARE-Konzept : Entwicklung und Bewertung von den Aspekten der multimodalen Interaktion - CARE wurde entwickelt ca. 1995 von Coutaz/ Nigay/ Salber am IMAG, Frankreich - Besteht aus einem theoretischen Framework und einer formalen Schreibweise - Bezieht sich auf Ein- und Ausgabe - Beschreibt Relationen zwischen Modalitäten Die CARE-Properties 1. Komplementarität (Complementary) 2. Zuweisung (Assignment) 3. Redundanz (Redundancy) 4. Äquivalenz (Equivalence) CARE Beschreibung
CARE Formale Schreibweise „äquivalente Modalitäten bezüglich eines Zielzustandes“
- Welche Eigenschaft dient welchem Ziel? Beispiele: - schnelle Integration durch Äquivalenz ( Tastatur <-> Sprache) - intuitive Bedienung durch Redundanz - VIENA analysiert mit den CARE-Properties CARE Beispiele
CARE Grafische Notation
CARE Die von MEA-unterstützten Eigenschaften(Beispiele)
CARE CARE & Integrationsverfahren
Universität Bielefeld AG Wissensbasierte Systeme (Wachsmuth&Fröhlich) Forschungsfokus – Gestenerkennung für Mensch-Maschine-Schnittstellen - multimodale Integration von Gestik und Sprache Problem: zeitliche Kopplung der Modalitäten Verzögerungen bei der Vorverarbeitung – zeitlich gestreut rhythmische Natur menschlicher Kommunikation neuartige Methode zur Konzeption eines MES Basis – zeitgetaktete Multiagentensystem mit Integration der Sensordaten in einer multimodaler EDS
Gesteneingabe – Nintendo-Datenhandschuh Spracheingabe – Mikrofon Dragon Dictate (Version 1.2b) Spracherkenner VIENA
VIENA Instruktionen werden mit gesprochener Sprache eingegeben und durch Zeigegesten ergänzt
put | <Geste> this | computer | on | <Geste> that | table Zeigegeste werden durch Handschuhzeigen auf Objekte oder Positionen eingegeben VIENA
Realisierung der Aufnahme und Verarbeitung der Eingabeinformationen durch multiple Software-Agenten Agent – autonomer Berechnungsprozess Agentur VIENA / MEA
sense-compute-act-Zyklus sense – Aufnahme von Nachrichtendaten compute – Berechnung der jeweiligen Funktion act – Senden technischer Kommandos Das Verarbeitungsmodell von Agentensystemen ist ereignisgetrieben Agentensystem
Architektur der VIENA-System VIENA / Architektur
multimodale Eingabe-Agentur listener (speech, type, gesture) Parser Koordinator Architektur / MEA
Probleme bei der Koordinieren und Integrieren der perzipierten Sprach- und Gesteneingaben Segmentierungsproblem: Wie sind dieProzesseinheiten zu determinieren, die das System in einem Zyklus verarbeitet? Korrespondenzproblem: Wie sind die Querbezüge zwischen den Modalitäten zu determinieren? Integrationsprobleme
Segmentierung Segmentierung 3-Zustands-Rhythmus-Modell (swing-subside-wait)
Segmentierung Segmentierungsprozess 4 Schritte: • sense – registriert Nachrichten von listener- Agenten • buffer – extrahiert und akkumuliert sie in EDS • compute – interpretiert in EDS akkumulierten Daten • act – bestimmt Agenten und übergibt die Aufgaben an sie Sense und buffer im Wechsel bis der Zeitzyklus abgeschlossen ist Compute und act – am Ende jeden Zeitzyklus
Korrespondenz compute – Auflösung der Korrespondenzen zwischen verbaler und gestischer Information in der EDS und eine Gesamtaufgabenbeschreibung 2 Fälle: Zeitzyklus-interne Interpretation Zeitzyklusüberspannende Interpretation separate Analyse der Sprach- und Gestenmodalität Berechnung wahrscheinlichsten Korrespondenzen Überprüfung der resultierenden Repräsentation auf Vollständigkeit Korrespondenz
Tatsächliche multimodale Integration – Herstellung der Korrespondenzen zwischen Gestenperzepten und Gestenplätzen innerhalb des 2 sek. Intervals Gestenplatz – zeitgestempelter Informationsplatzhalter, die Spracheingabe ergänzen bilden Ankerpunkte für den Aufbau von Querreferenzen zw. Sprach- und Gestikereignissen zwei Gestenplätze – ein Gestenperzept: die Auflösung durch zeitliche Nähe und den Vergleich der Ambiguitätswerten Integration
Multimodale Benutzung adaptiver Kfz-Bordsysteme zunehmende Komplexität moderner Kfz-Bordsysteme Bedarf an verbesserten MMS Komplexität der Bordsysteme verbergen einfache und intuitive Bedingung ermöglichen Kfz-Bordsystem
Inhalt des Handbuchs in multimedialer Form präsentiert Abfragen von Nachrichten unterschiedlicher Art die Funktionen des Bordsystems sollen mittels Sprache , Gestik und mechanischem Bedienelement angesprochen werden können Kfz-Bordsystem
Kfz-Bordsystem • Statische Einhand-Gesten • Ausführung horizontal über den Mittelkonsole