280 likes | 385 Views
IVSW 2000, Köln 24.11.00. Sprachdialogsysteme für Telefondienste. Gregor Erbach Interprice Technologies. INHALT. Automatische Spracherkennung Diktiersysteme und Dialogsysteme Grundlagen der Spracherkennung Dialogsysteme Dialogbeschreibungssprachen Sprachausgabe Sprechererkennung
E N D
IVSW 2000, Köln 24.11.00 Sprachdialogsysteme für Telefondienste Gregor Erbach Interprice Technologies
INHALT • Automatische Spracherkennung • Diktiersysteme und Dialogsysteme • Grundlagen der Spracherkennung • Dialogsysteme • Dialogbeschreibungssprachen • Sprachausgabe • Sprechererkennung • Dialogsystem für Postgebührenauskunft • Ausblick
AUTOMATISCHE SPRACHERKENNUNG • Forschungen seit den 50er Jahren • Breiter Kommerzieller Einsatz erst seit einigen Jahren • Grund: fallende Kosten für Prozessorleistung und Speicherplatz • Spracherkenner können auf PCs als reine Software-Lösungen realisiert werden
GRUNDLAGEN DER SPRACHERKENNUNG • Digitalisierung des Sprachsignals • Signalanalyse: Verteilung der akustischen Energie über Frequenz und Zeit • Vergleich mit gespeicherten Mustern (akustische Modelle) • Auswahl der am besten passenden Muster durch sprachliches Wissen und Weltwissen
SCHWIERIGKEITEN DER SPRACHERKENNUNG • sprecherabhängig - sprecherunabhängig • Variation der Sprecher (Alter, Dialekt, Gesundheit ...) • kontinuierliche Sprache • Vokabulargröße • Spontansprache • Umgebungsgeräusche • gestörte Sprachübertragung
Schwierigkeit Geräte- steuerung Telefon- anwendung Sprachwahl im Handy Diktiersystem 10000 10 100 1000 100000 1M Vokabular SCHWIERIGKEIT vs. VOKABULAR
Sprach- erkennung Dialog- steuerung Anwendungs-system Datenbank Sprach-ausgabe AUFBAU EINES DIALOGSYSTEMS
DIALOGINITIATIVE • Systeminitiative • bei Systemen, die nur unregelmäßig benutzt werden • Benutzerinitiative • erfahrene Benutzer können ohne Aufforderungen des Systems Kommandos eingeben • gemischte Initiative • beispielsweise für Rückfragen des Benutzers oder Aktivierung einer Hilfefunktion • Überbeantwortung von Fragen durch den Benutzer
BARGE-IN • "Barge-In" ist die Unterbrechung der Ausgabe eines Dialogsystems durch eine neue Eingabe des Benutzers • Vorteile: • Möglichkeit der Unterbrechung langer Ausgaben (z.B. umfangreiche Fahrplanauskünfte, Vorlesen von e-mail) • Zeitersparnis durch schnellere Beantwortung von Fragen • Probleme: • Unterbrechung der Systemsausgabe durch Störgeräusche und Störung des Dialogablaufs
VERIFIKATION • Verifikation ist Bestätigung von Benutzereingaben • Explizite Verifikation: Eingabe muss ausdrücklich bestätigt werden. • Implizite Verifikation: Eingabe wird wiederholt und gilt als akzeptiert, wenn der Benutzer nicht widerspricht.
DIALOGBESCHREIBUNGSSPRACHEN • Programmierung des Dialogablaufs ist ein kritischer Faktor bei der Entwicklung von Dialogsystemen • Drei Ansätze für die Programmierung von Dialogsystemen: • VoiceXML • Bedingung-Aktion-Regeln • SpeechObjects
VoiceXML • Mit VoiceXML können Sprachdialogsysteme spezifiziert werden. • VoiceXML ist eine XML-Applikation und wird durch eine DTD (Document Type Description) definiert. • Dialogführung durch "slot-filling" (Form Interpretation Algorithm) • Verarbeitung ist mit dem Ausfüllen von Formularen in HTML-Seiten vergleichbar. • VoiceXML ist beim WWW Consortium als Standard eingereicht worden und wird von zahlreichen Firmen unterstützt.
VoiceXML: Beispiel <?xml version="1.0"?> <vxml version="1.0"> <form> <field name="drink"> <prompt>Would you like coffee, tea, milk, or nothing?</prompt> <grammar src="drink.gram" type="application/x-jsgf"/> </field> <block> <submit next="http://www.drink.example/drink2.asp"/> </block> </form> </vxml>
VoiceXML Beispieldialog S (System): Would you like coffee, tea, milk, or nothing? B (Benutzer): Orange juice. S: I did not understand what you said. S: Would you like coffee, tea, milk, or nothing? B: Tea S: (setzt den Dialog mit dem VoixeXML-Programm drink2.asp fort)
Bedingung-Aktion-Regeln in HDDL • HDDL wird im Dialogsystem SpeechMania von Philips verwendet • Eine HDDL-Regel besteht aus einem Bedingungsteil (COND) und einem Aktionsteil • Slot-filling kann mit HDDL leicht realisiert werden • Überbeantwortung kann gut behandelt werden
Beispiel: Bedingung-Aktion-Regel COND( art == "paket" && !^gewicht ) { QUESTION(gewicht) { INIT { "Geben Sie bitte das Gewicht des Pakets an"; } } }
SpeechObjects • SpeechObjects sind wiederverwendbare Dialogmodule • SpeechObjects erfüllen bestimmte Funktionen wie Abfrage von Datum und Uhrzeit oder Abfrage einer Kreditkartennummer • Fehlerbehandlung und Verifikation ist in den SpeechObjects eingebaut • Entwickler können eigene Bibliotheken von wiederverwendbaren SpeechObjects aufbauen
SPRACHAUSGABE • Gesprochene vs. synthetisierte Ausgaben • Gesprochene Ausgaben werden von Benutzern besser akzeptiert. • Beim Zusammensetzen von Sprachaufnahmen auf fließende Übergänge achten. • Bei großem oder häufig wechselndem Vokabular ist Sprachsynthese unvermeidlich. • Evaluation von Sprachsynthese nach den Kriterien der Verständlichkeit und Natürlichkeit
SPRECHERERKENNUNG • Sprecherverifikation: Identität eines Sprechers überprüfen • Sprecheridentifikation: Erkennung eines Sprechers aus einer Anzahl möglicher Sprecher • Evaluation anhand der Verhältniszahlen "falsche Akzeptanz" und "falsche Zurückweisung" • Ein Maß kann auf Kosten des anderen verbessert werden • Wird große Sicherheit gefordert, muss Sprecherer-kennung mit anderen Verfahren (Passwort, Chipkarte ...) kombiniert werden
DIALOGSYSTEM FÜR POSTGEBÜHREN • Technische Basis • Philips SpeechMania mit österreichischen akustischen Modellen • Windows NT 4.0 • Pentium III (Minimum: Pentium II, 300 MHz) • 256 MB RAM (Minimum: 64 MB) • ISDN-Karte • Zusammenarbeit zwischen Forschungszentrum Tele-kommunikation Wien (ftw.) und Österreichische Post AG
KRITERIEN BEIM SYSTEMENTWURF • Hauptsächlich Gelegenheitsnutzer • Dialogführung durch das System • Überbeantwortung ist möglich • Kein Barge-In
ENTWICKLUNGSPROZESS • Rapid Prototyping, Spezifikation der Anforderungen • Definition des Dialogflusses • Wizard-of-Oz Experiment • Erstes System mit vollständiger Preisauskunft • Interne Tests • Optimierung der Funktionalität • Tests mit externen Benutzern • Weiterentwicklung des Systems • Interne Tests • Externe Tests
DIALOGBEISPIEL (Teil 1) S1 (System): Möchten Sie ein Paket oder eine Briefsendung verschicken? B2 (Benutzer): eine Briefsendung S3: Möchten Sie|den Brief|ins Inland oder ins Ausland verschicken? B4: ins Ausland S5: In welches Zielland wollen Sie|den Brief|schicken? B6: nach Italien S7: Soll der Brief|nach Italien|als Priority versendet werden? B8: nein danke bitte ich richtig (nein danke, das ist nicht nötig) S9: Bitte geben Sie das Gewicht des Briefes an
DIALOGBEISPIEL (Teil 1) B10: Niue Chile Sudan Bermuda zwanzig Gramm (na ich schätz so zwei hundert zwanzig Gramm) S11: nach Italien|sind folgende Sonderbehandlungen zulässig: Einschreiben, Eilsendung und Nachnahme. Wollen Sie eine dieser Sonderbehandlungen nutzen, wenn ja, welche? B12: nein richtig bitte kostet hier (nein das ist mir zu kompliziert) S13: Danke für Ihre Angaben S14: Ein Brief|nach Italien|20|Gramm schwer, der|priority|versendet wird, kostet|7|Schilling S15: Benötigen Sie eine weitere Auskunft? B16: nein danke
AUSBLICK • Verbindung von Sprachdialog und Multimedia in 3G-Anwendungen (GPRS, UMTS) • Kombination von Spracheingabe und Zeigen auf den Bildschirm • Kombination von Sprachausgabe und animierter Graphik oder Video • Anpassung an Benutzer und Kommunikationssituation • Multimodale Dialoge für e-commerce(www.interprice.com)