230 likes | 360 Views
Trends und aktuelle Entwicklungen von Sprachdialogsystemen. Einführungsvortrag von Prof. Dr. G.-U. Tolkiehn IIR-Konferenz „Voice 2004“ am 4. 10. 2004 in Frankfurt/M. Inhalte des Vortrags:. Stand der Technik, aktuelle Entwicklungen:
E N D
Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr. G.-U. Tolkiehn IIR-Konferenz „Voice 2004“ am 4. 10. 2004 in Frankfurt/M.
Inhalte des Vortrags: • Stand der Technik, aktuelle Entwicklungen: • Voice-Portale - mehr als nur Automatisierung zur Senkung der Kontaktkosten im Call Center: Ergänzung und/oder Alternative zu Web-Portalen • Spracherkennung und –synthese: Perfektionierung, z. B. durch phonetische Transskriptionsverzeichnisse, Grammatiken, KI • Konzentration bei den großen Basistechnologie-Anbietern: Wenig Hoffnung auf Preissenkungen • Trends und Perspektiven: • Wachstum: V-Commerce soll wesentlichen Anteil an e-Commerce erobern • Neue Anwendungsgebiete: Gewinnspiele, e-mail-reading und Überweisungen - Sprachtechnologie kann viel mehr • Immer wichtiger für innovative Lösungen: Software- und Systemhäuser • Wie steht es mit plug-and-play-Lösungen für KMU’s?
Stand der Technik: IVR, Voice-Portale Quelle: GartnerGroup „The Implications of the 2001 CRM Hype Cycle“ vom 3. 4. 2001
Kleine Systematik: Elemente von Sprachsystemen • Sprachaufnehmende Systeme • Sprache Sprachdaten (Mikrofon, ADC, Codec) • Sprachübermittelnde Systeme (PBX, PSTN, ISDN, LAN, Internet) • Sprachdaten Übertragung Sprachdaten • Sprachspeicherung • Sprachdaten Speichersystem/-medium Sprachdaten • Sprachanalysierende Systeme • Sprache Sprachdaten Text Daten Bedeutung (Spracherkennung (Worte), Sprachverständnis, Sprechererkennung, Sprecherverifikation) • Geräusche Daten (DTMF-, Pausen-Erkenner, grunt-detection, AB-, Besetzt-Erkenner, noise-reduction) • Sprache erzeugende Systeme • Daten Text Sprachdaten Sprache (sprechende Systeme, TTS, Reading) • Sprachausgabesysteme • Sprachdaten Sprache (Codec, DAC, Lautsprecher)
Sprachaufnehmende und -ausgebende Systeme • „der“ Standard: • „Telefonqualität“ (digital: ITU G.711, 300 Hz –3,4 kHz) oder neuerdings: GSM-Qualität • Endgerät „knochenförmig“, schnurgebunden oder schnurlos • Zifferntastatur 0-9, *, #, plus mehr oder weniger verständliche Funktionstasten, • meist kleines alphanumerisches Display, • andere Bauformen sind möglich (Headset, Speakerphone, Soundkarte), jedoch bisher nur in Nischen verbreitet • Umwandlung von Sprache in Sprachdaten und umgekehrt • besondere Qualitäten: Höhere Bandbreiten, zusätzliches Video, Außenmikrophone ...
Bereiche der Sprachqualität Voice over Internet GSM ISDN Quelle: „Leitfaden VoIP“, Swyx Communications AG, 2000
Netz ADC DEE DÜE DÜE DEE DAC Sprachspeicher Sprachspeicher, Verwendung in Systemen E/A-Elemente und UI E/A-Elemente und UI • Sprachspeicher speichern Sprachdaten. Es gibt sie analog, digital, mit VoIP, als Komponenten von: • Voice-Logging-Systemen teilnehmerseitig (simplex/duplex, an Endgerät, PBX, LAN) • Voice-Logging-Systemen im (öffentlichen) Netz • Voice-Message-Systemen im (öffentlichen) Netz • Voice-Message-Systemen auf der Teilnehmerseite • Anrufbeantwortern (analog und digital, beim B-Teilnehmer) • Benachrichtigungssystemen (outbound) • Ansagesystemen, IVR-Systemen, auto-attendants, voice portals
Sprachanalysierende Systeme (ASR) • Spracherkennung • Diktiersysteme (Sprache Text, großer Wortschatz, i.d.R. sprecherabhängig, großer Ressourcenverbrauch, hohe Fehlerraten) • Sprach-Bedienung von Dialog-Systemen heute i.w. wortweise: • Sprache Text Daten oder • Sprache Text einfache Grammatik Daten, • meist sprecherunabhängig, mittlerer Wortschatz, ladbar, einstellbare Fehlerrate, wordspotting und barge-in, Ziel „natural language understanding“ • Sprach-Authentifizierung • Sprecherverifikation (sicher in Größenordnung 1 aus einige 1000) • Sprechererkennung (ebenfalls 1 aus einige 1000) • Geräuschanalyse • DTMF-Erkennung für Dialogsysteme mit Sprachausgabe • Pausen-Erkenner zur Datenkompression • grunt-detection, AB-Erkennung, Besetzt-Erkenner • noise- und distortion-Analyse und -Reduktion
Spracherzeugende Systeme • Umwandlung von Textdaten oder anderen nicht-Sprachdaten in Sprachdaten • Anwendung: • Reading (TTS, Vorlesen von gespeichertem Fließtext) • Ansagen von generiertem Text (Zeit, Börsenkurse, Auskunft) • Funktionen: • ggf. Textgenerierung (Komponente von NL-Dialogsystemen, erfordert semantische und grammatische Synthese) • Umwandlung von Text in Phonem-Fluss, heute mit Betonung und Tonhöhenverlauf (erfordert eine „relativ einfache“ Grammatikevaluation) • Umwandlung des Phonemflusses in Sprachdaten
Top-View: • Was will der Betreiber? • Kosten sparen durch Verlagerung von so viel Dialog wie möglich vom live agent in die Maschine. • Die Schallmauer 1€/Call durchbrechen • V-Commerce: Mit Sprache neue Geschäftsmöglichkeiten schaffen – aber zu geringen Kosten. Webserver können viel, sind aber nicht immer das Optimum. • Was will der User? • In erster Linie, dass er • das bekommt, was er haben will, • dann, wenn er es haben will, • ohne Risiken und • zu bekannten und akzeptablen Kosten. • Einfach, verfügbar, klar, verlässlich, preiswert, sicher.
Vergleich mit Webserver und Call Center • Also: Call Center-Funktionalität zu Transaktionskosten von Webservern. • In USA wurden vor Jahren Webserver (Shops und Helpdesks) mit der Dialogstruktur der bereits erprobten IVR-Systeme ausgestattet. Ein Fehlschlag. • Wer heute versucht, Voice-Portale mit der Dialogstruktur von Web-Shops aufzubauen begibt sich ebenfalls in Gefahr. • Die Dialogstruktur von IVR-Systemen tut es natürlich auch nicht mehr • Ist das alles? Gute Dialoge aus den Call Center Erfahrungen ableiten und gute Technik einsetzen? Sollte doch gehen. Oder?
Gefahrenpotentiale • Lehrsatz: Automatisierung senkt Kosten zu Risiken und Nebenwirkungen fragen Sie Ihren Vertriebsleiter oder Unternehmensberater • Negativ-Beispiel: Geldautomaten der Banken • Kommunikation mit Menschen ist eine komplexe Angelegenheit. Sachebene - Beziehungsebene • Was kommuniziert Ihr Voice-Portal eigentlich auf der Beziehungsebene? • a b • Selbst für eine „relativ einfache“ Kommunikation auf der Sachebene benötigen wir aber bereits
Grammatik- Analyse Komplexe integrierte Systeme Quelle: Philips (www.speech.philips.com)
Komplexe integrierte Systeme • „Alte Technik“: IVR-Systeme (Interactive Voice Response oder VRU), auto attendant, UM: Meist nur DTMF-Erkennung und Konservenausgabe, Sprachspeicher, spezielle einfache Transaktionen • „Neue Technik“: Voice-portals, integrativer Ansatz • ASR: Word-spotting, barge-in, Grammatik, Sprachmodelle? Welcher Erkenner? Gutes Wörterbuch mit effizienter Erweiterungsfunktion? Welche Sprachen? Wieviel simultane Kanäle? • Sprachausgabe aus Konserven? TTS? DTS? Welche Lösung? • Guter Dialoggenerator? Auswertungen und Änderungen der Dialoge während der Laufzeit einfach durch Anwender möglich? • Interoperabilität mit TK-Anlage? ISDN? VoIP? CTI (z.B. Vermittlung, Bedienung VM-System, e-Mail-Abruf)? • Datenschnittstelle für Transaktionssysteme und Webserver • Brauchbare Voice-Message-Funktionen, auch ACD-fähig? • Contact Center und CRM-Integration?
IVR-Technik in deutschen Contact Centern 2002 Summe: 47% Quelle: Marktstudie PartnerConsulting & TFH Wildau Juni, 2003
Investitionsabsichten in Contact Centern 2002 • 17,6% der befragten Unternehmen planten in 2002 bis 2004 in IVR-Technologie investieren • 5,9% der befragten Unternehmen planten in 2002 bis 2004 in Voice-Logging-Systemen zu investieren • Keiner der Teilnehmer wollte in Voice-Mail Systeme investieren • Die Studie wird ab Oktober erneut durchgeführt. Wir werden dann auch explizit nach Voice-Portalen fragen
Voice-Portal-taugliche Bereiche identifizieren! Quelle: White Paper von Concerto Software
Was können wir demnächst erwarten? • Trotz aller Schwierigkeiten: V-Commerce erhält durch Automatisation „zweite Luft“ als wesentliche Komponente von e-commerce. Einige Einzelbelege: • steigende Anzahl von Webseiten zu v-commerce (26. 9. in Google allein auf deutsch 410 Treffer!) • Nuance hat seinen Webauftritt in www.v-commerce.com umbenannt, nicht zu verwechseln mit www.vcommerce.com • Gegenwärtiges Voice Event Revival ca. 5 Jahre nach dem Absterben vieler „alter“ Voice Events • Aber es dauert! • Wer hat schon mal in einem vollautomatisierten v-shop eingekauft? • Wo bleiben v-government und v-administration?
Was können wir demnächst erwarten? • Weitere Perfektionierung der Basis-Technologie, auch neue kleine Anbieter beachten! • Weiterentwicklung der SW-Komponenten (Grammatik, KI, Dialoggeneratoren etc.) • Neue Hardware (Hochleistungsfähige, preiswerte CAPI und VoIP-Komponenten) • SW- und Systemhäuser spezialisieren sich auf Voice-Portal-Lösungen und Anwendungsintegration • Weitere Verbesserung der Flexibilität und Handhabbarkeit der Lösungen durch den Anwender • Kleine Ready-to-Run-Lösungen out-of-the-box • Preissenkungen für SW leider eher nicht
Grid Computing Visibility Biometrics Natural Language Search Web Services Identity Services Wireless LANs/802.11 VPN PDA Phones Nanocomputing Text-to-Speech E-Tags Speech Recognition in Call Center P2P PersonalFuel Cells VoIP WAP/ WirelessWeb Bluetooth PKI Location Sensing E-Payments Speech Recognition on Desktop Peak of InflatedExpectations TechnologyTrigger Trough ofDisillusionment Slope ofEnlightenment Plateau ofProductivity Maturity Gartner Hype Cycle 2003 Key: Time to “Plateau” Less than two years Two to five years Five to 10 years Beyond 10 years
Fazit: Es wird sich noch einiges tun • in den nächsten fünf Jahren sind für Voice-Portale also noch • erhebliche technische Weiterentwicklungen • die Erprobung neuer Einsatzgebiete und • erhebliche Zunahme der Marktdurchdringung zu erwarten • Wir bleiben dran. Tun Sie es auch!
Vielen Dank für Ihre Aufmerksamkeit!Fragen und Anmerkungen bitte!Datenversion anfordern von:info@tolkiehn-partner.de
Einfaches Beispiel für eine Grammatik Quelle: Philips (www.speech.philips.com