Trends und aktuelle Entwicklungen von Sprachdialogsystemen

Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr. G.-U. Tolkiehn IIR-Konferenz „Voice 2004“ am 4. 10. 2004 in Frankfurt/M.

Inhalte des Vortrags: • Stand der Technik, aktuelle Entwicklungen: • Voice-Portale - mehr als nur Automatisierung zur Senkung der Kontaktkosten im Call Center: Ergänzung und/oder Alternative zu Web-Portalen • Spracherkennung und –synthese: Perfektionierung, z. B. durch phonetische Transskriptionsverzeichnisse, Grammatiken, KI • Konzentration bei den großen Basistechnologie-Anbietern: Wenig Hoffnung auf Preissenkungen • Trends und Perspektiven: • Wachstum: V-Commerce soll wesentlichen Anteil an e-Commerce erobern • Neue Anwendungsgebiete: Gewinnspiele, e-mail-reading und Überweisungen - Sprachtechnologie kann viel mehr • Immer wichtiger für innovative Lösungen: Software- und Systemhäuser • Wie steht es mit plug-and-play-Lösungen für KMU’s?

Stand der Technik: IVR, Voice-Portale Quelle: GartnerGroup „The Implications of the 2001 CRM Hype Cycle“ vom 3. 4. 2001

Kleine Systematik: Elemente von Sprachsystemen • Sprachaufnehmende Systeme • Sprache  Sprachdaten (Mikrofon, ADC, Codec) • Sprachübermittelnde Systeme (PBX, PSTN, ISDN, LAN, Internet) • Sprachdaten  Übertragung Sprachdaten • Sprachspeicherung • Sprachdaten Speichersystem/-medium Sprachdaten • Sprachanalysierende Systeme • Sprache  Sprachdaten  Text  Daten  Bedeutung (Spracherkennung (Worte), Sprachverständnis, Sprechererkennung, Sprecherverifikation) • Geräusche  Daten (DTMF-, Pausen-Erkenner, grunt-detection, AB-, Besetzt-Erkenner, noise-reduction) • Sprache erzeugende Systeme • Daten  Text  Sprachdaten  Sprache (sprechende Systeme, TTS, Reading) • Sprachausgabesysteme • Sprachdaten  Sprache (Codec, DAC, Lautsprecher)

Sprachaufnehmende und -ausgebende Systeme • „der“ Standard: • „Telefonqualität“ (digital: ITU G.711, 300 Hz –3,4 kHz) oder neuerdings: GSM-Qualität • Endgerät „knochenförmig“, schnurgebunden oder schnurlos • Zifferntastatur 0-9, *, #, plus mehr oder weniger verständliche Funktionstasten, • meist kleines alphanumerisches Display, • andere Bauformen sind möglich (Headset, Speakerphone, Soundkarte), jedoch bisher nur in Nischen verbreitet • Umwandlung von Sprache in Sprachdaten und umgekehrt • besondere Qualitäten: Höhere Bandbreiten, zusätzliches Video, Außenmikrophone ...

Bereiche der Sprachqualität Voice over Internet GSM ISDN Quelle: „Leitfaden VoIP“, Swyx Communications AG, 2000

Netz ADC DEE DÜE DÜE DEE DAC Sprachspeicher Sprachspeicher, Verwendung in Systemen E/A-Elemente und UI E/A-Elemente und UI • Sprachspeicher speichern Sprachdaten. Es gibt sie analog, digital, mit VoIP, als Komponenten von: • Voice-Logging-Systemen teilnehmerseitig (simplex/duplex, an Endgerät, PBX, LAN) • Voice-Logging-Systemen im (öffentlichen) Netz • Voice-Message-Systemen im (öffentlichen) Netz • Voice-Message-Systemen auf der Teilnehmerseite • Anrufbeantwortern (analog und digital, beim B-Teilnehmer) • Benachrichtigungssystemen (outbound) • Ansagesystemen, IVR-Systemen, auto-attendants, voice portals

Sprachanalysierende Systeme (ASR) • Spracherkennung • Diktiersysteme (Sprache  Text, großer Wortschatz, i.d.R. sprecherabhängig, großer Ressourcenverbrauch, hohe Fehlerraten) • Sprach-Bedienung von Dialog-Systemen heute i.w. wortweise: • Sprache  Text  Daten oder • Sprache  Text  einfache Grammatik  Daten, • meist sprecherunabhängig, mittlerer Wortschatz, ladbar, einstellbare Fehlerrate, wordspotting und barge-in, Ziel „natural language understanding“ • Sprach-Authentifizierung • Sprecherverifikation (sicher in Größenordnung 1 aus einige 1000) • Sprechererkennung (ebenfalls 1 aus einige 1000) • Geräuschanalyse • DTMF-Erkennung für Dialogsysteme mit Sprachausgabe • Pausen-Erkenner zur Datenkompression • grunt-detection, AB-Erkennung, Besetzt-Erkenner • noise- und distortion-Analyse und -Reduktion

Spracherzeugende Systeme • Umwandlung von Textdaten oder anderen nicht-Sprachdaten in Sprachdaten • Anwendung: • Reading (TTS, Vorlesen von gespeichertem Fließtext) • Ansagen von generiertem Text (Zeit, Börsenkurse, Auskunft) • Funktionen: • ggf. Textgenerierung (Komponente von NL-Dialogsystemen, erfordert semantische und grammatische Synthese) • Umwandlung von Text in Phonem-Fluss, heute mit Betonung und Tonhöhenverlauf (erfordert eine „relativ einfache“ Grammatikevaluation) • Umwandlung des Phonemflusses in Sprachdaten

Top-View: • Was will der Betreiber? • Kosten sparen durch Verlagerung von so viel Dialog wie möglich vom live agent in die Maschine. • Die Schallmauer 1€/Call durchbrechen • V-Commerce: Mit Sprache neue Geschäftsmöglichkeiten schaffen – aber zu geringen Kosten. Webserver können viel, sind aber nicht immer das Optimum. • Was will der User? • In erster Linie, dass er • das bekommt, was er haben will, • dann, wenn er es haben will, • ohne Risiken und • zu bekannten und akzeptablen Kosten. • Einfach, verfügbar, klar, verlässlich, preiswert, sicher.

Vergleich mit Webserver und Call Center • Also: Call Center-Funktionalität zu Transaktionskosten von Webservern. • In USA wurden vor Jahren Webserver (Shops und Helpdesks) mit der Dialogstruktur der bereits erprobten IVR-Systeme ausgestattet. Ein Fehlschlag. • Wer heute versucht, Voice-Portale mit der Dialogstruktur von Web-Shops aufzubauen begibt sich ebenfalls in Gefahr. • Die Dialogstruktur von IVR-Systemen tut es natürlich auch nicht mehr • Ist das alles? Gute Dialoge aus den Call Center Erfahrungen ableiten und gute Technik einsetzen? Sollte doch gehen. Oder?

Gefahrenpotentiale • Lehrsatz: Automatisierung senkt Kosten zu Risiken und Nebenwirkungen fragen Sie Ihren Vertriebsleiter oder Unternehmensberater • Negativ-Beispiel: Geldautomaten der Banken • Kommunikation mit Menschen ist eine komplexe Angelegenheit. Sachebene - Beziehungsebene • Was kommuniziert Ihr Voice-Portal eigentlich auf der Beziehungsebene? • a b • Selbst für eine „relativ einfache“ Kommunikation auf der Sachebene benötigen wir aber bereits

Grammatik- Analyse Komplexe integrierte Systeme Quelle: Philips (www.speech.philips.com)

Komplexe integrierte Systeme • „Alte Technik“: IVR-Systeme (Interactive Voice Response oder VRU), auto attendant, UM: Meist nur DTMF-Erkennung und Konservenausgabe, Sprachspeicher, spezielle einfache Transaktionen • „Neue Technik“: Voice-portals, integrativer Ansatz • ASR: Word-spotting, barge-in, Grammatik, Sprachmodelle? Welcher Erkenner? Gutes Wörterbuch mit effizienter Erweiterungsfunktion? Welche Sprachen? Wieviel simultane Kanäle? • Sprachausgabe aus Konserven? TTS? DTS? Welche Lösung? • Guter Dialoggenerator? Auswertungen und Änderungen der Dialoge während der Laufzeit einfach durch Anwender möglich? • Interoperabilität mit TK-Anlage? ISDN? VoIP? CTI (z.B. Vermittlung, Bedienung VM-System, e-Mail-Abruf)? • Datenschnittstelle für Transaktionssysteme und Webserver • Brauchbare Voice-Message-Funktionen, auch ACD-fähig? • Contact Center und CRM-Integration?

IVR-Technik in deutschen Contact Centern 2002 Summe: 47% Quelle: Marktstudie PartnerConsulting & TFH Wildau Juni, 2003

Investitionsabsichten in Contact Centern 2002 • 17,6% der befragten Unternehmen planten in 2002 bis 2004 in IVR-Technologie investieren • 5,9% der befragten Unternehmen planten in 2002 bis 2004 in Voice-Logging-Systemen zu investieren • Keiner der Teilnehmer wollte in Voice-Mail Systeme investieren • Die Studie wird ab Oktober erneut durchgeführt. Wir werden dann auch explizit nach Voice-Portalen fragen

Voice-Portal-taugliche Bereiche identifizieren! Quelle: White Paper von Concerto Software

Was können wir demnächst erwarten? • Trotz aller Schwierigkeiten: V-Commerce erhält durch Automatisation „zweite Luft“ als wesentliche Komponente von e-commerce. Einige Einzelbelege: • steigende Anzahl von Webseiten zu v-commerce (26. 9. in Google allein auf deutsch 410 Treffer!) • Nuance hat seinen Webauftritt in www.v-commerce.com umbenannt, nicht zu verwechseln mit www.vcommerce.com • Gegenwärtiges Voice Event Revival ca. 5 Jahre nach dem Absterben vieler „alter“ Voice Events • Aber es dauert! • Wer hat schon mal in einem vollautomatisierten v-shop eingekauft? • Wo bleiben v-government und v-administration?

Was können wir demnächst erwarten? • Weitere Perfektionierung der Basis-Technologie, auch neue kleine Anbieter beachten! • Weiterentwicklung der SW-Komponenten (Grammatik, KI, Dialoggeneratoren etc.) • Neue Hardware (Hochleistungsfähige, preiswerte CAPI und VoIP-Komponenten) • SW- und Systemhäuser spezialisieren sich auf Voice-Portal-Lösungen und Anwendungsintegration • Weitere Verbesserung der Flexibilität und Handhabbarkeit der Lösungen durch den Anwender • Kleine Ready-to-Run-Lösungen out-of-the-box • Preissenkungen für SW leider eher nicht

Grid Computing Visibility Biometrics Natural Language Search Web Services Identity Services Wireless LANs/802.11 VPN PDA Phones Nanocomputing Text-to-Speech E-Tags Speech Recognition in Call Center P2P PersonalFuel Cells VoIP WAP/ WirelessWeb Bluetooth PKI Location Sensing E-Payments Speech Recognition on Desktop Peak of InflatedExpectations TechnologyTrigger Trough ofDisillusionment Slope ofEnlightenment Plateau ofProductivity Maturity Gartner Hype Cycle 2003 Key: Time to “Plateau” Less than two years Two to five years Five to 10 years Beyond 10 years

Fazit: Es wird sich noch einiges tun • in den nächsten fünf Jahren sind für Voice-Portale also noch • erhebliche technische Weiterentwicklungen • die Erprobung neuer Einsatzgebiete und • erhebliche Zunahme der Marktdurchdringung zu erwarten • Wir bleiben dran. Tun Sie es auch!

Vielen Dank für Ihre Aufmerksamkeit!Fragen und Anmerkungen bitte!Datenversion anfordern von:info@tolkiehn-partner.de

Einfaches Beispiel für eine Grammatik Quelle: Philips (www.speech.philips.com

Trends und aktuelle Entwicklungen von Sprachdialogsystemen

Trends und aktuelle Entwicklungen von Sprachdialogsystemen

Presentation Transcript

Aktuelle Entwicklungen im Verbraucherinsolvenz- und Restschuldbefreiungsverfahren aus höchstrichterlicher Sicht

„Aktuelle Entwicklungen des Energierechts“

Aktuelle Entwicklungen in der Vereinsbesteuerung

Fondskongress 2006 “Der Hase und der Igel” – Aktuelle steuerliche Entwicklungen

Aktuelle Entwicklungen im kirchlichen Arbeitsrecht

„Deutsche Steinkohle – Aktuelle Entwicklungen und Perspektiven“

Aktuelle Entwicklungen im Recht der Befristung

Aktuelle Entwicklungen im Fach Mathematik

Aktuelle Behandlungsansätze von COPD und seinen Begleiterkrankungen

Studienwahlberatung Aktuelle Entwicklungen und Planungen des BMUKK und BMWF

Aktuelle Entwicklungen in der Echtzeit Computergrafik

Aktuelle Entwicklungen im Chemikalienrecht

Workshop Branchenzuschläge und aktuelle Entwicklungen in der Arbeitnehmerüberlassung

Erfolgsstory IT-Berufe NRW?! Entwicklungen und Trends

Update Arbeitsrecht 2011 Aktuelle Entwicklungen und Ausblick

Aktuelle Entwicklungen im Gefahrstoffrecht:

Destinationsmanagement – neue Trends und Entwicklungen

ANERKENNUNG IN ÖSTERREICH: Aktuelle Entwicklungen, Ausblick und Alternativen

Aktuelle pflegepolitische Entwicklungen

Aktuelle Entwicklungen im Kampf gegen Viren- und Spamflut

Aktuelle Entwicklungen in der Energie- und Klimaschutzpolitik auf Bundes- und EU-Ebene

Aktuelle Entwicklungen der Gesundheitspolitische Rahmenbedingungen