210 likes | 314 Views
Danske Taledialogsystemer og systemet bag Feriekonto hos ATP (talestyret FAQ) Hans Dybkjær Prolog Development Center A/S. Prolog Development Center A/S. Stiftet 1984 – 100% dansk ejet Stabil vækst ca. 10% per år, AAA økonomi 60+ ansatte, ca. 2/3 dataloger, ph.d’er, ingeniører.
E N D
Danske Taledialogsystemer og systemet bag Feriekonto hos ATP (talestyret FAQ)Hans Dybkjær Prolog Development Center A/S
Prolog Development Center A/S • Stiftet 1984 – 100% dansk ejet • Stabil vækst ca. 10% per år, AAA økonomi 60+ ansatte, ca. 2/3 dataloger, ph.d’er, ingeniører. • Langvarige kunderelationer: SAS, Swissair, TWA, SITA, McDonald’s, Norsk Hydro, Danfoss, Beredskabsstyrelsen, Novo Nordisk, Coop, Silkeborg Datacentral • Kerneområder: • Luftfart, Vagtplan, Industri, Beredskab, Tale • Intelligente informations- og planlægningssystemer med avancerede grænseflader; grafik, web og tale “Softwarehus med bred portefølje og robust synergi”
SpeechLogic – en gruppe i PDC • Prolog: Kunstig intelligens og sproganalyse • Flex: Hjemme-Informations-Center. EU-projekt, B&O, Software AG, universiteter Madrid og Edingburgh • FerieKonto for ATP: Talebaseret telefontjeneste (det kommer der mere om) • Emma: Talestyret omstilling • Satsning på tale-området: Kompetenceudvikling, partnerskaber, netværk, videnopsamling, salgsarbejde, seminar m.m. • Kernegruppen: 7 personer, heraf 3 datalingvister “Flerårig indsats som nu optrappes”
Forskellige typer tale “Det hele er modent for dansk”
Teknologier • Syntese fra TDC/SpeechWare/AUC og fra Scansoft • Genkendelse Nuance, Scansoft (plus Philips diktere) • Platforme: • Særskilte: SpeechMania (Scansoft) • Event-drevne produktionsregler i C-lignende syntaks; standalone-arkitektur • Indbyggede i telefoni: Fx HotVoice og Edify • Begge har flowagtig GUI-editor • VoiceXml: Flere løsninger • Standardiseret sprog, web-serverarkitektur • Ingen kommercielle danske servere endnu “Meget moden og stabil teknologi – alle med dansk sprog”
Levende tale i Danmark “Flere systemer kommer til – lidt ad gangen”
Emma: Automatisk taleomstilling • Integration med Outlook og Lotus Notes • Kører på Edify system • Under overtagelse af PDC fra tidligere Empathy “Et produkt”
ATP – FerieKonto Motivation • ATP vil være konkurrencedygtige • ATP vil være innovative • Tage initiativ og udforske nye muligheder • Være teknologisk i front, hvis det hjælper kunden • Global trend, men sløv start i Danmark • Målet med bedre kundeservice og reducerede omkostninger kan kun nås gennem automatisering • Tale er en brugervenlig automatisering “ATP anbefaler: Tænk stort – og start i det små”
FerieKonto: 4820 4910 #3 • Hvad? • Førstegangsbrugere • 1-3 opkald i livet • Struktureret dialog • Instruktioner • Informative prompter • Muligt at afbryde systemtale • Brugerinitiativ er muligt • Resultater • 11.000 opkald per år • Opfylder ATP’s forventninger “Et alternativ for dem som ellers skal stå i kø eller uden for lukketid”
Nogle erfaringer • Teknologien virker – med visse problemer • Nogle gange må ordforråde vælges efter genkenderen • Brugerne • Kender ikke til talesystemer • Kender ikke til domænet, end ikke eget problem • Forventer ofte at tale med sagsbehandler • Lægger ofte på uden at sige noget • Men kan komme igennem • Modellen • Læsbarhed lige så vigtig som det formelle • Vigtigt at fokusere på vedligehold “De vigtigste opgaver er dialogdesign og grammatik”
Konstruktion • ATP: 85 begreber, 12.000 linjer kode, 2700 linjer grammatik, 50 sider HTML • Talesystemkonstruktion er softwareudvikling • Kravspecifikationer, brugsmønstre, scenarier • Design, arkitektur, objekter, mønstre • Versionsstyring • Test • Implementation og vedligehold • Enighed med domæneeksperter • Domænet mere komplekst end udviklerne kan nå • Behov for ikke-teknisk præsentation
Konstruktion af stor model • Skabte skræddersyet dialogsprog • Kan modellere i tilpassede mønstre og begreber • Kan sikre ensartet opbygning på tværs i modellen • Bringer arbejdet med vedligehold på højere niveau • Repræsentation i XML • Oversættes til HDDL som program • Oversættes til HTML som præsentation • Ville have gjort det samme med andre sprog som målsprog (VoiceXml, HotVoice,
Design af prompter • System: Velkommen til generel vejledning. • Du vælger emne ved at tale til systemet. • Sig om du er: – ‘lønmodtager’ – ‘på orlov’ – ‘flyttet til udlandet’ – eller har ‘forladt arbejdsmarkedet’ på grund af ‘alder’ eller ‘helbred’ • Sig en af mulighederne eller sig ‘flere muligheder’. • Bruger A: øh efterløn forladt arbejdsmarkedet • Bruger B: forladt arbejdsmarkedet • Bruger C: øh jeg er flyttet til udlandet • Bruger D: sygemeldt “Brugerne skal gives en klar model af hvad de kan gøre og kan sige”
Omstillingsdemo PDC • Hvad? • Mest interne brugere • Kun taleomstilling • Kan kaldes eksternt fra • 36360097 • Kun interne får lokalnummer • For- mellem- efter- hele navn • Syntese til personoplysninger • Resultater • Bruges i PDC • Bliver erstattet af Emma “Kræver man kender navnet – men oplagt som firmatelefonliste”
Talearkitektur Difoner Leksikon Genkend Syntetiser Statistik Generer Forstå Grammatik Styr Dialog Data & Forretningslogik “Fra akustisk signal til computerens spørgsmål”
Genkendelse Dragør Øhm gi’ mig postnummeret te’ Dragør Filler City Zip Forståelse Mening:City: DragørZip: ? Genkendelse – fra signal til mening PHON LEX REC SYNTH STAT GEN PARSE GRAM MAN DIALOG “Genkendelse er et modul – med parser” DATA & LOGIC
Sprog i (milde) i: (mile){ (land) {: (male) Lydmodeller(fonemer, difoner) Leksikon(ord, udtale) milde mil@male M{:l@ Grammatik(frase, sætning) <zip> : <nummer>| <nummer> <by>; <ja> 11210.27 ‘ja’ Statistik(ord, par, tripler) Mening:NøglebegreberVærdierRelationer PHON LEX REC SYNTH STAT GEN PARSE GRAM “Man køber leksikonner – laver grammatik og statistik” MAN DIALOG DATA & LOGIC
Dialogstyring • Omhu i design • Stil, ord og stemme påvirker brugerens sprog • Nye eller erfarne brugere • Sammen med lydsiden bestemmer det indtrykket: Kan brugerne lide det eller ej? • Kunden skal kunne læse designet • De har domæneekspertisen • Goddag, mand – eller økseskaft? • Brugerne skal hjælpes til at gøre det rigtige PHON LEX REC SYNTH STAT GEN PARSE GRAM MAN DIALOG “Hjertet og hjerne i dialogsystemer” DATA & LOGIC
Generering og syntese • Syntese • Findes som standardmoduler (SAPI 4 & 5) • Enorm fordel i udvikling og vedligehold • Flydende forståeligt – men maskinelt • Båndede fraser • Omhyggeligt lavet det mest naturlige • Men svært at vedligeholde og svært eller umuligt for dynamiske applikationer • Generering som oftest uhyre stift og primitivt PHON LEX REC SYNTH STAT GEN PARSE GRAM MAN DIALOG “Drømmen for en udvikler” DATA & LOGIC
Integration • Data og forretningslogik • Standardadgang til SQL-databaser • I øvrigt mest proprietære API’er • Positiv afsmitning fra wap og web • Samme protokoller kan bruges lav-niveau • Applikationsprogrammørinterface kan genbruges • Dialog eller domænelogik • Meget domænelogik i dialogstyringen • Data, målinger og valideringer i forretningslaget PHON LEX REC SYNTH STAT GEN PARSE GRAM “Traditionel softwareudvikling – pragmatisk som altid” MAN DIALOG DATA & LOGIC
Produkt eller proces • Hyldevare: • Genkender og sprogpakker • Syntesemodul - Båndede fraser laver man ofte selv • Platform til dialogstyring og IVR • Udvikling (men grænsen flytter sig): • Dialogstruktur og funktionalitet • Sprogmodellering inklusive data og træning • Integration med baggrundsdata og applikation – API, sikkerhed, ... d) Og integration med telefoni – PBX, kort 1a 1c PHON LEX REC SYNTH 2b STAT 1b GEN PARSE GRAM “Tendens til stigende modularitet og produktificering” 2a MAN 2c DIALOG DATA & LOGIC