220 likes | 390 Views
Taleteknologi-prosjekter ved NTNU/SINTEF – Historikk og status Magne H. Johnsen, Teleteknikk. Hva inngår i taleteknologi. Talekoding Talesyntese Talegjenkjenning Talebaserte dialogsystemer Andre felt: Talergjenkjenning (stemmegjenkjenning) Taleanalyse og taleforbedring
E N D
Taleteknologi-prosjekter ved NTNU/SINTEF – Historikk og statusMagne H. Johnsen, Teleteknikk
Hva inngår i taleteknologi • Talekoding • Talesyntese • Talegjenkjenning • Talebaserte dialogsystemer • Andre felt: • Talergjenkjenning (stemmegjenkjenning) • Taleanalyse og taleforbedring • Språkbank/databaser
Samarbeid og finansiering • Finansiering : • NFR, Telenor FoU, NRK, ... • Faglig samarbeid : • Telenor FoU • SINTEF • NTNU
Historikk - talekoding • Perioden 1975 – 1990 • Hva er talekoding: • Metoder for komprimering av digitalisert tale anvendt innen telefoni og lignende. • Eksempler på arbeid ved NTNU/SINTEF: • GSM (mobiltelefoni) • Bildetelefon • INMARSAT (maritim satelitt-telefon)
Historikk – talesyntese (TTS) • Perioden 1985-1990 & 2003-2006 • Hva er talesyntese : Tekst til tale • Eksempel på arbeid : • Første versjon av Talsmann • Framtidig arbeid: • KUNSTI- FONEMA 2003 -2006
Historikk talegjenkjenning • Perioden 1985 – nå • Hva er talegjenkjenning : Tale til tekst og/eller mening • Eksempler på arbeid : • Teksting av direktesendte TV-programmer • Diverse gjenkjennere i TABUSS/SPODIS dialogsystemet • Framtidig arbeid : • MOBEL 2002-2004 • BRAGE 2002-2006
Historikk dialogsystemer • Perioden 1997 – nå • Hva er et dialogsystem: • Menneske – maskin kommunikasjon • Talebasert brukergrensesnitt • Lingvistisk og semantisk kunnskap! • Eksempler på arbeid: • TABUSS/SPODIS • Framtidig arbeid • BRAGE 2002 - 2006
Talesyntese - FONEMA • Dagens TTS for norsk er for dårlig for mange anvendelser. • Datadrevet bølgeformsyntese gir bedre løsning. • Talestil, dialekt, ”personlighet” etc. i den syntetiserte talen påvirkes av tale-databasen. • Metoden krever innsamling og bearbeiding av store mengder taledata.
Mål for FONEMA • Lingvistisk modell for prosodi i norsk til bruk i talesyntese • Automatiserte prosedyrer for etablering av taledatabaser med talestil tilpasset ulike anvendelser • En generell syntesemodul for produksjon av naturlig tale basert på enhetsutvelgelse • En demonstrator med stemmer tilpasset noen ulike anvendelser • Videreutvikle og bygge opp ny kompetanse innen norsk fonetikk, lingvistikk og taleteknologi for norsk språk (dialekter)
TV studio Kommentator rom Tekst-TV Gjenkjenner Teksting av direktesendte TV-programmer- et tilbud for hørselshemmede
Den første storvokabular gjenkjenner for kontinuerlig tale på norsk! Åpent vokabular(OOV rate for testsett: 5.6%) Splitting av sammensatte ord(reduserer OOV rate fra 5.6% til 2.2%) Bigram språkmodell(enkel statistisk metode) Estimer sannsynligheten til ordpar P(ord2=Jagland | ord1=Torbjørn) = 80% P(ord2=Berntsen | ord1=Torbjørn) = 5% P(ord3=Nordgård | ord1=Torbjørn)= ?% . . . . . . . . . Leksikon:15 K ord basert på tekst-TV Taler-tilpasning Tilpasset programtypen’Nyheter og politikk’ Tilpasset bokmål Systembeskrivelse
Tale- og tekst-databaser ~1,5 mill. ord (~85 K forskjellige) redigert underteksting hentet hovedsaklig fra Dagsrevyen
% korrekte ord Taler ID Resultater for uerfarne kommentatorer
Tilsvarende for en erfaren taler : 90% etter adapsjon % korrekte ord Taler ID Resultater for uerfarne talere
Evaluering av resultatene • Eksempel for en uerfaren taler IS: • 32% av setningene er korrekte • 32% inneholder feil, men er fullt forståelige (semantisk) • 36% kan ikke brukes • Ikke praktisk brukbar pga.: • Total tidsforsinkelse var for stor • “Kritiske feil” MÅ unngås! • Hun er i Brussel...... • Hun er en trussel...... • Ytelsen bør opp fra ca. 90% til minst 95% korrekt for ord • Bl.a. Ved hjelp av trigram språkmodell
SPODIS 1997 -2001 • Prosjektdeltakere: • Institutt for teleteknikk • Lingvistisk institutt • Institutt for datateknikk og informasjonsvitenskap • SINTEF Tele og data • Samarbeid med Telenor FoU • Oppbygging av generisk kunnskap og verktøy for talebaserte dialogsystemer • Utvikle prototyp for talebasert informasjonssystem for busstransport • Produsere 3 doktorgrader
Talebasert bussrute dialogsystem - tlf. 73 51 78 30 • En talegjenkjenner vil : • gjøre feil • gi flere forslag til tekst. • Lingvistisk og semantisk analyse kan: • detektere og korrigere ordfeil. • velge riktig forslag til tekst • trekke ut meningen (brukers hensikt). • Dialog manager skal: • Huske dialogens historie og prediktere/velge neste ’tema’ • huske all informasjon som er gitt av brukeren. • forme systemets respons til bruker • trekke ut ønsket informasjon fra databasen. Når går neste buss til byen? Lingvistisk og semantisk analyse Tale- gjenkjenner Data Dialog manager Hvor vil du reise fra? Tale- syntese Dialog-system
BRAGE 2002 - 2006 • Prosjektdeltakere : som SPODIS • Utvikle og utteste teori og verktøy for gjenkjenning av norsk spontan tale. • Utvikle talesentriske multimodale bruker-grensesnitt til menneske-maskin dialoger. • Utvikle automatiske metoder for komplisert dialog-beskrivelse og-håndtering • Demonstrere anvendelser basert på framtidens ’mobiltelefoner’ • Utdanne 4 doktorgrads-kandidater
Spontan tale er forskjellig fra tekst! • Bakgrunnsstøy • Flere informasjoner • ’Dobbelt-samtale’ • Spontan diktering
Teknologistatus - talegjenkjenning • Spontane dialoger omtrent som samtaler mellom fremmede?
Talesentrisk multimodalt dialogsystem(foil fra Eurescom-prosjektet MUST)
Dialoger og naturlig språk • Talegjenkjenningsmål: • Akseptabel ytelse for spontan tale til dialog-formål • Suksess-rate viktigere enn ordfeil-rate! • Dialogmål: • Hvor generelle dialoger klarer en beskrive/programmere? • Kan en utnytte dette til å lage gode dialog-strukturer? • Hvordan takle feil i talegjenkjenner? • Lingvistiske mål: • Hva skiller nedskrevet spontan tale fra tekst? • Hvordan modellere forskjellen? • Robust parsing av spontan tale