1 / 22

Taleteknologi-prosjekter ved NTNU/SINTEF – Historikk og status Magne H. Johnsen, Teleteknikk

Taleteknologi-prosjekter ved NTNU/SINTEF – Historikk og status Magne H. Johnsen, Teleteknikk. Hva inngår i taleteknologi. Talekoding Talesyntese Talegjenkjenning Talebaserte dialogsystemer Andre felt: Talergjenkjenning (stemmegjenkjenning) Taleanalyse og taleforbedring

Download Presentation

Taleteknologi-prosjekter ved NTNU/SINTEF – Historikk og status Magne H. Johnsen, Teleteknikk

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Taleteknologi-prosjekter ved NTNU/SINTEF – Historikk og statusMagne H. Johnsen, Teleteknikk

  2. Hva inngår i taleteknologi • Talekoding • Talesyntese • Talegjenkjenning • Talebaserte dialogsystemer • Andre felt: • Talergjenkjenning (stemmegjenkjenning) • Taleanalyse og taleforbedring • Språkbank/databaser

  3. Samarbeid og finansiering • Finansiering : • NFR, Telenor FoU, NRK, ... • Faglig samarbeid : • Telenor FoU • SINTEF • NTNU

  4. Historikk - talekoding • Perioden 1975 – 1990 • Hva er talekoding: • Metoder for komprimering av digitalisert tale anvendt innen telefoni og lignende. • Eksempler på arbeid ved NTNU/SINTEF: • GSM (mobiltelefoni) • Bildetelefon • INMARSAT (maritim satelitt-telefon)

  5. Historikk – talesyntese (TTS) • Perioden 1985-1990 & 2003-2006 • Hva er talesyntese : Tekst til tale • Eksempel på arbeid : • Første versjon av Talsmann • Framtidig arbeid: • KUNSTI- FONEMA 2003 -2006

  6. Historikk talegjenkjenning • Perioden 1985 – nå • Hva er talegjenkjenning : Tale til tekst og/eller mening • Eksempler på arbeid : • Teksting av direktesendte TV-programmer • Diverse gjenkjennere i TABUSS/SPODIS dialogsystemet • Framtidig arbeid : • MOBEL 2002-2004 • BRAGE 2002-2006

  7. Historikk dialogsystemer • Perioden 1997 – nå • Hva er et dialogsystem: • Menneske – maskin kommunikasjon • Talebasert brukergrensesnitt • Lingvistisk og semantisk kunnskap! • Eksempler på arbeid: • TABUSS/SPODIS • Framtidig arbeid • BRAGE 2002 - 2006

  8. Talesyntese - FONEMA • Dagens TTS for norsk er for dårlig for mange anvendelser. • Datadrevet bølgeformsyntese gir bedre løsning. • Talestil, dialekt, ”personlighet” etc. i den syntetiserte talen påvirkes av tale-databasen. • Metoden krever innsamling og bearbeiding av store mengder taledata.

  9. Mål for FONEMA • Lingvistisk modell for prosodi i norsk til bruk i talesyntese • Automatiserte prosedyrer for etablering av taledatabaser med talestil tilpasset ulike anvendelser • En generell syntesemodul for produksjon av naturlig tale basert på enhetsutvelgelse • En demonstrator med stemmer tilpasset noen ulike anvendelser • Videreutvikle og bygge opp ny kompetanse innen norsk fonetikk, lingvistikk og taleteknologi for norsk språk (dialekter)

  10. TV studio Kommentator rom Tekst-TV Gjenkjenner Teksting av direktesendte TV-programmer- et tilbud for hørselshemmede

  11. Den første storvokabular gjenkjenner for kontinuerlig tale på norsk! Åpent vokabular(OOV rate for testsett: 5.6%) Splitting av sammensatte ord(reduserer OOV rate fra 5.6% til 2.2%) Bigram språkmodell(enkel statistisk metode) Estimer sannsynligheten til ordpar P(ord2=Jagland | ord1=Torbjørn) = 80% P(ord2=Berntsen | ord1=Torbjørn) = 5% P(ord3=Nordgård | ord1=Torbjørn)= ?% . . . . . . . . . Leksikon:15 K ord basert på tekst-TV Taler-tilpasning Tilpasset programtypen’Nyheter og politikk’ Tilpasset bokmål Systembeskrivelse

  12. Tale- og tekst-databaser ~1,5 mill. ord (~85 K forskjellige) redigert underteksting hentet hovedsaklig fra Dagsrevyen

  13. % korrekte ord Taler ID Resultater for uerfarne kommentatorer

  14. Tilsvarende for en erfaren taler : 90% etter adapsjon % korrekte ord Taler ID Resultater for uerfarne talere

  15. Evaluering av resultatene • Eksempel for en uerfaren taler IS: • 32% av setningene er korrekte • 32% inneholder feil, men er fullt forståelige (semantisk) • 36% kan ikke brukes • Ikke praktisk brukbar pga.: • Total tidsforsinkelse var for stor • “Kritiske feil” MÅ unngås! • Hun er i Brussel...... • Hun er en trussel...... • Ytelsen bør opp fra ca. 90% til minst 95% korrekt for ord • Bl.a. Ved hjelp av trigram språkmodell

  16. SPODIS 1997 -2001 • Prosjektdeltakere: • Institutt for teleteknikk • Lingvistisk institutt • Institutt for datateknikk og informasjonsvitenskap • SINTEF Tele og data • Samarbeid med Telenor FoU • Oppbygging av generisk kunnskap og verktøy for talebaserte dialogsystemer • Utvikle prototyp for talebasert informasjonssystem for busstransport • Produsere 3 doktorgrader

  17. Talebasert bussrute dialogsystem - tlf. 73 51 78 30 • En talegjenkjenner vil : • gjøre feil • gi flere forslag til tekst. • Lingvistisk og semantisk analyse kan: • detektere og korrigere ordfeil. • velge riktig forslag til tekst • trekke ut meningen (brukers hensikt). • Dialog manager skal: • Huske dialogens historie og prediktere/velge neste ’tema’ • huske all informasjon som er gitt av brukeren. • forme systemets respons til bruker • trekke ut ønsket informasjon fra databasen. Når går neste buss til byen? Lingvistisk og semantisk analyse Tale- gjenkjenner Data Dialog manager Hvor vil du reise fra? Tale- syntese Dialog-system

  18. BRAGE 2002 - 2006 • Prosjektdeltakere : som SPODIS • Utvikle og utteste teori og verktøy for gjenkjenning av norsk spontan tale. • Utvikle talesentriske multimodale bruker-grensesnitt til menneske-maskin dialoger. • Utvikle automatiske metoder for komplisert dialog-beskrivelse og-håndtering • Demonstrere anvendelser basert på framtidens ’mobiltelefoner’ • Utdanne 4 doktorgrads-kandidater

  19. Spontan tale er forskjellig fra tekst! • Bakgrunnsstøy • Flere informasjoner • ’Dobbelt-samtale’ • Spontan diktering

  20. Teknologistatus - talegjenkjenning • Spontane dialoger omtrent som samtaler mellom fremmede?

  21. Talesentrisk multimodalt dialogsystem(foil fra Eurescom-prosjektet MUST)

  22. Dialoger og naturlig språk • Talegjenkjenningsmål: • Akseptabel ytelse for spontan tale til dialog-formål • Suksess-rate viktigere enn ordfeil-rate! • Dialogmål: • Hvor generelle dialoger klarer en beskrive/programmere? • Kan en utnytte dette til å lage gode dialog-strukturer? • Hvordan takle feil i talegjenkjenner? • Lingvistiske mål: • Hva skiller nedskrevet spontan tale fra tekst? • Hvordan modellere forskjellen? • Robust parsing av spontan tale

More Related