1 / 10

Statistische Taalmodellen voor Spontane Spraak

Statistische Taalmodellen voor Spontane Spraak. Jacques Duchateau K.U.Leuven - ESAT/PSI - Spraakgroep. Doelstelling. Doel: statistische taalmodellen voor spontane spraak behandelen van haperingen Toegepast op spraakherkenning Statistisch model : N-gram

liv
Download Presentation

Statistische Taalmodellen voor Spontane Spraak

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistische Taalmodellenvoor Spontane Spraak Jacques Duchateau K.U.Leuven - ESAT/PSI - Spraakgroep

  2. Doelstelling • Doel: statistische taalmodellen • voor spontane spraak • behandelen van haperingen • Toegepast op spraakherkenning • Statistisch model : N-gram • oplossing 1: een model per spraakmode • oplossing 2: bijkomende vrijheidsgraden voor hetN-gram (cf. Markov model) K.U.Leuven – ESAT/PSI - Spraakgroep

  3. Probleemstelling • Beschikbaarheid van traindata • geschreven tekst, vb. kranten: 300M woorden • spontane spraak, vb. Switchboard: 3M woorden • Haperingen • geschreven tekst: typisch goed gevormde zinnen • spontane spraak: haperingen maken de context bij het N-gram minder uniform K.U.Leuven – ESAT/PSI - Spraakgroep

  4. Baseline herkenners • Voor het Engels: Switchboard • telefoonspraak (8 kHz) • benchmark: ter vergelijking • baseline ontwikkeld in de voorbije periode • Voor het Nederlands: CGN • face-to-face (16 kHz) • gebruik in systeem voor ondertiteling • vertraging beschikbaarheid data CGN • voorlopig enkel herkenner voor voorgelezen spraak K.U.Leuven – ESAT/PSI - Spraakgroep

  5. Switchboard: de data • Trainen van de modellen • data 1995: workshop JHU • 65 uur akoestische data • 2M woorden voor het taalmodel • akoestische segmentatie, geen afgebroken woorden • data 2002: transcripties ISIP • 310 uur akoestische data • 3M woorden voor het taalmodel • segmentatie per zin, met afgebroken woorden • Benchmark test: HUB5 eval 2001 • akoestische data: via LDC • referentietranscripties: via ftp van nist.gov K.U.Leuven – ESAT/PSI - Spraakgroep

  6. Switchboard: benchmark resultaten K.U.Leuven – ESAT/PSI - Spraakgroep

  7. Stap 1 : JHU data • context-onafhankelijk : 56.4% (WER) • context-afhankelijk : 39.9% • ook positie-afhankelijk : 38.6% • decorrelatie op niveau gaussianen : 38.6% • 60k gaussianen ipv 20k : 36.2% K.U.Leuven – ESAT/PSI - Spraakgroep

  8. Stap 2 : suggesties andere systemen • CMS : (1) niet adaptief, (2) gegeven PEM-files • adaptief, zonder PEM : 36.2% • niet adaptief, zonder PEM : 35.5% • adaptief, gegeven PEM : 35.7% • niet adaptief, gegeven PEM : 35.5% • keuze MEL-banden (met versnelde training) • 0 tot 17 : 37.3% 0 tot 18 : 36.5% • 1 tot 17 : 36.9% 1 tot 18 : 36.3% • 125Hz tot 3800Hz : 36.5% • instellen aantal features: 25 vs. 39 • 1 tot 17 : 36.9% vs. 34.9% • 125Hz tot 3800Hz : 36.5% vs. 34.3% K.U.Leuven – ESAT/PSI - Spraakgroep

  9. Stap 3 : ISIP transcripties • akoestische modellen: 310 uur data • 65 uur data (JHU) : 34.3% • 310 uur data (ISIP) : 32.5% • aantal parameters (gaussianen) gelijkgehouden • taalmodel (3-gram): 3M woorden ipv 2M • JHU akoestische modellen : 33.8% • ISIP akoestische modellen : 32.1% K.U.Leuven – ESAT/PSI - Spraakgroep

  10. Conclusies, verder werk • Switchboard: ontwikkelde baseline laat toe het gewenste onderzoek te doen • CGN: vertraging beschikbaarheid CGN levert geen wezenlijke problemen • Volgende periode: ontwikkeling modules om het spontane taalmodel te verbeteren • Eerste, nog beperkte experimenten werden al uitgevoerd en voorgesteld op CLIN-02 • Integratie met detector voor haperingen K.U.Leuven – ESAT/PSI - Spraakgroep

More Related