Statistische Taalmodellen voor Spontane Spraak

Statistische Taalmodellenvoor Spontane Spraak Jacques Duchateau K.U.Leuven - ESAT/PSI - Spraakgroep

Doelstelling • Doel: statistische taalmodellen • voor spontane spraak • behandelen van haperingen • Toegepast op spraakherkenning • Statistisch model : N-gram • oplossing 1: een model per spraakmode • oplossing 2: bijkomende vrijheidsgraden voor hetN-gram (cf. Markov model) K.U.Leuven – ESAT/PSI - Spraakgroep

Probleemstelling • Beschikbaarheid van traindata • geschreven tekst, vb. kranten: 300M woorden • spontane spraak, vb. Switchboard: 3M woorden • Haperingen • geschreven tekst: typisch goed gevormde zinnen • spontane spraak: haperingen maken de context bij het N-gram minder uniform K.U.Leuven – ESAT/PSI - Spraakgroep

Baseline herkenners • Voor het Engels: Switchboard • telefoonspraak (8 kHz) • benchmark: ter vergelijking • baseline ontwikkeld in de voorbije periode • Voor het Nederlands: CGN • face-to-face (16 kHz) • gebruik in systeem voor ondertiteling • vertraging beschikbaarheid data CGN • voorlopig enkel herkenner voor voorgelezen spraak K.U.Leuven – ESAT/PSI - Spraakgroep

Switchboard: de data • Trainen van de modellen • data 1995: workshop JHU • 65 uur akoestische data • 2M woorden voor het taalmodel • akoestische segmentatie, geen afgebroken woorden • data 2002: transcripties ISIP • 310 uur akoestische data • 3M woorden voor het taalmodel • segmentatie per zin, met afgebroken woorden • Benchmark test: HUB5 eval 2001 • akoestische data: via LDC • referentietranscripties: via ftp van nist.gov K.U.Leuven – ESAT/PSI - Spraakgroep

Switchboard: benchmark resultaten K.U.Leuven – ESAT/PSI - Spraakgroep

Stap 1 : JHU data • context-onafhankelijk : 56.4% (WER) • context-afhankelijk : 39.9% • ook positie-afhankelijk : 38.6% • decorrelatie op niveau gaussianen : 38.6% • 60k gaussianen ipv 20k : 36.2% K.U.Leuven – ESAT/PSI - Spraakgroep

Stap 2 : suggesties andere systemen • CMS : (1) niet adaptief, (2) gegeven PEM-files • adaptief, zonder PEM : 36.2% • niet adaptief, zonder PEM : 35.5% • adaptief, gegeven PEM : 35.7% • niet adaptief, gegeven PEM : 35.5% • keuze MEL-banden (met versnelde training) • 0 tot 17 : 37.3% 0 tot 18 : 36.5% • 1 tot 17 : 36.9% 1 tot 18 : 36.3% • 125Hz tot 3800Hz : 36.5% • instellen aantal features: 25 vs. 39 • 1 tot 17 : 36.9% vs. 34.9% • 125Hz tot 3800Hz : 36.5% vs. 34.3% K.U.Leuven – ESAT/PSI - Spraakgroep

Stap 3 : ISIP transcripties • akoestische modellen: 310 uur data • 65 uur data (JHU) : 34.3% • 310 uur data (ISIP) : 32.5% • aantal parameters (gaussianen) gelijkgehouden • taalmodel (3-gram): 3M woorden ipv 2M • JHU akoestische modellen : 33.8% • ISIP akoestische modellen : 32.1% K.U.Leuven – ESAT/PSI - Spraakgroep

Conclusies, verder werk • Switchboard: ontwikkelde baseline laat toe het gewenste onderzoek te doen • CGN: vertraging beschikbaarheid CGN levert geen wezenlijke problemen • Volgende periode: ontwikkeling modules om het spontane taalmodel te verbeteren • Eerste, nog beperkte experimenten werden al uitgevoerd en voorgesteld op CLIN-02 • Integratie met detector voor haperingen K.U.Leuven – ESAT/PSI - Spraakgroep

Statistische Taalmodellen voor Spontane Spraak