210 likes | 414 Views
GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid?. Jean-Pierre Martens Catherine Middag Frederik Stouten. Situering: het SPACE project. SPACE = SP eech A lgorithms for C linical and E ducational applications doel: ontwikkelen van spraaktechnologie voor
E N D
GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEKfantasie of werkelijkheid? Jean-Pierre Martens Catherine Middag Frederik Stouten
Situering: het SPACE project • SPACE = SPeech Algorithms for Clinical and Educational applications • doel: ontwikkelen van spraaktechnologie voor • detecteren van leesfouten, genereren van auditieve feedback, synchroon meelezen, … in een leesleeromgeving • objectief karakteriseren van pathologische spraak • technologieontwikkelaars (ESAT, ELIS, ETRO) • technologiegebruikers (ORTHO, COM) • looptijd: 1/3/2005 – 28/2/2009
Objectieve karakterisering • Doelstellingen • objectieve maten voor kwaliteit van articulatie ontwikkelen • betrouwbaarheid meten door deze maten te correleren met subjectieve beoordelingen (gouden standaard) • Aanpak • hypothese: verstaanbaarheid is goede globale indicator van kwaliteit van articulatie (tenminste: als rol van taalkundige context + geheugen beperkt blijft) • eerst proberen verstaanbaarheid te voorspellen • daarna pas individuele eigenschappen van articulatie
Nood aan subjectieve data • M1: impressionistisch oordeel over verstaanbaarheid • steeds zelfde tekstpassage laten scoren door luisteraar indruk van verstaanbaarheid (op 5-puntenschaal) indruk steeds gekleurd door taalkundig context + geheugen • vergt weinig inspanningen van luisteraar • matige overeenstemming tussen luisteraars veel luisteraars om spreiding te doen dalen • M2: meten van % correct herkende woorden, fonemen, … • taalkundige context beperken door CVC, nonsenswoorden, … • geheugeneffect beperken door random lijsten te gebruiken • vergt meer inspanningen van luisteraar • goede overeenstemming tussen luisteraars vergt slechts 1 luisteraar • wel voldoende items om spreiding te doen dalen
Studie van Erlangen • Spraakmateriaal • lopende spraak (fonetisch rijke passage) • steeds zelfde passage van 108 woorden • Proefpersonen • 41 pathologische sprekers • allemaal dezelfde pathologie (TE) • Subjectieve scores (gouden standaard) • impressionistische oordelen (5-puntenschaal: slecht .. goed) • gemiddelden van 5 luisteraars • betrouwbaarheid: Pearson = 0.8 tussen 1 beoordelaar en gemiddelde van 4 andere
Studie van Erlangen • Objectieve karakterisering • passage door lopende spraakherkenner sturen • percent correct herkende woorden meten • Spraakherkenner • akoestische modellen zijn Hidden Markov Modellen (HMMs) • getraind op lopende spraak van veel normale sprekers (Verbmobil corpus) • polyfoonmodellen (fonemen in context) • cognitieve component in objectieve scores gereduceerd door gebruik van unigram taalmodel
Studie van Erlangen • Goede correlatie tussen objectieve en subjectieve scores (Pearson = 0.78) • Lijkt zeer goed resultaat, maar … • Slechts 1 pathologie • Regressie bepaald op testdata • 5-voudige kruisvalidatie Pearson = 0.71
Studie van Erlangen • Goede correlatie tussen objectieve en subjectieve scores (Pearson = 0.79) • Lijkt zeer goed resultaat, maar … • Slechts 1 pathologie • Lineair model bepaald op testdata • 5-voudige kruisvalidatie Pearson = 0.71
Studie binnen SPACE • Spraakmateriaal • materiaal uit NSVO-test (De Bodt et al, 2006) • 50 CVC woorden (in isolatie) per proefpersoon • normale woorden + uitspreekbare nonsenswoorden (b.v. nuis) • 3 lijsten die testen op eerste, tweede of derde foneem • Proefpersonen • nu reeds 211 sprekers (we mikken op 250) • 51 normale (controlegroep) • 7 pathologieën: dysartrie (60), gehoorgestoord (42), laryngectomie (37), cleft (11), dysfonie (7), articulatiestoornis (2), glossectomie (1)
top 1. dop 2. nuis 3. NSVO (De Bodt et al, 2006)
Studie binnen SPACE • Subjectieve scores (gouden standaard) • percent correct herkende fonemen • zeer betrouwbaar (Pearson = 0.9 tussen 2 luisteraars) • Objectieve karakterisering • verschillende types spraakmodellen • verschillende methodes voor gebruik van modellen
Spraakmodellen • Gemeenschappelijk • statistische modellen voor fonetische eenheden • automatisch getraind op veel lopende spraak van ‘normale’ sprekers (CGN, CoGeN corpora) • berekenen hoe goed akoestische vectoren bij die eenheden passen • akoestische vectoren zijn MFCCs • Trifoonmodellen (TM) (ESAT) • fonetische eenheden zijn trifonen (fonemen in linker + rechter context, kleine 1000 modellen) • Hidden Markov Modellen (HMMs) • getraind op CGN (gelezen spraak, 300K woorden)
Spraakmodellen • Gemeenschappelijk • statistische modellen voor fonetische eenheden • automatisch getraind op veel lopende spraak van ‘normale’ sprekers (CGN, CoGeN corpora) • berekenen hoe goed akoestische vectoren bij die eenheden passen • akoestische vectoren zijn MFCCs • Articulatiemodellen (AM) (ELIS) • fonetische eenheden zijn foneemcomponenten (40-tal) • component = deel met ‘vaste’ articulatorische kenmerken • Artificiële Neurale Netwerken (ANNs) mappen MFCCs eerst naar articulatorische kenmerken (25 kenmerken) articulatiemodellen • getraind op CoGeN (gelezen spraak, 50K woorden)
top 1. dop 2. nuis 3. Modes voor gebruik van modellen • Herkenningsmode (H) spraak-herkenner
Modes voor gebruik van modellen • Herkenningsmode (H) • geef spraakherkenner zelfde opties als luisteraar • Objectieve score • tel aantal keer (in %) dat spraakherkenner correct was WAC (word accuracy) • IJking • lineaire model voor mapping van WAC op subjectieve score
Modes voor gebruik van modellen • Verificatiemode (V) • correct woord gekend verondersteld • leid daaruit sequentie van fonetische eenheden af (fonemen of foneemcomponenten) • gebruik spraakmodellen om spraak in fonetische eenheden te segmenteren • Objectieve score • gemiddelde log likelihood (LL) scores voor fonemen of voor articulatorische kenmerken • resultaat = 25..30 LL-scores • selectie van optimale subset daarvan • beste lineaire model (in die subruimte) voor subjectieve score
Evaluatie van resultaten • Vergelijken van objectieve en subjectieve scores • Pearson correlatie • Training en validatie • proefpersonen in 5 sets verdelen (behoud populaties!) • lineair model trainen op 4 sets en evalueren op vijfde • dit 5 maal herhalen tot alle proefpersonen getest zijn • alle resultaten voorstellen op 1 grafiek
Resultaten: TM+H • Pearson = 0.71 • Vooral slechte resultaten voor slechte stemmen • Nog ver van correlatie gemeten tussen mense- lijke beoordelaars • Idee om log p(x|correct) – log p(x|beste ander) te gebruiken helpt niet!
Resultaten: TM+V • Selecteer 10 LL-scores • Pearson = 0.77 • Reeds minder problemen voor slechte stemmen • V duidelijk beter dan H
Resultaten: AM+V • Selecteer 12 LL-scores • Pearson = 0.74 • AM nog niet zo goed als FM (vooral slechter bij slechte stemmen) • Verbeteren door context te gebruiken bij berekening LL-scores • AM wel rechtstreeks te interpreteren
Conclusies • Reeds redelijk goede correlatie tussen subjectieve en objectieve verstaanbaarheid mogelijk • Meer onderzoek nodig om te komen tot correlaties die deze tussen menselijke beoordelaars benaderen • Van zodra dit kan met articulatiemodellen is er ook uitzicht op krijgen van gedetailleerde feedback over articulatie