180 likes | 286 Views
Atranos project. Werkpakket 3 Detectie van haperingen in spontane spraak. Overzicht. Doel van werkpakket 3 - detectie van haperingen in spontane spraak - methoden om deze te behandelen in ASR. In deze presentatie - bespreking detectieresultaten - nieuwe features - korte demo
E N D
Atranos project Werkpakket 3 Detectie van haperingen in spontane spraak Presentatie Atranos 22 oktober 2003
Overzicht • Doel van werkpakket 3 - detectie van haperingen in spontane spraak - methoden om deze te behandelen in ASR. • In deze presentatie - bespreking detectieresultaten - nieuwe features - korte demo - herkenningstesten op CGN-data - toekomstplannen Presentatie Atranos 22 oktober 2003
Inleiding • Vorige periode • identificatie van de verschillende prosodische en akoestische features per spraaksegment. stabiel interval, stilteduur voor/na, graad v. stabiliteit, ... • klassificatie met GMM en MLP. • GMM = “filter” : elimineer segmenten die zeker geen FP zijn • MLP : finaal onderscheid tussen segmenten. • Huidige periode • verdere verbeteringen van het systeem • evaluatie op nieuwe testset • vergelijking met bestaande methodes Presentatie Atranos 22 oktober 2003
sil sil E(dB) Adaptieve threshold 3 sec Betere stiltedetectie. • Indien log energie 3 dB onder threshold → pas threshold aan • Over een periode van 3 seconden geen stilte gevonden → threshold = het kleinste minimum over die 3 sec. • Keer terug naar positie van minimum om verder stiltes te zoeken • Stilte : log-energie minder dan 3 dB boven threshold. t Presentatie Atranos 22 oktober 2003
Betere stiltedetectie. • Volgens deze methode : • E[SilVoor | FP] = 12.6, E[SilNa |FP]= 18.4, E[Sil|NFP] = 9.1 • 82 % van de FP’s heeft nu een stilte voor of na (vroeger 75 %) Presentatie Atranos 22 oktober 2003
Detectieresultaten Supervised training Embedded training Voor FP’s 0.15 sec : Rec. = 72.4 ; prec. = 77.7 Systeem is niet in staat korte FP’s te detecteren. Presentatie Atranos 22 oktober 2003
Vergelijking met literatuur • Eigen methode • rec. = 75 % en prec. = 85 % • Methode van M. Gabrea, D. O’Shaughnessy • in hun paper : rec. > 90% en prec > 90% • rec. = 60.5 % en prec. = 65.5 % • Methode van M. Goto, K. Itou, S. Hayamizu • rec. = 84.9 % en prec. = 91.5 % • Japans spraakcorpus, gecompliceerde front-end Presentatie Atranos 22 oktober 2003
Demo • We luisteren naar de demo … oorspronkelijkeaudio demo : 26 gedetecteerde segmenten, waarvan sommige naburig zijn. gefilterde audio • Data niet uit CGN, afkomstig van “Workshop Doctoreren”. • Real-time = nuttig voor ESAT • Input : wave bestand (signaalverwerking ook online). • Artikel in Proc. of IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) 2003 Presentatie Atranos 22 oktober 2003
Onderzoek van bijkomende kenmerken. • Literatuur vermeldt pitch als kenmerk: nog niet gebruikt • Pitch beschikbaar via het oormodel • Eerste kenmerk : relatieve pitchligging (RPL) • Verhouding pitch van segment t.o.v. gemiddelde pitch van N aanliggende segmenten FP’s hebben (gemiddeld genomen) een lagere RPL : E[RPL | FP] = 0.96 E[RPL | NFP] = 1.00 N = 7 Presentatie Atranos 22 oktober 2003
f (Hz) t (10 ms) Onderzoek van bijkomende kenmerken. • Pitchregressiecoëficiënt (PRC) E[PRC | FP] = -0.24 Hz/cs genormeerd op gemiddelde NFP-segmenten vertonen een grotere variantie op de PRC, maar hebben ongeveer zelfde gem. waarde Presentatie Atranos 22 oktober 2003
Onderzoek van bijkomende kenmerken. • Laatste pitch-kenmerk: pitchmodulatie variantie (PMV) f(Hz) t (10 ms) Tegengesteld aan verwachtingen: FP’s gemiddeld een grotere PMV • Geen grote verbetering verwacht, nog te doen Presentatie Atranos 22 oktober 2003
Gevulde pauzes en ASR • Reacties van ASR op FP’s • Herkennen als uh: uh → uh • Herkennen als functiewoord: uh → uit • Omliggende woorden verkeerd : uh de → nut duiden • Mogelijke remedies • FP weglaten in de input • Kans van FP vergroten op basis van detectie • Negeren van uh in de context van taalmodel Voorbeeld … ik ga naar de | uh | markt … P(markt | naar, de) is de goede LM-probabiliteit maar, P(markt | de, *) wordt gebruikt Presentatie Atranos 22 oktober 2003
Gevulde pauzes en ASR • Reacties van ASR op FP’s • Herkennen als uh: uh → uh • Herkennen als functiewoord: uh → uit • Omliggende woorden verkeerd : uh de → nut duiden • Mogelijke remedies • FP weglaten in de input • Kans van FP vergroten op basis van detectie • Negeren van uh in de context van taalmodel Voorbeeld … ik ga naar de | uh | markt … P(markt | naar, de) is de goede LM-probabiliteit maar, P(markt | de, *) wordt gebruikt Presentatie Atranos 22 oktober 2003
Baseline systeem • Evaluatiestrategie • Enkel foutieve inhoudswoorden bekijken • Experiment 1 • oorspronkelijk lexicon (40k woorden) • FP-rate = 5.9 % • WER = 55.77 % • Experiment 2 • toevoegen van /uh[m]/ aan lexicon • toevoegen van OOV-woorden aan lexicon • WER = 51.29 % [H = 4130, D = 545, S = 2420, I = 674] Presentatie Atranos 22 oktober 2003
Systemen met weglating van FP’s • Cheating experiment • Weglaten van manueel gelabelde FP’s • WER = 47.57 % ; R.I. = 7.32 % • 1.25 inhoudswoord verbeterd per FP • Echt experiment • Weglaten van gedetecteerde FP’s • WER = 49.46 % ; R.I. = 3.64 % • 0.62 inhoudswoord verbeterd per FP Presentatie Atranos 22 oktober 2003
Enkele voorbeelden • Insertiefout en substitutiefout opgeheven REF: … heel veel ambiance |uh| zeker honderden mensen staan …(!) BAS: … heel veel albionzou zeker honderden mensen staan … REF: ... heel veel ambiance zeker honderden mensen staan … DEF: ... heel veel ambiance zeker honderden mensen staan … • Substitutiefout opgeheven, maar insertiefout niet REF: … en |uh| de winnares van het jaar daarvoor … BAS: … en nut duiden winnares van het jaar daarvoor … REF: … en de winnares van het jaar daarvoor … DET: … en naar de winnares van het jaar daarvoor …(lengtered.) Presentatie Atranos 22 oktober 2003
Enkele voorbeelden • Substitutiefout omwille van klankverlenging REF: … de gezondheidstoestand… BAS: … deuren gezondheidstoestand … REF: … de gezondheidstoestand … DET: … de gezondheidstoestand … • Insertiefout opgeheven REF: … een |uh| internationale wedstrijd … BAS: … een uit internationale wedstrijd … REF: … een internationale wedstrijd … DET: … een internationale wedstrijd … Presentatie Atranos 22 oktober 2003
Conclusie • FP detectie kan nog beter • Detectie van andere disfluencies • herhalingen • woordafbrekingen • FP’s startpunt bij detectie (dikwijls combinatie) • Overleg met ESAT over integratie in ASR Presentatie Atranos 22 oktober 2003