1 / 18

Atranos project

Atranos project. Werkpakket 3 Detectie van haperingen in spontane spraak. Overzicht. Doel van werkpakket 3 - detectie van haperingen in spontane spraak - methoden om deze te behandelen in ASR. In deze presentatie - bespreking detectieresultaten - nieuwe features - korte demo

krikor
Download Presentation

Atranos project

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Atranos project Werkpakket 3 Detectie van haperingen in spontane spraak Presentatie Atranos 22 oktober 2003

  2. Overzicht • Doel van werkpakket 3 - detectie van haperingen in spontane spraak - methoden om deze te behandelen in ASR. • In deze presentatie - bespreking detectieresultaten - nieuwe features - korte demo - herkenningstesten op CGN-data - toekomstplannen Presentatie Atranos 22 oktober 2003

  3. Inleiding • Vorige periode • identificatie van de verschillende prosodische en akoestische features per spraaksegment. stabiel interval, stilteduur voor/na, graad v. stabiliteit, ... • klassificatie met GMM en MLP. • GMM = “filter” : elimineer segmenten die zeker geen FP zijn • MLP : finaal onderscheid tussen segmenten. • Huidige periode • verdere verbeteringen van het systeem • evaluatie op nieuwe testset • vergelijking met bestaande methodes Presentatie Atranos 22 oktober 2003

  4. sil sil E(dB) Adaptieve threshold 3 sec Betere stiltedetectie. • Indien log energie 3 dB onder threshold → pas threshold aan • Over een periode van 3 seconden geen stilte gevonden → threshold = het kleinste minimum over die 3 sec. • Keer terug naar positie van minimum om verder stiltes te zoeken • Stilte : log-energie minder dan 3 dB boven threshold. t Presentatie Atranos 22 oktober 2003

  5. Betere stiltedetectie. • Volgens deze methode : • E[SilVoor | FP] = 12.6, E[SilNa |FP]= 18.4, E[Sil|NFP] = 9.1 • 82 % van de FP’s heeft nu een stilte voor of na (vroeger 75 %) Presentatie Atranos 22 oktober 2003

  6. Detectieresultaten Supervised training Embedded training Voor FP’s 0.15 sec : Rec. = 72.4 ; prec. = 77.7 Systeem is niet in staat korte FP’s te detecteren. Presentatie Atranos 22 oktober 2003

  7. Vergelijking met literatuur • Eigen methode • rec. = 75 % en prec. = 85 % • Methode van M. Gabrea, D. O’Shaughnessy • in hun paper : rec. > 90% en prec > 90% • rec. = 60.5 % en prec. = 65.5 % • Methode van M. Goto, K. Itou, S. Hayamizu • rec. = 84.9 % en prec. = 91.5 % • Japans spraakcorpus, gecompliceerde front-end Presentatie Atranos 22 oktober 2003

  8. Demo • We luisteren naar de demo … oorspronkelijkeaudio demo : 26 gedetecteerde segmenten, waarvan sommige naburig zijn. gefilterde audio • Data niet uit CGN, afkomstig van “Workshop Doctoreren”. • Real-time = nuttig voor ESAT • Input : wave bestand (signaalverwerking ook online). • Artikel in Proc. of IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) 2003 Presentatie Atranos 22 oktober 2003

  9. Onderzoek van bijkomende kenmerken. • Literatuur vermeldt pitch als kenmerk: nog niet gebruikt • Pitch beschikbaar via het oormodel • Eerste kenmerk : relatieve pitchligging (RPL) • Verhouding pitch van segment t.o.v. gemiddelde pitch van N aanliggende segmenten FP’s hebben (gemiddeld genomen) een lagere RPL : E[RPL | FP] = 0.96 E[RPL | NFP] = 1.00 N = 7 Presentatie Atranos 22 oktober 2003

  10. f (Hz) t (10 ms) Onderzoek van bijkomende kenmerken. • Pitchregressiecoëficiënt (PRC) E[PRC | FP] = -0.24 Hz/cs genormeerd op gemiddelde NFP-segmenten vertonen een grotere variantie op de PRC, maar hebben ongeveer zelfde gem. waarde Presentatie Atranos 22 oktober 2003

  11. Onderzoek van bijkomende kenmerken. • Laatste pitch-kenmerk: pitchmodulatie variantie (PMV) f(Hz) t (10 ms) Tegengesteld aan verwachtingen: FP’s gemiddeld een grotere PMV • Geen grote verbetering verwacht, nog te doen Presentatie Atranos 22 oktober 2003

  12. Gevulde pauzes en ASR • Reacties van ASR op FP’s • Herkennen als uh: uh → uh • Herkennen als functiewoord: uh → uit • Omliggende woorden verkeerd : uh de → nut duiden • Mogelijke remedies • FP weglaten in de input • Kans van FP vergroten op basis van detectie • Negeren van uh in de context van taalmodel Voorbeeld … ik ga naar de | uh | markt … P(markt | naar, de) is de goede LM-probabiliteit maar, P(markt | de, *) wordt gebruikt Presentatie Atranos 22 oktober 2003

  13. Gevulde pauzes en ASR • Reacties van ASR op FP’s • Herkennen als uh: uh → uh • Herkennen als functiewoord: uh → uit • Omliggende woorden verkeerd : uh de → nut duiden • Mogelijke remedies • FP weglaten in de input • Kans van FP vergroten op basis van detectie • Negeren van uh in de context van taalmodel Voorbeeld … ik ga naar de | uh | markt … P(markt | naar, de) is de goede LM-probabiliteit maar, P(markt | de, *) wordt gebruikt Presentatie Atranos 22 oktober 2003

  14. Baseline systeem • Evaluatiestrategie • Enkel foutieve inhoudswoorden bekijken • Experiment 1 • oorspronkelijk lexicon (40k woorden) • FP-rate = 5.9 % • WER = 55.77 % • Experiment 2 • toevoegen van /uh[m]/ aan lexicon • toevoegen van OOV-woorden aan lexicon • WER = 51.29 % [H = 4130, D = 545, S = 2420, I = 674] Presentatie Atranos 22 oktober 2003

  15. Systemen met weglating van FP’s • Cheating experiment • Weglaten van manueel gelabelde FP’s • WER = 47.57 % ; R.I. = 7.32 % • 1.25 inhoudswoord verbeterd per FP • Echt experiment • Weglaten van gedetecteerde FP’s • WER = 49.46 % ; R.I. = 3.64 % • 0.62 inhoudswoord verbeterd per FP Presentatie Atranos 22 oktober 2003

  16. Enkele voorbeelden • Insertiefout en substitutiefout opgeheven REF: … heel veel ambiance |uh| zeker honderden mensen staan …(!) BAS: … heel veel albionzou zeker honderden mensen staan … REF: ... heel veel ambiance zeker honderden mensen staan … DEF: ... heel veel ambiance zeker honderden mensen staan … • Substitutiefout opgeheven, maar insertiefout niet REF: … en |uh| de winnares van het jaar daarvoor … BAS: … en nut duiden winnares van het jaar daarvoor … REF: … en de winnares van het jaar daarvoor … DET: … en naar de winnares van het jaar daarvoor …(lengtered.) Presentatie Atranos 22 oktober 2003

  17. Enkele voorbeelden • Substitutiefout omwille van klankverlenging REF: … de gezondheidstoestand… BAS: … deuren gezondheidstoestand … REF: … de gezondheidstoestand … DET: … de gezondheidstoestand … • Insertiefout opgeheven REF: … een |uh| internationale wedstrijd … BAS: … een uit internationale wedstrijd … REF: … een internationale wedstrijd … DET: … een internationale wedstrijd … Presentatie Atranos 22 oktober 2003

  18. Conclusie • FP detectie kan nog beter • Detectie van andere disfluencies • herhalingen • woordafbrekingen • FP’s startpunt bij detectie (dikwijls combinatie) • Overleg met ESAT over integratie in ASR Presentatie Atranos 22 oktober 2003

More Related