1 / 18

Aanwending van gedetecteerde haperingen voor de verbetering van spontane spraakherkenning

Aanwending van gedetecteerde haperingen voor de verbetering van spontane spraakherkenning. F. Stouten, J.P. Martens. Overzicht. Haperingen gevulde pauzes (FPs) herhaalde woorden afgebroken woorden FPs veruit de belangrijkste (voorkomen, impact?) FPs kunnen relatief goed worden gedetecteerd

Download Presentation

Aanwending van gedetecteerde haperingen voor de verbetering van spontane spraakherkenning

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Aanwending van gedetecteerde haperingen voor de verbetering van spontane spraakherkenning F. Stouten, J.P. Martens Atranos Workshop 17 september 2004

  2. Overzicht • Haperingen • gevulde pauzes (FPs) • herhaalde woorden • afgebroken woorden • FPs veruit de belangrijkste (voorkomen, impact?) • FPs kunnen relatief goed worden gedetecteerd • Wat doen we met die detecties? Atranos Workshop 17 september 2004

  3. Impact van haperingen op ASR • Lexicaal niveau • FPs introduceren nieuwe ‘woorden’ (/uh/, /uhu/, etc.) • Grammaticaal niveau • FPs verstoren de normale woordvolgorde … op een uh groot scherm … P(groot | een, uh) vs. P(groot | op, een) P(scherm | uh, groot) vs. P(scherm | een, groot) • TM-probabiliteiten met uh : niet goed te schatten P(uh | op, een), P(groot | een, uh), ... Atranos Workshop 17 september 2004

  4. Remedies voor FPs in ASR • Standaard strategieën: statisch • voeg FP model toe aan lexicon • ken TM-probabiliteit toe : P[FP|context] = P[FP] (beperkte dataset, tel procent FPs) • verwijder FP in de TM context • schat P[FP|context] uit spontane spraak (vergt grote dataset) • Hier voorgestelde strategieën: adaptief, surplus • negeer frames op basis van FP detector output • pas P[FP|context] aan op basis van FP detector output Atranos Workshop 17 september 2004

  5. Schematisch voorgesteld gewone spraakherkenner spraak x(n) woorden Front end search A.M. TM LEX Atranos Workshop 17 september 2004

  6. Schematisch voorgesteld Verwijder FPs in TM-context standaard remedies spraak x(n) woorden Front end search A.M. TM LEX FP model FP in TM Atranos Workshop 17 september 2004

  7. Schematisch voorgesteld Verwijder FPs in TM-context Pas P[FP|c] aan adaptieve werkwijze Negeer FP frames spraak x(n) woorden Front end search detect FPs A.M. TM LEX FP model FP in TM Atranos Workshop 17 september 2004

  8. t weglaten Adaptieve behandeling van FPs • Methode 1 : negeren van FP frames • FP detector levert FP probabiliteit per segment • op frameniveau : stuksgewijze constante output • Frames met hoge FP probabiliteit niet naar herkenner • Opgelet : vermijd valse detecties Atranos Workshop 17 september 2004

  9. P(FP|x) O time W1=uh W2=een W3=de Adaptieve behandeling van FPs • Methode 2 : Aanpassen van score (logP) • meet overlap tussen woordhypothese en FP interval • bepaal actie op basis van grootte overlap en identiteitwoordhypothese Atranos Workshop 17 september 2004

  10. Adaptieve behandeling van FPs • Te nemen acties • indien overlap > 50 % • als woord = FP dan score = score + C1 (consistentie) • als woord # FP dan score = score - C2 (inconsistentie) • indien overlap < 50 % • geen actie, ook niet in geval van consistentie • dit betekent dat we herkenner geloven • Bespreking • minder drastisch dan negeren van frames • nuttig om alle FPs te detecteren (zelfs indien vals) Atranos Workshop 17 september 2004

  11. Praktische implementatie • Hoe hebben we dit uitgevoerd? • geen rechtstreekse integratie in spraakherkenner • werken met simulatie (herscoren van output) • later integreren wat ook blijkt te werken • Hoe simuleren? • N-Best lijsten : compact, weinig hypothesen • Woordgrafen (lattices) : niet compact, veel hypothesen • Onze keuze woordgrafen van grote diepte Atranos Workshop 17 september 2004

  12. Experimenteel kader • Herkenningssysteem • Herkenner van ESAT (Jacques) • Lexicon : 40k woorden (+ model voor FP) • Taalmodel (1) getraind op 35 M woorden van krantenartikels. (2) getraind op 35 M woorden van krantenartikels + 3 M spontane woorden van het CGN. • Akoestische modellen (1) getraind op 38 h gelezen spraak (CGN) (2) getraind op 44 h spontane spraak (CGN) • Test set uit CGN: 7041 woorden, FP-rate = 5.94 %. Atranos Workshop 17 september 2004

  13. AM TM 1 2 1 45.6 38.3 AM trainen opspontane spraak helpt!!! 2 ─ 36.4 TM trainen op spontane spraak helpt! Experimenteel kader • Basissystemen • BS - FP = doe helemaal niets voor FPs • BS = voeg FP toe aan lexicon (36 uitspraakvarianten) • BS+TM = verwijder FP uit de TM-context • Performanties voor BS (en BS+TM) op test set Atranos Workshop 17 september 2004

  14. Experimentele resultaten • Serie 1: TM-1, AM-1 • Resultaten : WER (%) woorden/FP Atranos Workshop 17 september 2004

  15. Experimentele resultaten • Serie 2: TM-1, AM-2 • Resultaten : WER (%) woorden/FP • Baseline verbetert, maar #woorden/FP blijft van dezelfde orde Atranos Workshop 17 september 2004

  16. Experimentele resultaten • Serie 3: TM-2, AM-2, geen aanpassing TM nodig (FP in TM) • Resultaten : WER (%) woorden/FP • Beide methodes : groter #wrdn/FP, combinatie nog beter Atranos Workshop 17 september 2004

  17. Grafische voorstelling WER (%) woorden/FP Atranos Workshop 17 september 2004

  18. Samenvatting • Twee nieuwe manieren om FPs te behandelen • beide methodes blijken effectief • kunnen gecombineerd worden • De combinatie levert • beperkte daling van WER (= 6% relatief) • significante verbetering waar FP = 0.53 wrdn/FP • Maar • verbetering met manuele FPs is hoger (0.8 wrdn/FP) • kunnen we de detector verder verbeteren ? Atranos Workshop 17 september 2004

More Related