180 likes | 291 Views
Aanwending van gedetecteerde haperingen voor de verbetering van spontane spraakherkenning. F. Stouten, J.P. Martens. Overzicht. Haperingen gevulde pauzes (FPs) herhaalde woorden afgebroken woorden FPs veruit de belangrijkste (voorkomen, impact?) FPs kunnen relatief goed worden gedetecteerd
E N D
Aanwending van gedetecteerde haperingen voor de verbetering van spontane spraakherkenning F. Stouten, J.P. Martens Atranos Workshop 17 september 2004
Overzicht • Haperingen • gevulde pauzes (FPs) • herhaalde woorden • afgebroken woorden • FPs veruit de belangrijkste (voorkomen, impact?) • FPs kunnen relatief goed worden gedetecteerd • Wat doen we met die detecties? Atranos Workshop 17 september 2004
Impact van haperingen op ASR • Lexicaal niveau • FPs introduceren nieuwe ‘woorden’ (/uh/, /uhu/, etc.) • Grammaticaal niveau • FPs verstoren de normale woordvolgorde … op een uh groot scherm … P(groot | een, uh) vs. P(groot | op, een) P(scherm | uh, groot) vs. P(scherm | een, groot) • TM-probabiliteiten met uh : niet goed te schatten P(uh | op, een), P(groot | een, uh), ... Atranos Workshop 17 september 2004
Remedies voor FPs in ASR • Standaard strategieën: statisch • voeg FP model toe aan lexicon • ken TM-probabiliteit toe : P[FP|context] = P[FP] (beperkte dataset, tel procent FPs) • verwijder FP in de TM context • schat P[FP|context] uit spontane spraak (vergt grote dataset) • Hier voorgestelde strategieën: adaptief, surplus • negeer frames op basis van FP detector output • pas P[FP|context] aan op basis van FP detector output Atranos Workshop 17 september 2004
Schematisch voorgesteld gewone spraakherkenner spraak x(n) woorden Front end search A.M. TM LEX Atranos Workshop 17 september 2004
Schematisch voorgesteld Verwijder FPs in TM-context standaard remedies spraak x(n) woorden Front end search A.M. TM LEX FP model FP in TM Atranos Workshop 17 september 2004
Schematisch voorgesteld Verwijder FPs in TM-context Pas P[FP|c] aan adaptieve werkwijze Negeer FP frames spraak x(n) woorden Front end search detect FPs A.M. TM LEX FP model FP in TM Atranos Workshop 17 september 2004
t weglaten Adaptieve behandeling van FPs • Methode 1 : negeren van FP frames • FP detector levert FP probabiliteit per segment • op frameniveau : stuksgewijze constante output • Frames met hoge FP probabiliteit niet naar herkenner • Opgelet : vermijd valse detecties Atranos Workshop 17 september 2004
P(FP|x) O time W1=uh W2=een W3=de Adaptieve behandeling van FPs • Methode 2 : Aanpassen van score (logP) • meet overlap tussen woordhypothese en FP interval • bepaal actie op basis van grootte overlap en identiteitwoordhypothese Atranos Workshop 17 september 2004
Adaptieve behandeling van FPs • Te nemen acties • indien overlap > 50 % • als woord = FP dan score = score + C1 (consistentie) • als woord # FP dan score = score - C2 (inconsistentie) • indien overlap < 50 % • geen actie, ook niet in geval van consistentie • dit betekent dat we herkenner geloven • Bespreking • minder drastisch dan negeren van frames • nuttig om alle FPs te detecteren (zelfs indien vals) Atranos Workshop 17 september 2004
Praktische implementatie • Hoe hebben we dit uitgevoerd? • geen rechtstreekse integratie in spraakherkenner • werken met simulatie (herscoren van output) • later integreren wat ook blijkt te werken • Hoe simuleren? • N-Best lijsten : compact, weinig hypothesen • Woordgrafen (lattices) : niet compact, veel hypothesen • Onze keuze woordgrafen van grote diepte Atranos Workshop 17 september 2004
Experimenteel kader • Herkenningssysteem • Herkenner van ESAT (Jacques) • Lexicon : 40k woorden (+ model voor FP) • Taalmodel (1) getraind op 35 M woorden van krantenartikels. (2) getraind op 35 M woorden van krantenartikels + 3 M spontane woorden van het CGN. • Akoestische modellen (1) getraind op 38 h gelezen spraak (CGN) (2) getraind op 44 h spontane spraak (CGN) • Test set uit CGN: 7041 woorden, FP-rate = 5.94 %. Atranos Workshop 17 september 2004
AM TM 1 2 1 45.6 38.3 AM trainen opspontane spraak helpt!!! 2 ─ 36.4 TM trainen op spontane spraak helpt! Experimenteel kader • Basissystemen • BS - FP = doe helemaal niets voor FPs • BS = voeg FP toe aan lexicon (36 uitspraakvarianten) • BS+TM = verwijder FP uit de TM-context • Performanties voor BS (en BS+TM) op test set Atranos Workshop 17 september 2004
Experimentele resultaten • Serie 1: TM-1, AM-1 • Resultaten : WER (%) woorden/FP Atranos Workshop 17 september 2004
Experimentele resultaten • Serie 2: TM-1, AM-2 • Resultaten : WER (%) woorden/FP • Baseline verbetert, maar #woorden/FP blijft van dezelfde orde Atranos Workshop 17 september 2004
Experimentele resultaten • Serie 3: TM-2, AM-2, geen aanpassing TM nodig (FP in TM) • Resultaten : WER (%) woorden/FP • Beide methodes : groter #wrdn/FP, combinatie nog beter Atranos Workshop 17 september 2004
Grafische voorstelling WER (%) woorden/FP Atranos Workshop 17 september 2004
Samenvatting • Twee nieuwe manieren om FPs te behandelen • beide methodes blijken effectief • kunnen gecombineerd worden • De combinatie levert • beperkte daling van WER (= 6% relatief) • significante verbetering waar FP = 0.53 wrdn/FP • Maar • verbetering met manuele FPs is hoger (0.8 wrdn/FP) • kunnen we de detector verder verbeteren ? Atranos Workshop 17 september 2004