210 likes | 343 Views
ATraNoS Work Package 2, T7-T12. CNTS Team : Bart Decadt (onderzoeker) Erik Tjong Kim Sang (onderzoeker, project leider) Walter Daelemans (supervisie). CNTS Taken - Overzicht. WP 2 – Detectie en verwerking van OOV items : foneem- naar- grafeem (F2G) omzetter optimaliseren
E N D
ATraNoSWork Package 2, T7-T12 CNTS Team: Bart Decadt (onderzoeker) Erik Tjong Kim Sang (onderzoeker, project leider) Walter Daelemans (supervisie)
CNTS Taken - Overzicht • WP 2 – Detectie en verwerking van OOVitems: • foneem-naar-grafeem (F2G) omzetter optimaliseren • verdere fouten-analyse • interactie met de confidencemeasures van ESAT’s spraakherkenner
Even opfrissen … • F2G omzetter memory based learning (implementatie = TIMBL): • classification-based & similarity-based • gebruikte algoritmes: • IB1-IG (standaard) met k = {1,3,5} • IGTree (decision tree based optimization) • metriek om similarity te berekenen: overlapmetric met gain ratio weighting • experimenten met 10-fold cross-validation met data van ESAT’s foneemherkenner
Resultaten experimenten T1–T6 • beste resultaten dataset zonder instanties met deleties, en geen spelling als context • beste algoritme = IB1-IG met k = 5
(I) F2G-omzetter optimaliseren • 4 oplossingen: • dataset met minder foneem-deleties • dataset met meer OOVs • optimalisatie-algoritme voor memory-based learning • spellingcorrectie als post-processing
(I.a) Dataset met minder deleties • vorige dataset van ESAT: errorrate ~25% • nieuwe dataset van ESAT: 20% minder deleties,maar: • 60% meer inserties • 15% meer substituties • totale error rate ~29% • maar:inserties en substituties kunnen opgelost wordenmet de F2G-omzetter
(I.a) Dataset met minder deleties • resultaten van 10-fold cross-validation experimenten:
(I.a) Dataset met minder deleties • beste algoritme: IB1-IG met k=5 • resultaat voor hele datasetis wat slechter: • grafeemniveau: -1.6% • woordniveau: -2.6% • resultaat voor OOVs is lichtjes beter: • grafeemniveau: +0.5% (1.6% winst) • woordniveau: +0.7% (10.1% winst) • concreet: 8903 OOVs 680 (vs. 611) correct geconverteerd
(I.b) Dataset met meer OOVs • aantal OOVs is klein: • 9k OOVs120k niet-OOVs • nieuwe dataset maken: • elke OOV komt 2x voor • elke niet-OOVslechts 1x • hypothese: memorybasedlearner wordt meer getraind op de eigenaardigheden van de OOVs
(I.b) Dataset met meer OOVs • resultaten van 10-fold cross-validation experimenten:
(I.b) Dataset met meer OOVs • enige vooruitgang bij resultaten voor de OOVs:+0.1%op woordniveau • lichte achteruitgang bij resultaten voor hele dataset • memorybasedlearner is niet beter getraind op OOVs: • aantal OOVs verdrievoudigen, … ? • waarschijnlijk weinig regelmatigheden in OOVs
(I.c) Optimalisatie algoritme • bepaal default score: • IB1-IG, k=1 enweighting=gainratio • een exhaustive searchnaar de bestesettings voor: • weighting: w ={ gain ratio, info gain, chi-squaredofshared variance} • nearest neighbours: k = {1,3,5,7,9,11,13,15} • class voting type (Timbl4): z = { majority voting, Inverse Distance weighting, Inverse Linear weighting, Exponential Decay weighting }
(I.c) Optimalisatie algoritme • start algoritme: • default score = 76.2 % • resultaat: • setting voor weighting = gain-ratio • setting voor nearest neighbours = 5 • setting voor class voting type = Inverse Distance weighting • eind score = 77.8 % op grafeemniveau voor hele dataset
(I.d) Spellingcorrectie • iSpell (Unix/Linux) als spellingcorrector (114k woorden + lijst met affixen) • output van iSpell: • woorden gelabeld als correct of foutief gespeld • foutief gespelde woorden vaak een lijst met alternatieven • spellingcorrector van Microsoft (groter vocabularium) niet te automatiseren
(I.d) Spellingcorrectie • resultaat met iSpell: • input =conversies voor OOVs in dataset met minder deleties, met IB1-IG en k=3 (woord-accuraatheid = 6.9%): • verlies in accuraatheid door correct voorspelde woorden gemarkeerd als foutief -1.4% • winst (alleen 1ste suggestie) +2.4% • winst (eerste 3 suggesties) +4.1% • winst (alle suggesties) +4.8% • woord-accuraatheid kan stijgen tot min. 7.8%, max. 10.3%
(II) Verdere fouten-analyse • hypothese: TIMBL kan zich aanpassen aan de fouten van de foneemherkenner • in hoeverre gebeurt dit? • vergelijking met frequentie-gebaseerde methode: • foneem omzetten naar meest voorkomende grafeem voor dat foneem
(II) Verdere fouten-analyse • vergelijking: TIMBL frequentie-gebaseerd: • TIMBL 130% winst tov. frequentie-gebaseerd methode
(III) Interactie met confidence measures (ESAT) • experiment met afzonderlijke test-set (3.6k woorden) • accuraatheid op woordniveau = 55.2% • 7.9% voor OOVs • 19.2% op herkenningsfouten • 59.9% voor niet-OOVs • test-set bevat 14.7% herkenningsfouten • 75% kan correct gelabeld worden als onzeker • slechts 10% van de correcte woorden foutief gelabeld
(III) Interactie met confidence measures (ESAT) • veronderstelling: • 75% correct gelabeld als onzeker omgezet met 7.9% woord-accuraatheid • 10% foutief gelabeld als onzeker omgezet met 59.9% woord-accuraatheid • aantal herkenningsfouten stijgt van14.7 % naar 16.0 %! • maar leesbaarheid is verbeterd: • 41.7 % van de herkenningsfouten wordt omgezet met ten hoogste 1 fout per woord • 62.6 % met ten hoogste 2 fouten
(III) Interactie met confidence measures (ESAT) • gespreksonderwerp /G@spreksOnd@r@wEr@/ • spraakherkenner gesprek zonder werk • F2G-omzetter gespreksonberwerp • speelgoedmitrailleur/sperGutnitrKj-yr/ • spraakherkenner speelgoed moet hier • F2G-omzetter spergoetmietrijer
Conclusies • twee optimalisatie-oplossingen zijn effectief: • dataset met minder deleties • spellingcorrectie zou beter kunnen met taakspecifieke corrector • TIMBL leert uit fouten van foneemherkenner • parameter optimalisatie: weighting = Gain Ratio, nearest neighbours = 5, class voting type = Inverse Distance weighting