250 likes | 371 Views
ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans. CNTS taak voor T1+6. WP2: Ontdekken en verwerken van Out-Of-Vocabulary- items (OOV) Specifieke taak = foneem-naar-grafeem omzetting Doeleinden: T1+6: Baseline omzetter T1+6: Rapport. Overzicht.
E N D
ATRaNoS T1-T6CNTS Team:Bart DecadtErik Tjong Kim SangWalter Daelemans
CNTS taak voor T1+6 • WP2: Ontdekken en verwerken van Out-Of-Vocabulary-items(OOV) • Specifieke taak = foneem-naar-grafeem omzetting • Doeleinden: • T1+6: Baseline omzetter • T1+6: Rapport
Overzicht • Waarom foneem-naar-grafeem omzetting? • Haalbaarheidsexperimenten met CELEX • Resultaten + fouten-analyse • Experimenten met ‘echte’ data • Resultaten + fouten-analyse • Conclusies + TODO
WP2: Taak: foneem-naar-grafeem omzetting Spraak Herkenner spraak tekst Confidence threshold Vermoedelijk OOV-item Foneemherkenner (ESAT) Foneemstring + context (voorgaande en volgende woorden in spelling) Training Data Omzetter (TiMBL) Spelling corrector met omvangrijk vocabularium Spelling
(1) Onderzoek naar haalbaarheid • Wat is de haalbaarheid van foneem-naar-grafeem omzetting? • Experimenten met CELEX • Memory Based Learning (TiMBL) als machine learning methode • Hoe groot is de invloed van ruis in de data? • Typische error rate van een foneem-herkenner ~ 25tot 30%
Voorbereiden van de data(1) • Voorbereiden van CELEX • Spelling en uitspraak moeten gealigneerd worden (met Expectation Maximization (EM) algoritme [ILKAlign]) • “nul” symbool /tAksi/ taxi tax_i • samengestelde grafemen/slap/ slaap slAp • Voordeel van EM: geen tuning nodig • Gerandomiseerd op woordniveau
Voorbereiden van de data(2) • Toevoegen van ruis • Gebeurde op woordniveau • Simulatie van substituties: fonemen werden vervangen door hun nearest phonemes • Confusion matrix a.h.v. MVDM (Modified Value Difference Metric) • Van 0 tot 50% ruis
Experimenten met TiMBL • Memory Based Learning experimenten • Classification-based • Similarity-based • Gebruikte algoritmes: • IB1 (standaard) met k=1,3,5 • IGTree (decision tree based optimization) • Metriek om similarity te berekenen:Overlapmetric met Gain Ratio weighting • Experimenten met 10-fold cross-validation • Resultaten (accuraatheid) • Vrij van fouten: 99.1 (grafemen) 91.4 (woorden) • 25% fouten: 93.1 (grafemen) 53.0 (woorden) • 30% fouten: 92.0 (grafemen) 47.7 (woorden)
Fouten-analyse • Analyse van fouten in de output van algoritme IB1, k=1 op dataset zonder ruis • 2 soorten fouten: • Fouten door ambiguïteit • Fouten door atypische spelling
Fouten door ambiguïteit • Ambiguïteit door spellingsconventies • /k/ c of k? • /INkledIN/ incleding • /vudbAlkOm@ptitsi/ voetbalkompetitie • /i/ i of y? • /fil@/ fyle • /elEktrolitis/ elektrolitisch • Ambiguïteit door assimilatie • /n/ wordt /m/ voor /b/ • /embanswEx/ eembaansweg • Ambiguïteit door zelfde uitspraak, andere spelling • /ledikAnt/ ladikant ladykiller, ladyshave, ladylike
(2) Experimenten met data van foneemherkenner • Data van ESAT: • 129075 woorden – 605955 grafemen • 8913 OOV-items • Enkele voorbeelden: • grafeemstring: ze veegde de tranen uit haar ooghoeken foneemstring: z@ veGe t@r tran@n Lt har ohok@n • grafeemstring: het was een spel geworden foneemstring: h@t wAs @ spEl G@wOrt@n t@x • grafeemstring: cathy had haar uiterste best gedaan foneemstring: kYdi hAt hAr Ljt@rst@ bEs x@dan
Voorbereiden van de ESAT-data(1) • Aligneren met “nul” symbolen + samengestelde grafemen • Problemen bij het aligneren van de data: • Door deleties in de foneemstrings werkt het EMalgoritme niet • Oplossing: • Ander aligneer-algoritme: Dynamic Programming (DP) (of Dynamic Time Warping) • Nadeel: tuning nodig! • Voordeel: kan deleties aligneren
Voorbereiden van de ESAT-data(2) • Deleties staan niet aangeduid in de input van omzetter deleties werden verwijderd uit dataset • Heeft spelling voorgaande/volgende woord invloed? • Vier verschillende datasets: • Woorden met deleties verwijderd, geen spelling als context • Woorden met deleties verwijderd, wel spelling als context • Instanties met deleties verwijderd, geen spelling als context • Instanties met deleties verwijderd, wel spelling als context • Experimenten: (1) 10 CV op volledige dataset, en (2) alleen OOV-items als testmateriaal
Voorbeeld van output • TiMBL’s output: cafe zag en wild zwaaien haar vader stak zijn dan omhoog fassaf hij wilde zeggen het komt we goed jog haar maar klefde bijnae tegen ik aultoeraanpiee aan • Correcte versie: cathy zag hen wild zwaaien haar vader stak zijn duim omhoog alsof hij wilde zeggen het komt wel goed joch haar moeder kleefde bijna tegen het autoraampje aan
Foutenanalyse: hoe goed worden OOV-items omgezet? • Alle OOV-items uit de tien test-bestanden van 10 CV experimenten gehaald (8913 woorden) • Resultaten berekend op grafeem- en woordniveau • Geteld hoeveel woorden 0, 1, 2, … fouten per woord hebben
Resultaten op woordniveau MAAR verzameling OOV-words bevat 3985 (44.7%) woorden met deleties deze woorden kunnen nooit volledig correct herkend worden
Voorbeeld van output • TiMBL’s output: het komt wel goed jog bijna tegen het aultoeraampiee aan haar neus werd pladvedrukt cathy zag de belleenlangzaam verdwijnen cathy staarde hem bevreemd aan • Correcte versie: het komt wel goed joch bijna tegen het autoraampje aan haar neus werd platgedrukt cathy zag de bmw langzaam verdwijnen cathy staarde hem bevreemd aan
Fouten-analyse OOV-items De meeste woorden hebben 2 tot 5 fouten per woord (gemiddelde is 3.03)
(3) Conclusie • Experimenten op volledige ESAT dataset (max. 47.0) komen in de buurt van de resultaten van de experimenten met artificiële ruis (47.7 – 53.0% op woordniveau) • Resultaten bij de OOV-items (max. 6.9%) liggen ver beneden de resultaten van de experimenten met artificiële ruis
(4) TODO • Verdere optimalisering van de leertechniek op deze taak • Oplossing voor probleem van deleties • Spelling corrector met omvangrijk vocabulariumals post-processing • Evaluatie van omzetter in combinatiemetde confidence measures ontwikkeld door ESAT