1 / 25

ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans

ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans. CNTS taak voor T1+6. WP2: Ontdekken en verwerken van Out-Of-Vocabulary- items (OOV) Specifieke taak = foneem-naar-grafeem omzetting Doeleinden: T1+6: Baseline omzetter T1+6: Rapport. Overzicht.

colman
Download Presentation

ATRaNoS T1-T6 CNTS Team: Bart Decadt Erik Tjong Kim Sang Walter Daelemans

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ATRaNoS T1-T6CNTS Team:Bart DecadtErik Tjong Kim SangWalter Daelemans

  2. CNTS taak voor T1+6 • WP2: Ontdekken en verwerken van Out-Of-Vocabulary-items(OOV) • Specifieke taak = foneem-naar-grafeem omzetting • Doeleinden: • T1+6: Baseline omzetter • T1+6: Rapport

  3. Overzicht • Waarom foneem-naar-grafeem omzetting? • Haalbaarheidsexperimenten met CELEX • Resultaten + fouten-analyse • Experimenten met ‘echte’ data • Resultaten + fouten-analyse • Conclusies + TODO

  4. WP2: Taak: foneem-naar-grafeem omzetting Spraak Herkenner spraak tekst Confidence threshold Vermoedelijk OOV-item Foneemherkenner (ESAT) Foneemstring + context (voorgaande en volgende woorden in spelling) Training Data Omzetter (TiMBL) Spelling corrector met omvangrijk vocabularium Spelling

  5. (1) Onderzoek naar haalbaarheid • Wat is de haalbaarheid van foneem-naar-grafeem omzetting? • Experimenten met CELEX • Memory Based Learning (TiMBL) als machine learning methode • Hoe groot is de invloed van ruis in de data? • Typische error rate van een foneem-herkenner ~ 25tot 30%

  6. Voorbereiden van de data(1) • Voorbereiden van CELEX • Spelling en uitspraak moeten gealigneerd worden (met Expectation Maximization (EM) algoritme [ILKAlign]) • “nul” symbool /tAksi/ taxi tax_i • samengestelde grafemen/slap/ slaap slAp • Voordeel van EM: geen tuning nodig • Gerandomiseerd op woordniveau

  7. Voorbereiden van de data(2) • Toevoegen van ruis • Gebeurde op woordniveau • Simulatie van substituties: fonemen werden vervangen door hun nearest phonemes • Confusion matrix a.h.v. MVDM (Modified Value Difference Metric) • Van 0 tot 50% ruis

  8. Experimenten met TiMBL • Memory Based Learning experimenten • Classification-based • Similarity-based • Gebruikte algoritmes: • IB1 (standaard) met k=1,3,5 • IGTree (decision tree based optimization) • Metriek om similarity te berekenen:Overlapmetric met Gain Ratio weighting • Experimenten met 10-fold cross-validation • Resultaten (accuraatheid) • Vrij van fouten: 99.1 (grafemen) 91.4 (woorden) • 25% fouten: 93.1 (grafemen) 53.0 (woorden) • 30% fouten: 92.0 (grafemen) 47.7 (woorden)

  9. Resultaten van experimenten met CELEX

  10. Fouten-analyse • Analyse van fouten in de output van algoritme IB1, k=1 op dataset zonder ruis • 2 soorten fouten: • Fouten door ambiguïteit • Fouten door atypische spelling

  11. Fouten door ambiguïteit • Ambiguïteit door spellingsconventies • /k/  c of k? • /INkledIN/  incleding • /vudbAlkOm@ptitsi/  voetbalkompetitie • /i/  i of y? • /fil@/  fyle • /elEktrolitis/  elektrolitisch • Ambiguïteit door assimilatie • /n/ wordt /m/ voor /b/ • /embanswEx/  eembaansweg • Ambiguïteit door zelfde uitspraak, andere spelling • /ledikAnt/  ladikant  ladykiller, ladyshave, ladylike

  12. Fouten door atypische spelling

  13. (2) Experimenten met data van foneemherkenner • Data van ESAT: • 129075 woorden – 605955 grafemen • 8913 OOV-items • Enkele voorbeelden: • grafeemstring: ze veegde de tranen uit haar ooghoeken foneemstring: z@ veGe t@r tran@n Lt har ohok@n • grafeemstring: het was een spel geworden foneemstring: h@t wAs @ spEl G@wOrt@n t@x • grafeemstring: cathy had haar uiterste best gedaan foneemstring: kYdi hAt hAr Ljt@rst@ bEs x@dan

  14. Voorbereiden van de ESAT-data(1) • Aligneren met “nul” symbolen + samengestelde grafemen • Problemen bij het aligneren van de data: • Door deleties in de foneemstrings werkt het EMalgoritme niet • Oplossing: • Ander aligneer-algoritme: Dynamic Programming (DP) (of Dynamic Time Warping) • Nadeel: tuning nodig! • Voordeel: kan deleties aligneren

  15. Voorbereiden van de ESAT-data(2) • Deleties staan niet aangeduid in de input van omzetter  deleties werden verwijderd uit dataset • Heeft spelling voorgaande/volgende woord invloed? • Vier verschillende datasets: • Woorden met deleties verwijderd, geen spelling als context • Woorden met deleties verwijderd, wel spelling als context • Instanties met deleties verwijderd, geen spelling als context • Instanties met deleties verwijderd, wel spelling als context • Experimenten: (1) 10 CV op volledige dataset, en (2) alleen OOV-items als testmateriaal

  16. Resultaten met hele dataset - grafeemniveau

  17. Resultaten met hele dataset - woordniveau

  18. Voorbeeld van output • TiMBL’s output: cafe zag en wild zwaaien haar vader stak zijn dan omhoog fassaf hij wilde zeggen het komt we goed jog haar maar klefde bijnae tegen ik aultoeraanpiee aan • Correcte versie: cathy zag hen wild zwaaien haar vader stak zijn duim omhoog alsof hij wilde zeggen het komt wel goed joch haar moeder kleefde bijna tegen het autoraampje aan

  19. Foutenanalyse: hoe goed worden OOV-items omgezet? • Alle OOV-items uit de tien test-bestanden van 10 CV experimenten gehaald (8913 woorden) • Resultaten berekend op grafeem- en woordniveau • Geteld hoeveel woorden 0, 1, 2, … fouten per woord hebben

  20. Resultaten op grafeemniveau

  21. Resultaten op woordniveau MAAR  verzameling OOV-words bevat 3985 (44.7%) woorden met deleties  deze woorden kunnen nooit volledig correct herkend worden

  22. Voorbeeld van output • TiMBL’s output: het komt wel goed jog bijna tegen het aultoeraampiee aan haar neus werd pladvedrukt cathy zag de belleenlangzaam verdwijnen cathy staarde hem bevreemd aan • Correcte versie: het komt wel goed joch bijna tegen het autoraampje aan haar neus werd platgedrukt cathy zag de bmw langzaam verdwijnen cathy staarde hem bevreemd aan

  23. Fouten-analyse OOV-items De meeste woorden hebben 2 tot 5 fouten per woord (gemiddelde is 3.03)

  24. (3) Conclusie • Experimenten op volledige ESAT dataset (max. 47.0) komen in de buurt van de resultaten van de experimenten met artificiële ruis (47.7 – 53.0% op woordniveau) • Resultaten bij de OOV-items (max. 6.9%) liggen ver beneden de resultaten van de experimenten met artificiële ruis

  25. (4) TODO • Verdere optimalisering van de leertechniek op deze taak • Oplossing voor probleem van deleties • Spelling corrector met omvangrijk vocabulariumals post-processing • Evaluatie van omzetter in combinatiemetde confidence measures ontwikkeld door ESAT

More Related