1 / 40

Gépi fordítás

Gépi fordítás. 2010. november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján. Gépi fordítás. Machine Translation (MT) Teljes szövegek automatikus fordítása forrás nyelvről célnyelvre. Computer Aided Translation (CAT) Miért van rá szükség?

terrel
Download Presentation

Gépi fordítás

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gépi fordítás 2010. november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján

  2. Gépi fordítás • Machine Translation (MT) • Teljes szövegek automatikus fordítása forrás nyelvről célnyelvre. • Computer Aided Translation (CAT) • Miért van rá szükség? • Az EU évente 1 milliárd €-t költ fordításra • Interneten elérhető információkhoz való hozzáférés (Google Translation)

  3. „Bár a kutatók egyetértenek abban, hogy teljesen automatizált, jó minőségű MT rendszerek építése tetszőleges szövegekre lehetetlen, hosszú távra ez mégis vonzó célkitűzés.” (S. Warwick-Armstrong)

  4. A gépi fordításról… (Prószéky 2006) Igaz, hogy a minőség még sokszor hagy kívánnivalót, de a sebesség igen értékes tulajdonsága a MT-rendszereknek. Bizonyos körülmények közt a MT minsőégi fordítást is képes produkálni: a METEO 4%-nál kevesebb kimenete igényel emberi korrekciót. A MT nem fenyegeti a fordítók munkáját. A beszéd−beszéd MT továbbra is kutatási téma. Általánosságban is igaz: sok kutatási téma van még a MT területén. A MT-rendszerek fejlesztése időigényes munka. A gyakorlatban egy MT-rendszer csak akkor tud megvalósulni, ha a felhasználó komoly munkát fektet bele az egyedi felépítésébe.

  5. Próbáljuk ki! http://translate.google.com/ http://babelfish.altavista.com/ http://www.webforditas.hu/

  6. Alkalmazások • Ha gyors fordítás kell, de nyers elég • Információ kinyerés webről • Computer-aided human MT • Speciális szaknyelven léteznek jó megoldások • időjárás jelentések • repjegy foglalás

  7. Problémák

  8. Nyelvek közti különbségek • morfológia • izoláló vs. poliszintetikus • agglutináló vs. flektáló • szintaktikailag • Subject-Verb-Object, VSO, SOV • egyéb strukturális különbségek YYYY. MM. DD. vs. MM/DD/YY

  9. Nyelvek közti különbségek • Lexikai különbségek • red vs. vörös, piros

  10. Problémák a MTben • Összetett szavak cross dad • Többszavas kifejezések knightly gymnastics • Idiómák as happy as dog with two tails • Stílus

  11. Megközelítések a MT-ben • Nyelvpárok közti fordítás • Szabályalapú rendszerek • direkt • transzfer • interlingua • Statisztikai fordítás • Nyelvhalmazok közti fordítás

  12. Szabályalapú rendszerek

  13. Közvetlen szabályalapú fordítás • Lépései: • Morfológiai analízis • Kétnyelvű szótárban megtalálható kifejezések cseréje • Szavak sorrendjének átrendezése • Morfológiai képzés

  14. Átrendezés

  15. Transzfer fordítás

  16. Transzfer

  17. Szemantikus transzfer • Szemantikus szerep azonosítás • WSD

  18. Interlingua • Predikátumlogika • Szemantikai reprezentációk • nyelvek közti különbségek? elder brother

  19. A fordítási feladat „Csak kiszótárazom, lefordítom és kész” • legyen 1 mondat átlagosan 15 szó hosszú • legyen 1 szónak átlagosan 3 jelentése • 1 „mondatnak” 315 különböző fordítása áll elő • * szórendből permutációk • * extra szavak, kimaradó szavak

  20. Statisztikai MT • Minden frázisnak több lehetséges fordítása van • Válasszuk ki a legvalószínűbb szekvenciát • Célfüggvény: • szöveghűség és • folyékonyság/érthetőség

  21. Statisztikai MT • Fordítási modell • Nyelvi modell argmax P(M|a)=argmax P(M)*P(a|M) • „Dekóder”

  22. Nyelvi modell • általában N-gram model 2-gram: P(m1,m2…mn)=∏P(mi|mi-1) 3-gram: P(m1,m2…mn)=∏P(mi|mi-1,mi-2) • egy nyelvre • bőségesen van korpusz P(mi|mi-1) becslésére

  23. Párhuzamos korpuszok • Két vagy több nyelven elérhető, szegmenseik egymáshoz rendeltek • A szegedi angol-magyar párhuzamos korpusz ~64 ezer mondatból áll:

  24. Mondat szinkronizáció • Dinamikus programozás • Megközelítések • hossz alapú • Egységek hossza alapján összerendelés (a cél- és forrásnyelvi egységek hosszának aránya becsült) • horgony alapú • Írásjelek, megegyező szavak • hibrid módszerek • 98%

  25. Fordítási modell • cél: frázisokat fordítsunk • párhuzamosítani kell frázis szinten • van elég példa a párhuzamos korpuszban?

  26. Szavak párhuzamosítása

  27. Szavak párhuzamosítása • Minden statisztikai MT lelke • Ha van egy modell akkor • frázisok azonosítása • fordítási modell

  28. IBM Model 1

  29. IBM Model 1 • J: cél mondat hossza • A=(a1..aJ): összerendelések • I: input mondat hossza • minden hozzárendelésnek egyenlő a valószínűsége

  30. IBM Model 1

  31. Dekóder argmax P(M|a)=argmax P(M)*P(a|M)

  32. MT kiértékelése • Emberi kiértékelés • érthetőség, természetesség, stílus • 1-5 skála • Olvasás ideje • cloze teszt • információ átadási készség • utó-javítás ideje

  33. BLUE score • A fordítás minőségének mérése • Az embernél nincs jobb kiértékelő, de az nagyon drága • Adott néhány (emberi) fordítás minden mondatra a teszt halmazon • Számoljuk meg, hogy 1,2,3,4 grammok milyen fedésben vannak az emberi fordításokkal • + javítások…

  34. BLUE

  35. BLUE • precízió: ha a 10 szavas fordításból 6 szerepel valamelyik referenciában akkor 60%

  36. Fordítástámogató rendszerek (CAT)

  37. CAT formái • Fordító memória • Szótárazás (egy- és kétnyelvű) • Terminológiakezelés • Szinkronizáció • Helyesírás-ellenőrzés

  38. A Fordító memóriáról… • Hosszú távon időt (pénzt) takarít meg a fordító • Fordítócsoportok munkáját segíti (központi memória, terminológia, konzisztencia) • Újrahasznosíthatóság? „a szöveg üzenetét kell visszaadni!” • Fenn kell tartani (képzések, licensz), nem garantált a minősége • Csak karakterszintű egyezés? Lehet szintaktikai relációkat keresni…

  39. Vicces esetek…

  40. Vicces esetek… Vomit his dog there is the queen? (InterTran) Gyermekei megy ugyanaz iskola mint bánya. (InterTran) Kekszek nincsenek balra! (MetaMorpho) Left hand Irishmen. (MetaMorpho)

More Related