400 likes | 556 Views
Gépi fordítás. 2010. november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján. Gépi fordítás. Machine Translation (MT) Teljes szövegek automatikus fordítása forrás nyelvről célnyelvre. Computer Aided Translation (CAT) Miért van rá szükség?
E N D
Gépi fordítás 2010. november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2nd editon, 2009 alapján
Gépi fordítás • Machine Translation (MT) • Teljes szövegek automatikus fordítása forrás nyelvről célnyelvre. • Computer Aided Translation (CAT) • Miért van rá szükség? • Az EU évente 1 milliárd €-t költ fordításra • Interneten elérhető információkhoz való hozzáférés (Google Translation)
„Bár a kutatók egyetértenek abban, hogy teljesen automatizált, jó minőségű MT rendszerek építése tetszőleges szövegekre lehetetlen, hosszú távra ez mégis vonzó célkitűzés.” (S. Warwick-Armstrong)
A gépi fordításról… (Prószéky 2006) Igaz, hogy a minőség még sokszor hagy kívánnivalót, de a sebesség igen értékes tulajdonsága a MT-rendszereknek. Bizonyos körülmények közt a MT minsőégi fordítást is képes produkálni: a METEO 4%-nál kevesebb kimenete igényel emberi korrekciót. A MT nem fenyegeti a fordítók munkáját. A beszéd−beszéd MT továbbra is kutatási téma. Általánosságban is igaz: sok kutatási téma van még a MT területén. A MT-rendszerek fejlesztése időigényes munka. A gyakorlatban egy MT-rendszer csak akkor tud megvalósulni, ha a felhasználó komoly munkát fektet bele az egyedi felépítésébe.
Próbáljuk ki! http://translate.google.com/ http://babelfish.altavista.com/ http://www.webforditas.hu/
Alkalmazások • Ha gyors fordítás kell, de nyers elég • Információ kinyerés webről • Computer-aided human MT • Speciális szaknyelven léteznek jó megoldások • időjárás jelentések • repjegy foglalás
Nyelvek közti különbségek • morfológia • izoláló vs. poliszintetikus • agglutináló vs. flektáló • szintaktikailag • Subject-Verb-Object, VSO, SOV • egyéb strukturális különbségek YYYY. MM. DD. vs. MM/DD/YY
Nyelvek közti különbségek • Lexikai különbségek • red vs. vörös, piros
Problémák a MTben • Összetett szavak cross dad • Többszavas kifejezések knightly gymnastics • Idiómák as happy as dog with two tails • Stílus
Megközelítések a MT-ben • Nyelvpárok közti fordítás • Szabályalapú rendszerek • direkt • transzfer • interlingua • Statisztikai fordítás • Nyelvhalmazok közti fordítás
Közvetlen szabályalapú fordítás • Lépései: • Morfológiai analízis • Kétnyelvű szótárban megtalálható kifejezések cseréje • Szavak sorrendjének átrendezése • Morfológiai képzés
Szemantikus transzfer • Szemantikus szerep azonosítás • WSD
Interlingua • Predikátumlogika • Szemantikai reprezentációk • nyelvek közti különbségek? elder brother
A fordítási feladat „Csak kiszótárazom, lefordítom és kész” • legyen 1 mondat átlagosan 15 szó hosszú • legyen 1 szónak átlagosan 3 jelentése • 1 „mondatnak” 315 különböző fordítása áll elő • * szórendből permutációk • * extra szavak, kimaradó szavak
Statisztikai MT • Minden frázisnak több lehetséges fordítása van • Válasszuk ki a legvalószínűbb szekvenciát • Célfüggvény: • szöveghűség és • folyékonyság/érthetőség
Statisztikai MT • Fordítási modell • Nyelvi modell argmax P(M|a)=argmax P(M)*P(a|M) • „Dekóder”
Nyelvi modell • általában N-gram model 2-gram: P(m1,m2…mn)=∏P(mi|mi-1) 3-gram: P(m1,m2…mn)=∏P(mi|mi-1,mi-2) • egy nyelvre • bőségesen van korpusz P(mi|mi-1) becslésére
Párhuzamos korpuszok • Két vagy több nyelven elérhető, szegmenseik egymáshoz rendeltek • A szegedi angol-magyar párhuzamos korpusz ~64 ezer mondatból áll:
Mondat szinkronizáció • Dinamikus programozás • Megközelítések • hossz alapú • Egységek hossza alapján összerendelés (a cél- és forrásnyelvi egységek hosszának aránya becsült) • horgony alapú • Írásjelek, megegyező szavak • hibrid módszerek • 98%
Fordítási modell • cél: frázisokat fordítsunk • párhuzamosítani kell frázis szinten • van elég példa a párhuzamos korpuszban?
Szavak párhuzamosítása • Minden statisztikai MT lelke • Ha van egy modell akkor • frázisok azonosítása • fordítási modell
IBM Model 1 • J: cél mondat hossza • A=(a1..aJ): összerendelések • I: input mondat hossza • minden hozzárendelésnek egyenlő a valószínűsége
Dekóder argmax P(M|a)=argmax P(M)*P(a|M)
MT kiértékelése • Emberi kiértékelés • érthetőség, természetesség, stílus • 1-5 skála • Olvasás ideje • cloze teszt • információ átadási készség • utó-javítás ideje
BLUE score • A fordítás minőségének mérése • Az embernél nincs jobb kiértékelő, de az nagyon drága • Adott néhány (emberi) fordítás minden mondatra a teszt halmazon • Számoljuk meg, hogy 1,2,3,4 grammok milyen fedésben vannak az emberi fordításokkal • + javítások…
BLUE • precízió: ha a 10 szavas fordításból 6 szerepel valamelyik referenciában akkor 60%
CAT formái • Fordító memória • Szótárazás (egy- és kétnyelvű) • Terminológiakezelés • Szinkronizáció • Helyesírás-ellenőrzés
A Fordító memóriáról… • Hosszú távon időt (pénzt) takarít meg a fordító • Fordítócsoportok munkáját segíti (központi memória, terminológia, konzisztencia) • Újrahasznosíthatóság? „a szöveg üzenetét kell visszaadni!” • Fenn kell tartani (képzések, licensz), nem garantált a minősége • Csak karakterszintű egyezés? Lehet szintaktikai relációkat keresni…
Vicces esetek… Vomit his dog there is the queen? (InterTran) Gyermekei megy ugyanaz iskola mint bánya. (InterTran) Kekszek nincsenek balra! (MetaMorpho) Left hand Irishmen. (MetaMorpho)