320 likes | 482 Views
Fordítás, többnyelvűség, szótárak. Prószéky Gábor MorphoLogic http://www.morphologic.hu Pázmány Péter Katolikus Egyetem Információs Technológiai Kar http://www.itk.ppke.hu. Folyamatos hivatalos igény a különféle nyelvű anyagok fordítására.
E N D
Fordítás, többnyelvűség, szótárak Prószéky Gábor MorphoLogic http://www.morphologic.hu Pázmány Péter Katolikus Egyetem Információs Technológiai Kar http://www.itk.ppke.hu
Folyamatos hivatalos igény a különféle nyelvű anyagok fordítására „Minden hivatalos anyagot minden hivatalos nyelven meg kell szövegezni, továbbá bármely hivatalos nyelven fogalmazódik egy nyilatkozat, azt minden más hivatalos nyelvre és minden, az elnökség által szükségesnek tartott egyéb nyelvre is le kell fordítani.” (Az Európa Parlament ügyrendje, 79. cikkely)
Az idegen nyelvek megoszlása az EU-országokbanaz idegen nyelveket beszélők %-ában (Eurobarometer) Angol Francia Német Spanyol Orosz Olasz Svéd
A szótár mint az idegennyelv-tudás egyik kulcsa • a használat módja • a sebesség • az adott helyzetben kapott találatok pontossága • az egyszerre több helyen való fellapozhatóság lehetősége Az elektronikus és a hagyományos szótárak viszonyát alapvetően meghatározza:
Szótárprogramok és -szolgáltatások a világban • A szótárprogramok nagy része nem nyelvtechnológiai produktum, mindössze egy nyelvi egységeket (szavakat, kifejezéseket) tartalmazó adatbázis • Eleinte csak offline termékek, ma már (javarészt ingyenes) online szolgáltatások • Az intelligens szótári rendszer egyik első megvalósítása magyar fejlesztés: a MorphoLogic MoBiMouse programja (IST Prize = EU Információtechnológiai Díj, 1998)
A korszerű internetes szótárszolgáltatás kritériumai a Web2 segítségével • Folyamatosan bővülő szótárkínálat • Sajátszótár-készítési lehetőség • Tetszőleges webes tartalom integrált megjelenítése • A kifejezések intelligens kezelése • Közösségi jelenlét • Egymás segítésének és a (jogos) kritikának a fóruma • A rendszer szemantikus ismereteinek erősítése a felhasználó keresési szokásainak elemzésével • Könnyű keresés-indítási lehetőség • Saját menthető beállítások a környezet személyre szabásához • Megvalósítás: www.webforditas.hu
A géppel támogatott fordítás eszközei • A professzionális fordítók igénye: gépi szótárak, és más támogatás is, de továbbra sem a gép fordít! • Például tovább lehet gyorsítani a munkán, ha az eddig lefordított anyagokat el lehet érni • Kialakulnak a fordítómemóriák • Új kutatási terület: hasonló mondatok keresése • Párhuzamos szövegkorpuszok: szövegek fordításaikkal, mondatpáronként kereshetően • A legjelentősebb hazai kísérlet: a Hunglish angol-magyar párhuzamos korpusz (BME MOKK) • Szoftvereszközök: Trados, Transit, SDL, … • A MemoQ magyar fejlesztésű fordítómemória (Kilgray Kft) több szakmai szempontból meghaladja a versenytársait • Nyelvtechnológia + fordítómemória: út az intelligens fordítómemóriák felé
A gépi fordítás minősítéséneklegfontosabb kritériumai(fordítási minőség + sebesség + használhatóság + formátummegőrzés + elérhető nyelvek) Fordítási minőség34% Használhatóság34% Forrásnyelv-célnyelv párok13% Formátum-megőrzés13% Sebesség20% Forrás: Stadler-Spröndli, MT Summit 2007
A gépi fordítás legalapvetőbb módszerei közvetítőnyelv elemzés generálás transzfer forrásnyelv célnyelv közvetlen fordítás
A gépi fordítás fő irányzatai • A közvetlen fordítás csak az 60-as évek elejéig működött (magyar kísérlet is volt!) • A minden nyelv fölött álló közvetítőnyelves megoldás mindig csak kísérlet maradt (pl. DLT, amiben kísérlet volt a magyar bevonására is) • A transzfer-fordítás ma a szabály-alapú rendszerek alapgondolata (pl. Systran, ProMT, Eurotra) • A statisztikai fordítók az utóbbi évtized egyeduralkodóivá váltak, de képességeiket csak szűk területen mutatják meg jól (nyílt forráskódú rendszerek: Pharaoh, Giza++, Moses) • A soknyelvűség ismét előtérbe kerül: hibrid rendszerek előállítása - magyar közreműködéssel (MorphoLogic): az EuroMatrix projekt • A példa-alapú rendszer nem feltétlenül kapcsolódik statisztikai megoldáshoz (pl. MetaMorpho)
Egy hazai gépi fordítási esettanulmány(www.webforditas.hu) • Az internetes szolgáltatást működtető gépifordító-motor a MorphoLogic MetaMorpho rendszere • Formája: ingyenes gépi fordítási szolgáltatás • Az angol-magyar a MorphoLogic saját fejlesztése (2000-2004), a magyar-angol a MorphoLogic vezette konzorcium (MTA Nyelvtudományi Intézet, SZTE Informatikai Tanszékcsoport) munkája (NKFP) • 2007 és 2008 októbere között: 91 millió fordítási kérés kiszolgálása (az előző 12 hónapban ugyanez 43 millió oldal volt) 81 millió szövegfordítás + 2 millió weboldal-fordítás + 7,2 millió szótári lekérdezés 13,3 GB adatforgalom (ami 1800 karakter/gépelt oldallal számolva mintegy 7,2 millió A4-oldalnak felel meg) • 2008 szeptemberében már 50 000 látogató/nap!
A webforditas.hu gépifordító-szolgáltatás látogatószám-növekedése 2007/2008-ban
A webforditas.hu, a Systran és a ProMT internetes fordítószolgáltatásainak összehasonlítása
Következmények • A fordítói társadalom természetesen nem érzett meg ebből semmit (=egy fordító sem vesztette el az állását) • Miért? Mert ez nem fordítás az eredeti értelemben, hanem a többnyelvűség egy újabb területe: az internet előtt ülők „megértéstámogatása” • Ezek a számok adták az ötletet további nyelvek bevonásához, a MorphoLogic angol-magyar és magyar-angol szolgáltatásának és a világ angol-X és X-angol gépfordító-szolgáltatásainak összekapcsolására • Hogyan?
A közvetítőnyelv gondolata „A működés megkerülhetetlen előfeltétele a megnyilatkozások fordítása, tolmácsolása az éppen megnyilatkozó nyelvéről az összes többi nyelvre. Matematikailag a legegyszerűbb és minden szempontból a leghatékonyabb, nem mellesleg a legolcsóbb megoldás az, ha minden megnyilatkozást először lefordítanak egy közös nyelvre, egy második lépésben pedig ezen közös nyelvről lefordítják a megnyilatkozást az összes többi nyelvre. Mivel egy fordítóról általánosan is elvárható az oda-vissza fordítás két nyelv között, 23 hivatalos nyelv (azaz egy közös és 22 más nyelv) esetében ilyen munkamódszer mellett pontosan 22 fordítóra lenne szükség. […] Megoldásként kínálkozik a másik munkamódszer, amikor ilyen áthidaló közös nyelv közbeiktatása nélkül a fordítás minden nyelvről minden nyelvre történik. Ebben az esetben viszont pontosan 506 fordítóra lenne szükség.” (Az Európai Unió soknyelvűsége - Ajánlás)
Közvetett fordítás a magyar és az EU-nyelvek között(meg még más nyelvekre is…) • A nyelvpárok száma= n*(n-1) • A létező X-angol/angol-X gépifordító-rendszerek adják az interlingvát: az angolt • X-Y közvetett fordítás: angolon át • 2008 nyarától a Google is ezt csinálja: statisztikai fordítóit kötötte össze az angolon keresztül
A webforditas.hu magyarra és magyarról „forduló” nyelvei • A legfontosabb európai világnyelvek: angol, német, francia, spanyol, olasz, orosz • További nyugat-európai nyelvek: portugál, holland, dán, svéd, norvég, finn, katalán • A „visegrádi” nyelvek: lengyel, cseh, szlovák • További szomszédos nyelvek: ukrán, román, szerb, horvát, szlovén • További kelet-európai nyelvek: görög, bolgár, lett, litván • A legfontosabb nem európai világnyelvek: arab, héber, japán, kínai, koreai • További nagy, nem-európai nyelvek: hindi, indonéz, vietnámi • A MorphoLogic nemzetközi partnerei ebben a gigaprojektben: ProMT (orosz, német, francia, spanyol, portugál), Trident (ukrán, lett), pwn.pl (lengyel), SkyCode (bolgár), GrammarSoft (dán, norvég) • Ez a 12 fordítómodul saját gépen futó változatban is, Word-fájlok és weblapok fordítására elérhetőek: MorphoWord Net • A szükséges fejlesztések fő iránya: úgy javítani az angol-magyar/magyar-angol rendszert, hogy az a géppel való továbbfordítás kritériumainak minél jobban megfeleljen („nem ember áll a túloldalon!”)
Merre megy a gépi fordítás tovább? • Hosszú távra tervezett kutatás (csak megfelelő támogatással): a fordítási minőség folyamatos javítása (korpusznyelvészeti és hibrid megoldásokkal) • Kutatási projektek a fordításhoz tartozó szolgáltatások bővítésére (pl. szókészlet-bővítő eszközök, intelligens keresési megoldások) • Újabb „platformok” bevonási lehetőségeinek kutatása (pl. összekapcsolás beszédfeldolgozással, mobil alkalmazások)