60 likes | 200 Views
Juraj Volentier. Tvorba paraleln é ho korpusu pre štatistický preklad CZ-SK. Paralerný korpus. Texty v dvoch stĺpcoch pričom každý je v inom jazyku Na rovnakom riadku sú rovnako významné slová alebo vety Používa sa na štatistický preklad. Existujúce projekty.
E N D
Juraj Volentier Tvorbaparalelnéhokorpusu pre štatistickýpreklad CZ-SK
Paralerný korpus • Texty v dvoch stĺpcoch pričom každý je v inom jazyku • Na rovnakom riadku sú rovnako významné slová alebo vety • Používa sa na štatistický preklad
Existujúce projekty • Dominantný jazyk je Angličtina -> väčšina je s ním v páre • Slovenský národný korpus • 740 tisíc párov z beletrie • Korpus Európskeho parlamentu • Viaceré európske jazyky • Používa sa na preklady článkov z európskeho paralamentu • Väzba vždy s angličtinou
Moje riešenie • Dáta použité z exportu českej a slovenskej Wikipédie • Parsovanie názvov článkov - prepojenie pomocou jazykovej linky • Parsovanie liniek priamo v článku – prepojenie cez počet odkazov
Výstup • galaxia - galaxie • Súhvezdie Panna|Panna - Souhvězdí Panny|Pann • inflácia – inflace • Byzantinci|Byzantincov - Byzantinci|Byzantinců • Tálibán - Afghánská vlajka|vlajky • hypotermia - lavina|lavinou • EEG - řeč • Súhvezdie Vlasy Bereniky|Vlasy Bereniky - Vlasy Bereniky (souhvězdí)|Vlasy Bereniky • spojenci|spojencov - Spojenci (druhá světová válka)|spojenců
Vyhodnotenie • Úspešnosť párovania názvov článkov je približne 99%. • Úspešnosť párovania liniek v článku je približne 69% • Celkový počet riadkov v korpuse je 109933