470 likes | 617 Views
Alexandr Rosen Ústav teoretické a komputační lingvistiky Filosofická fakulta University Karlovy v Praze alexandr.rosen@ff.cuni.cz http://utkl.ff.cuni.cz/~rosen. Nástroje pro paralelní korpusy. Jazykovedný ústav Ľudovíta Štúra, Bratislava, 16. 6. 2003. Osnova. K čemu jsou paralelní korpusy
E N D
Alexandr Rosen Ústav teoretické a komputační lingvistiky Filosofická fakulta University Karlovy v Praze alexandr.rosen@ff.cuni.cz http://utkl.ff.cuni.cz/~rosen Nástroje pro paralelní korpusy Jazykovedný ústav Ľudovíta Štúra, Bratislava, 16. 6. 2003
Osnova • K čemu jsou paralelní korpusy • Jak vytvořit paralelní korpus • Hledání v paralelních korpusech • Další využití paralelních korpusů • Projekt paralelních korpusů na FF UK
1. K čemu jsou paralelní korpusy • pro lexikografy • pro překladatele • pro učitele a studenty cizích jazyků • pro translatology, literární vědce, dialektology • k vyhledávání informací ve více jazycích (cross-language information retrieval) • ke zjednoznačnění textu v jednom jazyce
pro lexikografy • paralelní konkordance • identifikace kolokací a jejich ekvivalentů • extrakce ekvivalentů
pro překladatele • paralelní konkordance • překladová paměť (Translation Memory) • překlad podle příkladů (Example-Based Machine Translation) • statistický překlad • kontrola překladu • automatická písařka pro překladatele (doplňování dalšího textu, psaní podle diktátu)
Nevýhody paralelních korpusů • texty nejsou autentické, většinou jen překlady • texty nejsou reprezentativní, paralelně lze získat jen některé typy textů • předpokladem je spolehlivé párování alespoň po větách – automaticky provedené párování je třeba ručně opravovat • je obtížné získat nástroje, které mají požadované funkce a přitom nevyžadují speciální znalosti
2. Jak vytvořit paralelní korpus • Jak získat paralelní texty • Jak je upravit do vhodného formátu • Jak je segmentovat a párovat
Jak získat paralelní texty • existující paralelní korpusy • pro češtinu a slovenštinu zatím málo http://www.phil.muni.cz/angl/kacenka/kachna.html http://shadow.ms.mff.cuni.cz/pdt/Corpora/Czech-English/index.html http://nl.ijs.si/ME/ • elektronicky čitelné texty ve více jazycích http://www.isi.edu/~koehn/publications/europarl/ http://www.unhchr.ch/udhr/index.htm • beletrie, zákony EU, www stránky • Resnik & Smith (2002) The web as a parallel corpus http://www.umiacs.umd.edu/~resnik/pubs.html • skenováním
Jak získat paralelní texty II. • právnické problémy: • citovat se smí bez souhlasu autora • ALE: elektronický text někomu patří • více jazyků – jiná země, jiné zákony
Jak texty upravit do vhodného formátu • kódování znaků • ISO 8859-2 (ISO Latin 2), CP 1250 (MS Windows), Mac CE, Unicode → ? • kódování formátu • → SGML/TEI, XML, … • lingvistické značkování?
Jak texty segmentovat a párovat • segmentace na věty • párování (alignment) • ruční • automatické • kombinace ručního a automatického
Nástroje pro poloautomatické párování • jako součást programového balíku pro podporu překladatele (CAT) – provádí i konverzi a segmentaci, např.: • Trados – „inteligentní“ párování, ale $$$http://www.trados.com • DéjàVu 3 – funkční součást demoverze, jen základní funkce http://www.atril.com • CypreSoft TRANS Suite 2000 Align – freeware, základní funkce i párování bez ohledu na pořadí segmentůhttp://www.cypresoft.com • SDLX http://www.sdlintl.com, Star Transit http://www.star-ag.ch, • makra do MS Wordu: WordFast – freeware, http://www.wordfast.org, WordFisherhttp://www.wordfisher.com
Obvyklé funkce nástrojů pro poloautomatické párování • Konverze formátů • pouze text • textové editory Word, RTF, WordPerfect, OpenOffice • prezentace PowerPoint • tabulkové procesory Excel • databáze Access • DTP FrameMaker, PageMaker, QuarkXPress, InDesign • značkované texty HTML, SGML/XML, TMX • lokalizace SW Interleaf, soubory nápovědy, C, Java, GNU Gettext • formáty CAT Trados, TMX, IBM TM • Konverze kódování znaků ISO 8859-2 (ISO Latin 2), CP 1250 (MS Windows), Mac CE, Unicode
Obvyklé funkce nástrojů pro poloautomatické párování II. • Segmentace • na věty, nadpisy, položky seznamu, popisky obrázků • podle odstavců (¶) nebo již provedené částečné segmentace • podle typických zakončení věty <interpunkce><mezera>
Obvyklé funkce nástrojů pro poloautomatické párování III. • Automatické párování • sekvenčně podle segmentů • podle nadpisů • podle formátování • podle délky segmentů • podle pravděpodobných ekvivalentů – „anchor points“ (čísla, podobné řetězce, překlady slov podle slovníku) • Výsledek • tabulka se dvěma sloupci
Obvyklé funkce nástrojů pro poloautomatické párování IV. • Ruční párování • paralelní prohlížení • spojování po sobě jdoucích segmentů • rozdělování segmentů • mazání segmentů • změna pořadí segmentů • „párování“ segmentů 1:n, n:1, n:n • párování segmentů křížem
Nástroje pro poloautomatické párování – pokr. • jako součást programového balíku pro zpracování paralelních textů • Logiterm (Terminotix, Inc.) http://www.terminotix.com • MultiTrans http://www.multicorpora.com • ParaConc http://www.ruf.rice.edu/~barlow/parac.html
Nástroje pro automatické párování • podle délky segmentů ve znacích • Gale&Church 1991 → Vanilla Alignerhttp://www.research.att.com/~kwc/publications.html,http://nl.ijs.si/telri/Vanilla/, http://www.issco.unige.ch/tools/, http://spraakbanken.gu.se/lb/downloads.html, mailto:evert@IMS.Uni-Stuttgart.DE (EasyAlign - součást IMS CWB) • podle délky segmentů ve slovech • Brown et al. 1991 • podle „anchor points“ • distribuce ekvivalentůKay&Röscheisen 1993 • čísla, formátování, podobné řetězce • dvoujazyčný slovníkMelamed 1996 http://www.cs.nyu.edu/~melamed/GMA/docs/README.htm
3. Hledání v paralelních korpusech – korpusové manažery • ParaConchttp://www.ruf.rice.edu/~barlow/parac.html • Uplug http://stp.ling.uu.se/~joerg/uplug/ • COMPARAhttp://www.linguateca.pt/COMPARA/Welcome.html, IMS CWBhttp://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/ • MultiLingual Concordancer in Javahttp://www.lancs.ac.uk/staff/piaosl/research/download/download.htm
Obvyklé vyhledávací funkce • dotaz na libovolný jazyk nebo více jazyků zároveň (paralelní hledání) • zadání dotazu regulárním výrazem • hledání podle značek • omezení prohledávaných textů: • bibliografické údaje • originál nebo překlad • jazyková varianta (britská/americká angličtina)
Obvyklé vyhledávací funkce II. • zobrazení výsledku dotazu: • kontext: segment nebo KWiC • zadání/zjištění ekvivalentů KW → BiKWiC • třídění podle KW, kontextu • zobrazení/potlačení značek • zobrazení kolokací • údaje o párování • poznámky překladatele • distribuce forem • distribuce zdrojů
Obvyklé vyhledávací funkce III. • statistiky: • frekvence tvarů • kolokace • frekvence kolokací
Hledání programem ParaConc • asi nejlepší program pro dvoujazyčné konkordance na PC • snadné ovládání, párování (modifikovaný Church-Gale), řada vyhledávacích funkcí, zobrazení BiKWiC, asijské jazyky, … • stále se vyvíjí
Hledání v korpusu COMPARA • portugalsko/anglický, beletrie, volně přístupný • IMS CQP, DISPARA web interface • 1 129 000 slov celkem • bohaté možnosti vyhledávání, pečlivě připravená data
4. Další využití paralelních korpusů • Překlad s využitím paralelního korpusu (překladová paměť, překlad podle příkladů, statistický překlad) • Extrakce dvoujazyčného slovníku (párování slov, víceslovných výrazů) Uplug • …
5. Paralelní korpus FF UK • součást projektu připravovaného na léta 2005-2009: Český národní korpus a korpusy dalších jazyků II. • soubor paralelních textů pro potřeby jazykových kateder a ústavů FF UK i jiných zájemců • každá část korpusu (subkorpus): spárované texty ve dvou i více jazycích nebo verzích
Výchozí stav a první fáze • katedry/ústavy připravují, uchovávají a využívají své subkorpusy lokálně, spodporou koordinátora projektu • přitom využívají software pro PC: • konverzní programy, • nástroje pro automatické a ruční párování, • paralelní prohlížeče- např. ParaConc
Cílový stav • subkorpusy jsou uloženy v jednotném formátu na jednom místě • pro údržbu a využívání korpusu slouží jedna sada programového vybavení: • konvertory do jednotného formátu • nástroje pro ruční a automatické párování • korpusový manažer • korpus se využívá převážně po síti (TCP/IP) • distribuovaná příprava a údržba textů
Cílový stav (pokračování) • neregistrovaní uživatelé s omezenými právy (vyhledávání v části korpusu) • registrovaní uživatelé s většími právy na vyhledávání • privilegovaní uživatelé s právem měnit obsah některého subkorpusu: • přidávat nové texty, • párovat je automaticky nebo ručně, • opravovat výsledky automatického párování