1 / 47

Nástroje pro paralelní korpusy

Alexandr Rosen Ústav teoretické a komputační lingvistiky Filosofická fakulta University Karlovy v Praze alexandr.rosen@ff.cuni.cz http://utkl.ff.cuni.cz/~rosen. Nástroje pro paralelní korpusy. Jazykovedný ústav Ľudovíta Štúra, Bratislava, 16. 6. 2003. Osnova. K čemu jsou paralelní korpusy

thanos
Download Presentation

Nástroje pro paralelní korpusy

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Alexandr Rosen Ústav teoretické a komputační lingvistiky Filosofická fakulta University Karlovy v Praze alexandr.rosen@ff.cuni.cz http://utkl.ff.cuni.cz/~rosen Nástroje pro paralelní korpusy Jazykovedný ústav Ľudovíta Štúra, Bratislava, 16. 6. 2003

  2. Osnova • K čemu jsou paralelní korpusy • Jak vytvořit paralelní korpus • Hledání v paralelních korpusech • Další využití paralelních korpusů • Projekt paralelních korpusů na FF UK

  3. 1. K čemu jsou paralelní korpusy • pro lexikografy • pro překladatele • pro učitele a studenty cizích jazyků • pro translatology, literární vědce, dialektology • k vyhledávání informací ve více jazycích (cross-language information retrieval) • ke zjednoznačnění textu v jednom jazyce

  4. pro lexikografy • paralelní konkordance • identifikace kolokací a jejich ekvivalentů • extrakce ekvivalentů

  5. pro překladatele • paralelní konkordance • překladová paměť (Translation Memory) • překlad podle příkladů (Example-Based Machine Translation) • statistický překlad • kontrola překladu • automatická písařka pro překladatele (doplňování dalšího textu, psaní podle diktátu)

  6. Nevýhody paralelních korpusů • texty nejsou autentické, většinou jen překlady • texty nejsou reprezentativní, paralelně lze získat jen některé typy textů • předpokladem je spolehlivé párování alespoň po větách – automaticky provedené párování je třeba ručně opravovat • je obtížné získat nástroje, které mají požadované funkce a přitom nevyžadují speciální znalosti

  7. 2. Jak vytvořit paralelní korpus • Jak získat paralelní texty • Jak je upravit do vhodného formátu • Jak je segmentovat a párovat

  8. Jak získat paralelní texty • existující paralelní korpusy • pro češtinu a slovenštinu zatím málo http://www.phil.muni.cz/angl/kacenka/kachna.html http://shadow.ms.mff.cuni.cz/pdt/Corpora/Czech-English/index.html http://nl.ijs.si/ME/ • elektronicky čitelné texty ve více jazycích http://www.isi.edu/~koehn/publications/europarl/ http://www.unhchr.ch/udhr/index.htm • beletrie, zákony EU, www stránky • Resnik & Smith (2002) The web as a parallel corpus http://www.umiacs.umd.edu/~resnik/pubs.html • skenováním

  9. Jak získat paralelní texty II. • právnické problémy: • citovat se smí bez souhlasu autora • ALE: elektronický text někomu patří • více jazyků – jiná země, jiné zákony

  10. Jak texty upravit do vhodného formátu • kódování znaků • ISO 8859-2 (ISO Latin 2), CP 1250 (MS Windows), Mac CE, Unicode → ? • kódování formátu • → SGML/TEI, XML, … • lingvistické značkování?

  11. Jak texty segmentovat a párovat • segmentace na věty • párování (alignment) • ruční • automatické • kombinace ručního a automatického

  12. Nástroje pro poloautomatické párování • jako součást programového balíku pro podporu překladatele (CAT) – provádí i konverzi a segmentaci, např.: • Trados – „inteligentní“ párování, ale $$$http://www.trados.com • DéjàVu 3 – funkční součást demoverze, jen základní funkce http://www.atril.com • CypreSoft TRANS Suite 2000 Align – freeware, základní funkce i párování bez ohledu na pořadí segmentůhttp://www.cypresoft.com • SDLX http://www.sdlintl.com, Star Transit http://www.star-ag.ch, • makra do MS Wordu: WordFast – freeware, http://www.wordfast.org, WordFisherhttp://www.wordfisher.com

  13. Obvyklé funkce nástrojů pro poloautomatické párování • Konverze formátů • pouze text • textové editory Word, RTF, WordPerfect, OpenOffice • prezentace PowerPoint • tabulkové procesory Excel • databáze Access • DTP FrameMaker, PageMaker, QuarkXPress, InDesign • značkované texty HTML, SGML/XML, TMX • lokalizace SW Interleaf, soubory nápovědy, C, Java, GNU Gettext • formáty CAT Trados, TMX, IBM TM • Konverze kódování znaků ISO 8859-2 (ISO Latin 2), CP 1250 (MS Windows), Mac CE, Unicode

  14. Obvyklé funkce nástrojů pro poloautomatické párování II. • Segmentace • na věty, nadpisy, položky seznamu, popisky obrázků • podle odstavců (¶) nebo již provedené částečné segmentace • podle typických zakončení věty <interpunkce><mezera>

  15. Obvyklé funkce nástrojů pro poloautomatické párování III. • Automatické párování • sekvenčně podle segmentů • podle nadpisů • podle formátování • podle délky segmentů • podle pravděpodobných ekvivalentů – „anchor points“ (čísla, podobné řetězce, překlady slov podle slovníku) • Výsledek • tabulka se dvěma sloupci

  16. Obvyklé funkce nástrojů pro poloautomatické párování IV. • Ruční párování • paralelní prohlížení • spojování po sobě jdoucích segmentů • rozdělování segmentů • mazání segmentů • změna pořadí segmentů • „párování“ segmentů 1:n, n:1, n:n • párování segmentů křížem

  17. Párování v programu Déjà Vu 3

  18. Párování v programu WordFast/+Tools

  19. Párování v programu WordFast/+Tools II

  20. Párování v programu CypreSoft Align

  21. Nástroje pro poloautomatické párování – pokr. • jako součást programového balíku pro zpracování paralelních textů • Logiterm (Terminotix, Inc.) http://www.terminotix.com • MultiTrans http://www.multicorpora.com • ParaConc http://www.ruf.rice.edu/~barlow/parac.html

  22. Párování v programu ParaConc

  23. Párování v programu ParaConc II

  24. Párování v programu ParaConc III

  25. Nástroje pro automatické párování • podle délky segmentů ve znacích • Gale&Church 1991 → Vanilla Alignerhttp://www.research.att.com/~kwc/publications.html,http://nl.ijs.si/telri/Vanilla/, http://www.issco.unige.ch/tools/, http://spraakbanken.gu.se/lb/downloads.html, mailto:evert@IMS.Uni-Stuttgart.DE (EasyAlign - součást IMS CWB) • podle délky segmentů ve slovech • Brown et al. 1991 • podle „anchor points“ • distribuce ekvivalentůKay&Röscheisen 1993 • čísla, formátování, podobné řetězce • dvoujazyčný slovníkMelamed 1996 http://www.cs.nyu.edu/~melamed/GMA/docs/README.htm

  26. 3. Hledání v paralelních korpusech – korpusové manažery • ParaConchttp://www.ruf.rice.edu/~barlow/parac.html • Uplug http://stp.ling.uu.se/~joerg/uplug/ • COMPARAhttp://www.linguateca.pt/COMPARA/Welcome.html, IMS CWBhttp://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/ • MultiLingual Concordancer in Javahttp://www.lancs.ac.uk/staff/piaosl/research/download/download.htm

  27. Obvyklé vyhledávací funkce • dotaz na libovolný jazyk nebo více jazyků zároveň (paralelní hledání) • zadání dotazu regulárním výrazem • hledání podle značek • omezení prohledávaných textů: • bibliografické údaje • originál nebo překlad • jazyková varianta (britská/americká angličtina)

  28. Obvyklé vyhledávací funkce II. • zobrazení výsledku dotazu: • kontext: segment nebo KWiC • zadání/zjištění ekvivalentů KW → BiKWiC • třídění podle KW, kontextu • zobrazení/potlačení značek • zobrazení kolokací • údaje o párování • poznámky překladatele • distribuce forem • distribuce zdrojů

  29. Obvyklé vyhledávací funkce III. • statistiky: • frekvence tvarů • kolokace • frekvence kolokací

  30. Hledání programem ParaConc • asi nejlepší program pro dvoujazyčné konkordance na PC • snadné ovládání, párování (modifikovaný Church-Gale), řada vyhledávacích funkcí, zobrazení BiKWiC, asijské jazyky, … • stále se vyvíjí

  31. Hledání v korpusu COMPARA • portugalsko/anglický, beletrie, volně přístupný • IMS CQP, DISPARA web interface • 1 129 000 slov celkem • bohaté možnosti vyhledávání, pečlivě připravená data

  32. 4. Další využití paralelních korpusů • Překlad s využitím paralelního korpusu (překladová paměť, překlad podle příkladů, statistický překlad) • Extrakce dvoujazyčného slovníku (párování slov, víceslovných výrazů) Uplug • …

  33. 5. Paralelní korpus FF UK • součást projektu připravovaného na léta 2005-2009: Český národní korpus a korpusy dalších jazyků II. • soubor paralelních textů pro potřeby jazykových kateder a ústavů FF UK i jiných zájemců • každá část korpusu (subkorpus): spárované texty ve dvou i více jazycích nebo verzích

  34. Výchozí stav a první fáze • katedry/ústavy připravují, uchovávají a využívají své subkorpusy lokálně, spodporou koordinátora projektu • přitom využívají software pro PC: • konverzní programy, • nástroje pro automatické a ruční párování, • paralelní prohlížeče- např. ParaConc

  35. Cílový stav • subkorpusy jsou uloženy v jednotném formátu na jednom místě • pro údržbu a využívání korpusu slouží jedna sada programového vybavení: • konvertory do jednotného formátu • nástroje pro ruční a automatické párování • korpusový manažer • korpus se využívá převážně po síti (TCP/IP) • distribuovaná příprava a údržba textů

  36. Cílový stav (pokračování) • neregistrovaní uživatelé s omezenými právy (vyhledávání v části korpusu) • registrovaní uživatelé s většími právy na vyhledávání • privilegovaní uživatelé s právem měnit obsah některého subkorpusu: • přidávat nové texty, • párovat je automaticky nebo ručně, • opravovat výsledky automatického párování

More Related