100 likes | 251 Views
Český národní korpus a jeho využití v překladatelské praxi. Lucie Chlumská ÚČNK FF UK JTP, 6. 11. 2010. Obsah dnešní přednášky a workshopu. Co je jazykový korpus a k čemu slouží Český národní korpus (ČNK) Dostupné druhy korpusů ČNK
E N D
Český národní korpus a jeho využití v překladatelské praxi Lucie Chlumská ÚČNK FF UK JTP, 6. 11. 2010
Obsah dnešní přednášky a workshopu • Co je jazykový korpus a k čemu slouží • Český národní korpus (ČNK) • Dostupné druhy korpusů ČNK • Základní práce s korpusem prostřednictvím korpusového manažeru Bonito • Pokročilejší funkce korpusového manažeru s ohledem na potřeby překladatele • Co lze v korpusu hledat, příklady užití • Diskuze
Co je jazykový korpus? • rozsáhlý soubor počítačově uložených textů • anotovaný (autor, rok vydání, typ textu atd.) • lemmatizovaný (každému slovu přiřazeno lemma) • zpravidla morfologicky označkovaný (slovní druh, pád, číslo, osoba, čas, rod atd.) • vzorek skutečného jazyka, nikoli kodifikace • reprezentativnost korpusu • slouží primárně k jazykovému výzkumu
Korpusy ve světě a u nás • 1. korpus – Brown Corpus • 60. léta v USA, Henry Kučera a W. N. Francis, 1 mil. slov • korpusová velmoc – Velká Británie • Bank of English, 500 mil. slov, nakl. Cobuild • BNC – 90. léta, 100 mil. slov, i mluvený jazyk • ostatní jazyky – Německo, Holandsko… • Česká republika patří mezi korpusovou špičku
Český národní korpus • Ústav Českého národního korpusu FF UK založen v roce 1994 • kontinuální akademický projekt, jehož produkty (tj. jednotlivé korpusy) mapují a monitorují různé podoby českého jazyka • korpusy ČNK jsou přístupné široké veřejnosti • jedinou podmínkou je registrace a prohlášení uživatele • co se myslí „komerčními účely“ v prohlášení
Dostupné korpusy ČNK korpusy současné psané češtiny: SYN korpusy současné mluvené češtiny: ORAL diachronní korpus (14.–20. století): DIAKORP paralelní korpus (cca 20 evropských jazyků): InterCorp
SYN • SYN2005: synchronní, psaný, 100 mil. slov • složení: beletrie, publicistika, odborná literatura • SYN2006PUB, SYN2009PUB: • pouze publicistika, 300 mil. slov a 700 mil. slov ORAL • ORAL2006, ORAL2008: každý 1 mil. slov • nepřipravené neformální dialogické promluvy InterCorp • paralelní korpus: základním jazykem je čeština • složení: beletrie, Syndicate
Korpusový manažer Bonito korpus: texty seřazeny za sebou (BEL, ODB, PUB) korpusový manažer: vyhledává v korpusu Základní a pokročilé funkce Bonita vyhledávání lexému či slovního tvaru (či spojení), zobrazení kontextu a frekvence funkce frekvenční distribuce vyhledávání kolokací (souvýskyt dvou lexémů častější než náhodný) třídění pomocí negativního a pozitivního filtru
Základní pojmy nutné pro vyhledávání Vyhledávání podle různého atributu • word: slovní tvar, textové slovo (např. kočce, píše) • lemma: slovníkový tvar (např. kočka, psát) • tag: značka obsahující morfologickou informaci (slovní druh, rod, pád, číslo, čas atd.) Příklady: • word: najde přesně ten tvar, na který se zeptám (např. word „psa“ nenajde PSA, Psa, PsA atd.) • lemma: vyhledá všechny tvary slova bez ohledu na velká, malá písmena (např. lemma „pes“ najde tvary psům, psa, PES, pEs, Psovi atd.) • pomocítaguje možné vyhledat např. jen substantiva v urč. pádě nebo slovesa v minulém čase atd.
Začínáme s Bonitem • instalace Bonita z http://korpus.cz/bonito/instalace.php • podrobný návod a manuál také k nalezení na www.korpus.cz • přihlašovací údaje pro potřeby workshopu: Uživatel: seminar Heslo: dohledala