60 likes | 140 Views
Pokročilejší funkce korpusového manažeru Bonito. Frekvenční distribuce menu: Konkordance > Statistiky > Frekvenční distribuce nebo Ctrl+F pro zjištění frekvence tvarů v rámci lemmatu, pro zjištění textových typů, roku vydání apod.
E N D
Pokročilejší funkce korpusového manažeru Bonito Frekvenční distribuce menu: Konkordance > Statistiky > Frekvenční distribuce neboCtrl+F pro zjištění frekvence tvarů v rámci lemmatu, pro zjištění textových typů, roku vydání apod. lze zjišťovat i frekvenci slov před (záporné hodnoty pozic) a za (kladné hodnoty) hledaným slovem (KWIC, key word in context) tento nový překlad Martina Hilského -2 -1 0 1 2
P-filtr = pozitivní filtr • ponechání pouze žádoucích řádků • výsledkem jsou výskyty, které odpovídají dotazu • můžeme filtrovat vlastnost KWIC nebo určité okolí • (chci najít všechno to, co jsem specifikoval) • např. slovo „překlad“, pouze pokud mu v blízkém okolí předchází slovo „nový“ • N-filtr = negativní filtr • vyřazení nežádoucích řádků • výsledkemjsou výskyty, které neodpovídají dotazu (chci najít všechno kromě toho, co specifikuji) • např. slovo „překlad“, pokud někde před ním není slovo „český“
Kolokace • souvýskyt dvou a více slov, který je vyšší než náhodný • termín úzce spojený s korpusovou lingvistikou • kombinovatelnost slov hraje v jazyce důležitou roli (volná kombinovatelnost v podstatě neexistuje) • vyhledávání pomocí statistických měr • MI-score: měří sílu asociace mezi dvěma slovy (podíl pravděpodobnosti výskytu dvou slov spolu a výskytu každého zvlášť), vhodné pro objevení řidších (netypičtějších) kolokací • t-score: míra kontrastu, vhodné pro frekventovaná a přehlížená slova, funkční slova apod.
Regulární výrazy (CQL = Corpus Query Language) formát dotazu: [atribut=“hodnota”] (např. [word=“evropský”] nebo [lemma=“kočka”] nebo pomocí funkce implicitní atribut (menu > Korpus > Implicitní atribut) . = libovolný znak (p.s = pes, pás, pas, .es = pes, les atd.) * = libovolný počet opakování předchozího znaku (ps*t = pt, pst, psst, pssst atd.) + = libovolný počet opakování předchozího znaku > 0 (ps+t = pst, psst, pssst atd.) & = a zároveň (např. [word=“p.*“ & word=“.*s”] = pes, pás, přes, přínos, prales, pesimismus atd.) [] = výběr ze seznamu (např. [Pp]řeklad)
Příklady z překladatelské praxe • volba mezi synonymy pomocí kontextu či nejčastějších kolokací: např. příkoří-útlak-křivda, mínění-názor • volba správné kolokace: např. získat/dostat nový rozměr, být/ležet/? v jádru věci • porovnání kolokací: např. ? rozmach/? rozkvět • konkurence cizího/domácího slova: např. světská/sekulární demokracie, judaismus/židovské náboženství
Možnosti korpusu InterCorp • překladové texty z/do češtiny • rozhraní Park, stejné přístupové heslo jako pro ČNK • volba jazyka/jazyků i textu/textů • možnost vyhledávat v jednom jazyce i ve více současně (např. překlady slova či tvaru) • hledání podle slovního tvaru, posloupnosti tvarů (fráze), pomocí jazyka CQL, u některých jazyků i podle tagu a lemmatu • zobrazení paralelních konkordancí (zarovnáno po větách)