100 likes | 197 Views
JAZYKOVÁ INFRASTRUKTURA. Ústav Českého národního korpusu Filozofická fakulta UK Praha. CÍLE ČINNOSTI. trvalé a kontinuální mapování vývoje jazyka jako základu lidské komunikace a nositele naprosté většiny sdělovaných informací
E N D
JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha
CÍLE ČINNOSTI • trvalé a kontinuální mapování vývoje jazyka jako základu lidské komunikace a nositele naprosté většiny sdělovaných informací • získávání a technické zpracování jazykových dat pro potřeby základního i aplikovaného výzkumu a vývoje v oblasti lingvistiky a dalších oborů • zveřejňování zpracovaných jazykových dat pomocí strukturovaných souborů (korpusů) odrážejících co nejvěrněji jednotlivé stavy jazyka a umožňujících co nejvšestrannější přístup k informacím • vývoj a zdokonalovánínástrojů pro zpracování, analýzu a zpřístupňování korpusových dat
ZAPOJENÍ INFRASTRUKTURY • zapojení do projektuCLARIN zaměřeného na budování celoevropské infrastruktury výzkumu a vývoje v oblasti jazykových technologií a zdrojů • spolupráce s domácími specializovanými pracovišti (Ústav formální a aplikované lingvistiky MFF UK; FI, FF a PedF MU Brno; Ústav pro českou literaturu AV ČR; Ústav pro jazyk český AV ČR; FEL ČVUT; TU Liberec; ZČU Plzeň; UP Olomouc; VŠE Praha; Ústav srovnávací jazykovědy, Ústav teoretické a komputační lingvistiky FF UK aj.) • spolupráce s obdobnými infrastrukturními pracovišti v zahraničí (zejména University of Birmingham; Jazykovedný ústav Ľ. Štúra SAV; Österreichische Akademie der Wissenschaften; Institut für Deutsche Sprache Mannheim; Filologická fakulta Státní univerzity St. Petěrburg; Matematický a komputační institut, Lotyšská univerzita Riga aj.)
VÝSLEDKY ČINNOSTI • synchronní korpusy zachycující soudobou češtinu psanou i mluvenou • diachronní korpusy zachycující češtinu psaných textů v historickém vývoji od konce 13. stol. • paralelní korpusy v současné době zachycující češtinu v překladových paralelách s 19 jazyky
KONKRÉTNÍ VÝSTUPY(v rámci výzkumných záměrů MŠMT) • synchronní korpusy psaného jazyka SYN2000, SYN2005, SYN2006pub (publicistické texty) zachycující češtinu po roce 1989 a poskytující uživatelům bezplatný přístup k datům o celkovém rozsahu přes 500 milionů slov. • diachronní korpus (kontinuálně budovaný, zpřístupněna data o rozsahu 1 700 000 slov) • mluvený korpus (kontinuálně budovaný, zpřístupněna data o rozsahu 2 000 000 slov) • paralelní korpusy (kontinuálně budované, současný celkový rozsah 20 000 000 slov) Podrobnější informace o činnosti infrastruktury a jejích výsledcích viz http//:ucnk.ff.cuni.cz a http//:ucnk.ff.cuni.cz/intercorp
KONKRÉTNÍ VÝSTUPY(v rámci výzkumných záměrů MŠMT) • Monografie a studie vzniklé na základě vybudovaných korpusů publikované mj. ve dvou edičních řadách Nakladatelství Lidové noviny (vydáno 7 svazků).
APLIKACE • Frekvenční slovník češtiny (Nakladatelství Lidové noviny 2004) • Frekvenční slovník mluvené češtiny (Karolinum, Univerzita Karlova 2007) • Slovník Karla Čapka (Nakladatelství Lidové noviny 2007)
SOUČASNÉ VYUŽITÍ S korpusy jako základními výsledky činnosti infrastruktury v současné době pracuje • přibližně 1700 registrovaných domácích uživatelů (lingvistů, literárních vědců a studentů filologických oborů,kulturologů, historiků, překladatelů, neurologů, redaktorů, právníků aj.) • přibližně 300 registrovaných zahraničních bohemistů a lingvistů, včetně studentů slavistických oborů
PERSPEKTIVNÍ VYUŽITÍ • vznik dvoudílné Mluvnice současné češtiny na korpusovém základě (Ústav Českého národního korpusu ve spolupráci s Ústavem formální a aplikované lingvistiky MFF UK; plánované vydání 2009) • vznik nového slovníku a akademické mluvnice češtiny na korpusovém základě (plánováno v Ústavu pro jazyk český AV ČR) • v delším časovém výhledu vznik překladových slovníků nového typu (na základě reálných překladových ekvivalentů identifikovaných v paralelních korpusech)
PLÁNOVANÉ APLIKACE • Regulace jazyka a koncept minimální intervence (V. Cvrček, Nakladatelství Lidové noviny 2008) • Statistiky češtiny(F.Čermák, V. Petkevič, V. Cvrček, T. Jelínek, T. Bartoň,Nakladatelství Lidové noviny 2009) • Valence abstraktních substantiv (A. Čermáková,Nakladatelství Lidové noviny 2009) • Slovník Bohumila Hrabala (kolektiv ÚČNK,Nakladatelství Lidové noviny 2009) • Dnešní skloňování jednoho typu substantiv (J. Šimandl, Nakladatelství Lidové noviny 2009) • Paralelní korpusy. Parallel corpora (kolektiv ÚČNK,Nakladatelství Lidové noviny 2010) • Slovník jazyka totality (kolektiv ÚČNK,Nakladatelství Lidové noviny 2010) • Česká korpusová lingvistika: současný stav (kolektiv ÚČNK,Nakladatelství Lidové noviny 2011)