1 / 10

JAZYKOVÁ INFRASTRUKTURA

JAZYKOVÁ INFRASTRUKTURA. Ústav Českého národního korpusu Filozofická fakulta UK Praha. CÍLE ČINNOSTI. trvalé a kontinuální mapování vývoje jazyka jako základu lidské komunikace a nositele naprosté většiny sdělovaných informací

Download Presentation

JAZYKOVÁ INFRASTRUKTURA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha

  2. CÍLE ČINNOSTI • trvalé a kontinuální mapování vývoje jazyka jako základu lidské komunikace a nositele naprosté většiny sdělovaných informací • získávání a technické zpracování jazykových dat pro potřeby základního i aplikovaného výzkumu a vývoje v oblasti lingvistiky a dalších oborů • zveřejňování zpracovaných jazykových dat pomocí strukturovaných souborů (korpusů) odrážejících co nejvěrněji jednotlivé stavy jazyka a umožňujících co nejvšestrannější přístup k informacím • vývoj a zdokonalovánínástrojů pro zpracování, analýzu a zpřístupňování korpusových dat

  3. ZAPOJENÍ INFRASTRUKTURY • zapojení do projektuCLARIN zaměřeného na budování celoevropské infrastruktury výzkumu a vývoje v oblasti jazykových technologií a zdrojů • spolupráce s domácími specializovanými pracovišti (Ústav formální a aplikované lingvistiky MFF UK; FI, FF a PedF MU Brno; Ústav pro českou literaturu AV ČR; Ústav pro jazyk český AV ČR; FEL ČVUT; TU Liberec; ZČU Plzeň; UP Olomouc; VŠE Praha; Ústav srovnávací jazykovědy, Ústav teoretické a komputační lingvistiky FF UK aj.) • spolupráce s obdobnými infrastrukturními pracovišti v zahraničí (zejména University of Birmingham; Jazykovedný ústav Ľ. Štúra SAV; Österreichische Akademie der Wissenschaften; Institut für Deutsche Sprache Mannheim; Filologická fakulta Státní univerzity St. Petěrburg; Matematický a komputační institut, Lotyšská univerzita Riga aj.)

  4. VÝSLEDKY ČINNOSTI • synchronní korpusy zachycující soudobou češtinu psanou i mluvenou • diachronní korpusy zachycující češtinu psaných textů v historickém vývoji od konce 13. stol. • paralelní korpusy v současné době zachycující češtinu v překladových paralelách s 19 jazyky

  5. KONKRÉTNÍ VÝSTUPY(v rámci výzkumných záměrů MŠMT) • synchronní korpusy psaného jazyka SYN2000, SYN2005, SYN2006pub (publicistické texty) zachycující češtinu po roce 1989 a poskytující uživatelům bezplatný přístup k datům o celkovém rozsahu přes 500 milionů slov. • diachronní korpus (kontinuálně budovaný, zpřístupněna data o rozsahu 1 700 000 slov) • mluvený korpus (kontinuálně budovaný, zpřístupněna data o rozsahu 2 000 000 slov) • paralelní korpusy (kontinuálně budované, současný celkový rozsah 20 000 000 slov) Podrobnější informace o činnosti infrastruktury a jejích výsledcích viz http//:ucnk.ff.cuni.cz a http//:ucnk.ff.cuni.cz/intercorp

  6. KONKRÉTNÍ VÝSTUPY(v rámci výzkumných záměrů MŠMT) • Monografie a studie vzniklé na základě vybudovaných korpusů publikované mj. ve dvou edičních řadách Nakladatelství Lidové noviny (vydáno 7 svazků).

  7. APLIKACE • Frekvenční slovník češtiny (Nakladatelství Lidové noviny 2004) • Frekvenční slovník mluvené češtiny (Karolinum, Univerzita Karlova 2007) • Slovník Karla Čapka (Nakladatelství Lidové noviny 2007)

  8. SOUČASNÉ VYUŽITÍ S korpusy jako základními výsledky činnosti infrastruktury v současné době pracuje • přibližně 1700 registrovaných domácích uživatelů (lingvistů, literárních vědců a studentů filologických oborů,kulturologů, historiků, překladatelů, neurologů, redaktorů, právníků aj.) • přibližně 300 registrovaných zahraničních bohemistů a lingvistů, včetně studentů slavistických oborů

  9. PERSPEKTIVNÍ VYUŽITÍ • vznik dvoudílné Mluvnice současné češtiny na korpusovém základě (Ústav Českého národního korpusu ve spolupráci s Ústavem formální a aplikované lingvistiky MFF UK; plánované vydání 2009) • vznik nového slovníku a akademické mluvnice češtiny na korpusovém základě (plánováno v Ústavu pro jazyk český AV ČR) • v delším časovém výhledu vznik překladových slovníků nového typu (na základě reálných překladových ekvivalentů identifikovaných v paralelních korpusech)

  10. PLÁNOVANÉ APLIKACE • Regulace jazyka a koncept minimální intervence (V. Cvrček, Nakladatelství Lidové noviny 2008) • Statistiky češtiny(F.Čermák, V. Petkevič, V. Cvrček, T. Jelínek, T. Bartoň,Nakladatelství Lidové noviny 2009) • Valence abstraktních substantiv (A. Čermáková,Nakladatelství Lidové noviny 2009) • Slovník Bohumila Hrabala (kolektiv ÚČNK,Nakladatelství Lidové noviny 2009) • Dnešní skloňování jednoho typu substantiv (J. Šimandl, Nakladatelství Lidové noviny 2009) • Paralelní korpusy. Parallel corpora (kolektiv ÚČNK,Nakladatelství Lidové noviny 2010) • Slovník jazyka totality (kolektiv ÚČNK,Nakladatelství Lidové noviny 2010) • Česká korpusová lingvistika: současný stav (kolektiv ÚČNK,Nakladatelství Lidové noviny 2011)

More Related