1 / 24

Český národní korpus

Český národní korpus. Spolupracující instituce.  Filozofická fakulta UK  Matematicko-fyzikální fakulta UK  Fakulta informatiky MU  Filozofická fakulta MU  Ústav pro jazyk český Akademie věd ČR  Ústav pro českou literaturu AV ČR. Co je to korpus?. Soubor dat (textů)

claus
Download Presentation

Český národní korpus

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Český národní korpus

  2. Spolupracující instituce  Filozofická fakulta UK  Matematicko-fyzikální fakulta UK  Fakulta informatiky MU  Filozofická fakulta MU  Ústav pro jazyk český Akademie věd ČR  Ústav pro českou literaturu AV ČR

  3. Co je to korpus? Soubor dat (textů)  rozsáhlý počítačově uložený i zpracovávaný  reprezentativní vzhledem k vytčenému cíli  slouží jako bohatý zdroj jazykového materiálu především lingvistům

  4. Typy korpusů  synchronní – diachronní – historický  psaný – mluvený (případně nářeční)

  5. Český národní korpus

  6. Velikosti a složení korpusů

  7. Struktura textů v SYN2005 • 100 milionů textových slov • reprezentativní z hlediska recepce • synchronní (současný) jazyk • psané texty Publicistika 33 % Odborné texty 27 % Beletrie 40 %

  8.  Publicistika – z let 2000-2004  Odborná literatura – po roce 1990  Beletrie – po roce 1990 (významná poválečná díla a překlady od autorů narozených po roce 1880) Časové vymezení textů v korpusu SYN2005

  9. Odborná a specializovaná literatura (milióny slov)

  10. Imaginativní literatura

  11. Zpracování textů získávání textů: z redakcí, z Internetu, skenováním, přepisem konverze do jednotného formátu  bibliografická anotace  převod do SGML  lemmatizace a morfologické značkování desambiguace (zjednoznačnění)

  12. Ukázka hlavičky dokumentu <doc file="S/B/1991/havel"id=001># identifikace dokumantu <a> # začátek hlavičky dokumentu <mod>S# druh korpusu (synchronní) <txtype>NOV# typ textu (román) <genre>BIO# žánr (biografie) <med>B# médium (kniha) <authsex>F# pohlaví autora (žena) <temp>1991# rok vydání <firsted>1991# rok prvního vydání <authname>Kriseová Eda# jméno autora <opus>havel# jednoznačná identifikace souboru <id>001# pořadové číslo dokumentu v rámci souboru </a> # konec hlavičky dokumentu

  13. Zpracování textů  získávání textů: z redakcí, z Internetu, skenováním, přepisem  konverze do jednotného formátu  bibliografická anotace  převod do SGML  lemmatizace a morfologické značkování  desambiguace (zjednoznačnění)

  14. Ukázka textu v SGML formátu se strukturními a morfologickými značkami <c> # začátek textu <p n=1> # první odstavec <s id="S/B/1991/havel:001-p1s1"> # začátek věty s její jednoznačnou # identifikací v celém korpusu <f cap>Eda<MDl aj>Eda<MDt aj>NNMS1-----A---- <f cap>Kriseová<MDl aj>Kriseová<MDt aj>NNFS1-----A---- <s id="S/B/1991/havel:001-p1s2"> # začátek další věty <i>i # typografická značka - italika <f cap>Vaškovi<MDl aj>Vašek<MDt aj>NNMS3-----A---- <i>/i # typografická značka – konec italiky <p n=2> # druhý odstavec <s id="S/B/1991/havel:001-p2s1"> # začátek další věty <f cap>Motto<MDl aj>motto<MDt aj>NNNS1-----A---- <D> # následující znak nebyl oddělen mezerou <d>:<MDl aj>:<MDt aj>Z:------------- # interpunkce <p n=3> # třetí odstavec <s id="S/B/1991/havel:001-p3s1"> # začátek další věty <f cap>Jednou<MDl aj>jeden`1<MDt aj>ClFS7---------- <f>navštívil<MDl aj>navštívit_:W<MDt aj>VpYS---XR-AA---

  15. Ukázka morfologické značky: veškerý pozemský a sublunární korpus/NNIS1-----A----- vyhladovělých a žíznivých na podlahu . Hodil jsem do korpusu/NNIS2-----A----- závaží čistítka a elegantně slunce se třpytilo v jejím korpusu/NNIS6-----A----- , nad vlasatýma hlavama se přitáhl orchestr . Zlaté korpusy/NNIP1-----A----- saxofonové baterie malovaly individuální podmínky přístupu ke korpusu/NNIS3-----A----- v mnohem sofistikovanější NNIS3-----A----- substantivum obecné maskulinum singulár dativ afirmativ inanimatum

  16. Mluvené korpusy • ORAL2006 – 1.000.000 slov (celé Čechy) • PMK – 700 000 slov, BMK – 500 000 slov • čtyři sociolingvistické proměnné: • pohlaví mluvčího - muž x žena • věk - mladší (20-35 let) x starší (od 35 let) • vzdělání - základní a střední x vysokoškolské • typ promluvy - formální x neformální

  17. Ukázka mluveného korpusu Sociolingvistické kategorie: • pohlaví • muž (M) • žena (Z) • věk • mladší (I) • starší (V) • vzdělání • základní a střední (B) • vysokoškolské (A) • charakter rozhovoru • formální (F) • neformální (N) <sp 024-MVBN> čaje potom , co von tam votevře v těch , jak se to menuje <sp 003-MIAF> zatěžuje a většinou tak votravuje --- , že si myslim , <sp 003-ZIAF> tak si myslim , že ta votázka emancipace ženy , tak <sp 001-ZVBF> .. to je hrozně těžká votázka , na to se hrozně těžko <sp 001-MVBF> je to trochu divná votázka , protože už sem dlouho <sp 001-MIBF> budoucna , co když vona votěhotní? a taky je strašně ponižující <sp 001-MIAF> spolu byli . vo tyhlety votázce sem si vždycky myslel <sp 011-ZIBN> dotyčnýho , protože votevře cizí kufr , zjistí prostě <sp 003-MIAF> .. no , to je zatím votřesný , no v Polsku už to <sp 001-MIBF> čem , no , to je ta votázka , v čem . těžko říct <sp 001-MIBF> pomocí nebo výpomocí . votázka je ----- hlavně bych <sp 001-MVAF> no , to je potom taky votázka sexu anebo tý lásky <sp 001-MVAF> lépe než muži . to je votázka teda taková zajímavá <sp 001-ZIBN> podmínky. no vlasně to je votázka na tebe , cha cha ,

  18. Korpusový manažer Bonito dotazový řádek výběr korpusu vyhledaný výraz (KWIC) bibliografická informace rozšíření kontextu

  19. Grafická tvorba dotazu zadání lemmatu nastavení intervalu – mezi 1. a 2. slovem mohou být až 4 jiná slova zadání morfologické značky vyjadřující infinitiv ([lemma="vidět"] []{0,4} [tag="Vf.*"])

  20. radnice 139 ulice 121 trenér 94 univerzita 72 biskup 69 primátor 69 kauza 64 arcibiskup 59 nakladatelství 46 firma 44 policie 42 okres 40 pobočka 40 radní 38 arcibiskupství 36 Sigma 35 divadlo 33 výstaviště 32 fotbalista 29 městský 27 okresní 27 Frekvenční distribuce ? [lemma="olomoucký"]

  21. Možnosti přístupu k ČNK

  22. www.korpus.cz Co na našich stránkách najdete: • veřejný přístup ke korpusu SYN2000 • podmínky získání přístupu ke korpusům ČNK • korpusový manažer Bonito • návod na práci s korpusovým manažerem

  23. Využití korpusů ve škole  zdroj jazykového materiálu pro tvorbu cvičení  ověřování jazykových jevů – samostatná práce žáků  nový způsob získávání informací  netradiční pohled na jazykovou realitu

  24. Děkuji za pozornost!

More Related