Korpusová lingvistika

Korpusová lingvistika Jan Radimský FF JU České Budějovice

Literatura • Čermák, F. (1995). Jazykový korpus: Prostředek a zdroj poznání. Slovo a Slovesnost, č. 56, s. 119 - 140. • Čermák - Klímová - Petkevič (2000). Studie z korpusové lingvistiky. Praha. • Šulc M. (1999). Korpusová lingvistika (první vstup). Praha. • Tognini-Bonelli E. (2001). Corpus linguistics at work. Amsterdam, John Benjamins. • Baker, P. – Hardie, A. – McEnery, T. (2006). A Glossary of Corpus Linguistics. Edinburgh. • Čermák, F. - Blatná, R. (2006). Korpusová lingvistika: Stav a modelové přístupy. Praha. • Čermák, F. - Blatná, R. (eds.), (2005). Jak využívat Český národní korpus. Praha. • Kol. aut. (2000). Český národní korpus. Úvod a příručka uživatele. Praha 2000. • Kol. aut (2007). Průvodce českým akademickým korpusem 1.0. Praha 2007. • Kol. (2000). Český národní korpus. Úvod a příručka uživatele. Praha. • McEnery, T. – Wilson, A.: Corpus Linguistics. An Introduction. Edinburgh 2001. • Kennedy G. (1998): An Introduction to Corpus Linguistics. Longman, London. • Oakes M.P. (1998): Statistics for Corpus Linguistics. Edinburgh University Press, Edinburgh. • Radimský, J. (2005). Des méthodes de vérification en linguistique. In: Čermák Petr, Tláskal Jaromír (editores): Las lenguas románicas: su unidad y diversidad, Praha, Univerzita Karlova v Praze, Filozofická fakulta, s. 178-184. • Radimský, J. (2007). Projet et construction d'un corpus des textes européens (CORTE). Etudes romanes de Brno, Sborník prací FF MU, L 28, Brno, s. 207-216. • Štícha, F. (1994). Čas korpusové lingvistiky. Slovo a slovesnost, 55, s. 141-145. • Teubert W. (ed.), (2007). Text Corpora and Multilingual Lexicography. John Benjamins. • Wynne Martin (ed., 2005): Developing Linguistic Corpora: A Guide to Good Practice. Oxford. • Williams, G. (2005). La linguistique de corpus. Rennes, Presses universitaires de Rennes. • Chiari, I (2007), Introduzione alla linguistica computazionale,Laterza, Bari.

Okruhy a požadavky • Ústní zkouška 1. Korpusová lingvistika, korpus, typy korpusů, technické otázky a metodologická východiska. Přístup corpus driven a corpus based. Metodologie jazykovědného výzkumu, validita, reliabilita. 2. Historie korpusové lingvistiky, typologie korpusů podle různých hledisek. 3. Reprezentativnost korpusu; pojem reprezentativnosti jazykových dat. 4. Základní statistika v korpusu: četnost (frekvence) absolutní a relativní, srovnání četnosti. Měření souvýskytu (MI-score, T-score). Pojem „kolokace“. Tzv. "statistické" a "funkční" pojetí kolokací. 5. Český národní korpus, složení, možnosti výzkumu. Paralelní korpusy (Intercorp, Corte,…). 6. Vybrané národní korpusy (FR: Frantext, SketchEngine, Le Monde...; IJ: La Repubblica, CORIS/CODIS, ITWAC; ŠJ: CRAE, Ancora, Coser, Cluvi) 7. Sestavování vlastního korpusu a jeho využití. Korpusové manažery (konkordanční programy). Anotace korpusu a její typy. • Prezentace vlastní korpusové rešerše • Práce v semináři: nutno zaregistrovat se do ČNK a příp. dalších národních korpusů

Korpusová lingvistika…… korpus a lingvistika • KL – samostatná lingvistická disciplína / teorie? (viz další prezentace) • Korpus (v lingvistice) • = soubor dokladů autentického užití přirozeného jazyka, materiálová základna pro výzkum (Šulc, 9) • = v dějinách lingvistiky také excerpta = sbírky lingvistického materiálu (katalogy, databáze, slovníčky, apod.)

Proč potřebuje lingvistika korpusy? • Co je předmětem zkoumání? Jak lze jazyk zkoumat? – Závisí na zvoleném teoretickém přístupu: • langue / parole • kompetence (vs. performance) • jazykovědná teorie / jazyková data • zkoumaný objekt (jazyk / kompetenci) vidíme vždy pouze nepřímo • Dva základní přístupy k jazykovědnému výzkumu (dané teorií): • deskriptivní lingvistika: popsat a vysvětlit pravidla, podle nichž jsou utvořeny existující texty • generativní lingvistika: vytvořit taková pravidla, aby generovala nové korektní texty (+popsat společné principy takových pravidel ve všech jazycích)

... • Z každé teorie plyne jiná výzkumná metoda! • deskriptivista potřebuje texty, které popisuje (hledá v nich pravidla)... ověřuje na existujících textech, zda daná pravidla platí • generativista texty nepotřebuje. Pravidla generují text a jeho adekvátnost (gramatičnost) kontroluje rodilý mluvčí.

Výhody / úskalí při využití korpusu • Výhody • Jednotlivec (rodilý mluvčí) neovládá langue jako celek • Neznalost, nevědomá korekce – přizpůsobení normě... • tomu lze předejít rozsáhlým dotazníkovým výzkumem • Člověk užívá jazyk nevědomě • používáte stereotypní vsuvky typu prostě, vole, no...? Jak často? • používáte cizí slova? • říkáte opravdu/vopravdu, okno/vokno? V jakých situacích a kontextech? • jak se liší N s příponou –élko / -ýlko? (divadélko, světélko, křidélko, prádélko, letadélko, bidélko...) • Korpus umožňuje získat údaje o frekvenci / typičnosti jevů • cf. generativistické příklady typu A farmer kills a duckling. A man walks. • Korpus obsahuje reálná data • Korpus umožňuje opakovatelný experiment za identických laboratorních podmínek (cf. přírodní vědy)

... • Nevýhody • Korpus nikdy nebude obsahovat všechny možnosti, kontexty... určité konstrukce mohou chybět • cf. čes. klitika jsem se mu ho • lék: reprezentativnost ! • V korpusu mohou být chyby... • chyby by měly být statisticky odlišitelné od korektních konstrukcí • Korpus nemůže poskytnout „záporný důkaz“ • absence konstrukce v korpusu neznamená automaticky, že daná konstrukce není možná • nicméně absence jevu ve velkých korpusech je vždy signifikantní • Závěr: • Přinejmenším pro deskriptivní lingvistiku a kvantitativní popis jazyka potřebujeme korpusy jako velké zdroje dat.

Korpus jako metodologický nástroj • Texty jako zdroje dat se ale v lingvistice používaly vždy. • V čem je korpusová lingvistika jiná? • Přijmeme-li perspektivu deskriptivní lingvistiky, pak novum korpusu je jeho reprezentativnost. • Reprezentativnost = do jaké míry náš korpus odráží (reprezentuje, zastupuje) všechny promluvy všech mluvčích za všech okolností.

Reprezentativnost korpusu... • Klíčové pojmy statistiky: • Vzorek by měl odrážet všechny vlastnosti populace ve stejném poměru. • Tj.: při náhodném výběru musí mít každý prvek populace stejnou pravděpodobnost, že bude vybrán. • Udělat opravdu náhodný výběr není snadné!

... • Paralela se sociologickým průzkumem • Jak jsou studenti FF JU spokojeni s fungováním studijního oddělení? • Jaké jsou volební preference pěti největších politických stran? • Co je v daných případech vzorek / populace? • Jaké nezávisle proměnné (faktory) mohou mít vliv na závisle proměnnou (např. zkoumanou volební preferenci)? – věk, pohlaví, vzdělání, profese... • Čemu to odpovídá při práci s korpusem?

Reprezentativnost korpusu... • ... závisí za zkoumaném jevu: • Jazyk románů Karla Čapka • Jazyk gymnazistů z Č. Budějovic • Současná žurnalistická čeština • Mluvená čeština na Plzeňsku • Současná čeština • ... • V závislosti na zkoumaném jevu se sestavuje korpus. • Kritéria a jejich typologie – viz Šulc, s. 16-19

Seminář: povaha korpusových dat • SN  A + N • A = červený, rudý, blonďatý • N = víno, pivo, armáda, střecha, vlasy, kluk • Dosazením do vzorce můžeme vygenerovat 18 syntagmat. • Jsou všechna SN stejně přijatelná? Proč? • Jsou některé kombinace agramatické? • Je ve všech případech kompozicionální význam? Probíhá interpretace stejně? • Museli jste u některých SN přemýšlet, co mohou označovat? • Které kombinace asi budou / nebudou v korpusu a proč? • Zkuste odhadnout na tříčlenné škále: běžné – řídké - neexistující • Co nám to říká o povaze a významu korpusových dat?

... co v korpusu ne/najdeme a proč Pokud syntagma v korpusu nenajdeme, znamená to, že: • Nemá korektní gramatickou strukturu (v souladu s pravidly jazyka) • se ho mu, bíle kůň • Je špatně utvořené po sémantické stránce (Pustejovsky: semantic well-formedness): nedokážeme je korektně interpretovat (leda ve velmi speciálním kontextu) • blonďaté víno, budova zemřela • fr. va ici • Je špatně utvořené z hlediska pragmatického (týká se spíše vět než syntagmat) • Karlův syn je feťák a Karel nemá děti. • Je korektní, ale popisuje atypickou skutečnost • červená tráva • Je korektní, ale objevuje se ve stylu, který není v našem korpusu zastoupen • vsítit branku, jsem se mu ho • Přítomnost / nepřítomnost jevu v korpusu je fakt, který je třeba interpretovat !!

... co v korpusu ne/najdeme a proč • Tipy na rozšiřující četbu: • Oliva K., Doležalová D., O korpusu jako o zdroji jazykových dat. In: Karlík P. (ed.), Korpus jako zdroj dat o češtině. MU v Brně, 2004, s. 7-10.

Korpusová lingvistika

Korpusová lingvistika

Presentation Transcript

Korpusová lingvistika ( 4 ) Základy korpusové statistiky

Vaje V Sketchengine Raba I zdelava korpusov (izbira besedil, označevanje, instalacija na SKE)

Tekstyn ų lingvistika ir tekstynų naudojimas klasėje

TEKSTAS: LINGVISTIKA IR POETIKA 2011 m. lapkričio 11 d.

Luščenje terminologije iz korpusov: od osnov do umazanih podrobnosti

Označevanje korpusov PNG Slovenistika II. letnik 2006

Lingvistika

Označevanje korpusov PNG Slovenistika II. letnik 2006

Uporaba korpusov

Gradnja in označevanje korpusov

Lingvistika dvacátého století

Gradnja in označevanje korpusov

Vaje II Pregled korpusov FidaPLUS podrobneje

Lingvistika dvacátého století

Standardi za zapis korpusov

Korpusová lingvistika (2)

Lingvistika dvacátého století

Označevanje korpusov

Lingvistika dvacátého století

Lingvistika dvacátého století

Primenjena lingvistika i nastava engleskog je zika 3 (PLINEJ3) Teaching Grammar