150 likes | 380 Views
Korpusová lingvistika. Jan Radimský FF JU České Budějovice. Literatura. Čermák, F. (1995). Jazykový korpus: Prostředek a zdroj poznání. Slovo a Slovesnost, č. 56, s. 119 - 140. Čermák - Klímová - Petkevič (2000). Studie z korpusové lingvistiky. Praha.
E N D
Korpusová lingvistika Jan Radimský FF JU České Budějovice
Literatura • Čermák, F. (1995). Jazykový korpus: Prostředek a zdroj poznání. Slovo a Slovesnost, č. 56, s. 119 - 140. • Čermák - Klímová - Petkevič (2000). Studie z korpusové lingvistiky. Praha. • Šulc M. (1999). Korpusová lingvistika (první vstup). Praha. • Tognini-Bonelli E. (2001). Corpus linguistics at work. Amsterdam, John Benjamins. • Baker, P. – Hardie, A. – McEnery, T. (2006). A Glossary of Corpus Linguistics. Edinburgh. • Čermák, F. - Blatná, R. (2006). Korpusová lingvistika: Stav a modelové přístupy. Praha. • Čermák, F. - Blatná, R. (eds.), (2005). Jak využívat Český národní korpus. Praha. • Kol. aut. (2000). Český národní korpus. Úvod a příručka uživatele. Praha 2000. • Kol. aut (2007). Průvodce českým akademickým korpusem 1.0. Praha 2007. • Kol. (2000). Český národní korpus. Úvod a příručka uživatele. Praha. • McEnery, T. – Wilson, A.: Corpus Linguistics. An Introduction. Edinburgh 2001. • Kennedy G. (1998): An Introduction to Corpus Linguistics. Longman, London. • Oakes M.P. (1998): Statistics for Corpus Linguistics. Edinburgh University Press, Edinburgh. • Radimský, J. (2005). Des méthodes de vérification en linguistique. In: Čermák Petr, Tláskal Jaromír (editores): Las lenguas románicas: su unidad y diversidad, Praha, Univerzita Karlova v Praze, Filozofická fakulta, s. 178-184. • Radimský, J. (2007). Projet et construction d'un corpus des textes européens (CORTE). Etudes romanes de Brno, Sborník prací FF MU, L 28, Brno, s. 207-216. • Štícha, F. (1994). Čas korpusové lingvistiky. Slovo a slovesnost, 55, s. 141-145. • Teubert W. (ed.), (2007). Text Corpora and Multilingual Lexicography. John Benjamins. • Wynne Martin (ed., 2005): Developing Linguistic Corpora: A Guide to Good Practice. Oxford. • Williams, G. (2005). La linguistique de corpus. Rennes, Presses universitaires de Rennes. • Chiari, I (2007), Introduzione alla linguistica computazionale,Laterza, Bari.
Okruhy a požadavky • Ústní zkouška 1. Korpusová lingvistika, korpus, typy korpusů, technické otázky a metodologická východiska. Přístup corpus driven a corpus based. Metodologie jazykovědného výzkumu, validita, reliabilita. 2. Historie korpusové lingvistiky, typologie korpusů podle různých hledisek. 3. Reprezentativnost korpusu; pojem reprezentativnosti jazykových dat. 4. Základní statistika v korpusu: četnost (frekvence) absolutní a relativní, srovnání četnosti. Měření souvýskytu (MI-score, T-score). Pojem „kolokace“. Tzv. "statistické" a "funkční" pojetí kolokací. 5. Český národní korpus, složení, možnosti výzkumu. Paralelní korpusy (Intercorp, Corte,…). 6. Vybrané národní korpusy (FR: Frantext, SketchEngine, Le Monde...; IJ: La Repubblica, CORIS/CODIS, ITWAC; ŠJ: CRAE, Ancora, Coser, Cluvi) 7. Sestavování vlastního korpusu a jeho využití. Korpusové manažery (konkordanční programy). Anotace korpusu a její typy. • Prezentace vlastní korpusové rešerše • Práce v semináři: nutno zaregistrovat se do ČNK a příp. dalších národních korpusů
Korpusová lingvistika…… korpus a lingvistika • KL – samostatná lingvistická disciplína / teorie? (viz další prezentace) • Korpus (v lingvistice) • = soubor dokladů autentického užití přirozeného jazyka, materiálová základna pro výzkum (Šulc, 9) • = v dějinách lingvistiky také excerpta = sbírky lingvistického materiálu (katalogy, databáze, slovníčky, apod.)
Proč potřebuje lingvistika korpusy? • Co je předmětem zkoumání? Jak lze jazyk zkoumat? – Závisí na zvoleném teoretickém přístupu: • langue / parole • kompetence (vs. performance) • jazykovědná teorie / jazyková data • zkoumaný objekt (jazyk / kompetenci) vidíme vždy pouze nepřímo • Dva základní přístupy k jazykovědnému výzkumu (dané teorií): • deskriptivní lingvistika: popsat a vysvětlit pravidla, podle nichž jsou utvořeny existující texty • generativní lingvistika: vytvořit taková pravidla, aby generovala nové korektní texty (+popsat společné principy takových pravidel ve všech jazycích)
... • Z každé teorie plyne jiná výzkumná metoda! • deskriptivista potřebuje texty, které popisuje (hledá v nich pravidla)... ověřuje na existujících textech, zda daná pravidla platí • generativista texty nepotřebuje. Pravidla generují text a jeho adekvátnost (gramatičnost) kontroluje rodilý mluvčí.
Výhody / úskalí při využití korpusu • Výhody • Jednotlivec (rodilý mluvčí) neovládá langue jako celek • Neznalost, nevědomá korekce – přizpůsobení normě... • tomu lze předejít rozsáhlým dotazníkovým výzkumem • Člověk užívá jazyk nevědomě • používáte stereotypní vsuvky typu prostě, vole, no...? Jak často? • používáte cizí slova? • říkáte opravdu/vopravdu, okno/vokno? V jakých situacích a kontextech? • jak se liší N s příponou –élko / -ýlko? (divadélko, světélko, křidélko, prádélko, letadélko, bidélko...) • Korpus umožňuje získat údaje o frekvenci / typičnosti jevů • cf. generativistické příklady typu A farmer kills a duckling. A man walks. • Korpus obsahuje reálná data • Korpus umožňuje opakovatelný experiment za identických laboratorních podmínek (cf. přírodní vědy)
... • Nevýhody • Korpus nikdy nebude obsahovat všechny možnosti, kontexty... určité konstrukce mohou chybět • cf. čes. klitika jsem se mu ho • lék: reprezentativnost ! • V korpusu mohou být chyby... • chyby by měly být statisticky odlišitelné od korektních konstrukcí • Korpus nemůže poskytnout „záporný důkaz“ • absence konstrukce v korpusu neznamená automaticky, že daná konstrukce není možná • nicméně absence jevu ve velkých korpusech je vždy signifikantní • Závěr: • Přinejmenším pro deskriptivní lingvistiku a kvantitativní popis jazyka potřebujeme korpusy jako velké zdroje dat.
Korpus jako metodologický nástroj • Texty jako zdroje dat se ale v lingvistice používaly vždy. • V čem je korpusová lingvistika jiná? • Přijmeme-li perspektivu deskriptivní lingvistiky, pak novum korpusu je jeho reprezentativnost. • Reprezentativnost = do jaké míry náš korpus odráží (reprezentuje, zastupuje) všechny promluvy všech mluvčích za všech okolností.
Reprezentativnost korpusu... • Klíčové pojmy statistiky: • Vzorek by měl odrážet všechny vlastnosti populace ve stejném poměru. • Tj.: při náhodném výběru musí mít každý prvek populace stejnou pravděpodobnost, že bude vybrán. • Udělat opravdu náhodný výběr není snadné!
... • Paralela se sociologickým průzkumem • Jak jsou studenti FF JU spokojeni s fungováním studijního oddělení? • Jaké jsou volební preference pěti největších politických stran? • Co je v daných případech vzorek / populace? • Jaké nezávisle proměnné (faktory) mohou mít vliv na závisle proměnnou (např. zkoumanou volební preferenci)? – věk, pohlaví, vzdělání, profese... • Čemu to odpovídá při práci s korpusem?
Reprezentativnost korpusu... • ... závisí za zkoumaném jevu: • Jazyk románů Karla Čapka • Jazyk gymnazistů z Č. Budějovic • Současná žurnalistická čeština • Mluvená čeština na Plzeňsku • Současná čeština • ... • V závislosti na zkoumaném jevu se sestavuje korpus. • Kritéria a jejich typologie – viz Šulc, s. 16-19
Seminář: povaha korpusových dat • SN A + N • A = červený, rudý, blonďatý • N = víno, pivo, armáda, střecha, vlasy, kluk • Dosazením do vzorce můžeme vygenerovat 18 syntagmat. • Jsou všechna SN stejně přijatelná? Proč? • Jsou některé kombinace agramatické? • Je ve všech případech kompozicionální význam? Probíhá interpretace stejně? • Museli jste u některých SN přemýšlet, co mohou označovat? • Které kombinace asi budou / nebudou v korpusu a proč? • Zkuste odhadnout na tříčlenné škále: běžné – řídké - neexistující • Co nám to říká o povaze a významu korpusových dat?
... co v korpusu ne/najdeme a proč Pokud syntagma v korpusu nenajdeme, znamená to, že: • Nemá korektní gramatickou strukturu (v souladu s pravidly jazyka) • se ho mu, bíle kůň • Je špatně utvořené po sémantické stránce (Pustejovsky: semantic well-formedness): nedokážeme je korektně interpretovat (leda ve velmi speciálním kontextu) • blonďaté víno, budova zemřela • fr. va ici • Je špatně utvořené z hlediska pragmatického (týká se spíše vět než syntagmat) • Karlův syn je feťák a Karel nemá děti. • Je korektní, ale popisuje atypickou skutečnost • červená tráva • Je korektní, ale objevuje se ve stylu, který není v našem korpusu zastoupen • vsítit branku, jsem se mu ho • Přítomnost / nepřítomnost jevu v korpusu je fakt, který je třeba interpretovat !!
... co v korpusu ne/najdeme a proč • Tipy na rozšiřující četbu: • Oliva K., Doležalová D., O korpusu jako o zdroji jazykových dat. In: Karlík P. (ed.), Korpus jako zdroj dat o češtině. MU v Brně, 2004, s. 7-10.