100 likes | 231 Views
Korpusová lingvistika (2). Jan Radimský FF JU České Budějovice. Korpusová lingvistika… … samostatná lingvistická disciplína / teorie?. ... podle některých autorů ano! K tomu viz zejm.: Tognini-Bonelli E., Corpus linguistics at work (2001) Rozlišuje dva přístupy k využití korpusových dat:
E N D
Korpusová lingvistika (2) Jan Radimský FF JU České Budějovice
Korpusová lingvistika…… samostatná lingvistická disciplína / teorie? • ... podle některých autorů ano! • K tomu viz zejm.: Tognini-Bonelli E., Corpus linguistics at work (2001) • Rozlišuje dva přístupy k využití korpusových dat: • corpus based approach • corpus driven approach • Před četbou: malý exkurz do metodologie vědy
Několik obecně metodologických pojmů... • Věda • rozumové poznání, vychází z rozvažování nebo z pozorování jevů • Dedukce – indukce • Všichni lidé jsou smrtelní. Sokrates je člověk. ... ? • Tato labuť je bílá. Všechny labutě jsou bílé. • Princip falsifikace (K. Popper) • verifikace: nalézt příklady, které teorii potvrzují • falsifikace: možnost hledat příklady, které teorii vyvracejí • Hypoteticko-deduktivní metoda • Proč jsou labutě bílé? (teorie) • Mohu najít/hledat nějakou ne-bílou labuť?
Korpusová lingvistika jako teorie • Popis - viz Elena Tognini-Bonelli (dále TB) • Vychází z metodologických základů, které jsou společné i mnoha dalším teoretickým popisům jazyka • Některé aspekty dovádí do krajnosti. • Cíle KL: popis a analýza užívání jazyka v textech (TB, s. 2) • Podobně je zaměřena i textová lingvistika • Text je ale vnímán jako celek, čten horizontálně, s cílem porozumět obsahu... • Korpus je analyzován fragmentárně, čten vertikálně, studují se opakované „události“ (výskyty)... (TB.,3)
Teoretické základy KL • J. Firth: kontextová teorie významu (contextual theory of meaning) • Každý výraz je nedílnou součástí konkrétního kontextu (jazykového, situačního): kontext je určující pro interpretaci významu • Každá jednotka (item) se vyskytuje vždy v kontextu (context) • Kolokace (collocation) – bezprostřední kontext / okolí dané jednotky • Koligace (colligation) – bezprostřední kontext vyjádřený jako gramatická kategorie • Podobné myšlenky najdeme i jinde, ale s více či méně podstatnými modifikacemi • M. Gross: jednotkou lexikálního popisu je jednoduchá věta (protože každé slovo musí být v kontextu) • Ale tato věta může být umělá (uměle vytvořená), nemusí pocházet z reálného textu.
TB (s. 27): ukázka kolokačního / koligačního paradigmatu all but + X
Corpus-based approach • Přístup, který má využívat korpus pouze k „ilustraci“ předem známých faktů / jevů • Z dat (korpusu) má vybírat pouze jevy, které považuje za „správné“ (tj. v souladu s teorií) • Ostatní data přehlíží nebo popíše tak, aby nebyla s teorií v rozporu • Nezajímá se o četnost jevů • Používá předem dané kategorie (slovní druhy, větné členy...)
Corpus-driven approach • Pro popis jednotek a vymezení kategorií se používá výhradně reálný kontext: kolokace, koligace • Opakovaný souvýskyt jednotek má dopad na sémiotický systém • cf. časté přívlastky slov jako žena / muž- [tag="A.*"] [lemma="žena"] v SYN2005 • Typické kolokace mohou souviset s konotací dané jednotky (slova) • Obecná pravidla se odvozují induktivně • Neužívá se předem daná lematizace
Příklad použití corpus-driven přístupu • It. adjektivum bello (TB, 120) • význam krásný • delexikalizované významy pořádný / pěkný / úplný – jako kvantifikátory • Příklady • C’è un bel rumore • Continuammo a camminare per un bel pezzo... • Quel rumore non era bello • Závěry: • Alomorfy bell’ a bel se užívají jako delexikalizované (46% a 27% případů) • Alomorfy belli, begli ne • Nejde tedy o stejné paradigma • Vaše interpretace?
Jiné využití korpusu • Distinkce corpus driven / corpus based je dnes překonaná • Korpus lze využít k ověřování hypotéz v rámci hypoteticko-deduktivní metody