1 / 10

Korpusová lingvistika (2)

Korpusová lingvistika (2). Jan Radimský FF JU České Budějovice. Korpusová lingvistika… … samostatná lingvistická disciplína / teorie?. ... podle některých autorů ano! K tomu viz zejm.: Tognini-Bonelli E., Corpus linguistics at work (2001) Rozlišuje dva přístupy k využití korpusových dat:

Download Presentation

Korpusová lingvistika (2)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Korpusová lingvistika (2) Jan Radimský FF JU České Budějovice

  2. Korpusová lingvistika…… samostatná lingvistická disciplína / teorie? • ... podle některých autorů ano! • K tomu viz zejm.: Tognini-Bonelli E., Corpus linguistics at work (2001) • Rozlišuje dva přístupy k využití korpusových dat: • corpus based approach • corpus driven approach • Před četbou: malý exkurz do metodologie vědy

  3. Několik obecně metodologických pojmů... • Věda • rozumové poznání, vychází z rozvažování nebo z pozorování jevů • Dedukce – indukce • Všichni lidé jsou smrtelní. Sokrates je člověk. ... ? • Tato labuť je bílá. Všechny labutě jsou bílé. • Princip falsifikace (K. Popper) • verifikace: nalézt příklady, které teorii potvrzují • falsifikace: možnost hledat příklady, které teorii vyvracejí • Hypoteticko-deduktivní metoda • Proč jsou labutě bílé? (teorie) • Mohu najít/hledat nějakou ne-bílou labuť?

  4. Korpusová lingvistika jako teorie • Popis - viz Elena Tognini-Bonelli (dále TB) • Vychází z metodologických základů, které jsou společné i mnoha dalším teoretickým popisům jazyka • Některé aspekty dovádí do krajnosti. • Cíle KL: popis a analýza užívání jazyka v textech (TB, s. 2) • Podobně je zaměřena i textová lingvistika • Text je ale vnímán jako celek, čten horizontálně, s cílem porozumět obsahu... • Korpus je analyzován fragmentárně, čten vertikálně, studují se opakované „události“ (výskyty)... (TB.,3)

  5. Teoretické základy KL • J. Firth: kontextová teorie významu (contextual theory of meaning) • Každý výraz je nedílnou součástí konkrétního kontextu (jazykového, situačního): kontext je určující pro interpretaci významu • Každá jednotka (item) se vyskytuje vždy v kontextu (context) • Kolokace (collocation) – bezprostřední kontext / okolí dané jednotky • Koligace (colligation) – bezprostřední kontext vyjádřený jako gramatická kategorie • Podobné myšlenky najdeme i jinde, ale s více či méně podstatnými modifikacemi • M. Gross: jednotkou lexikálního popisu je jednoduchá věta (protože každé slovo musí být v kontextu) • Ale tato věta může být umělá (uměle vytvořená), nemusí pocházet z reálného textu.

  6. TB (s. 27): ukázka kolokačního / koligačního paradigmatu all but + X

  7. Corpus-based approach • Přístup, který má využívat korpus pouze k „ilustraci“ předem známých faktů / jevů • Z dat (korpusu) má vybírat pouze jevy, které považuje za „správné“ (tj. v souladu s teorií) • Ostatní data přehlíží nebo popíše tak, aby nebyla s teorií v rozporu • Nezajímá se o četnost jevů • Používá předem dané kategorie (slovní druhy, větné členy...)

  8. Corpus-driven approach • Pro popis jednotek a vymezení kategorií se používá výhradně reálný kontext: kolokace, koligace • Opakovaný souvýskyt jednotek má dopad na sémiotický systém • cf. časté přívlastky slov jako žena / muž- [tag="A.*"] [lemma="žena"] v SYN2005 • Typické kolokace mohou souviset s konotací dané jednotky (slova) • Obecná pravidla se odvozují induktivně • Neužívá se předem daná lematizace

  9. Příklad použití corpus-driven přístupu • It. adjektivum bello (TB, 120) • význam krásný • delexikalizované významy pořádný / pěkný / úplný – jako kvantifikátory • Příklady • C’è un bel rumore • Continuammo a camminare per un bel pezzo... • Quel rumore non era bello • Závěry: • Alomorfy bell’ a bel se užívají jako delexikalizované (46% a 27% případů) • Alomorfy belli, begli ne • Nejde tedy o stejné paradigma • Vaše interpretace?

  10. Jiné využití korpusu • Distinkce corpus driven / corpus based je dnes překonaná • Korpus lze využít k ověřování hypotéz v rámci hypoteticko-deduktivní metody

More Related