130 likes | 293 Views
Uvod v korpusno jezikoslovje. Korpusi in baze podatkov, 2004/2005. Kaj je korpus ?. A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language. (EAGLES, 1996)
E N D
Uvod v korpusno jezikoslovje Korpusi in baze podatkov, 2004/2005
Kaj je korpus? A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language. (EAGLES, 1996) • obsežna zbirka jezikovnega gradiva, tj. besedil, ki so nastala v pisni ali govorjeni obliki v dejanskem socialnem kontekstu • elektronska oblika • reprezentativnost za jezik ali jezikovno zvrst, ki naj bi jo predstavljali -> vzorec • na podlagi korpusov želimo jezik opisovati, ne predpisovati!
Kako se je vse skupaj začelo... • začetki deskriptivnega jezikoslovja • v 60. letih: korpus BROWN (1 M) • John Sinclair Cobuildova revolucija • Bank of English (470 M) • British National Corpus (100 M) • označevati ali ne?
Zakaj potrebujemo korpuse? • Izdelava slovarjev in drugih jezikovnih priročnikov • Izdelava slovnic in drugih opisov jezikovne strukture • Razvoj pripomočkov za prevajanje • Izdelava pripomočkov za učenje jezika • Jezikovne tehnologije • Raziskovanje vseh oblik jezikovnega vedenja (pripomoček pri vseh ravneh jezikoslovnih raziskav)
Tipologija korpusov • Medij: pisana in govorjena besedila • Obseg: referenčni korpusi, korpusi podjezikov (npr. strokovnih jezikov) • Časovni razpon: diahroni in sinhroni pristop • Jezik: enojezični / večjezični • vzporedni korpusi • primerljivi korpusi • prevodoslovni korpusi
Nekaj pojmov ... • konkordanca • Prikaz vseh delov besedila, kjer se pojavlja iskani niz • KWIC (Keyword in Context)Pregledni prikaz konkordanc z usrediščenim nizom • pojavnica / različnicanpr. Korpus X ima 100.000.000 pojavnic, 567.000 različnic. • besedna oblika / lema • kolokacija
Korpusi na internetu • Slovenščina: • FIDA [http://www.fida.net] • Nova beseda [http://bos.zrc-sazu.si/a_beseda.html] • Slovensko-angleški vzporedni korpusi: • ELAN + TRANS[http://nl2.ijs.si/corpus/index-bi.html] • EVROKORPUS [http://www.gov.si/evrokorpus/] • Drugi: • Zbirka povezav na več sto korpusov različnih svetovnih jezikov [http://devoted.to/corpora]
Dodatni viri • Vzporedni korpusi in večjezikovne tehnologije [http://www2.arnes.si/~svinta/parallel.htm] • Uvod v korpusno jezikoslovje (T. Erjavec)[http://nl.ijs.si/et/talks/korpus] • Priprava in uporaba vzporednih korpusov[http://nl.ijs.si/et/talks/solomon02]
Regularni izrazi in XML • An Introduction to Regular Expressions[http://www.aivosto.com/vbtips/regex.html] • eXtensible Markup Language [http://www.w3.org/XML/] • SGML in XML (T. Erjavec)[http://nl.ijs.si/et/talks/Solomon00/]
Korpusna orodja • poravnava vzporednih besedil ATRIL DejaVu [http://www.atril.com] • konkordančnikiWordSmith Tools [http://www.lexically.net/wordsmith/]Concordance [http://www.rjcw.freeserve.co.uk/]MonoConc in ParaConc [http://www.athel.com/mono.html]
Terminološki in prevajalski programi • TRADOS [http://www.trados.com] • STAR [http://www.star-ag.ch] • Pregled brezplačnih orodij [http://www.open.hr/~dpleic/tools.html]
Pa kaj še... • Avtomatsko luščenje terminologijePLUG project – demo (potrebna registracija)[http://numerus.ling.uu.se/~corpora/plug/] • Tezaver WordNet (angleščina)[http://www.cogsci.princeton.edu/~wn/] • Avtomatski tezaver (angleščina)INFOMAP project – demo (brez registracije, tezaver sorodnih besed na podlagi BNC-ja) [http://infomap.stanford.edu/webdemo]