250 likes | 588 Views
Mūsdienu latviešu valodas korpuss: kādam tam jābūt?. Kristīne Levāne- Petrova LU Matemātikas un informātikas institūts Clarin seminārs 2009. gada 2. aprīlī. Valodas korpuss. Runātu un/vai rakstītu tekstu krājums, kas ir izveidots atbilstoši skaidri definētu kritēriju kopumam.
E N D
Mūsdienu latviešu valodas korpuss: kādam tam jābūt? Kristīne Levāne-PetrovaLU Matemātikas un informātikas institūts Clarin seminārs 2009. gada 2. aprīlī
Valodas korpuss Runātu un/vai rakstītu tekstu krājums, kas ir izveidots atbilstoši skaidri definētu kritēriju kopumam. http://www.engl.polyu.edu.hk/corpuslinguist/corpus.htm Mūsdienās arī: elektroniskā formā
Korpusa izmantošana • Valodas pētniecībā dažādos valodas līmeņos • Leksikogrāfijā • Mācīblīdzekļu sagatavošanā • Valodas salīdzināmajā analīzē • Tulkošanā un tulkojumzinātnē • Pareizrakstības un gramatikas automatizētā pārbaudē • Psiholingvistikā un sociolingvistikā
Korpusa nepieciešamība • Valodas pilnvērtīga attīstība nākotnē • Vispārīgie korpusi • Britu nacionālais korpuss (BNC) (100 milj. vārdlietojumu) (http://www.natcorp.ox.ac.uk/) • Čehu nacionālais korpuss (100 milj. vārdlietojumu) (http://ucnk.ff.cuni.cz/english/index.html) • Lietuviešu valodas tekstu korpuss (vairāk nekā 100 milj. vārdlietojumu) (http://donelaitis.vdu.lt/tekstynas/) • Kultūras piemineklis • Noderīgs uzziņu avots
Ceļā uz Latviešu valodas vispārīgo korpusu (www.korpuss.lv) Projekta “Latviešu valodaskorpusa tekstu metadatusagatavošana”īstenošana arVVA atbalstuno 01.09.2007. – 01.03.2008. (LUMII)
Korpusa projektēšana • Korpusa reprezentativitāte un līdzsvarotība • Valodas lietojuma sfēru daudzveidības atspoguļojums (dažādi valodas paveidi) • korpusa sastāvs (dažādu tekstu veidu, tēmu proporcijas); • Iekļaujamo tekstu laika periods • Tekstu atlases kritēriji • Tekstu ieguves veids • Vai tiks iekļauti pilni teksti vai tekstu fragmenti? • Korpusa sistēmas izstrāde
Korpusa izveides kritēriji • Korpusā iekļauti teksti no 1991. gada • Korpusā ievietoti pilni teksti • Korpusā ievietoti autentiski teksti • Korpuss līdzsvarots atbilstoši Latviešu valodas korpusa koncepcijai
Tekstu ieguve un pārbaude • Teksti tiek iegūti no LU MII elektronisko tekstu resursiem un tīmekļa • Visi korpusā ievietotie teksti tiek manuāli pārbaudīti
Tekstu atlases kritēriji • Teksta paveids (publicistika, daiļliteratūra u.tml.) • Teksta izdošanas/sarakstīšanas gads • Lasāmība/popularitāte (piem., zinātniski teksti, daiļliteratūra) • Ģeogrāfija (reģionālie laikraksti) u. c.
Metadati • Metadati ir dati par datiem. • TEI (TextEncodingInitiative) Headerun CES (CorpusEncoding Standard) Headerstandarta apakškopa
Korpusam pievienojamo metadatu kopa • Mapes nosaukums • Faila nosaukums • Vārdlietojumu skaits • Grāmatas/laikraksta (vai cita avota) nosaukums • Autors • Autora dzimums • Teksta avota publicēšanas laiks un izdevniecība (ja ir) • Teksta žanrs • Atslēgvārdi • Ir/nav bijusi manuāla pārbaude • Faila apstrādes laiks • Piezīmes
Ceļā uz Latviešu valodas vispārīgo korpusu (2) • Projekta “Līdzsvarotā mūsdienu latviešu valodas tekstu korpusa paplašināšana” īstenošana ar VVA atbalstu no 15.02.2009.-30.09.2009. • Valodas korpuss tiks papildināts par 2,5 miljoniem vārdlietojumu.
Esošie resursi un iestrādes • Latviešu valodas korpusa koncepcija (2005) • Līdzsvarots Latviešu valodas vispārīgais korpuss (miljons vārdlietojumu) • Iestrādes runas korpusa izveidē • Iestrādes morfoloģiskās marķēšanas izstrādē (ar VVA atbalstu, projekts SemTi-Kamols u. c.) • Iestrādes sintaktiskās marķēšanas izstrādē (SemTi-Kamols) • Neliels morfoloģiski marķēts korpuss • Tīmekļa korpuss
Kādam jābūt latviešu valodas vispārīgajam korpusam? 100 milj. vārdlietojumu liels līdzsvarots mūsdienu Latviešu valodas vispārīgais korpuss ar dažādu līmeņu marķējumu Latviešu valodas korpusa koncepcija. 1.2. diagramma – runātās un rakstītās valodas attiecība vispārīgajā latviešu valodas korpusā.
Latviešu valodas vispārīgais korpuss.Kas nepieciešams tuvākajā laikā? • Papildināt korpusu ar pēc iespējas vairāk vārdlietojumiem, ņemot vērā jau iegūto pieredzi un korpusa izveides kritērijus • Pusautomātisks morfoloģiskās marķēšanas rīks • 1 milj. vārdlietojumu pārbaudītu morfoloģiski marķētu tekstu • Uz iepriekšējā bāzes apmācīts morfoloģiskās marķēšanas automātisks rīks • Pārbaudīta paraugkopa ar sintaktisko marķējumu
Paredzamās korpusa papildināšanas problēmas • Nepieciešamo tekstu ieguve reprezentatīva un līdzsvarota korpusa nodrošināšanai • Vienošanās panākšana ar tekstu turētājiem par dažādu elektronisku resursu ieguvi • Tekstu priekšapstrāde • Korpusam specifiskas programmatūras pielāgošana un izveide (www.korpuss.lv) • Autortiesību jautājuma risināšana
Citi nepieciešamie resursi • Specializētie korpusi (dialektu, kādas zinātņu nozares, zinātnisku tekstu u. c.) • Divvalodu un daudzvalodu korpusi • u.c.
Paldies par uzmanību! • Jautājumi?
Jautājumi diskusijai • Vienošanās panākšana ar tekstu turētājiem par dažādu elektronisku resursu ieguvi • Līdzsvarotības un reprezentativitātes nodrošināšana saistībā ar resursu ieguvi • Korpusa izstrādes ātrums • Autortiesības • Nepublicētu resursu ievietošana korpusā