1 / 25

Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

Mūsdienu latviešu valodas korpuss: kādam tam jābūt?. Kristīne Levāne- Petrova LU Matemātikas un informātikas institūts Clarin seminārs 2009. gada 2. aprīlī. Valodas korpuss. Runātu un/vai rakstītu tekstu krājums, kas ir izveidots atbilstoši skaidri definētu kritēriju kopumam.

Download Presentation

Mūsdienu latviešu valodas korpuss: kādam tam jābūt?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Mūsdienu latviešu valodas korpuss: kādam tam jābūt? Kristīne Levāne-PetrovaLU Matemātikas un informātikas institūts Clarin seminārs 2009. gada 2. aprīlī

  2. Valodas korpuss Runātu un/vai rakstītu tekstu krājums, kas ir izveidots atbilstoši skaidri definētu kritēriju kopumam. http://www.engl.polyu.edu.hk/corpuslinguist/corpus.htm Mūsdienās arī: elektroniskā formā

  3. Korpusa izmantošana • Valodas pētniecībā dažādos valodas līmeņos • Leksikogrāfijā • Mācīblīdzekļu sagatavošanā • Valodas salīdzināmajā analīzē • Tulkošanā un tulkojumzinātnē • Pareizrakstības un gramatikas automatizētā pārbaudē • Psiholingvistikā un sociolingvistikā

  4. Korpusa nepieciešamība • Valodas pilnvērtīga attīstība nākotnē • Vispārīgie korpusi • Britu nacionālais korpuss (BNC) (100 milj. vārdlietojumu) (http://www.natcorp.ox.ac.uk/) • Čehu nacionālais korpuss (100 milj. vārdlietojumu) (http://ucnk.ff.cuni.cz/english/index.html) • Lietuviešu valodas tekstu korpuss (vairāk nekā 100 milj. vārdlietojumu) (http://donelaitis.vdu.lt/tekstynas/) • Kultūras piemineklis • Noderīgs uzziņu avots

  5. Ceļā uz Latviešu valodas vispārīgo korpusu (www.korpuss.lv) Projekta “Latviešu valodaskorpusa tekstu metadatusagatavošana”īstenošana arVVA atbalstuno 01.09.2007. – 01.03.2008. (LUMII)

  6. Korpusa projektēšana • Korpusa reprezentativitāte un līdzsvarotība • Valodas lietojuma sfēru daudzveidības atspoguļojums (dažādi valodas paveidi) • korpusa sastāvs (dažādu tekstu veidu, tēmu proporcijas); • Iekļaujamo tekstu laika periods • Tekstu atlases kritēriji • Tekstu ieguves veids • Vai tiks iekļauti pilni teksti vai tekstu fragmenti? • Korpusa sistēmas izstrāde

  7. Korpusa izveides kritēriji • Korpusā iekļauti teksti no 1991. gada • Korpusā ievietoti pilni teksti • Korpusā ievietoti autentiski teksti • Korpuss līdzsvarots atbilstoši Latviešu valodas korpusa koncepcijai

  8. Vispārīgā korpusa līdzsvarotība

  9. Vispārīgā korpusa līdzsvarotība (2)

  10. Vispārīgā korpusa līdzsvarotība (3)

  11. Tekstu ieguve un pārbaude • Teksti tiek iegūti no LU MII elektronisko tekstu resursiem un tīmekļa • Visi korpusā ievietotie teksti tiek manuāli pārbaudīti

  12. Tekstu atlases kritēriji • Teksta paveids (publicistika, daiļliteratūra u.tml.) • Teksta izdošanas/sarakstīšanas gads • Lasāmība/popularitāte (piem., zinātniski teksti, daiļliteratūra) • Ģeogrāfija (reģionālie laikraksti) u. c.

  13. Metadati • Metadati ir dati par datiem. • TEI (TextEncodingInitiative) Headerun CES (CorpusEncoding Standard) Headerstandarta apakškopa

  14. Korpusam pievienojamo metadatu kopa • Mapes nosaukums • Faila nosaukums • Vārdlietojumu skaits • Grāmatas/laikraksta (vai cita avota) nosaukums • Autors • Autora dzimums • Teksta avota publicēšanas laiks un izdevniecība (ja ir) • Teksta žanrs • Atslēgvārdi • Ir/nav bijusi manuāla pārbaude • Faila apstrādes laiks • Piezīmes

  15. Metadatu pievienošana korpusa tekstiem

  16. www.korpuss.lv

  17. Morfoloģiski marķēts korpuss

  18. Ceļā uz Latviešu valodas vispārīgo korpusu (2) • Projekta “Līdzsvarotā mūsdienu latviešu valodas tekstu korpusa paplašināšana” īstenošana ar VVA atbalstu no 15.02.2009.-30.09.2009. • Valodas korpuss tiks papildināts par 2,5 miljoniem vārdlietojumu.

  19. Esošie resursi un iestrādes • Latviešu valodas korpusa koncepcija (2005) • Līdzsvarots Latviešu valodas vispārīgais korpuss (miljons vārdlietojumu) • Iestrādes runas korpusa izveidē • Iestrādes morfoloģiskās marķēšanas izstrādē (ar VVA atbalstu, projekts SemTi-Kamols u. c.) • Iestrādes sintaktiskās marķēšanas izstrādē (SemTi-Kamols) • Neliels morfoloģiski marķēts korpuss • Tīmekļa korpuss

  20. Kādam jābūt latviešu valodas vispārīgajam korpusam? 100 milj. vārdlietojumu liels līdzsvarots mūsdienu Latviešu valodas vispārīgais korpuss ar dažādu līmeņu marķējumu Latviešu valodas korpusa koncepcija. 1.2. diagramma – runātās un rakstītās valodas attiecība vispārīgajā latviešu valodas korpusā.

  21. Latviešu valodas vispārīgais korpuss.Kas nepieciešams tuvākajā laikā? • Papildināt korpusu ar pēc iespējas vairāk vārdlietojumiem, ņemot vērā jau iegūto pieredzi un korpusa izveides kritērijus • Pusautomātisks morfoloģiskās marķēšanas rīks • 1 milj. vārdlietojumu pārbaudītu morfoloģiski marķētu tekstu • Uz iepriekšējā bāzes apmācīts morfoloģiskās marķēšanas automātisks rīks • Pārbaudīta paraugkopa ar sintaktisko marķējumu

  22. Paredzamās korpusa papildināšanas problēmas • Nepieciešamo tekstu ieguve reprezentatīva un līdzsvarota korpusa nodrošināšanai • Vienošanās panākšana ar tekstu turētājiem par dažādu elektronisku resursu ieguvi • Tekstu priekšapstrāde • Korpusam specifiskas programmatūras pielāgošana un izveide (www.korpuss.lv) • Autortiesību jautājuma risināšana

  23. Citi nepieciešamie resursi • Specializētie korpusi (dialektu, kādas zinātņu nozares, zinātnisku tekstu u. c.) • Divvalodu un daudzvalodu korpusi • u.c.

  24. Paldies par uzmanību! • Jautājumi?

  25. Jautājumi diskusijai • Vienošanās panākšana ar tekstu turētājiem par dažādu elektronisku resursu ieguvi • Līdzsvarotības un reprezentativitātes nodrošināšana saistībā ar resursu ieguvi • Korpusa izstrādes ātrums • Autortiesības • Nepublicētu resursu ievietošana korpusā

More Related