1 / 26

Latviešu valodas korpusa koncepcija

Latviešu valodas korpusa koncepcija. Everita Andronova LU Matemātikas un informātikas institūts everita.andronova@lumii.lv CLARIN projekta un Nacionālā korpusa seminārs 2008. gada 3. novembris. KORPUSA PRIEKŠROCĪBAS. Korpuss ļauj pētīt reālu valodu un tās lietojumu

annice
Download Presentation

Latviešu valodas korpusa koncepcija

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Latviešu valodas korpusa koncepcija Everita Andronova LU Matemātikas un informātikas institūts everita.andronova@lumii.lv CLARIN projekta un Nacionālā korpusa seminārs 2008. gada 3. novembris

  2. KORPUSA PRIEKŠROCĪBAS • Korpuss ļauj pētīt reālu valodu un tās lietojumu • Atskats vēsturē: jebkurš dzimtās valodas runātājs 10minūšu laikā var izdomāt vairāk piemēru par jebkuru gramatikas jautājumu, nekā iespējams atrast nejaušu tekstu daudzajos vārdlietojumos • Neviens korpuss nesaturēs visu informāciju par man interesējošiem valodas jautājumiem; pat neliels korpuss palīdz iegūt faktus, ko nekādā citā veidā nebūtu iespējams uzzināt

  3. KĀPĒC LATVIEŠU VALODAI VAJADZĪGS KORPUSS? • Jo vairāk labāku datu par latviešu valodu, jo kvalitatīvākas zināšanas, ko izmanto valodas apstrādes tehnoloģijas • Agrāk meklējām nezināmos vārdus vārdnīcā, tagad Google meklētājā • Runas datu izmantošana GPS, dialoga sistēmās, teksta nolasīšana no ekrāna • Pilnīga valodas izpēte un pilnvērtīga attīstība nākotnē • Mūsdienu lietuviešu valodas korpuss (100milj. vārdliet. donelaitis.vdu.lt),Krievu valodas nacionālais korpuss (150milj. vārdliet. www.ruscorpora.ru), Igauņu valodas korpuss (95milj. vārdliet. http://www.cl.ut.ee/korpused/)

  4. KORPUSA IZMANTOŠANA • Gramatikas un citu valodniecības jautājumu izpētē • Leksikogrāfijā • Terminoloģijas izstrādē • Valodas mācīšanā • Tulkošanas studijās un tulku apmācībā, mašīntulkošanā • Dabīgās valodas apstrādē (morfoloģijas, sintakses daudznozīmības risinājumi), informācijas izguvē, precedenta mašīnmācīšanās • Psiholingvistikā, sociolingvistikā, tiesu ekspertīzēs • Humanitārajās zinātnēs vispār

  5. BALTIŅŠ (www.ailab.lv/SENIE) baltiņš (1) s. m. baltiņsch (1) Baltiņsch Ein weißer Schilling. it. Ein Setznetze, Ein blenke. Fuer1650_70_1ms, 4018. 1. ‘baltais šiliņš (šiliņš – kopš 14. gs. sudraba monēta vairākās Eiropas valstīs; acīmredzot nosaukumā norāde uz sudraba gaišo krāsu)’. 2. ‘zvejas tīkls’. 3. ‘klajums mežā, meža pļava’. balts.

  6. BALTIŅŠ (latviešu valodas vārdnīcās) • ME (1. sēj., 1923–1925): ein weisses Pferd, gew. Ein altes, schwaches weisses Pferd • LLVV (2. sēj., 1973): Zirgs ar baltu vai ļoti gaišu apmatojumu (parasti neliels un ne visai spēcīgs) • LVV (1987): Zirgs ar baltu vai gaišpelēku spalvu • MLVV (2003–2008): Zirgs ar baltu vai gaišpelēku spalvu

  7. KORPUSS UN REPREZENTATIVITĀTE • Rakstīta teksta vai transkribētas runas kopums, ko izmanto valodas analīzē un aprakstā • Reprezentatīvs (runas transkribējumu un rakstītas valodas) tekstu masīvs mašīnlasāmā formā, kas ir atlasīti tā, lai tiktu pārstāvēti visi valodas funkcionālie stili un pēc iespējas plašāka tematika • valodas runātāju intuīcija un valodnieciskā pieredze • valodas funkcionālo stilu atspoguļojums • korpusā iekļauto tekstu autentiskums

  8. KĀPĒC VAJADZĪGS JAUNS ELEKTRONISKO RESURSU VEIDS? • Speciāla korpusa platforma, kas, efektīvi noindeksējot tekstus (marķētus/nemarķētus), sniedz papildu informāciju: • vārdformu indeksu • vārdformu (/pamatformu) biežumu sarakstu un pārklājumu korpusā • konkordances programma ļauj skatīt vārdformas apkaimi (kontekstu), kārtot pēc biežuma, L/K konteksta • vārdu savienojumu analīzi, gramatisko attieksmju analīzi

  9. LATVIEŠU VALODAS KORPUSA KONCEPCIJA (LU MII, 2005) • Latviešu valodas korpusa izveides nepieciešamības pamatojums, iespējamo problēmu un risinājumu raksturojums, priekšlikumi korpusu izveidei Latvijā • Citu valstu pieredzes analīze • Iespējamo korpusa lietotāju interešu un vajadzību noskaidrošana ar anketas palīdzību (saņemtas 76) • Korpusa izmantošanas iespēju raksturojums

  10. LATVIEŠU VALODAS KORPUSA KONCEPCIJA (LU MII, 2005) • Latviešu valodas programmatūras izveides principu piedāvājums • Autortiesību jautājums un iespējamie risinājumi • Korpusa sistēmas uzturēšana un paplašināšana • Latviešu valodas korpusa izveidei nepieciešamā laika plānojums un izmaksu aprēķins (minimālā un maksimālā programma)

  11. KORPUSA KONCEPCIJA • Korpusa veids un mērķis: tekstu izvēle, ieguve un apstrāde, metadatu sagatavošana • Autortiesības (korpusa izveide un korpusa izmantošana) • Valodas korpusa programmrīku nodrošinājums • Korpusa arhitektūra, administrēšana un uzturēšana

  12. KORPUSU IEDALĪJUMS • Statisks vs. dinamisks korpuss • reprezentativitāte un līdzsvarotība • korpusa apjoms (ne tikai vārdlietojumu skaits, bet arī teksta kategoriju apjoms; piemēru skaits izlasē) • Marķēts vs. nemarķēts korpuss • lai noskaidrotu kādu vārdu, pietiek ar strukturālo marķējumu • lai uzzinātu vairāk – svarīga ir korpusa pievienotā vērtība (morfoloģiskais, sintaktiskais, arī semantiskais marķējums)

  13. MŪSDIENU LATVIEŠU VALODAS KORPUSS:(www.korpuss.lv) 1 miljons vārdlietojumu (1991–2008)

  14. NEMARĶĒTS KORPUSS

  15. KORPUSS AR MORFOLOĢISKO MARĶĒJUMU(P.Bankovskis, Plāns ledus, 1998) no <Spg> no kabatas <Ncfsg4> kabata rēgojās <Vmyisii33san> rēgoties adītas <Vmnpdfsgpsn> adīt cepures <Ncfsg5> cepure stūris <Ncmsn2> stūris . viņš <Pp3msn> viņš to <Pdnfsa> tā pikti <Rpm> pikti iestūķēja <Vmnistp33san> iestūķēt dziļāk <Rcp> dziļāk

  16. KORPUSS AR MORFOLOĢISKO MARĶĒJUMU(P.Bankovskis, Plāns ledus, 1998)

  17. KORPUSS AR MORFOLOĢISKO MARĶĒJUMU(P.Bankovskis, Plāns ledus, 1998)

  18. KORPUSU IEDALĪJUMS • Runas vs. rakstītas valodas korpuss • Vispārīgs latviešu valodas korpuss vs. speciāls (izlokšņu; kāda funkcionālā stila; kādas konkrētas vecuma grupas korpuss; noteikta reģiona latviešu valodas korpuss; latviešu valodas apguvēju korpuss; noteikta laika perioda tekstu korpuss) • Sinhronisks vs. diahronisks korpuss • Vienvalodas vs. divu vai vairāku valodu korpuss • Multimodāls korpuss, kas apvieno tekstu, skaņu un attēlu

  19. MARĶĒJUMA VEIDI

  20. LATVIEŠU VALODAS KORPUSS: KAS MUMS JAU IR? • Pieredze valodas resursu uzkrāšanā elektroniskā veidā • Daudz nesistematizētu, nestrukturētu datu dažādās vietās • Izveidoti elektroniskie arhīvi, bibliotēkas, datu bāzes, tulkošanas atmiņas • Nelieli divvalodu paraugkorpusi pētniecības vajadzībām • Uzkrāti audiomateriāli (10 h politisko diskusiju ieraksti, runas analīzei sagatavots un 50 runātāju ielasīts teksts) • Izstrādāti programmrīki automātiskai audio ierakstu segmentēšanai teikumos, frāzēs vai vārdos (programma SKANDALIS) un atšifrētu audio ierakstu transkribēšanai

  21. LATVIEŠU VALODAS KORPUSS: KAS MUMS JAU IR? • Latviešu valodas seno tekstu korpuss (2003) arstrukturālo marķējumu (1milj. vārdl.) • Latviešu valodas korpusa koncepcija (2005) • Līdzsvarots, nemarķēts miljons vārdlietojumu liels mūsdienu latviešu valodas korpuss(ar VVA atbalstu, MII, 2007–2008):www.korpuss.lv • Neliels paraugkorpuss ar morfoloģisko marķējumu

  22. LATVIEŠU VALODAS KORPUSS: KAS MUMS JAU IR? • ES un citu starptautisko projektu laikā izveidotie korpusi, kuros iekļauti arī latviešu valodas dati (piem., JRC korpuss, Eur–Lex) • Nelielas iestrādes metadatu sagatavošanā, morfoloģisko (un sintaktisko) pazīmju izstrādē • Labas iestrādes automatizētu vai daļēji automatizētu anotēšanas rīku izstrādē

  23. LATVIEŠU VALODAS KORPUSS: KAS MUMS JAU IR?

  24. LATVIEŠU VALODAS KORPUSS: KAS NEPIECIEŠAMS? • 1 miljons vārdlietojumu pārbaudītu morfoloģiski marķētu tekstu • 20 000 teikumu ar sintaktisko marķējumu • 100 milj. vārdlietojumu liels mūsdienu latviešu valodas korpuss leksikogrāfu vajadzībām • Jaunu korpusu veidu izstrāde (katra jauna iniciatīva ir tikai apsveicama)

  25. LATVIEŠU VALODAS KORPUSS: KAS NEPIECIEŠAMS? • Metadatu sagatavošana un pēc iespējas vienota marķēšanas standarta izmantošana, lai nākotnē resursi būtu savietojami • Programmrīku izstrāde un pielāgošana latviešu valodas vajadzībām • Dažādu ar datu ieguvi un izplatīšanu saistītu jautājumu nokārtošana • Nacionālā korpusa izveide

  26. PALDIES PAR UZMANĪBU! JAUTĀJUMI?

More Related