290 likes | 564 Views
Latviešu valodas korpusa koncepcija. Everita Andronova LU Matemātikas un informātikas institūts everita.andronova@lumii.lv CLARIN projekta un Nacionālā korpusa seminārs 2008. gada 3. novembris. KORPUSA PRIEKŠROCĪBAS. Korpuss ļauj pētīt reālu valodu un tās lietojumu
E N D
Latviešu valodas korpusa koncepcija Everita Andronova LU Matemātikas un informātikas institūts everita.andronova@lumii.lv CLARIN projekta un Nacionālā korpusa seminārs 2008. gada 3. novembris
KORPUSA PRIEKŠROCĪBAS • Korpuss ļauj pētīt reālu valodu un tās lietojumu • Atskats vēsturē: jebkurš dzimtās valodas runātājs 10minūšu laikā var izdomāt vairāk piemēru par jebkuru gramatikas jautājumu, nekā iespējams atrast nejaušu tekstu daudzajos vārdlietojumos • Neviens korpuss nesaturēs visu informāciju par man interesējošiem valodas jautājumiem; pat neliels korpuss palīdz iegūt faktus, ko nekādā citā veidā nebūtu iespējams uzzināt
KĀPĒC LATVIEŠU VALODAI VAJADZĪGS KORPUSS? • Jo vairāk labāku datu par latviešu valodu, jo kvalitatīvākas zināšanas, ko izmanto valodas apstrādes tehnoloģijas • Agrāk meklējām nezināmos vārdus vārdnīcā, tagad Google meklētājā • Runas datu izmantošana GPS, dialoga sistēmās, teksta nolasīšana no ekrāna • Pilnīga valodas izpēte un pilnvērtīga attīstība nākotnē • Mūsdienu lietuviešu valodas korpuss (100milj. vārdliet. donelaitis.vdu.lt),Krievu valodas nacionālais korpuss (150milj. vārdliet. www.ruscorpora.ru), Igauņu valodas korpuss (95milj. vārdliet. http://www.cl.ut.ee/korpused/)
KORPUSA IZMANTOŠANA • Gramatikas un citu valodniecības jautājumu izpētē • Leksikogrāfijā • Terminoloģijas izstrādē • Valodas mācīšanā • Tulkošanas studijās un tulku apmācībā, mašīntulkošanā • Dabīgās valodas apstrādē (morfoloģijas, sintakses daudznozīmības risinājumi), informācijas izguvē, precedenta mašīnmācīšanās • Psiholingvistikā, sociolingvistikā, tiesu ekspertīzēs • Humanitārajās zinātnēs vispār
BALTIŅŠ (www.ailab.lv/SENIE) baltiņš (1) s. m. baltiņsch (1) Baltiņsch Ein weißer Schilling. it. Ein Setznetze, Ein blenke. Fuer1650_70_1ms, 4018. 1. ‘baltais šiliņš (šiliņš – kopš 14. gs. sudraba monēta vairākās Eiropas valstīs; acīmredzot nosaukumā norāde uz sudraba gaišo krāsu)’. 2. ‘zvejas tīkls’. 3. ‘klajums mežā, meža pļava’. balts.
BALTIŅŠ (latviešu valodas vārdnīcās) • ME (1. sēj., 1923–1925): ein weisses Pferd, gew. Ein altes, schwaches weisses Pferd • LLVV (2. sēj., 1973): Zirgs ar baltu vai ļoti gaišu apmatojumu (parasti neliels un ne visai spēcīgs) • LVV (1987): Zirgs ar baltu vai gaišpelēku spalvu • MLVV (2003–2008): Zirgs ar baltu vai gaišpelēku spalvu
KORPUSS UN REPREZENTATIVITĀTE • Rakstīta teksta vai transkribētas runas kopums, ko izmanto valodas analīzē un aprakstā • Reprezentatīvs (runas transkribējumu un rakstītas valodas) tekstu masīvs mašīnlasāmā formā, kas ir atlasīti tā, lai tiktu pārstāvēti visi valodas funkcionālie stili un pēc iespējas plašāka tematika • valodas runātāju intuīcija un valodnieciskā pieredze • valodas funkcionālo stilu atspoguļojums • korpusā iekļauto tekstu autentiskums
KĀPĒC VAJADZĪGS JAUNS ELEKTRONISKO RESURSU VEIDS? • Speciāla korpusa platforma, kas, efektīvi noindeksējot tekstus (marķētus/nemarķētus), sniedz papildu informāciju: • vārdformu indeksu • vārdformu (/pamatformu) biežumu sarakstu un pārklājumu korpusā • konkordances programma ļauj skatīt vārdformas apkaimi (kontekstu), kārtot pēc biežuma, L/K konteksta • vārdu savienojumu analīzi, gramatisko attieksmju analīzi
LATVIEŠU VALODAS KORPUSA KONCEPCIJA (LU MII, 2005) • Latviešu valodas korpusa izveides nepieciešamības pamatojums, iespējamo problēmu un risinājumu raksturojums, priekšlikumi korpusu izveidei Latvijā • Citu valstu pieredzes analīze • Iespējamo korpusa lietotāju interešu un vajadzību noskaidrošana ar anketas palīdzību (saņemtas 76) • Korpusa izmantošanas iespēju raksturojums
LATVIEŠU VALODAS KORPUSA KONCEPCIJA (LU MII, 2005) • Latviešu valodas programmatūras izveides principu piedāvājums • Autortiesību jautājums un iespējamie risinājumi • Korpusa sistēmas uzturēšana un paplašināšana • Latviešu valodas korpusa izveidei nepieciešamā laika plānojums un izmaksu aprēķins (minimālā un maksimālā programma)
KORPUSA KONCEPCIJA • Korpusa veids un mērķis: tekstu izvēle, ieguve un apstrāde, metadatu sagatavošana • Autortiesības (korpusa izveide un korpusa izmantošana) • Valodas korpusa programmrīku nodrošinājums • Korpusa arhitektūra, administrēšana un uzturēšana
KORPUSU IEDALĪJUMS • Statisks vs. dinamisks korpuss • reprezentativitāte un līdzsvarotība • korpusa apjoms (ne tikai vārdlietojumu skaits, bet arī teksta kategoriju apjoms; piemēru skaits izlasē) • Marķēts vs. nemarķēts korpuss • lai noskaidrotu kādu vārdu, pietiek ar strukturālo marķējumu • lai uzzinātu vairāk – svarīga ir korpusa pievienotā vērtība (morfoloģiskais, sintaktiskais, arī semantiskais marķējums)
MŪSDIENU LATVIEŠU VALODAS KORPUSS:(www.korpuss.lv) 1 miljons vārdlietojumu (1991–2008)
KORPUSS AR MORFOLOĢISKO MARĶĒJUMU(P.Bankovskis, Plāns ledus, 1998) no <Spg> no kabatas <Ncfsg4> kabata rēgojās <Vmyisii33san> rēgoties adītas <Vmnpdfsgpsn> adīt cepures <Ncfsg5> cepure stūris <Ncmsn2> stūris . viņš <Pp3msn> viņš to <Pdnfsa> tā pikti <Rpm> pikti iestūķēja <Vmnistp33san> iestūķēt dziļāk <Rcp> dziļāk
KORPUSS AR MORFOLOĢISKO MARĶĒJUMU(P.Bankovskis, Plāns ledus, 1998)
KORPUSS AR MORFOLOĢISKO MARĶĒJUMU(P.Bankovskis, Plāns ledus, 1998)
KORPUSU IEDALĪJUMS • Runas vs. rakstītas valodas korpuss • Vispārīgs latviešu valodas korpuss vs. speciāls (izlokšņu; kāda funkcionālā stila; kādas konkrētas vecuma grupas korpuss; noteikta reģiona latviešu valodas korpuss; latviešu valodas apguvēju korpuss; noteikta laika perioda tekstu korpuss) • Sinhronisks vs. diahronisks korpuss • Vienvalodas vs. divu vai vairāku valodu korpuss • Multimodāls korpuss, kas apvieno tekstu, skaņu un attēlu
LATVIEŠU VALODAS KORPUSS: KAS MUMS JAU IR? • Pieredze valodas resursu uzkrāšanā elektroniskā veidā • Daudz nesistematizētu, nestrukturētu datu dažādās vietās • Izveidoti elektroniskie arhīvi, bibliotēkas, datu bāzes, tulkošanas atmiņas • Nelieli divvalodu paraugkorpusi pētniecības vajadzībām • Uzkrāti audiomateriāli (10 h politisko diskusiju ieraksti, runas analīzei sagatavots un 50 runātāju ielasīts teksts) • Izstrādāti programmrīki automātiskai audio ierakstu segmentēšanai teikumos, frāzēs vai vārdos (programma SKANDALIS) un atšifrētu audio ierakstu transkribēšanai
LATVIEŠU VALODAS KORPUSS: KAS MUMS JAU IR? • Latviešu valodas seno tekstu korpuss (2003) arstrukturālo marķējumu (1milj. vārdl.) • Latviešu valodas korpusa koncepcija (2005) • Līdzsvarots, nemarķēts miljons vārdlietojumu liels mūsdienu latviešu valodas korpuss(ar VVA atbalstu, MII, 2007–2008):www.korpuss.lv • Neliels paraugkorpuss ar morfoloģisko marķējumu
LATVIEŠU VALODAS KORPUSS: KAS MUMS JAU IR? • ES un citu starptautisko projektu laikā izveidotie korpusi, kuros iekļauti arī latviešu valodas dati (piem., JRC korpuss, Eur–Lex) • Nelielas iestrādes metadatu sagatavošanā, morfoloģisko (un sintaktisko) pazīmju izstrādē • Labas iestrādes automatizētu vai daļēji automatizētu anotēšanas rīku izstrādē
LATVIEŠU VALODAS KORPUSS: KAS NEPIECIEŠAMS? • 1 miljons vārdlietojumu pārbaudītu morfoloģiski marķētu tekstu • 20 000 teikumu ar sintaktisko marķējumu • 100 milj. vārdlietojumu liels mūsdienu latviešu valodas korpuss leksikogrāfu vajadzībām • Jaunu korpusu veidu izstrāde (katra jauna iniciatīva ir tikai apsveicama)
LATVIEŠU VALODAS KORPUSS: KAS NEPIECIEŠAMS? • Metadatu sagatavošana un pēc iespējas vienota marķēšanas standarta izmantošana, lai nākotnē resursi būtu savietojami • Programmrīku izstrāde un pielāgošana latviešu valodas vajadzībām • Dažādu ar datu ieguvi un izplatīšanu saistītu jautājumu nokārtošana • Nacionālā korpusa izveide
PALDIES PAR UZMANĪBU! JAUTĀJUMI?