170 likes | 366 Views
Daudzvalodu korpusa un mašīntulkošanas infrastruktūras izveide e-pakalpojumu pieejamības nodrošināšanai. Darb ības koncepcijas apraksts. Projekta mērķi. nodrošināt latviešu valodas ilgtspēju un attīstību informācijas sabiedrībā;
E N D
Daudzvalodu korpusa un mašīntulkošanas infrastruktūras izveide e-pakalpojumu pieejamības nodrošināšanai Darbības koncepcijas apraksts
Projekta mērķi • nodrošināt latviešu valodas ilgtspēju un attīstību informācijas sabiedrībā; • atvieglot Latvijas iedzīvotājiem un uzņēmējiem pieeju ES dalībvalstu un institūciju informācijai; • iekļauties ES daudzvalodu pakalpojumu infrastruktūras attīstībā; • nodrošināt e-Pārvaldes pakalpojumu pieejamību visām iedzīvotāju grupām neatkarīgi no to valodas zināšanām.
Esošā situācija • nav pietiekama latviešu valodas ilgtspējīga atbalsta informācijas sabiedrībā; • ES dalībvalstu un institūciju informācija pārsvarā pieejama “lielajās” valodās; • Latvijas E-pakalpojumi un to apraksti ir pieejami latviešu valodā; • trešo pušu izstrādātie rīki ir ar būtiskiem trūkumiem.
Kāpēc neder esošie mašīntulki(Google Translate, Bing Translate, Tildes Tulkotājs utml.) • nenodrošina tulkojamo materiālu konfidencialitāti; • nenodrošina personas datu aizsardzību ePārvaldes pakalpojumos tiek apstrādāti un atspoguļoti personas dati; • E-Pārvaldes vajadzībām nepietiekoša tulkošanas kvalitāte piem., Google Translate ir vispārīgs tulkotājs, kas nav pietiekoši kvalitatīvs (latviešu-angļu BLEU tikai 33,2%) un nav adaptēts valsts pārvaldes tekstiem; • Google Translate un Bing Translator tulko caur angļu valodutā rezultātā latviešu-krievu tulkojums ir ļoti nekvalitatīvs, jo summējas kļūdas, tulkojot vispirms uz angļu un tad uz krievu valodu; • publiskie tulkotāji bez maksas izmantojami tikai ļoti ierobežotā veidā to tīmekļa vietnēs. Lai tos iekļautu citos risinājumos, kā ePārvaldes pakalpojumi, tie jāiegādājas kā maksas pakalpojums.
MT sistēmu izveidei • Statistisko MT sistēmu izveidei un darbināšanai nepieciešams • liela apjoma Paralēlais korpuss • liela apjoma Monolingvālais korpuss • rīki sistēmu trenēšanai • rīki sistēmu darbināšanai • valodas specifiski rīki, piemēram, morfoloģiskie analizatori u.tml.
Projekta uzdevumi • izveidot valodas korpusus; • izveidot e-Pārvaldes mērķiem pielāgotu mašīntulkošanas sistēmu angļu, latviešu un krievu valodu tulkošanai: Latviešu – Angļu Latviešu – Krievu Angļu – Latviešu • izveidot servisa darbināšanai nepieciešamo tehnisko infrastruktūru
Rīki statistisko MT sistēmu izstrādei un darbināšanai • MT izstrādi paredzēts balstīt uz atvērtā koda rīku izmantošanu, piemēram, MOSES rīkkopu; • MT atvērtā koda rīki sistēmai nepieciešamajām veiktstpējas, stabilitātes un mērogojamības prasībām; • kvalitatīvas MT izveidei rīki īpaši jāpielāgo latviešu valodai, konkrētajiem tulkošanas virzieniem un ePārvaldes jomas specifikai; • jāizveido saskarnes (API) integrācijas nodrošināšanai ar citām sistēmām.
Integrēšana citos servisos • tulkošanas servisa mājaslapa, kurā lietotāji var tulkot tekstus; • rīklogs (widget) integrēšanai ePārvaldes pakalpojumu tīmekļa lapās; • nepieciešams standartizēts interfeiss (API), lai to var integrēt jebkurā citā ePārvaldes pakalpojumā.
Latviešu valodas nacionālais korpuss • veidos datorizētu latviešu rakstu valodas krājumu, kas atspoguļos mūsdienu latviešu valodu un tās vēsturisko attīstību; • priekšnoteikums mašīntulkotāja izstrādei; • nepieciešams latviešu valodas datortehnoloģiju izstrādei, vārdnīcu izveidei, pētniecībai un attīstībai; • nacionālie korpusi jau izveidoti daudzām valodām, piemēram, čehu, poļu, horvātu, ungāru, krievu, slovēņu u.c.
Projekta sagaidāmie ieguvumi • projekts nodrošinās e-pakalpojumu pieejamību visām iedzīvotāju grupām neatkarīgi no to valodu zināšanām - gan Latvijas iedzīvotājiem, gan nepilsoņiem, gan ārzemniekiem; • projekts veicinās ārvalstu uzņēmēju, studentu, izglītības, zinātnes un kultūras darbinieku piekļuvi informācijai parLatviju, valsts pārvaldi un tās darbību; • mašīntulkojums padarīs pasaulei pieejamas Latvijas kultūras vērtības, padarot kultūras un atmiņas institūciju digitālos krājumus pieejamus citās valodās; • projekts nepieciešams latviešu valodas attīstībai un nostiprināšanai mūsdienu pasaulē, kur valodas digitālais nodrošinājums ir priekšnoteikums tās ilgtspējai; • projekts ir veids, kā latviešu valodas pētniecībai un attīstībai piesaistīt ES līdzekļus.
Projekta sagaidāmie ieguvumi • mašīntulkojums palīdzēs ārvalstu uzņēmumiem veikt uzņēmējdarbību un investīcijasLatvijā; • projekts Latvijas iedzīvotājiem atvieglos pieeju citu ES valstu informācijai, palīdzēs nodrošināt to tiesību aizsardzību, strādājot vai mācoties citās ES dalībvalstīs; • Latviešu-krievu mašīntulkošanas izmantošana elektroniskajos informācijas resursos mazinās informatīvo telpu nošķirtību, kura nodala to krieviski runājošo iedzīvotāju daļu, kas nepietiekoši pārvalda latviešu valodu; • projekts palīdzēs valsts pārvaldes darbiniekiem, kas nepietiekami pārvalda krievu vai angļu valodu, tikt galā ar iedzīvotāju vēstulēm un dokumentiem pat tad, ja tie iesniegti svešvalodā; • projekts pavērs iespēju iekļauties ES digitālo pakalpojumu infrastruktūrā un izmantot ES finansējumu tās tālākai uzturēšanai un attīstībai.
Iekļaušanās CEF programmā • Eiropas Komisija sagatavojusi jaunu digitālo pakalpojumu finansēšanas modeli - Eiropas infrastruktūras savienošanas instrumentu (CEF – Connecting Europe Facility) 2014.-2020.gadam; • kopējais finansējums 50 miljardi EUR; • ietver sadaļu par pieejas nodrošināšanu publiskā sektora informācijai un daudzvalodu pakalpojumiem; • vienotā infrastruktūrā tiks saslēgtas nacionālo valodu mašīntulkošanas sistēmas un citi valodu tehnoloģiju pakalpojumi; • mašīntulkošanas infrastruktūras izveide Latvijā sniegs iespēju iekļauties ES digitālo pakalpojumu infrastruktūras pirmajā kārtā un izmantot ES finansējumu tās tālākai uzturēšanai un attīstībai.