1 / 17

Darb ības koncepcijas apraksts

Daudzvalodu korpusa un mašīntulkošanas infrastruktūras izveide e-pakalpojumu pieejamības nodrošināšanai. Darb ības koncepcijas apraksts. Projekta mērķi. nodrošināt latviešu valodas ilgtspēju un attīstību informācijas sabiedrībā;

adolph
Download Presentation

Darb ības koncepcijas apraksts

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Daudzvalodu korpusa un mašīntulkošanas infrastruktūras izveide e-pakalpojumu pieejamības nodrošināšanai Darbības koncepcijas apraksts

  2. Projekta mērķi • nodrošināt latviešu valodas ilgtspēju un attīstību informācijas sabiedrībā; • atvieglot Latvijas iedzīvotājiem un uzņēmējiem pieeju ES dalībvalstu un institūciju informācijai; • iekļauties ES daudzvalodu pakalpojumu infrastruktūras attīstībā; • nodrošināt e-Pārvaldes pakalpojumu pieejamību visām iedzīvotāju grupām neatkarīgi no to valodas zināšanām.

  3. Esošā situācija • nav pietiekama latviešu valodas ilgtspējīga atbalsta informācijas sabiedrībā; • ES dalībvalstu un institūciju informācija pārsvarā pieejama “lielajās” valodās; • Latvijas E-pakalpojumi un to apraksti ir pieejami latviešu valodā; • trešo pušu izstrādātie rīki ir ar būtiskiem trūkumiem.

  4. Kāpēc neder esošie mašīntulki(Google Translate, Bing Translate, Tildes Tulkotājs utml.) • nenodrošina tulkojamo materiālu konfidencialitāti; • nenodrošina personas datu aizsardzību ePārvaldes pakalpojumos tiek apstrādāti un atspoguļoti personas dati; • E-Pārvaldes vajadzībām nepietiekoša tulkošanas kvalitāte piem., Google Translate ir vispārīgs tulkotājs, kas nav pietiekoši kvalitatīvs (latviešu-angļu BLEU tikai 33,2%) un nav adaptēts valsts pārvaldes tekstiem; • Google Translate un Bing Translator tulko caur angļu valodutā rezultātā latviešu-krievu tulkojums ir ļoti nekvalitatīvs, jo summējas kļūdas, tulkojot vispirms uz angļu un tad uz krievu valodu; • publiskie tulkotāji bez maksas izmantojami tikai ļoti ierobežotā veidā to tīmekļa vietnēs. Lai tos iekļautu citos risinājumos, kā ePārvaldes pakalpojumi, tie jāiegādājas kā maksas pakalpojums.

  5. MT sistēmu izveidei • Statistisko MT sistēmu izveidei un darbināšanai nepieciešams • liela apjoma Paralēlais korpuss • liela apjoma Monolingvālais korpuss • rīki sistēmu trenēšanai • rīki sistēmu darbināšanai • valodas specifiski rīki, piemēram, morfoloģiskie analizatori u.tml.

  6. Projekta uzdevumi • izveidot valodas korpusus; • izveidot e-Pārvaldes mērķiem pielāgotu mašīntulkošanas sistēmu angļu, latviešu un krievu valodu tulkošanai: Latviešu – Angļu Latviešu – Krievu Angļu – Latviešu • izveidot servisa darbināšanai nepieciešamo tehnisko infrastruktūru

  7. Rīki statistisko MT sistēmu izstrādei un darbināšanai • MT izstrādi paredzēts balstīt uz atvērtā koda rīku izmantošanu, piemēram, MOSES rīkkopu; • MT atvērtā koda rīki sistēmai nepieciešamajām veiktstpējas, stabilitātes un mērogojamības prasībām; • kvalitatīvas MT izveidei rīki īpaši jāpielāgo latviešu valodai, konkrētajiem tulkošanas virzieniem un ePārvaldes jomas specifikai; • jāizveido saskarnes (API) integrācijas nodrošināšanai ar citām sistēmām.

  8. Integrēšana citos servisos • tulkošanas servisa mājaslapa, kurā lietotāji var tulkot tekstus; • rīklogs (widget) integrēšanai ePārvaldes pakalpojumu tīmekļa lapās; • nepieciešams standartizēts interfeiss (API), lai to var integrēt jebkurā citā ePārvaldes pakalpojumā.

  9. Risinājuma arhitektūra

  10. Projektā nepieciešamie korpusi un to apjoma novērtējums

  11. Latviešu valodas nacionālais korpuss • veidos datorizētu latviešu rakstu valodas krājumu, kas atspoguļos mūsdienu latviešu valodu un tās vēsturisko attīstību; • priekšnoteikums mašīntulkotāja izstrādei; • nepieciešams latviešu valodas datortehnoloģiju izstrādei, vārdnīcu izveidei, pētniecībai un attīstībai; • nacionālie korpusi jau izveidoti daudzām valodām, piemēram, čehu, poļu, horvātu, ungāru, krievu, slovēņu u.c.

  12. Projekta sagaidāmie ieguvumi • projekts nodrošinās e-pakalpojumu pieejamību visām iedzīvotāju grupām neatkarīgi no to valodu zināšanām - gan Latvijas iedzīvotājiem, gan nepilsoņiem, gan ārzemniekiem; • projekts veicinās ārvalstu uzņēmēju, studentu, izglītības, zinātnes un kultūras darbinieku piekļuvi informācijai parLatviju, valsts pārvaldi un tās darbību; • mašīntulkojums padarīs pasaulei pieejamas Latvijas kultūras vērtības, padarot kultūras un atmiņas institūciju digitālos krājumus pieejamus citās valodās; • projekts nepieciešams latviešu valodas attīstībai un nostiprināšanai mūsdienu pasaulē, kur valodas digitālais nodrošinājums ir priekšnoteikums tās ilgtspējai; • projekts ir veids, kā latviešu valodas pētniecībai un attīstībai piesaistīt ES līdzekļus.

  13. Projekta sagaidāmie ieguvumi • mašīntulkojums palīdzēs ārvalstu uzņēmumiem veikt uzņēmējdarbību un investīcijasLatvijā; • projekts Latvijas iedzīvotājiem atvieglos pieeju citu ES valstu informācijai, palīdzēs nodrošināt to tiesību aizsardzību, strādājot vai mācoties citās ES dalībvalstīs; • Latviešu-krievu mašīntulkošanas izmantošana elektroniskajos informācijas resursos mazinās informatīvo telpu nošķirtību, kura nodala to krieviski runājošo iedzīvotāju daļu, kas nepietiekoši pārvalda latviešu valodu; • projekts palīdzēs valsts pārvaldes darbiniekiem, kas nepietiekami pārvalda krievu vai angļu valodu, tikt galā ar iedzīvotāju vēstulēm un dokumentiem pat tad, ja tie iesniegti svešvalodā; • projekts pavērs iespēju iekļauties ES digitālo pakalpojumu infrastruktūrā un izmantot ES finansējumu tās tālākai uzturēšanai un attīstībai.

  14. Iekļaušanās CEF programmā • Eiropas Komisija sagatavojusi jaunu digitālo pakalpojumu finansēšanas modeli - Eiropas infrastruktūras savienošanas instrumentu (CEF – Connecting Europe Facility) 2014.-2020.gadam; • kopējais finansējums 50 miljardi EUR; • ietver sadaļu par pieejas nodrošināšanu publiskā sektora informācijai un daudzvalodu pakalpojumiem; • vienotā infrastruktūrā tiks saslēgtas nacionālo valodu mašīntulkošanas sistēmas un citi valodu tehnoloģiju pakalpojumi; • mašīntulkošanas infrastruktūras izveide Latvijā sniegs iespēju iekļauties ES digitālo pakalpojumu infrastruktūras pirmajā kārtā un izmantot ES finansējumu tās tālākai uzturēšanai un attīstībai.

  15. Plānotās izmaksas

  16. Paldies par uzmanību!

More Related