160 likes | 300 Views
„ LIETUVIŲ KALBOS SINTAKSINĖS-SEMANTINĖS ANALIZĖS SISTEMA TEKSTYNUI, LIETUVIŠKAM INTERNETUI IR VIEŠOJO SEKTORIAUS TAIKYMAMS“ Nr . VP2-3.1-IVPK-12-K-01-007. Projekto pradžia: 2012-05-09 Planuojama projekto pabaiga: 2014-11 Planuojama trukmė: 30 mėn. Projekto biudžetas: didelis.
E N D
„LIETUVIŲ KALBOS SINTAKSINĖS-SEMANTINĖS ANALIZĖS SISTEMA TEKSTYNUI, LIETUVIŠKAM INTERNETUI IR VIEŠOJO SEKTORIAUS TAIKYMAMS“ Nr. VP2-3.1-IVPK-12-K-01-007 • Projekto pradžia: 2012-05-09 • Planuojama projekto pabaiga: 2014-11 • Planuojama trukmė: 30 mėn. • Projekto biudžetas: didelis
Projekto vykdytojai • Projekto vykdytojas: Vytauto Didžiojo universitetas • Lingvistiniai semantiniai ištekliai, įrankiai ir komponentai • dr. A. Utka, dr. D. Vitkutė-Adžgauskienė, dr. E. Rimkutė, dr. L. Boizou, dr. F. Zamblera, I. Markiewicz ir kiti • Projekto partneris: Kauno technologijos universitetas • Semantiniai ištekliai, įrankiai ir komponentai, informacinė sistema ir infrastruktūra • prof. R. Butleris, prof. L. Nemuraitė, dr. R. Butkienė ir kiti • Projekto vadovas: dr. Darius Amilevičius (VDU)
Ekonomikosaugimoveiksmųprogramos 3 prioriteto „INFORMACINĖ VISUOMENĖ VISIEMS“ įgyvendinimopriemonėsNr. VP2-3.1-IVPK-12-k „LIETUVIŲ KALBA INFORMACINĖJE VISUOMENĖJE“ antroji veiklų grupė – esamo lietuvių kalbos tekstyno papildymas; lietuvių kalbos sintaksinės-semantinės analizės priemonių ir jų pritaikymų kūrimas; lietuviškų interneto svetainių analizės sistemos ir jos pritaikymų kūrimas
Iš konkurso sąlygų: • Projekto vykdytojas ir partneris, įgyvendindami aprašo 4.2 punkte nurodytą antrąją veiklų grupę turi: • 94.1. sukurti interaktyvią elektroninę lietuvių rašytinės kalbos naujovių vartosenos paslaugą; • 94.2. sukurti priemones, pritaikytas teikti sintaksinės-semantinės analizės paslaugą su galimybe vykdyti semantinę paiešką esamuose gramatiškai anotuotuose tekstynuose ir analizuoti savo įvestus tekstus, atlikti lietuvių kalbos gramatinę analizę ir pasiūlyti sakinio formuluotes; • 94.3. sukurti sistemą, saugančią lietuvių kalbos ir analizės priemones ir rezultatus, pritaikytą analizuoti lietuviško turinio interneto svetainių turinį, atlikti pagal jį paiešką, palyginti tarpusavyje svetainėse esančius tekstus ir turinį, pateikti analizės rezultatus vartotojui priimtina forma
Kalbos technologijų padėties Lietuvoje problemos: • Nėra infrastruktūros • Nėra pakankamai įrankių • Nėra pakankamai išteklių • Nėra standartų • Nesutvarkyta teisinės bazės
Projekto esmė: Projekto įgyvendinimo metu bus sukurtos: I. Viešai interneto vartotojams prieinamos lietuvių rašytinės kalbos sintaksinės−semantinės analizės ir paieškos elektroninės paslaugos: 1. lietuviu rašytinės kalbos naujovių vartosenos paslauga; 2. sintaksinės-semantinės analizės paslauga; 3. lietuviškų svetainių turinio analizės ir paieškos paslauga; II. Taip pat lietuvių kalbos sintaksinės-semantinės analizės branduolio paslaugos: 4. morfologinės ir sintaksinės analizės paslauga; 5. lingvistinės semantinės analizės paslauga; 6. specialių sričių semantinės analizės ir paieškos paslauga. III. Paslaugoms teikti bus sukurta lietuvių kalbos sintaksinės ir semantinės analizės informacinė sistema, kuri prisidės prie nacionalinės lietuvių kalbos infrastrūkturos sukūrimo.
Projekto esmė: Projekto įgyvendinimo metu bus sukurtos: I. Viešai interneto vartotojams prieinamos lietuvių rašytinės kalbos sintaksinės−semantinės analizės ir paieškos elektroninės paslaugos: 1. lietuviu rašytinės kalbos naujovių vartosenos paslauga; 2. sintaksinės-semantinės analizės paslauga; 3. lietuviškų svetainių turinio analizės ir paieškos paslauga; II. Taip pat lietuvių kalbos sintaksinės-semantinės analizės branduolio paslaugos: 4. morfologinės ir sintaksinės analizės paslauga; 5. lingvistinės semantinės analizės paslauga; 6. specialių sričių semantinės analizės ir paieškos paslauga. III. Paslaugoms teikti bus sukurta lietuvių kalbos sintaksinės ir semantinės analizės informacinė sistema, kuri prisidės prie nacionalinės lietuvių kalbos infrastrūkturos sukūrimo.
Projekto esmė: 10 elektroninių sprendimų, kurie įgyvendinami sukuriant: 20 e-priemonių 9 ontologijas 9 saugyklas ir duomenų bazes Be to: Papildytas DLKT (50 mln. Žodžių) Sukurtas lietuviško interneto tekstynas (800 mln. Žodžių)
Projekto esmė (tikslinės auditorijos): Šios paslaugos ir sprendimai bus skirti tikslinėms vartotojų grupėms: 1. asmenys, vartojantys lietuviu rašytine kalba elektroninėje erdvėje; 2. viešojo ir privataus sektoriaus organizacijos; 3. taikomųjų kompiuterinių sprendimų ir elektroninių paslaugų, kuriuose naudojama sintaksinė-semantinė rašytinės lietuviu kalbos analizė, kurėjai. Taip pat šiomis paslaugomis ir sprendimais naudosis lietuvių kalbos ir semantikos mokslininkai ir tyrėjai, lietuvių kalbos lingvistinių ir semantinių išteklių kūrėjai.
Projekto įgyvendinimo dinamika I etapas: IS įteisinimas ir projektavimas (įvykdytas) II etapas: Prototipo konstravimas (50 proc.) III etapas: IS konstravimas, diegimas, parengimas eksploatacijai
Du lietuvių kalbos modeliai: • DLKT pildymas. Vyksta viso projekto eigoje. Siekis: papildyta 50 mln. Žodžių. Įvykdyta 45 proc. II. Interneto tekstynas ir interneto dokumentų saugykla. - Įgyvendinti komponentai: informacijos surinkimo posistemė (informacijos surinkimo robotas, interneto dokumentų saugykla) - Pabaigtas bandomasis kaupimas, pradėtas reguliarus kaupimas
II etapo metu kuriami komponentai (galutiniai variantai): Galutinės 8 komponentų versijos (10 su inf. surinkimo posisteme):
II etapo metu kuriami komponentai (prototipai): Prototipinės 15 komponentų versijos:
II etapo metu kuriami komponentai (prototipai): Prototipinės 11 komponentų versijos: 9 saugyklų, 2 duomenų bazių
II etapo metu kuriami komponentai (prototipai): Prototipinės 9 ontologijų versijos