300 likes | 510 Views
CLARIN projekts: sagatavošanas posma rezultāti un nākotnes ieceres. Inguna Skadiņa LU Matemātikas un informātikas institūts. Mērķi.
E N D
CLARIN projekts: sagatavošanas posma rezultāti un nākotnes ieceres Inguna Skadiņa LU Matemātikas un informātikas institūts
Mērķi • Izveidot integrētu, sadarbību veicinošu pētniecības infrastruktūru humanitāro un sociālo zinātņu pētnieku vajadzībām, kas ļautu viegli piekļūt un izmantot valodas resursus un tehnoloģijas • Novērst pašreizējo sadrumstalotību un piedāvāt stabilu, pastāvīgu un paplašināmu infrastruktūru
Iniciatīva apvieno 189 organizācijas no 33 valstīm • 7. ietvarprogrammas infrastruktūru apakšprogrammas projekts sagatavošanas posmam ar 36 partneriem • 3 posmi: • sagatavošanas posms (2008–2011) CLARIN organizācijas izveide, plānošana, prototipa izveide • izveides posms (2011–2015) CLARIN infrastruktūras izveide un piepildīšana ar resursiem un rīkiem • izmantošanas posms (2016–) CLARIN ir izmantojams kā pakalpojums
Mērķis - • valodas resursu un rīku savietojamības nodrošināšana, novēršot sadrumstalotību un nesavietojamību • ilgtermiņā - kritiskās masas sasniegšana
Galvenie rezultāti (1) • ES projekta līmenī - CLARIN tehniskās infrastruktūras specificēšana un prototipa izveide • Vienošanās par kopīgiem metadatu standartiem: • IsoCat - latviski iztulkota ISOcat standarta sadaļa Metadati, tiek definētas datu kategorijas sadaļai Morfosintakse • MultextEast - izveidota optimāla latviešu valodas morfosintaktisko pazīmju kopa
Galvenie rezultāti (2) • Standartizētu tīmekļa pakalpju izveide LU MII latviešu valodas resursiem un rīkiem: • morfoloģiskajam analizatoram un sintezatoram • teksta dalītājam teikumos un vārdlietojumos • statistiskajam morfoloģiskajam marķētājam • runas sintezatoram • mašīnlasāmai Latviešu literārās valodas vārdnīcai (LLVV) • Latviešu valodas rīkus integrācija valodas resursu un rīku tīmekļa pakalpju sistēmā WebLicht
Galvenie rezultāti (3) • LUMII valodas resursu serveris reģistrēts Latvijas Akadēmisko identitāšu un pakalpojumu sniedzēju federācijā LAIFE • CLARIN centru izveides un uzturēšanas izmaksu novērtēšana (D2R-9b Cost Estimates - v2)
Mērķis – noskaidrot, kādas ir humanitāro zinātņu vajadzības attiecībā uz valodas resursiem un tehnoloģijām kā pētniecisko infrastruktūru • Esošo un iepriekšējo humanitāro zinātņu projektu apzināšana un analīze: • kādas ir vajadzības • kā pašlaik humanitārajās un sociālajās zinātnēs tiek lietoti valodas resursi un tehnoloģijas • kā tiek lietota mūsdienīga pētniecības infrastruktūra • kādi ir pašreizējie trūkumi un kā tos varētu novērst
Lietotāju apmācība – praktiskie semināri • Praktiskie semināri par latviešu valodas tekstu korpusu un tekstu marķēšanas rīka izmantošanu • Praktiskie semināri par runas datu transkribēšanu un marķēšanu • Dažādas auditorijas, t.sk. humanitāro zinātņu doktorantūras skolas studenti, pētnieki • Semināra dalībnieku ierosinājumi tiek izmantoti valodas resursu un rīku pilnveidošanai • Semināru materiāli pieejami tiešsaistē www.clarin.lv mājaslapā
Galvenie uzdevumi • Inventarizēt galvenos valodas resursus (t.sk. korpusus) un apstrādes rīkus (lemmatizators, morfoloģiskais analizators, vārdšķiru noteicējs, sintaktiskais analizators, īpašvārdu, akronīmu u.tml. noteicējs) • Izveidot valodas resursu un apstrādes rīku taksonomiju • Noteikt kritērijus valodas resursu un rīku kvalitātes novērtēšanai • Iezīmēt veidus, kā valodas resursus un rīkus integrēt vienotā infrastruktūrā
Valodas resursu un rīku pārskats • Mērķis – apzināt valodas resursus un tehnoloģijas, noteikt valodai nepieciešamos pamatresursus un rīkus, kā arī izstrādāt stratēģiju trūkstošo rīku un resursu izveidei • CLARIN valodas resursu un rīku krātuvē reģistrēti: • 822 valodas resursi, no tiem 35 latviešu valodas resursi (4%) • 231 rīks, no tiem 9 latviešu valodai (3,8%)
Resursu un rīku pārskats Latvijā www.clarin.lv
Valodai nepieciešamie pamatresursi un rīki • Noteikt minimālo nepieciešamo valodas resursu kopu, lai varētu veikt sociālo un humanitāro zinātņu pētījumus pēc iespējas vairāk valodās • Ziņot par katras valodas situāciju valodas resursu infrastruktūrā • Noskaidrot, kādu svarīgu resursu trūkst attiecīgajai valodai, un meklēt iespējas tos izveidot • Noteikt kritērijus, kā izvērtēt valodas resursu un rīku kvalitāti
Citi rezultāti • Ziņojums par valodas resursu integrāciju tīmekļa pakalpojumu infrastruktūrā (D5C-2 Integration of LR into web service infrastructure) • Ziņojums par sadarbspēju un standartiem (D5C-3 Interoperability and Standarts Report) • Viseiropas rīcības plāns trūkstošo valodas resursu un rīku izveidei (M5R-4.1 Pan-European Action plan to fill LRT gaps)
Intelektuālā īpašuma un juridisko jautājumu izpēte valodas resursiem un rīkiem: • CLARIN rīku un resursu parauglīgumi • CLARIN licenču klasifikācijas vadlīnijas • CLARIN Sākotnējais Autorizācijas un autentifikācijas shēmas plāns • CLARIN infrastruktūras juridiskā un organizatoriskā izveide: darbs pie CLARIN-ERIC (European Research Infrastructure Consortium)
Valstis, kas parakstījušas CLARIN-ERIC saprašanās memorandu (Memorandum of understanding)
Secinājumi un nākotnes ieceres (1) • Latvijā paveiktais CLARIN sagatavošanas posmā atbilst plānotajam un ir pietiekams, lai Latvija varētu turpināt CLARIN infrastruktūras izveidi • CLARIN infrastruktūras izveide Eiropas līmenī plānota kā CLARIN ERIC • Iesaistīšanās CLARIN ERIC pašlaik nenodrošina latviešu valodai trūkstošo resursu un rīku izveidi, bet ļautu izmantot infrastruktūrā iekļautos valodas resursus un rīkus
Secinājumi un nākotnes ieceres (2) Līdztekus darbībai CLARIN ERIC Latvijā ir būtiski • izveidot Nacionālo CLARIN tīklu, apvienojot valodas resursu un rīku veidotājus, uzturētājus un akadēmiskos lietotājus • izveidot Valodu resursu un tehnoloģiju pētniecisko programmu, kas ilgtermiņā nodrošinātusaskaņotu valodas resursu un rīku izveidi • iekļaut datorlingvistikas kursu gan valodniecības, gan datorzinātņu programmā • turpināt CLARIN Nacionālās konsultatīvās padomes darbu, lai nodrošinātu CLARIN harmonisku realizāciju