210 likes | 378 Views
CLARIN Latvijā: paveiktais, ieceres un uzdevumi. Inguna Skadiņa LU Matemātikas un informātikas institūts. Mērķi. izveidot integrētu, sadarbību veicinošu pētniecības infrastruktūru, kas ļautu viegli piekļūt un izmantot valodas resursus un tehnoloģijas
E N D
CLARIN Latvijā:paveiktais, ieceres un uzdevumi Inguna Skadiņa LU Matemātikas un informātikas institūts
Mērķi • izveidot integrētu, sadarbību veicinošu pētniecības infrastruktūru, kas ļautu viegli piekļūt un izmantot valodas resursus un tehnoloģijas • novērst pašreizējo sadrumstalotību un piedāvāt stabilu, pastāvīgu un paplašināmu infrastruktūru
3 fāzes: • sagatavošanas fāze (2008-2010) CLARIN organizācijas izveide, plānošana, prototipa izveide • izveides fāze (2011-2015) CLARIN izveide un piepildīšana ar resursiem un rīkiem • izmantošanas fāze (2016 - ) CLARIN ir izmantojams kā serviss
Valodas resursi un tehnoloģijas Dažādi avoti, kas izmanto runāto vai rakstīto valodu un rīkus un darbojas ar šo valodas materiālu, t. sk. • visa veida teksti, t. sk. senie teksti, interneta lapas, laikraksti, grāmatas u. c. • audio un video ieraksti • dažāda veida automātiski un manuāli marķēti resursi • rīki sastatītāji, runas atpazinēji, morfoloģiskās analīzes rīki, parsētāji u. c. • dažāda veida zināšanu avoti, kas ietver zināšanas par resursiem un valodām, piem., ontoloģijas, leksika, metadatu apraksti
CLARIN nacionālās iniciatīvas CLARIN DK – CLARIN Dānijā, mērķis izveidot dāņu pētniecības infrastruktūru humanitāro zinātņu vajadzībām, integrējot rakstītos, runātos un vizuālos ierakstus saskaņotā un sistēmiskā digitālā krātuvē D-Spin – CLARIN Vācijā, galvenā uzmanība pievērsta humanitārajām zinātnēm kā lietotājam, mācību procesam un jaunu resursu izveidei FIN-CLARIN – CLARIN Somijā, mērķis izveidot CLARIN savienojamu infrastruktūru Somijā, nodrošinot somu zinātniekiem iespēju uzmantot Eiropas CLARIN resursus un Eiropas zinātniekiem – Somijas resursus CLARIN Igaunijā notiek kopā ar Valsts programmu valodu tehnoloģijās
CLARIN Latvijā CLARIN Latvijā – www.clarin.lv, e-pasts: info@clarin.lv Aktivitātes Latvijā ir saskaņotas ar kopējām projekta aktivitātēm un ir atbilstoši nacionālie pasākumi CLARIN mērķu sasniegšanai Pašlaik divi aktīvi biedri: LU MII un Tilde Organizācijām iespējams kļūt par CLARIN biedru, reģistrējoties www.clarin.eu
Galvenie darba virzieni Latvijā • WP2 Tehniskā infrastruktūra – CLARIN tehniskās infrastruktūras specificēšana, projektēšana un prototipa izstrāde • WP3 Humanitāro zinātņu projekti – esošās situācijas un humanitāro zinātņu vajadzību izpēte, analizējot valodas resursu un tehnoloģiju kā pētniecības infrastruktūras lietojumu • WP5 Valodas resursu un rīku pārskats – esošās situācijas apzināšana valodas resursu un tehnoloģiju jomā, stratēģijas izstrāde trūkstošo rīku un resursu izveidei, kritisko valodas resursu un rīku izveide • WP8 Infrastruktūras izveidošanas un ekspluatācijas līgums – CLARIN infrastruktūras juridiskā un organizatoriskā izveide
WP2: Tehniskā infrastruktūra CLARIN tehniskās infrastruktūras specificēšana, projektēšana un prototipa izstrāde Darba grupas: 2.1. Prasības valodas resursu un tehnoloģiju centriem 2.2. Prasības valodas resursu un tehnoloģiju federācijai 2.3. Federācijas pilotmodelis 2.4. Reģistrācijas infrastruktūras specifikācija 2.6. Tīmekļa pakalpojumu un darba plūsmu prasības 2.7. Tīmekļa pakalpojumu un darba plūsmu izveide Latvijā: Latvija aktīvi piedalās tehniskās infrastruktūras specificēšanā LU MII ir iestrādes un nepieciešamā kompetence (GEANT, GRID) LU MII ir uzsākusi prototipa ieviešanu
WP3: Humanitāro zinātņu projekti Mērķis – noskaidrot, kādas ir humanitāro zinātņu vajadzības attiecībā uz valodas resursiem un tehnoloģijām kā pētniecisko infrastruktūru Esošo un iepriekšējo humanitāro zinātņu projektu apzināšana un analīze: Kādas ir vajadzības Kā pašlaik humanitārajās un sociālajās zinātnēs tiek lietoti valodas resursi un tehnoloģijas Kā tiek lietota mūsdienīga pētniecības infrastruktūra Kādi ir pašreizējie trūkumi un kā tos varētu novērst
WP3: Humanitāro zinātņu projekti Latvijā Humanitāro un sociālo zinātņu pētniecības iestāžu anketēšana Anketēšanas laikā iegūto rezultātu pievienošana kopējai CLARIN datu bāzei Anketēšana atklāja, ka pašlaik valodas resursi un rīki nav kļuvuši par humanitāro un sociālo zinātņu pētniecības infrastruktūru Pastāv zināšanu plaisa starp valodas resursu un rīku radītājiem un lietotājiem
WP5: Valodas resursu un rīku pārskats Mērķis – veikt valodas resursu un tehnoloģiju apzināšanu Latvijā, noteikt valodai nepieciešamos pamatresursus un rīkus, izstrādāt stratēģiju trūkstošo rīku un resursu izveidei, specificēt kvalitātes novērtēšanas kritērijus, izveidot latviešu valodai kritiskos valodas resursus un rīkus
WP5: Valodas resursu un rīku pārskats • Latvijā: • anketēšana • anketēšanas rezultātu apkopošana CLARIN datu bāzē • lietošanas scenāriji
Galvenie resursu izveides scenāriji Latvijā • Valsts pētījumu programmā "LETONIKA: pētījumi par vēsturi, valodu un kultūru“veidotie resursi • Valsts pētījumu programmas "Informācijas tehnoloģiju zinātniskā bāze" projekts "Semantiskā tīmekļa izpēte, attīstīšana un piemērošana Latvijas vajadzībām" • Latvijas Nacionālā digitālā bibliotēka • Sabiedrības Tilde veidotie resursi un rīki • Citi augstskolu resursi
WP8 Infrastruktūras izveidošanas un ekspluatācijas līgums • Latvijā: • apkopoti dati par Clarin projekta kontekstā iesaistītajām Latvijas institūcijām un to funkcijām, izmantojot publiski pieejamu informāciju • ar Clarin projekta realizāciju saistīto Eiropas Savienības normatīvo aktu un rekomendāciju izpēte un to piemērošana Clarin infrastruktūrai, tai skaitā Latvijā • WP7: intelektuālā īpašuma tiesības
Problēmas • Pētniecības infrastruktūras humanitārajās un sociālajās zinātnēs ir jauns jēdziens • Nozīmīgu resursu, piem., Nacionālā korpusa, trūkums latviešu valodai • Resursu sadrumstalotība • Plaisa starp resursu un rīku veidotājiem un to lietotājiem, tajā pašā laikā liela interese par valodas resursu un rīku infrastruktūras iespējām • Datorlingvistikas kā mācību priekšmeta trūkums augstskolu programmās
Sabiedrības informēšanas aktivitātes • CLARIN projekta un Nacionālā korpusa seminārs • Seminārs „Mūsdienu latviešu valodas korpuss un tā izmantošana“ Rīgā • Seminārs „Mūsdienu latviešu valodas korpuss un tā izmantošana“ Rēzeknes Augstskolā
Aktivitātes • Nacionālais kontaktpunkts: e-pasts: info@clarin.lv • Mājas lapa www.clarin.lv, • Sagatavota un pieņemta publikācija semināram “Vienotās valodas resursu infrastruktūras CLARIN Ziemeļu perspektīvas” (Nordic perspectives on the CLARIN infrastructure of common language resource) • Par aktivitātēm Latvijā sagatavota informācija CLARIN apkārtrakstam • Sadarbība ar citiem projektiem (Semti-kamols, NGSLT u.c.) • Neformāla pieredzes apmaiņa ar CLARIN-EE, CLARIN-FIN,CLARIN-DK, CLARIN-CZ
Plāni nākamajam periodam • WP2: līdz sagatavošanās fāzes beigām izveidot ierobežotu CLARIN prototipu Latvijā • WP3: apzināt humanitāro zinātņu vajadzības attiecībā pret valodas resursiem un tehnoloģijām kā pētniecisko infrastruktūru • WP5: noteikt valodai nepieciešamos pamatresursus un rīkus, apzināt un izstrādāt stratēģiju trūkstošo rīku un resursu izveidei, uzsākt latviešu valodai kritisko valodas resursu un rīku izveidi
Plāni nākamajam periodam • WP8: līdz sagatavošanās fāzes beigām radīt juridisko bāzi CLARIN infrastruktūras izveidei Latvijā • Turpināt informējošas aktivitātes (nelieli praktiski semināri) • Aktīvi sadarboties ar citiem projektiem Latvijā un Eiropā, kas saistīti ar valodas resursu un rīku izveidi • Aktivizēt CLARIN NKP darbu, lai noteiktu Latvijas prioritātes un sekmētu CLARIN infrastruktūras darbu Latvijā