210 likes | 374 Views
CLARIN sagatavošanās posms: rezultāti un nākotnes ieceres. Ilze Auziņa, Inguna Skadiņa LU Matemātikas un informātikas institūts. 1. posms – sagatavošana ( 2008-2010 ) CLARIN organizācijas izveide, plānošana , proto tipa izveide 2. posms – izveide ( 2011-2015 )
E N D
CLARIN sagatavošanās posms: rezultāti un nākotnes ieceres Ilze Auziņa, Inguna Skadiņa LU Matemātikas un informātikas institūts
1. posms – sagatavošana (2008-2010) CLARIN organizācijas izveide, plānošana, prototipa izveide 2. posms – izveide (2011-2015) CLARIN izveide un piepildīšana ar resursiem un rīkiem 3. posms – izmantošana (2016 - ...) CLARIN ir izmantojams kā pakalpojums CLARIN posmi
pašlaik CLARIN projektā piedalās 33 partneri no 23 valstīm (arī Latvija kopš 2009. gada aprīļa ir viena no partnervalstīm) šogad CLARIN projektam gatavojas pievienoties 4 jauni partneri no Īslandes, Lietuvas, Luksemburgas un Turcijas iniciatīva apvieno 166 organizācijas no 32 valstīm (Latvijā pašlaik divi aktīvi biedri: LU MII un Tilde) www.clarin.eu 1. posms (1)
norit CLARIN tehniskās infrastruktūras specificēšana, projektēšana un prototipa izstrāde ir apzināta esošā situācija un humanitāro zinātņu vajadzības (BLARK, Humanitāro zinātņu projekti) ir apkopota informācija par valodas resursiem un rīkiem (Virtual Language world) tiek gatavoti autortiesību parauglīgumi ir izstrādāti modeļi CLARIN infrastruktūras izveidei un tiek gatavots ekspluatācijas līgums 1. posms (2)
CLARIN ir reģistrēti 848elektroniskie resursi no tiem 32 irlatviešu valodas resursi CLARIN ir reģistrēti 170valodas apstrādes rīki no tiem 8 irlatviešu valodas apstrādes rīki, piem., LU MII izstrādātais tekstu korpusu marķēšanas rīks, sintaktiskais analizators Valodas resursi un rīki (1)
Resursu veidi: korpusi: marķēti korpusi, tekstu korpusi, runas korpusi, multimodāli korpusi, multimediju korpusi, sintaktiski anotēti korpusi vārdu krātuves: vārdnīcas, terminoloģijas datu bāzes, enciklopēdijas gramatikas u. c. Valodas resursi un rīki (2) Marķēts korpuss (57) Izmantojums / rīki (20) Gramatika (19) Vārdnīca / zināšanu krātuve (246) Multimodāls korpuss (98) N-grammu modelis (1) Runas korpuss (139) Terminoloģijas resurss (12) Sintaktiski marķēts korpuss (34) Tīkla pakalpojums (30) Tekstu korpuss (357)
Valodas resursi un rīki (3) Virtual Language World– http://www.clarin.eu/vlw/
Valodas resursi un rīki (4) Latvijā izstrādātie resursi (fragments)
Valodas resursi un rīki (5) Latvijā izstrādātie valodas apstrādes rīki
Valodas resursi un rīki (6) www.clarin.lv Resursu un rīku pārskats
Taksonomija (1) • Mērķis – izveidot valodas resursu un apstrādes rīku • taksonomiju(klasifikāciju) • CLARIN taksonomijas apakšgrupas: • Anotēšana • Leksikas resursi • Rakstītie resursi • Runas (arī multimodālie) resursi • Rīki
Taksonomija (2) • Leksikas resursu aprakstīšana / klasifikācija: • valoda (valodas) • valodas paveidi • laiks, kuru aptver leksikas resursi • leksikas resursu saturs • tehniskā informācija • izstrāde • izplatība
Taksonomija (3) • Tekstu korpusuklasifikācija: • korpusa tips • valoda • saturs • izveide • izplatība • tehniskā informācija
Taksonomija (4) tehniskā informācija resursi rīki izstrāde izplatība valoda
Valodām nepieciešamie resursi un rīki (1) BLARK (Basic Language Resource Kit) - valodai nepieciešamie pamatresursi un rīki • apzinātas humanitāro un sociālo zinātņu pētnieku vajadzības • noteikta minimālāvalodas resursu kopa, kas nepieciešama sociālo un humanitāro zinātņu pētījumu veikšanai pēc iespējas vairāk valodās • ir noskaidrots, kādu svarīgu rīku un resursu konkrētā valodā nav • ir noteikti kritēriji, kā izvērtēt valodas resursu un rīku kvalitāti
Valodām nepieciešamie resursi un rīki (2) Dažādām sociālo un humanitāro zinātņu nozarēm nepieciešamie valodas resursi: • leksikas resursi (enciklopēdijas, vienvalodas un daudzvalodu vārdnīcas, terminoloģijas datu bāzes); • korpusi (nemarķēti korpusi, marķēti korpusi, vienvalodas korpusi, daudzvalodu korpusi, runas korpusi, multimediju korpusi, multimodāli korpusi) Sociālo un humanitāro zinātņu pētnieku vajadzības, piem., terminoloģijas izguve, vārdnīcas veidošana, informācijas izguve u. tml. Pētījumiem nepieciešamie rīki, piem., konkordanču rīks, tekstu marķēšanas rīks, mašīntulkošanas rīki, tekstu apstrādes rīki u. tml.
Valodām nepieciešamie resursi un rīki (3) Dažādām sociālo un humanitāro zinātņu nozarēm nepieciešamie valodas resursi Nepieciešamie valodas resursi Zinātņu nozares
Licences un līgumi (1) Resursu, rīku īpašnieks CLARIN pakalpojumu sniedzējs • Resursu, rīku noguldījuma licences līgums • licences līguma veidi: • publiska pieeja jebkuram CLARIN lietotājam • izmantošana akadēmiskiem mērķiem • ierobežota pieeja • Jebkurš līguma veids var ietvert kādu no šiem nosacījumiem: • nekomerciāla izmantošana • prasība ziņot par publikācijām, kas saistītas ar resursu un rīku • izmantošanu • prasība nodot jebkuru resursa, rīka modifikāciju sākotnējā resursa, • rīka īpašniekam 18
Licences un līgumi (2) CLARIN pakalpojumu sniedzējs Resursu, rīku galalietotājs • CLARIN pakalpojumu līgums • nosaka piekļuves kārtību CLARIN, lietotāju identifikāciju un • vispārējos CLARIN izmantošanas noteikumus • CLARIN privātuma noteikumi • pielikums līgumam, kas nosaka kārtību, kādā CLARIN pakalpojumu • sniedzējs apkopo un izmanto personas datus • Galalietotāja licences līgums • katram CLARIN resursam un rīkam tiek piesaistīti attiecīgā • Resursu, rīku noguldījuma licences līguma nosacījumi, • ko lietotājs akceptē pirms rīka, resursa lietošanas uzsākšanas 19
CLARIN ERIC CLARIN – Eiropas pētniecības infrastruktūras konsorcijs (ERIC, European Research Infrastructure Consortium) Analysis and Proposal(s) for Governance (D8S-1.2)