240 likes | 432 Views
Valodas resursu un rīku pārskats: pašreizējā situācija (WP5). Everita Andronova LU MII CLARIN seminārs 2009.gada 2.aprīlī. WP5 uzdevums.
E N D
Valodas resursu un rīku pārskats: pašreizējā situācija (WP5) Everita AndronovaLU MII CLARIN seminārs 2009.gada 2.aprīlī
WP5 uzdevums • Apzināt valodas rīkus un resursus, lai izvērtētu konkrētās valodas potenciālu un noskaidrotu, kāda ir minimālā valodas resursu kopa, kas nepieciešama humanitāro un sociālo zinātņu pētniekiem, un izvirzītu priekšlikumus, kādi resursi ir stratēģiski svarīgi • CLARIN projekta WP5 ir 6 apakšgrupas, Latvijas pārstāvji (I. Auziņa, I. Skadiņa un E. Andronova) piereģistrējušies 5, bet seko līdzi visāmdarba grupām
WP5.1 (Rīki) darba grupas mērķi 1. inventarizēt galvenos valodas apstrādes rīkus (lematizators, morfoloģiskais analizators, vārdšķiru noteicējs, sintaktiskais analizators, īpašvārdu, akronīmu u. tml. noteicējs) 2. inventarizēt galvenās valodas resursu apstrādes platformas 3. izveidot valodas apstrādes rīku taksonomiju 4. izpētīt šo rīku ievades /izvades formātus un lietotāju saskarnes 5. izpētīt valodas apstrādes rīku specifikāciju (valod(ne)atkarība, atkarība no temata, rīka izmantošanai nepieciešamie resursi) 6. iezīmēt veidus, kā valodas apstrādes rīkus integrēt valodas infrastruktūrā 7. noteikt kritērijus valodas rīku kvalitātes novērtēšanai
WP5.1. rezultāti CLARIN krātuvē ir reģistrēti 132 valodas apstrādes rīki. Ir piereģistrēti 4 latviešu valodas rīki (sal. : lietuviešu valodai – 1, bet igauņu – 0): 1 – „Tilde” – latviešu valodas morfoloģiskais analizators un formu veidotājs 3 – LU MII – rīki, kas izstrādāti SemTi-Kamols projektā: - daļēji automātisks korpusa anotēšanas rīks, kurā ir morfoloģiskais analizators un gramatiskais analizators - vienkāršu paplašinātu teikumu gramatiskais analizators - morfoloģiskā analizatora tīmekļa serviss
WP5.2 (Leksiskie resursi) darba grupas mērķi • inventarizēt leksiskos resursus (vienvalodas / divvalodu, multimediju, terminoloģiskos datus u. c.) • izpētīt esošos valodas resursu standartus, pielāgot tos un izteikt priekšlikumus izmaiņām • izveidot resursu taksonomiju • izpētīt valodas resursu kodēšanas formātus • izpētīt citas valodas rīku pazīmes (datu veidi, pārklājums) • iezīmēt veidus, kā valodas resursus integrēt valodas infrastruktūrā • noteikt kritērijus valodas resursu kvalitātes novērtēšanai
WP5.3 (Korpusi) darba grupas mērķi • inventarizēt valodas korpusus (vienvalodas /divvalodu (sastatīti), speciālie /vispārīgie, marķētie u. c.) • izpētīt esošos valodas resursu standartus, pielāgot tos un izteikt priekšlikumus izmaiņām • izveidot resursu taksonomiju • izpētīt korpusu kodēšanas formātus • iezīmēt veidus, kā valodas korpusus integrēt valodas infrastruktūrā • noteikt kritērijus, kā novērtēt valodas korpusu kvalitāti
Valodas resursu aptaujas rezultāti CLARIN valodas resursu apskatā kopā reģistrēti 822 (valodas) resursi (01.04.09.). No tiem 32latviešu valodas resursi, tas ir, ~ 4% no kopējā skaita (sal. igauņu valodai reģistrēti 24 resursi, bet lietuviešu valodai – 14) Latviešu valodas resursu izstrāde nenotiek tikai Latvijā (reģistrēti 29 resursi) , bet arī: - Vācijā (Titus projekts un Wortschatz projekts) - Itālijā (JRC-Acquis korpuss) - ir sadarbības projekti (Rēzeknes Augstskola un Milānas Universitāte)
Latvijas resursu izstrādātāji • Daugavpils Universitātes Mutvārdu vēstures centrs • Latvijas Nacionālā bibliotēka • Liepājas Universitāte • LU Filozofijas un socioloģijas institūts • LU Literatūras, folkloras un mākslas institūts • LU Matemātikas un informātikas institūts • LU Sociālo zinātņu studējošo fonds • LZA Terminoloģijas komisija • Rēzeknes Augstskola • Tilde • Tulkošanas un terminoloģijas centrs
Problēmas / Atziņas Anketēšanas efektivitāte: izsūtītas 42 / saņemtas 8+(2) anketas • Labāk uzrunāt konkrētus cilvēkus un uz vietas noskaidrot esošos resursus • Resursu sagatavotāju / lietotāju dažādais sagatavotības līmenis (no .txt failiem līdz korpusam / no MS Word līdz sarežģītām datu bāzēm) • Vēlme sakārtot savus resursus, bet nepieciešams padoms un/ vai tehnisks atbalsts • Cilvēku atsaucība konkrētiem pasākumiem
Kāds ieguvums no CLARIN krātuves? • Iespēja popularizēt latviešu valodas resursus, to uzskaitījums atrastos vienuviet, nevis izbārstīts pa daudzu institūciju mājas lapām • Iespēja ieinteresēt humanitāro un sociālo zinātņu pētniekus izmantot latviešu valodas datus, piem., veicot areālpētījumus vai pētījumus konkrētās jomās (par noteiktu laika periodu, procesiem u.c.) • Iespēja atrast sadarbības partnerus jauniem projektu pieteikumiem
Kādi latviešu valodas resursi piereģistrēti šodien CLARIN? Terminoloģija (3 resursi): - ne vien latviešu, bet arī angļu, franču, vācu, latīņu un krievu valodā (TTC terminu datu bāze, ~200 000) - ne vien latviešu, bet arī angļu, franču, vācu, krievu valodā (AkadTerm, 790 000) - arī angļu, igauņu, franču, vācu, ungāru, lietuviešu valodā (Eurotermbank, 1,9 milj./25 valodās)
Kādi latviešu valodas resursi piereģistrēti šodien CLARIN? Teksti: • folklora (pasakas un teikas; ticējumi; sakāmvārdi) • raksti par folkloristiku (http://www.korpuss.lv/feb/) • latviešu literatūra (http://www.letonika.lv/literatura/; http://www.korpuss.lv/klasika/)
Kādi latviešu valodas resursi piereģistrēti šodien CLARIN? Vārdnīcas - skaidrojošās: • Mūsdienu latviešu valodas vārdnīca (http://www.tezaurs.lv/mlvv/, ~20 000 šķirkļu) • Latviešu literārās valodas vārdnīca (http://www.tezaurs.lv/llvv/, 64 000 šķirkļu) • Latviešu valodas vārdnīca (http://www.tezaurs.lv/lvv/, 30 000 šķirkļu) • ME vārdnīca (http://www.ailab.lv/MEV/, 132 000 šķirkļu (no tiem 77 175 pamatsējumos)
Kādi latviešu valodas resursi piereģistrēti šodien CLARIN? Vārdnīcas – tulkojošās: • igauņu – latviešu valodas vārdnīca (http://eesti.letonika.lv/,26 000 šķirkļu) • latviešu –lietuviešu valodas internetvārdnīca (http://www.letonika.lv/LvLt/,43 000 šķirkļu) Periodika (http://www.periodika.lv/, 45 000 avīžu numuru)
Kādi latviešu valodas resursi piereģistrēti šodien CLARIN? Valodas korpusi – diahroniskie: • 1586.g. katehisms un 16.gs. tēvreizes (http://titus.uni-frankfurt.de/indexe.htm?/texte/texte2.htm#lett) • 16.-18.gs. tekstu korpuss “SENIE” (www.korpuss.lv/senie/; 1milj. vārdl.)
Kādi latviešu valodas resursi piereģistrēti šodien CLARIN? Valodas korpusi – sinhroniskie: • līdzsvarots mūsdienu latviešu valodas korpuss “Miljons” (www.korpuss.lv/) • morfoloģiski marķēts paraugkorpuss “Plāns ledus” (www.korpuss.lv/, 16 746 vārdl.) • avīžu tekstu korpusā balstīts meklētājs Wortschatz(http://corpora.informatik.uni-leipzig.de/)
Kādi latviešu valodas resursi piereģistrēti šodien CLARIN? Paralēlie teksti: • ar Trados Translator's Workbench sastatītu latviešu-angļu un angļu-latviešu dokumentu datu bāze (TTC) • JRC-Acquis paralēlais korpuss (http://langtech.jrc.it/JRC-Acquis.html; 22 valodupāri)
Latviešu valodas resursi, kas ir piereģistrēti sagatavošanas stadijā Audiomateriāli, kas vēl jāatšifrē, un teksti: • dzīvesstāstu materiāli • dialektoloģisko ekspedīciju vākums • folkloras ekspedīciju materiāli • Kurzemes kultūrvēsturiskais materiāls LiepU Kurzemes Humanitārā institūta Kurzemes folkloras un valodas centrā – vidusdialekta un lībiskā dialekta dati • Rēzeknes Augstskolā savāktie latgaliešu folklorasmateriāli (20 000 vienības) un etnolingvistiskās aptaujas materiāli Austrumlatvijā (8646 aptaujas)
Latviešu valodas resursi, kas ir piereģistrēti sagatavošanas stadijā • Daugavpils Universitātes Mutvārdu vēstures centra (DU MVC) mutvārdu vēstures avotu krājums(~ 600 dzīvesstāstu, ~ 800 h), latviešu, krievu, baltkrievu un poļu valodā • Nacionālās mutvārdu vēstures projekts (LU FSI) – unikāli ieraksti arī no latviešiem Norvēģijā, Zviedrijā, Anglijā, ASV Latvijas Universitātes Sociālo zinātņu fakultātes studentu noslēguma darbu datu bāze (http://datubaze.ema.lv)
Kāpēc iesaistīties CLARIN infrastruktūrā? WP5.4 darba grupa Basic Language Resources Toolkit (BLARK), kuras mērķi: • izvērtēt esošās BLARK specifikācijas dažām valodām • noteikt minimālo nepieciešamo valodas resursu kopu, lai varētu veikt (galvenokārt sociālo un humanitāro zinātņu (SHZ)) pētījumus pēc iespējas vairākās valodās • ziņot par katras valodas situāciju valodas resursu infrastruktūrā • ieteikt, kādi svarīgi resursi trūkst attiecīgajai valodai • apspriest stratēģiju, kā šos trūkstošos resursus novērst, ņemot vērā citu valstu CLARIN dalībnieku pieredzi • noteikt kritērijus, kā izvērtēt valodas resursu un rīku kvalitāti
Kāpēc iesaistīties CLARIN infrastruktūrā? WP5.5 (Taksonomijas) darba grupas mērķi: 1. apskatīt esošās pieejas, kā valodas resursus sistematizēt 2. ieteikt resursu sistēmu, ņemot vērā esošos resursus un lietotāju prasības 3. koordinēt savu darbību ar WP2 darba grupu, jo īpaši metadatu jautājumā 4. ieteikt metodes un rādītājus resursus kvalitātes noteikšanai
Kāpēc piedalīties CLARIN infrastruktūrā? WP5.6 (LR Integration) darba grupas mērķi: 1. novērtēt esošo tīmekļa servisu 2. izvēlēties lietotāju scenārijus, lai pārbaudītu un parādītu lietojumu gadījumus, kā izmantot resursus un rīkus šāda scenārija īstenošanai 3. izvēlēties atbilstošus valodas resursu un apstrādes rīku standartus, kas jāievieš tīmekļa servisā 4. novērtēt tehniskās problēmas
WP5 turpināmie darbi 2009 • piedalīties BLARK darba grupā, lai noteiktu latviešu valodas minimālo resursu kopu un lai rekomendētu trūkstošo resursu izstrādi. • turpināt papildināt CLARIN krātuvi ar datiem par latviešu valodu. • organizēt praktiskus seminārus latviešu valodas resursu veidotājiem un lietotājiem.
Paldies par uzmanību! everita.andronova@lumii.lv