110 likes | 311 Views
Latviešu valodas resursi un rīki CLARIN infrastruktūrā. Normunds Grūzītis LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorija. Rīgā, 2011. gada 4. jūlijā. Mērķi. Pieejamība :
E N D
Latviešu valodas resursi un rīki CLARIN infrastruktūrā Normunds Grūzītis LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorija Rīgā, 2011. gada 4. jūlijā
Mērķi • Pieejamība: • Tīmekļa pakalpes (web services) valodas resursu un rīku attālinātai, automatizētai izmantošanai, integrēšanai dažādās tīmekļa lietotnēs • Vārdu un teikumu dalītājs • Statistisks morfoloģiskais marķētājs (tageris) • Morfoloģiskais analizators un sintezators • Runas sintezators • Latviešu literārās valodas vārdnīca • Galalietotāju autentifikācija Latvijas akadēmisko identitāšu federācijā • Mīlenbaha un Endzelīna Latviešu valodas vārdnīca u.c. autortiesību objekti • Standartizācija: • Morpho-syntactic Annotation Framework (ISO/DIS 24611) • Text Corpus Format (vers. 0.4) • Lexical Markup Framework (ISO/IS 24613:2008) • ISOcat Data Category Registry (ISO/IS 12620:2009) • MULTEXT-East (vers. 4) • Atvērtība: • Rīki: [Lesser] General Public License • Resursi: Creative Commons License (ar nosacījumiem)
Statistisks morfoloģiskais tageris • http://valoda.ailab.lv/ws/tagger/ • Datu apmaiņas formāti: ISO MAF, TCF • Pazīmju kopas: ISOcat, MULTEXT-East
Tīmekļa pakalpju kombinēšana • Dalība CLARIN WG 5.6 nodevumā “Integration of Language Resources into Web service infrastructure”: “Standards in practice: IMCS services” • Eksperiments ar ISO MAF, kas pašlaik ir “international draft” stadijā • Tagera vajadzībām ieviests paplašinājums teikumu robežu anotēšanai,analoģiski kā TCF formātā • ISOcat kategoriju reģistrā ieviesti papildu termini latviešu valodai specifiskās atstāstījuma (relative) un vajadzības (debitive) izteiksmes norādīšanai (TCF) (TCF) (TCF) (TCF)
Izmantotie/pielāgotie standarti • Datu apmaiņas formāti – valodneatkarīgi • Pazīmju kopas (morfosintaktiskās kategorijas) – valodatkarīgas • Mērķis: • Panākt, lai plaši lietotie standarti atbilstu latviešu valodas parādībām • Saprast, ar ko latviešu valodniecības tradīcija pārklājas/atšķiras • Tomēr tradīcijai ir sekundāra nozīme • Nodefinēt iespējami funkcionālu un sistemātisku morfosintaktisko pazīmju kopu • MULTEXT-East vers. 4 atvasinājums, ņemot vērā: • pieredzi korpuss.lv morfoloģiski marķēto korpusu izveidē un lietošanā • pieredzi latviešu valodas sintaktiskajā analīzē • pieredzi latviešu valodas ģenerēšanā (sintēzē) • pieredzi nenormētas un normētas (kontrolētas) valodas analīzē/sintēzē • pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē • pieredzi statistiskajā morfoloģiskajā tagošanā • esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi • latviešu valodniecības tradīciju
Morfoloģiskais analizators/sintezators • http://valoda.ailab.lv/ws/morph/ • Datu apmaiņas formāti: ISO LMF • Pazīmju kopas: ISOcat
Morfoloģiskais leksikons Licence: Creative Commons Attribution-NonCommercial-ShareAlike 3.0 • Par pamatu ņemti LLVV šķirkļu vārdi • Divdabju formas un skaitļa vārdi pašlaik nav ietverti
Runas sintezators • http://valoda.ailab.lv/ws/tts/ • Pieprasījums: vārds, teikums vai teksta fragments • Atbilde: MP3 datne vai URL uz MP3 datni • Tīmekļa pakalpei pieejama arī galalietotāju saskarne:
Latviešu literārās valodas vārdnīca http://tezaurs.lv/llvv/
Drīzumā... • Latviešu valodas tīmekļa pakalpes WebLicht infrastruktūrā • Dalītājs vārdos un teikumos, statistiskais morfoloģiskais marķētājs • http://weblicht.sfs.uni-tuebingen.de/ • Galalietotājiem “draudzīga” tīmekļa saskarne reģistrēto rīku kombinēšanai, darbināšanai un rezultātu pārlūkošanai • Piekļuve Mīlenbaha un Endzelīna vārdnīcai, autentificējoties ar LAIFE identitāti (piem., LUIS, LiepU, RA vai DU lietotāju) • http://tezaurs.lv/mev/ • https://laife.lanet.lv • Latviešu valodas korpusa platformas jaunā versija • http://korpuss.lv/ • Uzlabota veiktspēja • Tīmekļa saskarne (Bonito) • Vienots, uzlabots marķējums (balstīts uz MULTEXT-East vers. 4)
Paldies! Sekojiet jaunumiem: twitter.com/AILab_lv