1 / 11

Latviešu valodas resursi un rīki CLARIN infrastruktūrā

Latviešu valodas resursi un rīki CLARIN infrastruktūrā. Normunds Grūzītis LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorija. Rīgā, 2011. gada 4. jūlijā. Mērķi. Pieejamība :

brone
Download Presentation

Latviešu valodas resursi un rīki CLARIN infrastruktūrā

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Latviešu valodas resursi un rīki CLARIN infrastruktūrā Normunds Grūzītis LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorija Rīgā, 2011. gada 4. jūlijā

  2. Mērķi • Pieejamība: • Tīmekļa pakalpes (web services) valodas resursu un rīku attālinātai, automatizētai izmantošanai, integrēšanai dažādās tīmekļa lietotnēs • Vārdu un teikumu dalītājs • Statistisks morfoloģiskais marķētājs (tageris) • Morfoloģiskais analizators un sintezators • Runas sintezators • Latviešu literārās valodas vārdnīca • Galalietotāju autentifikācija Latvijas akadēmisko identitāšu federācijā • Mīlenbaha un Endzelīna Latviešu valodas vārdnīca u.c. autortiesību objekti • Standartizācija: • Morpho-syntactic Annotation Framework (ISO/DIS 24611) • Text Corpus Format (vers. 0.4) • Lexical Markup Framework (ISO/IS 24613:2008) • ISOcat Data Category Registry (ISO/IS 12620:2009) • MULTEXT-East (vers. 4) • Atvērtība: • Rīki: [Lesser] General Public License • Resursi: Creative Commons License (ar nosacījumiem)

  3. Statistisks morfoloģiskais tageris • http://valoda.ailab.lv/ws/tagger/ • Datu apmaiņas formāti: ISO MAF, TCF • Pazīmju kopas: ISOcat, MULTEXT-East

  4. Tīmekļa pakalpju kombinēšana • Dalība CLARIN WG 5.6 nodevumā “Integration of Language Resources into Web service infrastructure”: “Standards in practice: IMCS services” • Eksperiments ar ISO MAF, kas pašlaik ir “international draft” stadijā • Tagera vajadzībām ieviests paplašinājums teikumu robežu anotēšanai,analoģiski kā TCF formātā • ISOcat kategoriju reģistrā ieviesti papildu termini latviešu valodai specifiskās atstāstījuma (relative) un vajadzības (debitive) izteiksmes norādīšanai (TCF) (TCF) (TCF) (TCF)

  5. Izmantotie/pielāgotie standarti • Datu apmaiņas formāti – valodneatkarīgi • Pazīmju kopas (morfosintaktiskās kategorijas) – valodatkarīgas • Mērķis: • Panākt, lai plaši lietotie standarti atbilstu latviešu valodas parādībām • Saprast, ar ko latviešu valodniecības tradīcija pārklājas/atšķiras • Tomēr tradīcijai ir sekundāra nozīme • Nodefinēt iespējami funkcionālu un sistemātisku morfosintaktisko pazīmju kopu • MULTEXT-East vers. 4 atvasinājums, ņemot vērā: • pieredzi korpuss.lv morfoloģiski marķēto korpusu izveidē un lietošanā • pieredzi latviešu valodas sintaktiskajā analīzē • pieredzi latviešu valodas ģenerēšanā (sintēzē) • pieredzi nenormētas un normētas (kontrolētas) valodas analīzē/sintēzē • pieredzi morfoloģisko analizatoru, sintezatoru un leksikonu izstrādē • pieredzi statistiskajā morfoloģiskajā tagošanā • esošos standartus (ISOcat, MULTEXT-East) – citu valodu pieredzi • latviešu valodniecības tradīciju

  6. Morfoloģiskais analizators/sintezators • http://valoda.ailab.lv/ws/morph/ • Datu apmaiņas formāti: ISO LMF • Pazīmju kopas: ISOcat

  7. Morfoloģiskais leksikons Licence: Creative Commons Attribution-NonCommercial-ShareAlike 3.0 • Par pamatu ņemti LLVV šķirkļu vārdi • Divdabju formas un skaitļa vārdi pašlaik nav ietverti

  8. Runas sintezators • http://valoda.ailab.lv/ws/tts/ • Pieprasījums: vārds, teikums vai teksta fragments • Atbilde: MP3 datne vai URL uz MP3 datni • Tīmekļa pakalpei pieejama arī galalietotāju saskarne:

  9. Latviešu literārās valodas vārdnīca http://tezaurs.lv/llvv/

  10. Drīzumā... • Latviešu valodas tīmekļa pakalpes WebLicht infrastruktūrā • Dalītājs vārdos un teikumos, statistiskais morfoloģiskais marķētājs • http://weblicht.sfs.uni-tuebingen.de/ • Galalietotājiem “draudzīga” tīmekļa saskarne reģistrēto rīku kombinēšanai, darbināšanai un rezultātu pārlūkošanai • Piekļuve Mīlenbaha un Endzelīna vārdnīcai, autentificējoties ar LAIFE identitāti (piem., LUIS, LiepU, RA vai DU lietotāju) • http://tezaurs.lv/mev/ • https://laife.lanet.lv • Latviešu valodas korpusa platformas jaunā versija • http://korpuss.lv/ • Uzlabota veiktspēja • Tīmekļa saskarne (Bonito) • Vienots, uzlabots marķējums (balstīts uz MULTEXT-East vers. 4)

  11. Paldies! Sekojiet jaunumiem: twitter.com/AILab_lv

More Related