1 / 24

Valodas tehnoloģijas

Valodas tehnoloģijas. Pēteris Paikens, LU MII AiLab. Ievads. Lekcijas mērķis. Semināru struktūra Datorlingvistikas tēmu klāsts Ko mākam izdarīt latviešu valodai Ko māk paveikt pasaulē Pieejamie resursi Iepazīšanās. Semināru struktūra. Mēs Normunds Grūzītis Pēteris Paikens

mab
Download Presentation

Valodas tehnoloģijas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Valodas tehnoloģijas Pēteris Paikens, LU MII AiLab Ievads

  2. Lekcijas mērķis • Semināru struktūra • Datorlingvistikas tēmu klāsts • Ko mākam izdarīt latviešu valodai • Ko māk paveikt pasaulē • Pieejamie resursi • Iepazīšanās

  3. Semināru struktūra • Mēs • Normunds Grūzītis • Pēteris Paikens • Praktiskie darbi • Izvēlaties tēmu un sagrupējaties • Kopā izdiskutējam, kā ķerties klāt • Mājās lasat, domājat, kodējat un svīstat • Semināros stāstat par paveikto, interesanto, risinājumiem un problēmām

  4. Datorlingvistika • Metodes dabiskās valodes apstrādei • Formālu valodas modeļu izveide • Datu apstrādes ķēdes • Fonētika – runas elementi • Morfoloģija – locījumi un vārdformas • Sintakse – teikuma struktūra • Semantika – pateiktā jēga • Diskurss – konteksts garākā tekstā

  5. Kāda tam visam jēga? • Īstermiņā sasniedzami pielietojumi • Vēlamies noturēt latviešu valodu • Dabiskā valoda ir homo sapiens piemērotākais saziņas līdzeklis • Cilvēces uzkrātā zināšanu bāze ir galvenokārt nestrukturēta teksta formā • Valoda ir veids, kurā mēs domājam

  6. Ko mēs mākam labi • Morfoloģija • Saprast locījumus, izveidot tos • Kontrolētās valodas • Valodas apakškopa konkrētam lietojumam • OCR • Semantikas pētījumi • Ontoloģijas, OWL, to vizualizācija • Secinājumi un vaicājumi datos

  7. Ko mēs puslīdz mākam • Runas sintēze • Named entity recognition • Mašīntulkošana (EN<>LV) • Sintakses analīze (shallow parsing) • Pareizrakstības pārbaude • Tilde māk; publiski nekas labs

  8. Ko nemākam, bet māk citi • Labi analizēt sintaksi • Teikuma struktūra, paskaidrotāji • Daudznozīmība – kas ir domāts • Statistiski uzminēt jēgu • Word sense disambiguation + WordNet • Sentimenta noteikšana • Atpazīt runu • Dialogsistēmas

  9. Tehniskie izaicinājumi • Daudznozīmību novēršana • Eksponenciāli augoši variantu skaiti • Mašīnmācīšanās pielietojumi • Aizstāj klasiskās lingvistikas likumus • Vajag lielu apjomu labu datu • Heiristiku un MM īpašību meklēšana • Big data • Tīmekļa dati, Twitter, grāmatas u.c. • Paralelizācija un pudurskaitļošana

  10. Pieejamie resursi • Teksta korpusi • Balansētais (3.5m vārdu laba teksta) • Komentāri (Portāli, Twitter, draugiem.lv) • LNB korpuss (skanēts, OCR, ar kļūdām) • Vārdnīcas - www.tezaurs.lv • Rīki • Mūsu radītie un rādītie • Stanford NLP • Python NLTK

  11. Idejas pielietojumiem ailab.lv/specseminars • Web tekstu vākšana un normalizācija • Vārdu nozīmes statistiska noteikšana • Faktu izvilkšana no teksta • Balss apstrāde • Idejas pielietojumiem jūsu nozarēs?

  12. Jūs • Kā sauc  • Priekšzināšanas • Interesējošās tēmas

  13. Turpmāk • Nākamtrešdien ? • Citi rekomendēti laiki? • Kā mūs atrast • LUMII klātienē (315. un 3xx. telpa) • peteris@ailab.lv un normundsg@ailab.lv • Facebook grupa (?)

  14. ... Ja ir laiks stāstīt ...

  15. Valodas infrastruktūra • Rīki valodas lietošanai datoros • Programmu un ierīču internacionalizācija • Meklēšanas u.c. rīku pielāgošana • Vārdnīcas un valodas resursi • Teksta, runas u.c. korpusi • Tulkojumu vārdnīcas • Vārdu nozīmes (WordNet, FrameNet) • Rīki valodas apstrādei • Morfoloģija, gramatika, fonētika

  16. Balss tehnoloģijas • Balss sintēze • Palīgrīki neredzīgajiem • Ierīces ar iebūvētu valodu (piem. GPS) • Balss atpazīšana • Komandu atpazīšana • Teksta diktēšana • Labā kvalitātē angļu un citām valodām, bet latviešu valodai diemžēl vēl nav

  17. Tulkošana • Valda uz datiem balstītas metodes • Vispārīgam tekstam – ‘Google translate’ līmenis • Nozares specifiskiem tekstiem var labāk, ja ir treniņdati • Latviešu valoda – Tildes lauciņš • Vāja situācija LV<->RU tulkojumiem

  18. ‘Pareiza’ tulkošana • Teksts + konteksts + nozares zināšanas + pašsaprotamais • Uzbūvējam galvā ‘modeli’ tam, ko un kā stāstītājs mēģina pateikt • Pastāstam otrā valodā to pašu, ko ir gribējis pateikt • Nevis to, ko ir pateicis • Jēdzieniem nav 1-pret-1 piekārtojuma • Sinonīmi nav sinonīmi

  19. Teksta analīze • Teksta klasifikācija • Meklēšana – kur ir interesējošais • Komentāru ‘sentimenta’ noteikšana • Informācijas (faktu) izguve no teksta • Objektu un jēdzienu identificēšana • Apgalvojumi par objektiem • Objektu savstarpējās attiecības • Teksta priekšapstrāde un korekcijas

  20. Semantika • Jēdzienu, faktu un notikumu reprezentācija datorsistēmās • Pasaules sadalīšana ontoloģijās • Spriešana un secināšana • Semantikas ‘saprašana’ • Datu verbalizācija

  21. Sintakse • Veids, kā piekļūt semantikai • Korekta un saprotama teksta sintēze • Pareizrakstības pārbaude • Analizatori jeb parsētāji • Likumos balstītie (klasiskā gramatika) • Statistiskie (mašīnmācīšanās) • Gramatikas

  22. Jautājumu un atbilžu sistēmas • Brīvas valodas jautājumu analīze • Atbildes meklēšana teksta resursos • Piemērs – IBM Watson • Topsy & Simon LeGree are both characters in this bestselling novel-> What is «Uncle Tom’s cabin»? • Wolfram Alpha • Vaicājumi OWL zināšanu bāzēs

  23. Dialogsistēmas • Interaktīvas sistēmas saziņai • Tīmekļa aplikācijas • Balss pakalpojumi • Tulkošana starp formālu, loģisku valodu un dabīgo valodu • Daudznozīmību risināšana, pajautājot trūkstošo vai neskaidro • Latviešu valodai ļoti maz darīts

  24. Kāda tam visam jēga? Neierobežota enerģija Starpzvaigžņu ceļošana Izārstēt vēzi Miers visā pasaulē AI Neirobioloģija Mašīnmācīšanās Datorlingvistika ... ...

More Related