250 likes | 501 Views
Valodas tehnoloģijas. Pēteris Paikens, LU MII AiLab. Ievads. Lekcijas mērķis. Semināru struktūra Datorlingvistikas tēmu klāsts Ko mākam izdarīt latviešu valodai Ko māk paveikt pasaulē Pieejamie resursi Iepazīšanās. Semināru struktūra. Mēs Normunds Grūzītis Pēteris Paikens
E N D
Valodas tehnoloģijas Pēteris Paikens, LU MII AiLab Ievads
Lekcijas mērķis • Semināru struktūra • Datorlingvistikas tēmu klāsts • Ko mākam izdarīt latviešu valodai • Ko māk paveikt pasaulē • Pieejamie resursi • Iepazīšanās
Semināru struktūra • Mēs • Normunds Grūzītis • Pēteris Paikens • Praktiskie darbi • Izvēlaties tēmu un sagrupējaties • Kopā izdiskutējam, kā ķerties klāt • Mājās lasat, domājat, kodējat un svīstat • Semināros stāstat par paveikto, interesanto, risinājumiem un problēmām
Datorlingvistika • Metodes dabiskās valodes apstrādei • Formālu valodas modeļu izveide • Datu apstrādes ķēdes • Fonētika – runas elementi • Morfoloģija – locījumi un vārdformas • Sintakse – teikuma struktūra • Semantika – pateiktā jēga • Diskurss – konteksts garākā tekstā
Kāda tam visam jēga? • Īstermiņā sasniedzami pielietojumi • Vēlamies noturēt latviešu valodu • Dabiskā valoda ir homo sapiens piemērotākais saziņas līdzeklis • Cilvēces uzkrātā zināšanu bāze ir galvenokārt nestrukturēta teksta formā • Valoda ir veids, kurā mēs domājam
Ko mēs mākam labi • Morfoloģija • Saprast locījumus, izveidot tos • Kontrolētās valodas • Valodas apakškopa konkrētam lietojumam • OCR • Semantikas pētījumi • Ontoloģijas, OWL, to vizualizācija • Secinājumi un vaicājumi datos
Ko mēs puslīdz mākam • Runas sintēze • Named entity recognition • Mašīntulkošana (EN<>LV) • Sintakses analīze (shallow parsing) • Pareizrakstības pārbaude • Tilde māk; publiski nekas labs
Ko nemākam, bet māk citi • Labi analizēt sintaksi • Teikuma struktūra, paskaidrotāji • Daudznozīmība – kas ir domāts • Statistiski uzminēt jēgu • Word sense disambiguation + WordNet • Sentimenta noteikšana • Atpazīt runu • Dialogsistēmas
Tehniskie izaicinājumi • Daudznozīmību novēršana • Eksponenciāli augoši variantu skaiti • Mašīnmācīšanās pielietojumi • Aizstāj klasiskās lingvistikas likumus • Vajag lielu apjomu labu datu • Heiristiku un MM īpašību meklēšana • Big data • Tīmekļa dati, Twitter, grāmatas u.c. • Paralelizācija un pudurskaitļošana
Pieejamie resursi • Teksta korpusi • Balansētais (3.5m vārdu laba teksta) • Komentāri (Portāli, Twitter, draugiem.lv) • LNB korpuss (skanēts, OCR, ar kļūdām) • Vārdnīcas - www.tezaurs.lv • Rīki • Mūsu radītie un rādītie • Stanford NLP • Python NLTK
Idejas pielietojumiem ailab.lv/specseminars • Web tekstu vākšana un normalizācija • Vārdu nozīmes statistiska noteikšana • Faktu izvilkšana no teksta • Balss apstrāde • Idejas pielietojumiem jūsu nozarēs?
Jūs • Kā sauc • Priekšzināšanas • Interesējošās tēmas
Turpmāk • Nākamtrešdien ? • Citi rekomendēti laiki? • Kā mūs atrast • LUMII klātienē (315. un 3xx. telpa) • peteris@ailab.lv un normundsg@ailab.lv • Facebook grupa (?)
Valodas infrastruktūra • Rīki valodas lietošanai datoros • Programmu un ierīču internacionalizācija • Meklēšanas u.c. rīku pielāgošana • Vārdnīcas un valodas resursi • Teksta, runas u.c. korpusi • Tulkojumu vārdnīcas • Vārdu nozīmes (WordNet, FrameNet) • Rīki valodas apstrādei • Morfoloģija, gramatika, fonētika
Balss tehnoloģijas • Balss sintēze • Palīgrīki neredzīgajiem • Ierīces ar iebūvētu valodu (piem. GPS) • Balss atpazīšana • Komandu atpazīšana • Teksta diktēšana • Labā kvalitātē angļu un citām valodām, bet latviešu valodai diemžēl vēl nav
Tulkošana • Valda uz datiem balstītas metodes • Vispārīgam tekstam – ‘Google translate’ līmenis • Nozares specifiskiem tekstiem var labāk, ja ir treniņdati • Latviešu valoda – Tildes lauciņš • Vāja situācija LV<->RU tulkojumiem
‘Pareiza’ tulkošana • Teksts + konteksts + nozares zināšanas + pašsaprotamais • Uzbūvējam galvā ‘modeli’ tam, ko un kā stāstītājs mēģina pateikt • Pastāstam otrā valodā to pašu, ko ir gribējis pateikt • Nevis to, ko ir pateicis • Jēdzieniem nav 1-pret-1 piekārtojuma • Sinonīmi nav sinonīmi
Teksta analīze • Teksta klasifikācija • Meklēšana – kur ir interesējošais • Komentāru ‘sentimenta’ noteikšana • Informācijas (faktu) izguve no teksta • Objektu un jēdzienu identificēšana • Apgalvojumi par objektiem • Objektu savstarpējās attiecības • Teksta priekšapstrāde un korekcijas
Semantika • Jēdzienu, faktu un notikumu reprezentācija datorsistēmās • Pasaules sadalīšana ontoloģijās • Spriešana un secināšana • Semantikas ‘saprašana’ • Datu verbalizācija
Sintakse • Veids, kā piekļūt semantikai • Korekta un saprotama teksta sintēze • Pareizrakstības pārbaude • Analizatori jeb parsētāji • Likumos balstītie (klasiskā gramatika) • Statistiskie (mašīnmācīšanās) • Gramatikas
Jautājumu un atbilžu sistēmas • Brīvas valodas jautājumu analīze • Atbildes meklēšana teksta resursos • Piemērs – IBM Watson • Topsy & Simon LeGree are both characters in this bestselling novel-> What is «Uncle Tom’s cabin»? • Wolfram Alpha • Vaicājumi OWL zināšanu bāzēs
Dialogsistēmas • Interaktīvas sistēmas saziņai • Tīmekļa aplikācijas • Balss pakalpojumi • Tulkošana starp formālu, loģisku valodu un dabīgo valodu • Daudznozīmību risināšana, pajautājot trūkstošo vai neskaidro • Latviešu valodai ļoti maz darīts
Kāda tam visam jēga? Neierobežota enerģija Starpzvaigžņu ceļošana Izārstēt vēzi Miers visā pasaulē AI Neirobioloģija Mašīnmācīšanās Datorlingvistika ... ...