250 likes | 589 Views
Keelest ja tehnoloogiast. Sissejuhatus informaatikasse 31. oktoobril 2012 Kadri Vider Kadri.vider@ut.ee Keeletehnoloogia teadur. Minu arvuti on …. Ingliskeelne Eestikeelne Muukeelne Ei mäleta. Minu lemmik tekstitoimeti on …. Ingliskeelne MS Word Eestikeelne MS Word
E N D
Keelest ja tehnoloogiast Sissejuhatus informaatikasse 31. oktoobril 2012 Kadri Vider Kadri.vider@ut.ee Keeletehnoloogia teadur
Minu arvuti on … • Ingliskeelne • Eestikeelne • Muukeelne • Ei mäleta
Minu lemmik tekstitoimeti on … • Ingliskeelne MS Word • Eestikeelne MS Word • Ingliskeelne Open/LibreOffice • Eestikeelne Open/LibreOffice • Ingliskeelne, muu • Eestikeelne, muu • Ei mäleta
Keel ja arvuti (laiemalt IT) • Inimkeel on suhtlusvahend • Mis keeles suhtleb sinuga arvuti? • Või suhtled sina arvutiga? Spontaansed vestlused navi-seadmetega ei ole veel keeletehnoloogia Ka lokaliseerimine ja tarkvara eestindamine ei ole veel keeletehnoloogia => Kuid iga inimkeel vajab tehnoloogilist tuge
Keeletalgud • Kaunimad eestikeelsed laused • „Sõida tasa üle silla“ – legendaarsel keelte iludusvõistlusel • EV90 algatus keele ja keeletehnoloogia teadvustamiseks • Milles seisneb keele kaunidus? • Vormiline kaunidus (häälikud, kõla, rütm) • Sisuline kaunidus (kaunid mõtted, olulised tähendused) „Igaühele on kõige kaunim tema emakeel.“ ütles akadeemik Paul Ariste
Kõnesüntees kaunite lausete kallal Prantsuse kõnesüntesaator Inglise kõnesüntesaator Eesti difoonsünteesi kõnesüntesaator Eesti korpusesünteesi kõnesüntesaator
„Ega inimene massina vasta saa!“ …ehk see, miks keeletehnoloogia on minu meelest lahe: • Iga päev on kopp ees + Iga päev teen karjääri …või ka poeetilisemalt: „…kus kasteheinas põlvini me lapsed jooksime“ (L. Koidula „Meil aiaäärne tänavas“) => kas JOOKS+i+me või JOO+ksi+me
Mõistetest keeleteadus, lingvistika - teadus keelest, selle olemusest, ehitusest, talitlemisest ja arenemisest informaatika - arvutil põhineva infotöötlusega tegelev teaduse ja tehnika haru arvutilingvistika (computationallinguistics) loomuliku keele automaattöötlusega tegelev keeleteaduse ja informaatika piiriala keeletehnoloogia (languagetechnology, naturallanguageprocessing NLP) tegeleb meetodite, tarkvara ja seadmetega, mis on spetsialiseeritud tekstide ja kõne töötlemiseks. (termini päritolu: 1990ndad, EL)
Keeletehnoloogia infotehnoloogia kontekstis Eesti keel digiajastul. Estonian Langugage in the Digital Age http://www.meta-net.eu/whitepapers/e-book/estonian.pdf
Keeletöötluse arhitektuur Eesti keel digiajastul. Estonian Langugage in the Digital Age http://www.meta-net.eu/whitepapers/e-book/estonian.pdf
Keeleline kontroll Eesti keel digiajastul. Estonian Langugage in the Digital Age http://www.meta-net.eu/whitepapers/e-book/estonian.pdf
Veebiotsing Eesti keel digiajastul. Estonian Langugage in the Digital Age http://www.meta-net.eu/whitepapers/e-book/estonian.pdf
Kõnepõhine dialoog Eesti keel digiajastul. Estonian Langugage in the Digital Age http://www.meta-net.eu/whitepapers/e-book/estonian.pdf
Masintõlge Eesti keel digiajastul. Estonian Langugage in the Digital Age http://www.meta-net.eu/whitepapers/e-book/estonian.pdf
Masintõlge Masintolge.ut.ee
Keele tehnoloogiline tugi: tehnoloogiad • Keeletehnoloogia: keeletöötluse vahendid, tehnoloogiad ja rakendused • Kõnetuvastus • Kõnesüntees • Grammatiline analüüs • Semantiline analüüs • Keele genereerimine • Masintõlge
Keeletehnoloogia rakendusi • Õigekirjakorrektor ehk speller • Targem otsing sõnavormituvastaja abiga • Referent ehk sisukokkuvõtete tegija • Suhtlusagent ehk dialoogisüsteem – www.dialoogid.ee • Lobisejad ja diktaatorid ehk kõnesüntesaatorid ja kõnetuvastajad (vt nt http://bark.phon.ioc.ee/webtrans/)
Keele tehnoloogiline tugi: keeleressursid • Keeleressursid: digitaalsed keelevarad, korpused, andmestikud, teadmusbaasid • Tekstikorpused • Kõnekorpused • Paralleelkorpused • Leksikaalsed ressursid • Grammatikad www.cl.ut.ee – korpused ja Eesti WordNet www.keeleveeb.ee – paljude ressursside ühispäring www.eki.ee - sõnastikke
Arvutilingvistika ja keeletehnoloogia Eestis TÜ arvutilingvistika uurimisrühm www.cl.ut.ee TÜ keeletehnoloogia uurimisrühm http://www.cs.ut.ee/~koit/KT/ TTÜ foneetika ja kõnetehnoloogia labor (kõnetuvastus) http://www.phon.ioc.ee Eesti Keele Instituudi keeleteaduse ja –tehnoloogia osakond www.eki.ee Riiklik programm ‘Eesti keeletehnoloogia’ www.keeletehnoloogia.ee
Kõnetehnoloogia Tegeldakse Eesti keele instituudis (kõnesüntees) ja TTÜ-s (kõnetuvastus) Veebipõhine kõnetuvastus: http://bark.phon.ioc.ee/webtrans/ (rakendusnäide: diktofon Androidile) Kõnesüntees http://kiisu.eki.ee/
Miks Eestis keeletehnoloogiat teha? • Sest on huvitav • Sest aitab eesti keelel digimaailmas ellu jääda • Sest mujal on ka! • Sest keegi teine ju eesti keelele tehnoloogilist tuge ei tee • Sest EKT riiklikust programmist antakse raha • Mõttetu, nagunii on inglise keel IT-maailmas arusaadavam