1 / 37

Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep. Kes õpetaks arvuti eesti keeles suhtlema?. Vastus: keeletehnoloogia Aga… Lihtne see pole. Mõelge, kuidas suhtlevad omavahel kaks inimest. Inimesed A ja B suhtlevad. A peas tekib mõte . A sõnastab mõtte.

greg
Download Presentation

Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Eesti keeles suhtlev arvuti – kas utoopia?Heli Uibo, Kaili Müürisep

  2. Kes õpetaks arvuti eesti keeles suhtlema? • Vastus: keeletehnoloogia • Aga… • Lihtne see pole. Mõelge, kuidas suhtlevad omavahel kaks inimest.

  3. Inimesed A ja B suhtlevad • A peas tekib mõte. • A sõnastab mõtte. • A ütleb mõtte välja. • B kuuleb A sõnu. • B saab aru, mida A ütles (oskab seda keelt). • B saab sisuliselt aru, mida A ütles (loodetavasti on A ja B mõttemaailmad sedavõrd sarnased). • B-l tekib omakorda mõte, ta sõnastab selle, ütleb välja jne.

  4. Veidi teooriat Kõik keeletehnoloogia rakendused eeldavad osalist või täielikku loomuliku keele analüüsi ja/või sünteesi (natural language processing = NLP) Kirjaliku keele töötluse etapid: Semantika (lause tähendus) Pragmaatika (lause kontekst) Morfo- loogia (sõna) Süntaks (lause) Analüüs e. tuvastus Süntees e. genereerimine

  5. Veidi teooriat (2) • Mõnede rakenduste puhul on olulised just kõnetuvastus (speech-to-text) või kõnesüntees (text-to-speech) kõnetuvastus kõnesüntees kõne (helisignaalide jada) kirjalik tekst

  6. Veidi teooriat (3) Loomuliku keele töötluse meetodid: • grammatikapõhised (mingist lingvistilisest teooriast lähtudes koostatakse spetsiaalse struktuuriga sõnastikud ja reeglid) • statistilised (suurte tekstikorpuste põhjal leitakse seaduspärasused, keeleteadusest eriti ei hoolita)

  7. Keeletehnoloogia – mis ja milleks? • Keeletehnoloogia on infotehnoloogia haru, mis tegeleb inimkeele töötlusega. • Keeletehnoloogia arendamise reaalsed eesmärgid: • muuta inimese suhtlus masinaga võimalikult mugavaks (kasutajaliides loomulikus keeles); • aidata inimesel orienteeruda järjest kasvavas infohulgas (infootsingusüsteemid, automaatsed sisukokkuvõtete tegijad);

  8. Keeletehnoloogia – mis ja milleks? (2) • aidata inimest keeleküsimustes (elektroonilised sõnastikud, õigekirja-, grammatika- ja stiilikorrektorid, tesaurused, täis- või poolautomaatsed tõlkijad); • aidata puudega inimesi (kõne analüüs ja süntees pimedatele, kirjutamise ja lugemise abivahendid düslektikutele jne.) kõrvalprodukt: kasu keeleteadusele (lingvistiliste teooriate kontroll praktikas, näiteks tekstikorpustel)

  9. Mida keeletehnoloogia kasutab • Keeletehnoloogia kasutab teadmisi • arvutiteadusest • keeleteadusest • matemaatikast • psühholoogiast • inseneriteadusest

  10. Millega keeletehnoloogia kõige üldisemalt tegeleb Keeletehnoloogia tegeleb • keeletarkvara väljatöötamisega • keeleressursside loomisega

  11. Keeletarkvara • Kõne tuvastus ja süntees • Õigekirja-, grammatika- ja stiilikorrektorid • Optilise tekstituvastuse (OCR) programmid (teksti skanneerimisel) • Infootsisüsteemid • Keeleõppeprogrammid • Masintõlkesüsteemid

  12. Keeleressursid • Kirja- ja kõnekeelekorpused • Elektroonilised sõnastikud • Leksikaalsed andmebaasid • Formaliseeritud grammatikakirjeldused

  13. Keeletehnoloogia maailmas • Areng algas koos esimeste arvutitega • (“The spirit is strong but the flesh is weak.”) • Peamiselt “suurte keelte” jaoks (inglise, prantsuse, saksa, hiina, jaapani, vene) • Euroopa Liit  tõlkeprobleemid

  14. Tekstitoimeti juurde kuuluvad abivahendid • Õigekirjakorrektor (spelling checker) – sõna tasandil õigekiri • Grammatikakorrektor (grammar checker) – lause tasandil õigekiri • Stiilikorrektor (style checker) – teksti tasandil õigekiri • Automaatne poolitus (hyphenation) • Tesaurus (thesaurus) – aitab rikastada teksti sõnavara sünonüümide abil

  15. Infootsisüsteemid • Otsingusüsteemid e. otsingumootorid (information retrieval = IR) • Mitmekeelne otsing (multilingual information retrieval) • Info ekstrahheerimissüsteemid (information extraction = IE) • Dokumentide liigitus (classification) • Automaatne sisukokkuvõtete tegemine (automatic summarization)

  16. Masintõlge • Sõnastikupõhised süsteemid • Tõlkemälu-põhised süsteemid • Tõelised masintõlkeprogrammid Väike ülevaade sellest, mida veebist leidsin...

  17. Kõne süntees ja tuvastus • Kõne süntees – elektroonilisel kujul olevast tekstist kõne genereerimine ehk arvuti “räägib”. • Kõne analüüs e. kõnetuvastus – suulisest kõnest elektroonilise teksti genereerimine ehk arvuti “kuuleb”.

  18. Keeleõpe • Sõnastikud • Korpused • Hääldus

  19. Veel keeletehnoloogia rakendusi • Loomuliku keele liidesega infootsi-süsteemid (enamasti valdkond piiritletud: transport, geograafia vm.) www.askjeeves.com – universaalne • Keelemõistataja - arvuti arvab ära, mis keeles on tekst kirjutatud http://odur.let.rug.nl/~vannoord/TextCat/Demo/textcat.html (XRCE = Xerox Research Centre Europe)

  20. Keeletehnoloogia Eestis • Kõne süntees Küberneetika Instituudis ja Eesti Keele Instituudis(www.ee/eks) • Sõnastikud Eesti Keele Instituudis (www.eki.ee) • Korpused Tartu Ülikoolis (www.cl.ut.ee) • Morfoloogia- ja süntaksianalüsaatorid • Tesaurused • Dialoogimudelid

  21. Morfoloogiline analüüs Morfoloogiaanalüsaatorid: 1) ESTMORF (H. Kaalep). Sellest arendatud ka MS Office’i speller 2) Ü. Viks (Eesti Keele Instituut): klassifikatoorne morfoloogia “Väike vormisõnastik” avatud morfoloogiamudel 3) H. Uibo kahetasemelise morfoloogiamudeli rakendamise katsed

  22. Morfoloogiline analüüs (2) • Morfoloogiaanalüsaator ESTMORF (H.-J. Kaalep) suudab leida õige morfoloogilise tõlgenduse üle 99% sõnadele. • Üle 45% eesti keele sõnadest morfoloogiliselt mitmeti tõlgendatavad (homonüümid).  morfoloogiline ühestamine

  23. Morfoloogiline ühestamine Morfoloogilised ühestajad: 1) kitsenduste grammatikal põhinev (T. Puolakainen) 2) statistiline (H.Kaalep, T.Vaino)

  24. Morfoloogiline ühestamine (2) • Sagedasemad mitmesused: • partitsiipide verbi ja omadussõna tõlgenduste vahel (vrd. Neid ei nähtud.Nähtud film.) • nimisõnade nimetava, omastava ja osastava (saba) või omastava, osastava ja lühikese sisseütleva vahel (metsa) • kaassõna, määrsõna ja nimisõna vahel (andis võtmed minu kätte; kass sai hiire kätte; pani kindad kätte)

  25. Morfoloogilise ühestamise probleemid (3) • Sagedased mitmeti tõlgendatavad verbivormid: sai, viis, tee,või, tuli

  26. (1) maailma-GEN juhtivad majandusriigid (2) maailma-PART juhtivad majandusriigid (3) maailma-ILLAT juhtivad majandusriigid Morfoloogiline ühestamine (3) Näide lahendamatust mitmesusest:

  27. Morfoloogiline ühestamine - tulemused • 85-90 % sõnadest saavad ühese morfoloogilise tõlgenduse. • Vigu on vähem kui 2 %.

  28. Süntaktiline märgendamine - probleemid • Määrused võimääruslikud täiendid: • Ta võttis praeahjust panni • Ta võttis vasest ahjuroobi • Omastavas käändes sihitis või eestäiend • Ta ostis sellelinna turult • Alus ja sihitis • Tal ei olnud enamasti midagi ütelda • Alus ja määrus • See kord ilmus, kord kadus

  29. Süntaktiline märgendamine - vead Kiilud ja poolitatud osalaused Seega oli samm, mille astus Eesti, palju pikem ja otsustavam. Fraasipiirid: Peapiiskop Korneliuse tegevuses on aimatavad erinevad motiivid. Kvantorid Asesõnade ühildumine

  30. Süntaktiline märgendamine - tulemused • Korrektsus 96,5 - 98,5% • Üheseid analüüse 83-90% • Mitmesus tingitud peamiselt semantikast ja lause keerulisest struktuurist

  31. Süntaksianalüsaatori rakendused • Nimisõnafraaside tuvastaja • Automaatne sisukokkuvõtete tegija

  32. Tesaurus • Arvutileksikon, kus sõnad on nende tähenduste järgi organiseeritud hierarhilisse struktuuri – sõnade võrku (WordNet). • Eesti keel kuulub ühena seitsmest keelest EuroWordNet’I (teised keeled: hollandi, itaalia, hispaania, saksa, prantsuse, tšehhi) • Võrk kajastab erinevaid seoseid, nt ülem- ja alammõisted (auto – liiklusvahend) või osa- tervikuseosed (mootor – auto) • 12 000 sõna

  33. Veel ... • Semantilise ühestamise programm semyhe (K. Kaljurand, N. Kahusk) - põhineb WordNet’il • Inglisekeelne infootsimissüsteem WebExtrAns koostöös Zürichi Ülikooliga (projekti juht M. Koit, meeskonnas K. Kaljurand, N. Kahusk) • Dialoogimudelid (M. Koit, H. Õim, T. Hennoste, M. Kullasaar, E. Vutt jt.)

  34. Tekst-kõne sünteesi demod • MBROLA projekt de Mons'i ülikoolis (Belgias) http://tcts.fpms.ac.be/synthesis/mbrola.html • vaba kõnesünteesitarkvara • difoonide andmebaasid 24 keele jaoks, sh. eesti keel (E. Meister, A. Eek, M. Mihkla)

  35. Tekst-kõne sünteesi demod (2) • Belli laborid http://www1.bell-labs.com/project/tts/voices.html • inglise keelel põhinev, • annab valida, kas arvuti räägib mehe, naise, lapse, kohvijooja vm. häälega

  36. Tekst-kõne sünteesi demod (3) • AT&T laborid http://www.research.att.com/~mim/cgi-bin/ttsdemo • loeb inglise keelt suhteliselt hästi • suurtähtedega kirjutatud või täpitähti sisaldavat teksti hääldab tähthaaval

  37. Tekst-kõne sünteesi demod (4) • Eesti keele kõnesüntees - E. Meister jt. TÜ Küberneetika instituudi foneetika ja kõnetehnoloogia labor demo veebis: kiisu.eki.ee

More Related