370 likes | 691 Views
Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep. Kes õpetaks arvuti eesti keeles suhtlema?. Vastus: keeletehnoloogia Aga… Lihtne see pole. Mõelge, kuidas suhtlevad omavahel kaks inimest. Inimesed A ja B suhtlevad. A peas tekib mõte . A sõnastab mõtte.
E N D
Eesti keeles suhtlev arvuti – kas utoopia?Heli Uibo, Kaili Müürisep
Kes õpetaks arvuti eesti keeles suhtlema? • Vastus: keeletehnoloogia • Aga… • Lihtne see pole. Mõelge, kuidas suhtlevad omavahel kaks inimest.
Inimesed A ja B suhtlevad • A peas tekib mõte. • A sõnastab mõtte. • A ütleb mõtte välja. • B kuuleb A sõnu. • B saab aru, mida A ütles (oskab seda keelt). • B saab sisuliselt aru, mida A ütles (loodetavasti on A ja B mõttemaailmad sedavõrd sarnased). • B-l tekib omakorda mõte, ta sõnastab selle, ütleb välja jne.
Veidi teooriat Kõik keeletehnoloogia rakendused eeldavad osalist või täielikku loomuliku keele analüüsi ja/või sünteesi (natural language processing = NLP) Kirjaliku keele töötluse etapid: Semantika (lause tähendus) Pragmaatika (lause kontekst) Morfo- loogia (sõna) Süntaks (lause) Analüüs e. tuvastus Süntees e. genereerimine
Veidi teooriat (2) • Mõnede rakenduste puhul on olulised just kõnetuvastus (speech-to-text) või kõnesüntees (text-to-speech) kõnetuvastus kõnesüntees kõne (helisignaalide jada) kirjalik tekst
Veidi teooriat (3) Loomuliku keele töötluse meetodid: • grammatikapõhised (mingist lingvistilisest teooriast lähtudes koostatakse spetsiaalse struktuuriga sõnastikud ja reeglid) • statistilised (suurte tekstikorpuste põhjal leitakse seaduspärasused, keeleteadusest eriti ei hoolita)
Keeletehnoloogia – mis ja milleks? • Keeletehnoloogia on infotehnoloogia haru, mis tegeleb inimkeele töötlusega. • Keeletehnoloogia arendamise reaalsed eesmärgid: • muuta inimese suhtlus masinaga võimalikult mugavaks (kasutajaliides loomulikus keeles); • aidata inimesel orienteeruda järjest kasvavas infohulgas (infootsingusüsteemid, automaatsed sisukokkuvõtete tegijad);
Keeletehnoloogia – mis ja milleks? (2) • aidata inimest keeleküsimustes (elektroonilised sõnastikud, õigekirja-, grammatika- ja stiilikorrektorid, tesaurused, täis- või poolautomaatsed tõlkijad); • aidata puudega inimesi (kõne analüüs ja süntees pimedatele, kirjutamise ja lugemise abivahendid düslektikutele jne.) kõrvalprodukt: kasu keeleteadusele (lingvistiliste teooriate kontroll praktikas, näiteks tekstikorpustel)
Mida keeletehnoloogia kasutab • Keeletehnoloogia kasutab teadmisi • arvutiteadusest • keeleteadusest • matemaatikast • psühholoogiast • inseneriteadusest
Millega keeletehnoloogia kõige üldisemalt tegeleb Keeletehnoloogia tegeleb • keeletarkvara väljatöötamisega • keeleressursside loomisega
Keeletarkvara • Kõne tuvastus ja süntees • Õigekirja-, grammatika- ja stiilikorrektorid • Optilise tekstituvastuse (OCR) programmid (teksti skanneerimisel) • Infootsisüsteemid • Keeleõppeprogrammid • Masintõlkesüsteemid
Keeleressursid • Kirja- ja kõnekeelekorpused • Elektroonilised sõnastikud • Leksikaalsed andmebaasid • Formaliseeritud grammatikakirjeldused
Keeletehnoloogia maailmas • Areng algas koos esimeste arvutitega • (“The spirit is strong but the flesh is weak.”) • Peamiselt “suurte keelte” jaoks (inglise, prantsuse, saksa, hiina, jaapani, vene) • Euroopa Liit tõlkeprobleemid
Tekstitoimeti juurde kuuluvad abivahendid • Õigekirjakorrektor (spelling checker) – sõna tasandil õigekiri • Grammatikakorrektor (grammar checker) – lause tasandil õigekiri • Stiilikorrektor (style checker) – teksti tasandil õigekiri • Automaatne poolitus (hyphenation) • Tesaurus (thesaurus) – aitab rikastada teksti sõnavara sünonüümide abil
Infootsisüsteemid • Otsingusüsteemid e. otsingumootorid (information retrieval = IR) • Mitmekeelne otsing (multilingual information retrieval) • Info ekstrahheerimissüsteemid (information extraction = IE) • Dokumentide liigitus (classification) • Automaatne sisukokkuvõtete tegemine (automatic summarization)
Masintõlge • Sõnastikupõhised süsteemid • Tõlkemälu-põhised süsteemid • Tõelised masintõlkeprogrammid Väike ülevaade sellest, mida veebist leidsin...
Kõne süntees ja tuvastus • Kõne süntees – elektroonilisel kujul olevast tekstist kõne genereerimine ehk arvuti “räägib”. • Kõne analüüs e. kõnetuvastus – suulisest kõnest elektroonilise teksti genereerimine ehk arvuti “kuuleb”.
Keeleõpe • Sõnastikud • Korpused • Hääldus
Veel keeletehnoloogia rakendusi • Loomuliku keele liidesega infootsi-süsteemid (enamasti valdkond piiritletud: transport, geograafia vm.) www.askjeeves.com – universaalne • Keelemõistataja - arvuti arvab ära, mis keeles on tekst kirjutatud http://odur.let.rug.nl/~vannoord/TextCat/Demo/textcat.html (XRCE = Xerox Research Centre Europe)
Keeletehnoloogia Eestis • Kõne süntees Küberneetika Instituudis ja Eesti Keele Instituudis(www.ee/eks) • Sõnastikud Eesti Keele Instituudis (www.eki.ee) • Korpused Tartu Ülikoolis (www.cl.ut.ee) • Morfoloogia- ja süntaksianalüsaatorid • Tesaurused • Dialoogimudelid
Morfoloogiline analüüs Morfoloogiaanalüsaatorid: 1) ESTMORF (H. Kaalep). Sellest arendatud ka MS Office’i speller 2) Ü. Viks (Eesti Keele Instituut): klassifikatoorne morfoloogia “Väike vormisõnastik” avatud morfoloogiamudel 3) H. Uibo kahetasemelise morfoloogiamudeli rakendamise katsed
Morfoloogiline analüüs (2) • Morfoloogiaanalüsaator ESTMORF (H.-J. Kaalep) suudab leida õige morfoloogilise tõlgenduse üle 99% sõnadele. • Üle 45% eesti keele sõnadest morfoloogiliselt mitmeti tõlgendatavad (homonüümid). morfoloogiline ühestamine
Morfoloogiline ühestamine Morfoloogilised ühestajad: 1) kitsenduste grammatikal põhinev (T. Puolakainen) 2) statistiline (H.Kaalep, T.Vaino)
Morfoloogiline ühestamine (2) • Sagedasemad mitmesused: • partitsiipide verbi ja omadussõna tõlgenduste vahel (vrd. Neid ei nähtud.Nähtud film.) • nimisõnade nimetava, omastava ja osastava (saba) või omastava, osastava ja lühikese sisseütleva vahel (metsa) • kaassõna, määrsõna ja nimisõna vahel (andis võtmed minu kätte; kass sai hiire kätte; pani kindad kätte)
Morfoloogilise ühestamise probleemid (3) • Sagedased mitmeti tõlgendatavad verbivormid: sai, viis, tee,või, tuli
(1) maailma-GEN juhtivad majandusriigid (2) maailma-PART juhtivad majandusriigid (3) maailma-ILLAT juhtivad majandusriigid Morfoloogiline ühestamine (3) Näide lahendamatust mitmesusest:
Morfoloogiline ühestamine - tulemused • 85-90 % sõnadest saavad ühese morfoloogilise tõlgenduse. • Vigu on vähem kui 2 %.
Süntaktiline märgendamine - probleemid • Määrused võimääruslikud täiendid: • Ta võttis praeahjust panni • Ta võttis vasest ahjuroobi • Omastavas käändes sihitis või eestäiend • Ta ostis sellelinna turult • Alus ja sihitis • Tal ei olnud enamasti midagi ütelda • Alus ja määrus • See kord ilmus, kord kadus
Süntaktiline märgendamine - vead Kiilud ja poolitatud osalaused Seega oli samm, mille astus Eesti, palju pikem ja otsustavam. Fraasipiirid: Peapiiskop Korneliuse tegevuses on aimatavad erinevad motiivid. Kvantorid Asesõnade ühildumine
Süntaktiline märgendamine - tulemused • Korrektsus 96,5 - 98,5% • Üheseid analüüse 83-90% • Mitmesus tingitud peamiselt semantikast ja lause keerulisest struktuurist
Süntaksianalüsaatori rakendused • Nimisõnafraaside tuvastaja • Automaatne sisukokkuvõtete tegija
Tesaurus • Arvutileksikon, kus sõnad on nende tähenduste järgi organiseeritud hierarhilisse struktuuri – sõnade võrku (WordNet). • Eesti keel kuulub ühena seitsmest keelest EuroWordNet’I (teised keeled: hollandi, itaalia, hispaania, saksa, prantsuse, tšehhi) • Võrk kajastab erinevaid seoseid, nt ülem- ja alammõisted (auto – liiklusvahend) või osa- tervikuseosed (mootor – auto) • 12 000 sõna
Veel ... • Semantilise ühestamise programm semyhe (K. Kaljurand, N. Kahusk) - põhineb WordNet’il • Inglisekeelne infootsimissüsteem WebExtrAns koostöös Zürichi Ülikooliga (projekti juht M. Koit, meeskonnas K. Kaljurand, N. Kahusk) • Dialoogimudelid (M. Koit, H. Õim, T. Hennoste, M. Kullasaar, E. Vutt jt.)
Tekst-kõne sünteesi demod • MBROLA projekt de Mons'i ülikoolis (Belgias) http://tcts.fpms.ac.be/synthesis/mbrola.html • vaba kõnesünteesitarkvara • difoonide andmebaasid 24 keele jaoks, sh. eesti keel (E. Meister, A. Eek, M. Mihkla)
Tekst-kõne sünteesi demod (2) • Belli laborid http://www1.bell-labs.com/project/tts/voices.html • inglise keelel põhinev, • annab valida, kas arvuti räägib mehe, naise, lapse, kohvijooja vm. häälega
Tekst-kõne sünteesi demod (3) • AT&T laborid http://www.research.att.com/~mim/cgi-bin/ttsdemo • loeb inglise keelt suhteliselt hästi • suurtähtedega kirjutatud või täpitähti sisaldavat teksti hääldab tähthaaval
Tekst-kõne sünteesi demod (4) • Eesti keele kõnesüntees - E. Meister jt. TÜ Küberneetika instituudi foneetika ja kõnetehnoloogia labor demo veebis: kiisu.eki.ee