440 likes | 668 Views
EKKTT 2006-2010. Jaak Vilo. http://www.hm.ee/index.php?popup=download&id=4964. Kuhu peab minema lisaraha?. Sinna, kus mõju kõige suurem... Juurde inimesi – praegused üliõpilased peaksid jõudma põhitäitjateks Uued suuremad ülesanded. Keel. Keeletehnoloogia. Keeletehnoloogia.
E N D
EKKTT 2006-2010 Jaak Vilo
Kuhu peab minema lisaraha? • Sinna, kus mõju kõige suurem... • Juurde inimesi – praegused üliõpilased peaksid jõudma põhitäitjateks • Uued suuremad ülesanded
Mida oodatakse 2010. aastaks? • Avalikuks kasutuseks mõeldud prototüübid • Tulemid mida riik ja äriettevõtted võivad hakata (vabalt) juurutama
Oodatavad tulemused • Kõnetuvastus • Kõnesüntees (ilmekas ette lugemine) • Masintõlge • Grammatikakorrektor (õigekirja kontroll) • Inimene-masin dialoogisüsteemid • Info-otsingu lahendused • Leksikograafi töökeskkond
Sõnastagem: • Millist kasu annab iga projekt eesti keele kasutamiseks 21. sajandi arvutites • Milline on esimene toode mis jõuab minu töö tulemusel massideni • Mida oleks juurde vaja, et tooted jõuaksid kasutusse
Keeletarkvara saamislugu Keeletarkvara Keeleressursid Alusmoodulid Alusuuringud
Mõned alusmoodulid • Morfoloogiline analüüs ja süntees • Sõnamoodustuslik analüüs ja süntees • Süntaktiline analüüs ja süntees • Semantiline analüüs ja süntees • Kõneaktide tuvastaja (küsimused, vastused, käsud…)
Ressursid: Kirjalikud korpused • Kirjaliku keele koondkorpus • Paralleelkorpused • Süntaktiliselt analüüsitud korpus (puudepank) • Semantiliselt ühestatud ja märgendatud korpus • Vigade korpus • Korpuste kasutajaliidesed
Ressursid: suulise keele korpused • Suulise eesti keele korpus -> 2M sõna • Dialoogikorpus -> 0.5M sõna • Kõnepuudega inimeste erikorpus • Segmenteeritud sidusa kõne korpus • Kõnetehnoloogia andmebaasid • Difoonid, kõnenäited, uudiste korpus … • Aktsendikorpus
Ressursid: sõnastikud ja andmebaasid • Elektrooniliste sõnastike XML formaadid • Leksikaalsemantiline andmebaas • Püsiühendite andmebaas • Formaalsed keelekirjeldused
Seni (2006-07) 20 projekti: • Tartu Ülikool (13 projekti, 7.6M) • Tallinna Tehnikaülikool KübI (3, 2.8M) • Eesti Keele Instituut (3, 3.54) • Filosoft (1, 0.45M)
Olulisi küsimusi täna: • Milline on projektide hetkeolukord • Kuidas tagada integreerimine ja juurutus • Kuidas tugevdada koostööd • Kuidas populariseerida EKKTT projekti
Info levitamine • Iga projekti jaoks peaks tekkima oma “kodu” • Uudised ja PR
Projekti või teema koduleht: • Projekti kirjeldus • Tulemite kirjeldus • tehniline dokumentatsioon • artiklid • Tarkvara • lähtekoodiga • juurutamise juhend • Juhised integreerimiseks
Litsentsid ja tarkvara • Kuidas tagada tulemite võimalikult kerge juurutamine praktikasse? • vabad litsentsitingimused • info levitamine • Kas kõik moodulid on vabalt kasutatavad? • Kas moodulid on tehniliselt ühendatavad?
Kuidas tagada kasutatavus? • Programmeerimisliides (API) • mugavus, kiirus, teostatavus • Multi-platvorm • standardsed keeled, üldised algoritmid, ... • Nii detailsed kirjeldused, et saab realiseerida ka mujal
Litsentsitingimused • GPL, LGPL – “viiruslikud” • Apache, BSD – vabamad • Asutused on sageli litsentsi omanikud • Oluline: Eestis vabalt kasutatav • Teise (erineva) litsentsi võimalus välismaistele kommerts-ettevõtetele
Riist- ja tarkvara infrastruktuur • Serverid • Kõik ressursid: korpused, andmed, jne • Ühised päringusüsteemid • Integreerimine • Tarkvara • Kas on sellist tarkvara millele vaja litsentse? • üldiselt oleks parem neid vältida, sest muidu ei saa teised pärast tulemusi kasutada
Arvutusserverid • Treenimiseks • Kõnesüntees, analüüs – HMM jne • Statistiline maintõlge • Analüüs: • Mahukas tekstide analüüs • Morf. analüüs, süntees, ... • Ühestamine, ... • ...
Tulemuste integreerimine • Rühmad peaksid rohkem suhtlema et tekiks tugevam koostöö – lõpptooted • Et ei oleks üksteisest isoleeritud üksikud projektid vaid suurem tervik ja olulised verstapostid
Suuremad eesmärgid • Kas oleks vaja rohkem suuremaid projekte kus nõutakse kõigi moodulite ühendamist? • Selliseid, kus töötavad koos eri asutused ja valmistavad ühised kasutatavad tulemid • WP-d, Milestone’id, Deliverable’id jne.
Ei ole üksi ükski maa • Mida tehakse mujal ressursside ühendamiseks?
ESFRI • European Strategy Forum on Research Infrastructures • Launched in April 02 • Roadmap: • Addressing seven (7) fields of Research and major challenges • Thirty Five (35) projects identified • Research community produced ideas that will open up new and unexpected areas of knowledge
Role of ESFRI • To foster an “open method of coordination”between different countries • stimulation role: to discuss the long term vision at European level and to support the development of a European RI policy • incubation role: to bring projects to a point where decisions by ministers are possible
Keeleressurside ja -tehnoloogia infrastruktuur • Ettevalmistusprojekti taotlus on sees • 32 liiget, 22 EL riiki • 1. etapp – 3a ettevalmistusprojekt (5.5M€) • 2. etapp – põhiprojekt (120+45M€) • Riigid maksaksid 1/3 • Eesti ettevalmistus: 27K€, omafin 10K€
Meie ees seisavad samad probleemid mis kogu Euroopa keeletehnoloogia standardiseerimisel • Aga meil on “lihtsam” kuna oleme väiksemad (kuid töö tuleb teha samas mahus) • Oluline, et tekiksid uued tulemid ja rakendused
Juhtkomitee • On siin selleks, et tagada riigi huvide kaitse • Kõik ettepanekud on oodatud
Juhtkomitee • Jaak Vilo – TÜ - esimees, • Einar Meister – TTÜ - aseesimees • Heiki-Jaan Kaalep – TÜ • Kaili Müürisep– TÜ • Karl Pajusalu– TÜ • Indrek Reimand– HTM • Urmas Sutrop– EKI • Uuno Vallner – MKM, RISO
Koordinaator • Maarika Traat, TÜ
Tänane konverents: • Käimasolevate projektide hetkeseis • kas asjad lähevad õiges suunas, piisava tempoga • Tuleviku väljavaated • kas me oleme teel sinna kuhu on vaja jõuda • mida teha selleks, et jõuda eduka tulemuseni • Rohkem reaalset koostööd
Tänane konverents: • Palun, hoiame ajakavast kinni • Jätame ruumi küsimustele ja aruteludele • Räägime ennekõike programmi eesmärkide saavutamisest – edusammudest ja probleemidest • Nii seni tehtust kui ka tegemata asjadest • Ja võimalikult palju lähitulevikust