370 likes | 527 Views
Od SSKJ do Spletnega portala standardne slovenščine. Simon Krek Amebis d.o.o., Kamnik Institut “Jožef Stefan”. Načrtovanje?. Nacionalni program NPELT za /.../ jezikovne tehnologije
E N D
Od SSKJ do Spletnega portala standardne slovenščine Simon Krek Amebis d.o.o., Kamnik Institut “Jožef Stefan”
Načrtovanje? • Nacionalni program NPELT za /.../ jezikovne tehnologije • Program NPELT je leta 2005 sestavila skupina strokovnjakov za računalniško obdelavo naravnih jezikov, financira ga Ministrstvo za /.../, trajanje: 5 let (2006-2010).
Osnovni cilj programa NPELT je... • razviti tehnološko podporo za /.../ jezik do stopnje, ki omogoča normalno delovanje jezika v sodobni informacijski družbi. NPELT financira aktivnosti, povezane z računalniško obdelavo naravnih jezikov, med drugim izdelavo večkratno uporabnih jezikovnih virov in razvoj osnovnih jezikovnih programskih orodij (do delujočih prototipov). Poleg tega je cilj razviti relevatno jezikovnotehnološko infrastrukturo na sodobni ravni. • Viri in prototipi, ki jih financira nacionalni program, so v javni lasti.
Nadzor? • Program NPELT upravlja odbor z devetimi člani, ki vljučuje koordinatorja programa, strokovnjake za računalniško obdelavo naravnih jezikov in predstavnike ministrstva. Odbor ocenjuje predloge projektov in poročila o napredku, predlaga financiranje, preverja namensko rabo javnih financ, spremlja razvoj na področju RONJ na nacionalni in mednarodni ravni itd. Pri tem upošteva naslednja pravila:
Kako to zares početi? • projekti se financirajo na podlagi javnih razpisov, • skupine morajo oddajati redna letna poročila o napredku, • ocenjevanje projektov temelji na vnaprej znanih kriterijih, • slediti je treba mednarodnim standardom in formatom, • dostop do razvitih prototipov in jezikovnih virov je prost ali na podlagi licence s pogoji uporabe
Estonski jezikovni viri (baze podatkov) • dvojezični slovarji • angleški, ruski, finski • paralelni korpus • 2 mio // 10 mio • pomensko razdvoumljeni korpus • 100.000 besed • leksikalna baza WordNet • splošni korpus pisnih besedil • 80 mio besed
Estonski jezikovni viri (baze podatkov) • površinska skladnja (raven besedne zv.) • 50.000 besed • dialoški korpus • 100.000 // 500.000 // 1 mio besed • korpus govorjenega jezika • 1 mio besed (+ transkripcija) • leksikogramatična baza • globinska skladnja (drevesnica) • 50.000 // 100.000 besed
Estonski jezikovni viri (baze podatkov) • leksikosemantična baza • estonsko-angleška leksikalna baza • tezaver (slovar sinonimov) • korpus čustveno obarvanega govora
Slovenski jezikovni viri (baze podatkov) • [slovar] dvojezični slovarji • angleški, nemški, italijanski itd. • [korpus] paralelni korpus • 2 mio // 10 mio • [korpus] pomensko razdvoumljeni korpus • 100.000 besed • [leksbaza] leksikalna baza WordNet • [korpus] splošni korpus pisnih besedil • 80 mio besed
Slovenski jezikovni viri (baze podatkov) • [korpus] površinska skladnja (raven besedne zv.) • 50.000 besed • [korpus] dialoški korpus • 100.000 // 500.000 // 1 mio besed • [korpus] korpus govorjenega jezika • 1 mio besed (+ transkripcija) • [leksbaza] leksikogramatična baza • [korpus] globinska skladnja (drevesnica) • 50.000 // 100.000 besed
Slovenski jezikovni viri (baze podatkov) • [leksbaza] leksikosemantična baza • [leksbaza] slovensko-angleška leksikalna baza • [leksbaza/slovar] tezaver (slovar sinonimov)
Prej – potem • zbirke listkovnega gradiva • zbirke zvočnih posnetkov • natisnjeni slovarji • različni korpusi • leksikalne baze • slovarske baze
Kaj poznamo že nekaj časa? • Enojezični leksikalni viri (neenciklopedični) • obsežnejši opis splošnega jezika • SSKJ (1970-1991) • Veliki slovar tujk (2002) • standardizacija • Pravopis (1990-2001) + povzemalni priročniki • ŠUSS (2000), odzivi na pravopis itd. • terminologija • različni slovarji v knjižni obliki
Kaj poznamo zadnjih 15 let? • Digitalizacija in svetovni splet • obsežnejši opis splošnega jezika • SSKJ • diskete (1997) • CD-ROM (1998) • svetovni splet (2000) • Priročni e-slovar tujk, CD-ROM (2005) • standardizacija • Pravopis, CD-ROM (2003) • ŠUSS na spletu (1998-2009)
Kaj poznamo zadnjih 10 let? • terminologija • Evroterm / Evrokorpus (http://evroterm.gov.si/) • Islovar / “Ikorpus” (www.islovar.org, nl2.ijs.si/dsi.html) • imenik (http://evroterm.gov.si/slovar/slovar.html)
Novi-stari jezikovni viri • besedilni korpusi • FIDA / FidaPLUS • Nova beseda • paraleleni (Evrokorpus...) • terminološki (“Ikorpus”, KoRP,...) • slovarske baze (tj. kot podatkovne zbirke) • SSKJ, Pravopis itd. • dvojezični slovarji
Značilnosti • razpršenost po različnih institucijah • nekompatibilnost tehničnih rešitev • neurejena dostopnost javno financiranih virov • neusklajeno javno financiranje enakih ali podobnih virov • neupoštevanje dvojne narave virov – podatkovna zbirka in izdelek
Ali si je mogoče zamisliti javni program, ki bi zajemal ključne leksikalne podatkovne zbirke za slovenščino?
Jezikovni viri – ključni dejavniki • seznanjenost z dogajanji pri drugih jezikih • jezikoslovna kompetentnost • dobra računalniška podpora • organizacija = jezikovni viri so rezultat organiziranega skupnega napora • količina vloženega napora = čas & denar
jezikovni opis standardizacija terminologija dvojezični korpusi za različne potrebe leksikalna baza slovensko-angleška leksikalna baza pravila splošni enojezični slovar leksikon besednih oblik drugi jeziki terminološki portal pedagoški slovar / za tujce angleško-slovenska leksikalna baza pedagoška slovnica tezaver slogovni priročnik / (servis) slovnični opis
Spletni portal standardnega slovenskega jezika jezikovni opis standardizacija terminologija dvojezični korpusi za različne potrebe leksikalna baza slovensko-angleška leksikalna baza pravila splošni enojezični slovar leksikon besednih oblik drugi jeziki terminološki portal pedagoški slovar / za tujce angleško-slovenska leksikalna baza pedagoška slovnica tezaver slogovni priročnik / (servis) slovnični opis
jezikovni opis standardizacija terminologija dvojezični korpusi za različne potrebe leksikalna baza slovensko-angleška leksikalna baza pravila splošni enojezični slovar leksikon besednih oblik drugi jeziki terminološki portal pedagoški slovar / za tujce angleško-slovenska leksikalna baza pedagoška slovnica tezaver slogovni priročnik / (servis) slovnični opis
Podvozje in okvir • Tehnologije in orodja: • tokenizacija, lematizacija • oblikoslovni označevalnik • skladenjski razčlenjevalnik • semantično razdvoumljanje • samodejno luščenje terminologije • samodejno luščenje prevodnih ustreznic • podatkovno rudarjenje • prepoznava lastnih imen ...
Karoserija • didaktična gradiva & orodja • dinamični dodatki • dialoški sistemi • vizualizacija • ...
RESOLUCIJA o nacionalnem programu za jezikovno politiko 2007–2011 • Za opis sodobne norme slovenskega knjižnega jezika (5. cilj): • b) Nadaljnje izpopolnjevanje in usklajevanje ter spletna dostopnost jezikovne infrastrukture (omrežja besedilnih korpusov slovenščine idr.). • Naloge: isto. Nosilci: MVZT, MŠŠ, Javna agencija za raziskovalno dejavnost RS (JARRS). • Izvajalci: raziskovalne in razvojne organizacije (inštituti, univerze, podjetja, založbe). Rok: trajno. • Proračun: da.
RESOLUCIJA • č) Reševanje aktualnih vprašanj jezikovne in besedilne standardizacije ter izpopolnjevanje in prenavljanje kodifikacije. • Naloge: razkrivanje in uzaveščanje morebitnih premikov v razmerjih med jezikovnimi zvrstmi in presoja njihove knjižne normodajalnosti (narečje, pogovorni jezik, sleng – knjižni jezik; jezik elektronskih sporočil, blogov, SMS-ov) idr.; vrednotenje primernosti in povednosti posameznih jezikovnih izrazil na podlagi podatkov iz reprezentativnih besedilnih in govornih korpusov in drugih jezikovnih virov, stališče do pisnega podomačevanja lastnih imen iz nelatiničnih pisav, stališče in standardizirane rešitve, /.../ idr. • Nosilca: MVZT, JARRS. Izvajalci: raziskovalne organizacije in posamezniki v sodelovanju s širšo strokovno javnostjo. • Rok: trajno. Proračun: da.
RESOLUCIJA • a) Poživitev in uskladitev delovanja terminoloških skupin (posebno v naravoslovno-tehničnih vedah, ekonomiji, menedžerstvu, vojaštvu) ter raziskovanje prevajalskih procesov in strategij. • Naloge: okrepitev strokovne motivacije in financiranja, urejanje kadrovskih vprašanj, spletno povezovanje, izpopolnjevanje in dostopnost terminoloških zbirk. • Nosilci: MVZT in druga ministrstva, JARRS. Izvajalci: izbrane raziskovalne, razvojne ipd. organizacije/ustanove. Rok: 2007. Proračun: da. • b) Razvijanje jezikovne infrastrukture, zlasti sistemov za strojno analizo in sintezo slovenskega govora, za prevajanje in simultano tolmačenje, za uveljavljanje črkovnih naborov s strešicami in drugimi diakritičnimi znamenji (16). • Naloge: uskladitev in pospešitev razvojnih prizadevanj, prenašanje dosežkov v prakso. • Nosilci: MVZT, MzK, MŠŠ. Izvajalci: raziskovalne in razvojne organizacije/podjetja in posamezniki. Rok: takoj. Proračun: da.
RESOLUCIJA • č) Zagotavljanje spletne dostopnosti jezikovnih virov, npr. SSKJ, SP in drugih. • Nalogi: brezplačni dostop, dopolnjevanje pravopisnega slovarja. • Nosilci: MzK, MŠŠ, MVZT. • Izvajalci: izbrane strokovne oziroma raziskovalne organizacije. • Rok: takoj. Proračun: da.
RESOLUCIJA • l) Priprava splošnih in specializiranih priročnikov za slovenščino. • Naloge: pravorečje, »pedagoška« slovnica, frazeološki, sinonimni, terminološki, zgodovinski in dvojezični slovarji, »mali Slovenski pravopis«, zbirke standardiziranih zemljepisnih idr. lastnih imen, obogateni in komentirani katalogi vzorcev besedilnih vrst ipd. • Nosilci: ministrstva. Izvajalci: izbrane raziskovalne in izobraževalne organizacije, založbe. • Rok: postopoma do 2011. Proračun: da.
RESOLUCIJA • m) Izpopolnjevanje in zagotavljanje spletne dostopnosti elektronskih jezikovnih orodij. • Naloge: črkovalnik, prevajalniki, slovarji, terminološke zbirke. • Nosilci: MzK, MŠŠ, MVZT, Generalni sekretariat Vlade RS. • Izvajalci: raziskovalne in razvojne organizacije/podjetja. Rok: trajno. Proračun: da.
Bistvo? • Program upravlja odbor z devetimi člani, ki vključuje koordinatorja programa, strokovnjake za /.../ in predstavnike ministrstev (MVZT, MŠŠ, MzK?). Odbor ocenjuje predloge projektov in poročila o napredku, predlaga financiranje, preverja namensko rabo javnih financ, spremlja razvoj na tem področju na nacionalni in mednarodni ravni itd. Pri tem upošteva naslednja pravila:
Program: slovenski jezikovni viri? • projekti se financirajo na podlagi javnih razpisov, • skupine morajo oddajati redna letna poročila o napredku (od tega je odvisno nadaljnje financiranje) • ocenjevanje projektov temelji na vnaprej znanih kriterijih, • slediti je treba mednarodnim standardom in formatom, • dostop do razvitih prototipov in jezikovnih virov je prost ali na podlagi licence s pogoji uporabe
Hvala za pozornost! simon.krek@guest.arnes.si