230 likes | 383 Views
Predstavitev projektov za predmet Jezikovne tehnologije PNG Slovenistika II. letnik 2006. 17.3.2006. Novi obrazi. Predavatelj: doc.dr.Tomaž Erjavec Odsek za tehnologije znanja Institut Jožef Stefan Vaje: mag. Irena Srdanović Erjavec Urnik !. Pregled bloka tehno.
E N D
Predstavitev projektov za predmet Jezikovne tehnologijePNG SlovenistikaII. letnik 2006 17.3.2006
Novi obrazi • Predavatelj: doc.dr.Tomaž ErjavecOdsek za tehnologije znanjaInstitutJožef Stefan • Vaje:mag. Irena Srdanović Erjavec Urnik!
Pregled bloka tehno • 17.3.2006: predstavitev projektov • 07.4.2006: označevanje korpusov • 14.4.2006: standardi za zapis korpusov • 21.4.2006: zapisi znakov • 19.5.2006: skladnja Ali je dal prvi letnik zadostne osnove?
Jezikovni viri • Digitalne zbirke podatkov o jeziku: korpusi, slovarji/leksikoni, drugi modeli • Uporabni • za ljudi: korpusno (kvantitativno) jezikoslovje, leksikografija, terminografija • za programe: vir znanja, testna in učna množica
Izdelava jezikovnih virov • izbira (npr. besedil) • zajem (tehnični in pravni vidiki) • poenotenje (luščenje, čiščenje in standardni zapis) • označevanje (strojno, mogoče (še) ročno) • distribucija = dostopen, dokumentiran, standardno zapisan in kvaliteten jezikovni vir za slovenski jezik moramo take vire narediti, več ali manj, v Sloveniji.
Delo na jezikovnih virih na E8 IJS Seznam rezultatov, žal samo v angleščini, na http://nl.ijs.si/ : • Intitiatives, services and resources: • SDJT: the Slovenian Language Technologies Society • WWW concordances: Slovene monolingual and parallel corpora and on-line lemmatizer • ZRC eLibrary: Scholarly Digital Editions of Slovenian Literature • jaSlo: Japanese - Slovene on-line learner's dictionary • slEnJa: Slovene - English - Japanese on-line learner's dictionary • GNUsl: an Open Source effort for Slovene localisation • The Slovenian Linguist: a collection of Slovenian dialect material • Downloadable corpora for HLT research: • MULTEXT-East Version 3:East and Central European multilingual corpus and lexical resources • IJS-ELAN Version 2:Slovene-English parallel corpus, 1 million words • SVEZ-IJS Version 1:Slovene-English parallel corpus of EU legal texts, 10 million words • SDT, the Slovene Dependency Treebank (in development):Slovene syntactically annotated corpus, 30.000 words
MULTEXT-East • večjezikovna zbirka virov za jezikovne tehnologije: vzhodni jeziki, projekt EU • zbirka zapisana v XML, prosto dostopna za raziskave • najbolj natančno obdelana oblikoslovna raven, sestavljenja iz treh nivojev: • oblikoslovno označen korpus: “1984” • oblikoslovni leksikon (15.000 lem) • oblikoslovne specifikacije
Primer iz leksikona lenuhu lenuh Ncmsd lenuhu lenuh Ncmsl lep = Afpmsnn lep lep Afpmsan-n lepa lep Afpfsn lepa lep Afpmda lepa lep Afpmdn lepa lep Afpnpa lepa lep Afpnpn lepe lep Afpfpa lepe lep Afpfpn lepe lep Afpfsg lepe lep Afpmpa lepega lep Afpmsa--y lepega lep Afpmsg lepega lep Afpnsg lepem lep Afpmsl lepem lep Afpnsl lepemu lep Afpmsd lepemu lep Afpnsd lepenk lepenka Ncfdg
Primer iz specifikacij Specifikacije določijo, da je npr. Ncmsd možna oblikoslovna oznaka za slovenščino, in da pomeni PoS:Noun, Type:common, Gender:masculine, Number:singular, Case:dative
Pomen MULTEXT-East za jezikovne tehnologije • harmonizirani opisi in vzporedni viri za veliko število vzhodnih jezikov postal de facto standard za nekatere jezike (npr. korpus FIDA) • prvi ročno označen in dostopen korpus za več jezikov, npr. slovenskega učenje in testiranje programov za npr. oblikoslovno označevanje • kot okvir za vzpostavitev osnovnih jezikovnih virov za nove jezike (BLARK) Srbščina, Rezijanščina, Makedonščina, Perzijščina
MULTEXT-East in označevanje • na korpusu naučen oblikoslovni označevalnik • na leksikonu naučen lematizator • skupaj s tokenizatorjem povezani v program “totale” • ker je program statističen, dela napake • te lahko do neke mere odpravimo z večjim ročno označenim korpusom, iz novih domen • ročno odkrivanje in popravljanje napak pomaga tudi pri izdelavi boljšega označevalnika
SDT: Slovene Dependency Treebank • korpusi so lahko označeni tudi s skladenjsko strukturo • koristno za empirični študij skladnje, ter za avtomatsko učenje skladenjskih razčlenjevalnikov • eden največjih skladenjsko označenih korpusov (razen za angleščino) je Prague Dependecy Treebank • teoretični model PDT je funkcionalna odvisnostna slovnica • v okviru projekta so izdelali priročnik za anotacijo in urejevalnik dreves • za slovenski jezik je v teku prirejanje priročnika in označevanje z analitično ravnjo, zaenkrat 1/3 “1984” • verjetno bomo kmalu rabili nove označevalce!
AHlib: knjižnica XIX. stoletja • projekta na avstrijski akademiji znanosti in v Sloveniji (Uni Lj, Uni Mb) • cilj: narediti knjižnico vseh slovenskih knjig prevedenih iz nemščine 1848-1919 • postopek: • skeniranje knjig v NUK in OCR • ročne korekcije • mrežni vmesnik za kontrolo rezultatov
Postopek pretvorbe • (popravljena) datoteka Word (RTF) • avtomatska konverzije v XML • iz tega pa v HTML • ta služi za preverjanje pravilnosti datoteke Word • dodatno na voljo besedna analiza (Excel)
jaSlo: Japonsko-slovenski slovar za učenje japonščine • v sodelovanju z katedro za japonologijo na Univerzi v Ljubljani • trenutno vsebuje okoli 4.000 vnosov, nova inačica (v delu) pa 10.000. • slovar je označen po standardu TEI P4 • dostopen preko brskalnega in bralnega vmesnika