Predstavitev projektov za predmet Jezikovne tehnologije PNG Slovenistika II. letnik 2006

Predstavitev projektov za predmet Jezikovne tehnologijePNG SlovenistikaII. letnik 2006 17.3.2006

Novi obrazi • Predavatelj: doc.dr.Tomaž ErjavecOdsek za tehnologije znanjaInstitutJožef Stefan • Vaje:mag. Irena Srdanović Erjavec Urnik!

Pregled bloka tehno • 17.3.2006: predstavitev projektov • 07.4.2006: označevanje korpusov • 14.4.2006: standardi za zapis korpusov • 21.4.2006: zapisi znakov • 19.5.2006: skladnja Ali je dal prvi letnik zadostne osnove?

Jezikovni viri • Digitalne zbirke podatkov o jeziku: korpusi, slovarji/leksikoni, drugi modeli • Uporabni • za ljudi: korpusno (kvantitativno) jezikoslovje, leksikografija, terminografija • za programe: vir znanja, testna in učna množica

Izdelava jezikovnih virov • izbira (npr. besedil) • zajem (tehnični in pravni vidiki) • poenotenje (luščenje, čiščenje in standardni zapis) • označevanje (strojno, mogoče (še) ročno) • distribucija = dostopen, dokumentiran, standardno zapisan in kvaliteten jezikovni vir za slovenski jezik moramo take vire narediti, več ali manj, v Sloveniji.

Delo na jezikovnih virih na E8 IJS Seznam rezultatov, žal samo v angleščini, na http://nl.ijs.si/ : • Intitiatives, services and resources: • SDJT: the Slovenian Language Technologies Society • WWW concordances: Slovene monolingual and parallel corpora and on-line lemmatizer • ZRC eLibrary: Scholarly Digital Editions of Slovenian Literature • jaSlo: Japanese - Slovene on-line learner's dictionary • slEnJa: Slovene - English - Japanese on-line learner's dictionary • GNUsl: an Open Source effort for Slovene localisation • The Slovenian Linguist: a collection of Slovenian dialect material • Downloadable corpora for HLT research: • MULTEXT-East Version 3:East and Central European multilingual corpus and lexical resources • IJS-ELAN Version 2:Slovene-English parallel corpus, 1 million words • SVEZ-IJS Version 1:Slovene-English parallel corpus of EU legal texts, 10 million words • SDT, the Slovene Dependency Treebank (in development):Slovene syntactically annotated corpus, 30.000 words

MULTEXT-East • večjezikovna zbirka virov za jezikovne tehnologije: vzhodni jeziki, projekt EU • zbirka zapisana v XML, prosto dostopna za raziskave • najbolj natančno obdelana oblikoslovna raven, sestavljenja iz treh nivojev: • oblikoslovno označen korpus: “1984” • oblikoslovni leksikon (15.000 lem) • oblikoslovne specifikacije

Primer iz korpusa

Primer iz leksikona lenuhu lenuh Ncmsd lenuhu lenuh Ncmsl lep = Afpmsnn lep lep Afpmsan-n lepa lep Afpfsn lepa lep Afpmda lepa lep Afpmdn lepa lep Afpnpa lepa lep Afpnpn lepe lep Afpfpa lepe lep Afpfpn lepe lep Afpfsg lepe lep Afpmpa lepega lep Afpmsa--y lepega lep Afpmsg lepega lep Afpnsg lepem lep Afpmsl lepem lep Afpnsl lepemu lep Afpmsd lepemu lep Afpnsd lepenk lepenka Ncfdg

Primer iz specifikacij Specifikacije določijo, da je npr. Ncmsd možna oblikoslovna oznaka za slovenščino, in da pomeni PoS:Noun, Type:common, Gender:masculine, Number:singular, Case:dative

Pomen MULTEXT-East za jezikovne tehnologije • harmonizirani opisi in vzporedni viri za veliko število vzhodnih jezikov  postal de facto standard za nekatere jezike (npr. korpus FIDA) • prvi ročno označen in dostopen korpus za več jezikov, npr. slovenskega  učenje in testiranje programov za npr. oblikoslovno označevanje • kot okvir za vzpostavitev osnovnih jezikovnih virov za nove jezike (BLARK)  Srbščina, Rezijanščina, Makedonščina, Perzijščina

MULTEXT-East in označevanje • na korpusu naučen oblikoslovni označevalnik • na leksikonu naučen lematizator • skupaj s tokenizatorjem povezani v program “totale” • ker je program statističen, dela napake • te lahko do neke mere odpravimo z večjim ročno označenim korpusom, iz novih domen • ročno odkrivanje in popravljanje napak pomaga tudi pri izdelavi boljšega označevalnika

SDT: Slovene Dependency Treebank • korpusi so lahko označeni tudi s skladenjsko strukturo • koristno za empirični študij skladnje, ter za avtomatsko učenje skladenjskih razčlenjevalnikov • eden največjih skladenjsko označenih korpusov (razen za angleščino) je Prague Dependecy Treebank • teoretični model PDT je funkcionalna odvisnostna slovnica • v okviru projekta so izdelali priročnik za anotacijo in urejevalnik dreves • za slovenski jezik je v teku prirejanje priročnika in označevanje z analitično ravnjo, zaenkrat 1/3 “1984” • verjetno bomo kmalu rabili nove označevalce!

Primer označenega stavka

AHlib: knjižnica XIX. stoletja • projekta na avstrijski akademiji znanosti in v Sloveniji (Uni Lj, Uni Mb) • cilj: narediti knjižnico vseh slovenskih knjig prevedenih iz nemščine 1848-1919 • postopek: • skeniranje knjig v NUK in OCR • ročne korekcije • mrežni vmesnik za kontrolo rezultatov

Primeri

Original in besedilo po OCR

Besedilo po korekciji

Postopek pretvorbe • (popravljena) datoteka Word (RTF) • avtomatska konverzije v XML • iz tega pa v HTML • ta služi za preverjanje pravilnosti datoteke Word • dodatno na voljo besedna analiza (Excel)

jaSlo: Japonsko-slovenski slovar za učenje japonščine • v sodelovanju z katedro za japonologijo na Univerzi v Ljubljani • trenutno vsebuje okoli 4.000 vnosov, nova inačica (v delu) pa 10.000. • slovar je označen po standardu TEI P4 • dostopen preko brskalnega in bralnega vmesnika

Zapis v TEI

Iskalnik

Naprej na vajah..

Predstavitev projektov za predmet Jezikovne tehnologije PNG Slovenistika II. letnik 2006

Predstavitev projektov za predmet Jezikovne tehnologije PNG Slovenistika II. letnik 2006

Presentation Transcript

INFORMATIČKE TEHNOLOGIJE Uvodno predavanje Upute za predmet

Oddelek za psihologijo I letnik

Jezikovne tehnologije in nove metode

Predstavitev študentskih projektov in izbirnih predmetov

Predstavitev študentskih projektov in izbirnih predmetov

Predstavitev študentskih projektov in izbirnih predmetov

Označevanje korpusov PNG Slovenistika II. letnik 2006

Predstavitev študentskih projektov in izbirnih predmetov

Predstavitev študentskih projektov in izbirnih predmetov

KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

Označevanje korpusov PNG Slovenistika II. letnik 2006

Jezikovne tehnologije Uvodni pregled in prelet

Predstavitev projektov v KS mesta Krško

Predstavitev študentskih projektov in izbirnih predmetov

Predstavitev za investitorje

Korpusno jezikoslovje in jezikovne tehnologije 1. Uvod

Kdo lahko izbere ta predmet za izbirni predmet?

Tehnologije za Web

Predstavitev študentskih projektov in izbirnih predmetov

Predstavitev študija na II. stopnji programa Računalništvo in informacijske tehnologije

PREDSTAVITEV ZA PREDSTAVNIKE MEDIJEV

Tehnologije za mobilno poslovanje