1 / 23

Predstavitev projektov za predmet Jezikovne tehnologije PNG Slovenistika II. letnik 2006

Predstavitev projektov za predmet Jezikovne tehnologije PNG Slovenistika II. letnik 2006. 17.3.2006. Novi obrazi. Predavatelj: doc.dr.Tomaž Erjavec Odsek za tehnologije znanja Institut Jožef Stefan Vaje: mag. Irena Srdanović Erjavec Urnik !. Pregled bloka tehno.

sef
Download Presentation

Predstavitev projektov za predmet Jezikovne tehnologije PNG Slovenistika II. letnik 2006

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Predstavitev projektov za predmet Jezikovne tehnologijePNG SlovenistikaII. letnik 2006 17.3.2006

  2. Novi obrazi • Predavatelj: doc.dr.Tomaž ErjavecOdsek za tehnologije znanjaInstitutJožef Stefan • Vaje:mag. Irena Srdanović Erjavec Urnik!

  3. Pregled bloka tehno • 17.3.2006: predstavitev projektov • 07.4.2006: označevanje korpusov • 14.4.2006: standardi za zapis korpusov • 21.4.2006: zapisi znakov • 19.5.2006: skladnja Ali je dal prvi letnik zadostne osnove?

  4. Jezikovni viri • Digitalne zbirke podatkov o jeziku: korpusi, slovarji/leksikoni, drugi modeli • Uporabni • za ljudi: korpusno (kvantitativno) jezikoslovje, leksikografija, terminografija • za programe: vir znanja, testna in učna množica

  5. Izdelava jezikovnih virov • izbira (npr. besedil) • zajem (tehnični in pravni vidiki) • poenotenje (luščenje, čiščenje in standardni zapis) • označevanje (strojno, mogoče (še) ročno) • distribucija = dostopen, dokumentiran, standardno zapisan in kvaliteten jezikovni vir za slovenski jezik moramo take vire narediti, več ali manj, v Sloveniji.

  6. Delo na jezikovnih virih na E8 IJS Seznam rezultatov, žal samo v angleščini, na http://nl.ijs.si/ : • Intitiatives, services and resources: • SDJT: the Slovenian Language Technologies Society • WWW concordances: Slovene monolingual and parallel corpora and on-line lemmatizer • ZRC eLibrary: Scholarly Digital Editions of Slovenian Literature • jaSlo: Japanese - Slovene on-line learner's dictionary • slEnJa: Slovene - English - Japanese on-line learner's dictionary • GNUsl: an Open Source effort for Slovene localisation • The Slovenian Linguist: a collection of Slovenian dialect material • Downloadable corpora for HLT research: • MULTEXT-East Version 3:East and Central European multilingual corpus and lexical resources • IJS-ELAN Version 2:Slovene-English parallel corpus, 1 million words • SVEZ-IJS Version 1:Slovene-English parallel corpus of EU legal texts, 10 million words • SDT, the Slovene Dependency Treebank (in development):Slovene syntactically annotated corpus, 30.000 words

  7. MULTEXT-East • večjezikovna zbirka virov za jezikovne tehnologije: vzhodni jeziki, projekt EU • zbirka zapisana v XML, prosto dostopna za raziskave • najbolj natančno obdelana oblikoslovna raven, sestavljenja iz treh nivojev: • oblikoslovno označen korpus: “1984” • oblikoslovni leksikon (15.000 lem) • oblikoslovne specifikacije

  8. Primer iz korpusa

  9. Primer iz leksikona lenuhu lenuh Ncmsd lenuhu lenuh Ncmsl lep = Afpmsnn lep lep Afpmsan-n lepa lep Afpfsn lepa lep Afpmda lepa lep Afpmdn lepa lep Afpnpa lepa lep Afpnpn lepe lep Afpfpa lepe lep Afpfpn lepe lep Afpfsg lepe lep Afpmpa lepega lep Afpmsa--y lepega lep Afpmsg lepega lep Afpnsg lepem lep Afpmsl lepem lep Afpnsl lepemu lep Afpmsd lepemu lep Afpnsd lepenk lepenka Ncfdg

  10. Primer iz specifikacij Specifikacije določijo, da je npr. Ncmsd možna oblikoslovna oznaka za slovenščino, in da pomeni PoS:Noun, Type:common, Gender:masculine, Number:singular, Case:dative

  11. Pomen MULTEXT-East za jezikovne tehnologije • harmonizirani opisi in vzporedni viri za veliko število vzhodnih jezikov  postal de facto standard za nekatere jezike (npr. korpus FIDA) • prvi ročno označen in dostopen korpus za več jezikov, npr. slovenskega  učenje in testiranje programov za npr. oblikoslovno označevanje • kot okvir za vzpostavitev osnovnih jezikovnih virov za nove jezike (BLARK)  Srbščina, Rezijanščina, Makedonščina, Perzijščina

  12. MULTEXT-East in označevanje • na korpusu naučen oblikoslovni označevalnik • na leksikonu naučen lematizator • skupaj s tokenizatorjem povezani v program “totale” • ker je program statističen, dela napake • te lahko do neke mere odpravimo z večjim ročno označenim korpusom, iz novih domen • ročno odkrivanje in popravljanje napak pomaga tudi pri izdelavi boljšega označevalnika

  13. SDT: Slovene Dependency Treebank • korpusi so lahko označeni tudi s skladenjsko strukturo • koristno za empirični študij skladnje, ter za avtomatsko učenje skladenjskih razčlenjevalnikov • eden največjih skladenjsko označenih korpusov (razen za angleščino) je Prague Dependecy Treebank • teoretični model PDT je funkcionalna odvisnostna slovnica • v okviru projekta so izdelali priročnik za anotacijo in urejevalnik dreves • za slovenski jezik je v teku prirejanje priročnika in označevanje z analitično ravnjo, zaenkrat 1/3 “1984” • verjetno bomo kmalu rabili nove označevalce!

  14. Primer označenega stavka

  15. AHlib: knjižnica XIX. stoletja • projekta na avstrijski akademiji znanosti in v Sloveniji (Uni Lj, Uni Mb) • cilj: narediti knjižnico vseh slovenskih knjig prevedenih iz nemščine 1848-1919 • postopek: • skeniranje knjig v NUK in OCR • ročne korekcije • mrežni vmesnik za kontrolo rezultatov

  16. Primeri

  17. Original in besedilo po OCR

  18. Besedilo po korekciji

  19. Postopek pretvorbe • (popravljena) datoteka Word (RTF) • avtomatska konverzije v XML • iz tega pa v HTML • ta služi za preverjanje pravilnosti datoteke Word • dodatno na voljo besedna analiza (Excel)

  20. jaSlo: Japonsko-slovenski slovar za učenje japonščine • v sodelovanju z katedro za japonologijo na Univerzi v Ljubljani • trenutno vsebuje okoli 4.000 vnosov, nova inačica (v delu) pa 10.000. • slovar je označen po standardu TEI P4 • dostopen preko brskalnega in bralnega vmesnika

  21. Zapis v TEI

  22. Iskalnik

  23. Naprej na vajah..

More Related