170 likes | 437 Views
KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE. Janja Sterle Živa Malovrh. UVOD. Predstavitev teme Izbira gradiva Zgraditev korpusa Označevanje besedil Obdelava s programom Wordsmith Izdelava glosarja. IZBIRA TEME. Predstavitev asist. Senje Pollak Področje je že določeno. IZBIRA GRADIVA.
E N D
KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE Janja Sterle Živa Malovrh
UVOD • Predstavitev teme • Izbira gradiva • Zgraditev korpusa • Označevanje besedil • Obdelava s programom Wordsmith • Izdelava glosarja
IZBIRA TEME • Predstavitev asist. Senje Pollak • Področje je že določeno
IZBIRA GRADIVA • Izhodišče članki, doktorske disertacije in diplomske naloge v angleščini • 15 člankov, 4 magistrske naloge, 11 doktorskih disertacij • Slovenščina: 43 člankov, 8 diplomskih nalog, 3 magistrske naloge, 6 doktorskih disertacij • 13 povzetkov in njihovih angleških prevodov • Zahvala asist. Senji Pollak za pomoč pri zbiranju gradiva • Najbolj dolgotrajna faza projekta
TEŽAVE PRI PRIDOBIVANJU GRADIVA:Slovenščina • V knjižnici ni možna izposoja diplomskih in magistrskih nalog in doktorskih disertacij • Nekateri avtorji niso želeli prispevati svojih nalog – vprašanje avtorskih pravic
TEŽAVE PRI PRIDOBIVANJU GRADIVA:Angleščina • Pomanjkanje angleških člankov in nalog v knjižnicah • Na internetu je veliko člankov in nalog plačljivih – vprašanje kredibilnosti vzorca • Veliko nalog sicer vsebuje temo jezikovnih tehnologij, vendar le kot delovno metodo na nekem drugem področju
OZNAČEVANJE BESEDIL • Primer: <id_js n=''JT_2003_0001_0000_slv_Lart''/> id = identifikacija js = Janja Sterle n = številka JT = jezikovne tehnologije PR = prevajanje RJ = računalniško jezikoslovje KJ = korpusno jezikoslovje 2003 = letnica izida besedila 0001 = zaporedna številka besedila v korpusu 0000 = specifična oznaka (po navodilih) Slv = slovenščina, Ang = angleščina L = dolg, S = kratek art = članek, dip = diplomska naloga mag = magistrska naloga, dok = doktorat
DELO Z WORDSMITHOM 1. del • Združitev najinih korpusov s korpusom asist. Senje Pollak • Obdelava korpusa s funkcijo stoplist, wordlist, concordance in key words za izluščenje eno- in večbesednih terminov v angleščini • Pri tem sva si razdelili delo na polovico (ena od A – K, druga od L – Z)
DELO Z WORDSMITHOM 2. del • Iskanje prevodnih ustreznic najdenim angleškim terminom v slovenskem korpusu (uporaba programa Wordsmith) • Strategije iskanja: „na slepo“, iskanje besedne zveze po jedrnih besedah, možnost angleškega imena v slovenskem korpusu s prevodom, iskanje prevodne različice po internetu
VELIKOST KORPUSA IN GLOSARJA • 85,426 angleških, 25,309 slovenskih pojavnic • Skupaj 110,735 pojavnic • Glosar: 197 angleških terminov, 229 slovenskih terminov
IZDELAVA GLOSARJA • Izdelava excelove tabele in združitev obeh delov • Razporeditev po abecednem vrstnem redu • Pojavitev nekaterih podvojenih elementov (ko je npr. ena iskala „extraction“ in je našla „term extraction“, druga pa je iskala „term“ in našla „term extraction“) -> funkcija odstrani podvojitve • Primeri več slovenskih prevodnih različic za en angleški termin (npr. „automatic term extraction“ = avtomatsko luščenje terminologije / samodejno luščenje izrazja)
ISKANJE DEFINICIJ • Iskanje po korpusu (redko – malo definicij) • Iskanje po internetu (google, wikipedia – presenetljivo veliko definicij) • Približno 80 % najdenih definicij • Pri nekaj angleških terminih se definicija podvoji (npr. „POS tagging“ / „part-of-speech tagging“) • Pri nekaterih je definicija odveč (npr. „speech recording“) • Za nekatere ni bilo mogoče najti definicije
IZDELAVA GLOSARJA V MULTITERMU • Pretvorba excelove tabele s programom Multiterm Convert • Uvoz datotek v Multiterm
ZAKLJUČEK • Uporabna vrednost • Praktična uporaba znanj, pridobljenih pri predmetu • Programi za obdelavo so bili včasih nezanesljivi • Večje poznavanje korpusov in programov za njihovo obdelavo