140 likes | 275 Views
Korpusna terminografija. Jezikovne tehnologije 2006 Politehnika Nova Gorica. Osnovni pojmi. termin terminologija, terminografija leksikologija, leksikografija. Terminologija je. izrazje določenega strokovnega področja veda o pojmih in njihovih poimenovanjih v okviru strokovnih jezikov
E N D
Korpusna terminografija Jezikovne tehnologije 2006 Politehnika Nova Gorica
Osnovni pojmi • termin • terminologija, terminografija • leksikologija, leksikografija
Terminologija je... • izrazje določenega strokovnega področja • veda o pojmih in njihovih poimenovanjih v okviru strokovnih jezikov • terminology: Set of terms representing the system of concepts of a particular field. • terminology (science): The scientific study of the concepts and terms found in special languages. • terminography: The recording, processing and presentation of terminological data acquired by terminological research. (ISO 1087)
SPLOŠNI JEZIK STROKOVNI JEZIK • Kako spoznamo strokovno besedilo? • nejezikovne lastnosti besedila (grafična podoba, tabele, slike, formule,...) • register / slog • skladnja • besedišče • Kaj je splošni jezik? splošni jezik s1 s3 s2
cojzit (geologija) metajezik (jezikoslovje) sortiranje (tehnika) poltrivialno ime (kemija) intraruminalna naprava s pulzirajočim sproščanjem (veterinarska farmacija) ...podzakonski akti so usklajeni in sledijo priporočilom Komisije in tudi smernicam Amsterdamske pogodbe (pravo, EU) 7951; Svetovalni odbor za delovni program Skupnosti za preprečevanje poškodb v okviru dejavnosti v splošnem zdravstvenem varstvu (pravo, EU) tableta – tabletirka – tabletiranje (farmacija) draže – dražirka – dražiranje kamniti plaz (gorništvo) tenstati (kulinarika) glava (računalništvo, ...) ključ (glasba, ...) baba, dedec, grif, šajba, špica, šoder, kahla, štrik, ... (PTS) klepetati (internet) virus (medicina, računalništvo) Pri Mary
Termin in leksem • terminološka enota • ena od možnih reprezentacij pojma • en pomen, v besedilu in v stroki • pomensko določena z definicijo • lahko vsebuje tudi numerične znake, simbole, logotipe itd. • leksikalna enota • več možnih pomenov (konotativni vs. denotativni) • ekspresivna raba • pomensko opisana v splošnem slovarju; pomensko polje se spreminja v odvisnosti od sobesedila • oblikovno svobodnejša • načeloma vsebuje zgolj besedni material
Vrste terminografskih priročnikov • terminološki slovar / slovarčekabecedno urejena zbirka izrazov določenega področja, lahko vsebuje tudi razlage, slovnični opis, navzkrižne kazalke, podatke o izgovoru itd. • glosar / glosarijabecedno urejena zbirka izrazov, navadno večjezična in brez razlag • leksikonnavadno abecedno urejena zbirka enciklopedičnih opisov pojmov določenega področja • pojmovniklahko pojmovno / hierarhično urejena zbirka opisov pojmov in razmerij med njimi • geslovnikseznam gesel (izrazov) določenega področja • tezaver1. hierarhično urejeni pojmi določenega področja2. slovar sopomenk • bazazbirka izrazov določenega področja v elektronski obliki, lahko večjezična, lahko z dodatnimi podatki
Spletna terminografija • iSlovar (www.islovar.org) • Evroterm (www.gov.si/evroterm)
Orodja za izdelavo terminoloških baz • TRADOS MultiTerm (www.trados.com) • SlovarRed (ZRC SAZU) • TermStar (www.star-group.net) • druga orodja v sklopu prevajalskih namizij
Korpusna terminografija • vir izrazja: specializirani korpus (katere poznamo za slovenščino?) • potencialne prednosti: • samodejno luščenje izrazja • sodobnost • boljši zajem terminoloških kolokacij • pomoč pri razdvoumljanju • potencialne pomanjkljivosti: • neustrezen korpus – neustrezno izrazje • samodejne metode niso nikdar 100 %
Metode luščenja terminologije iz korpusov • ključne besede – primerjava relativnih pogostosti • luščenje terminoloških kolokacij • statistično (log-likelihood ratio) • na podlagi skladenjskih vzorcev (pridevnik + samostalnik)
Primer: Izluščeni termini na podlagi vzorcev 5296.896 civilen obramba civilne obrambe 2525.508 slovenski vojska slovenske vojske 1227.755 teritorialen obramba teritorialna obramba 109.868 vojaški obramba vojaške obrambe 43.771 naloga civilen obramba naloge civilne obrambe 39.884 zračen obramba zračne obrambe 38.556 vojaški rok vojaškega roka 35.1 obramben planiranje obrambno planiranje 33.984 priprava civilen obramba priprav civilne obrambe 32.912 komunikacijsko-informacijski sistem komunikacijsko-informacijskega sistema 31.487 obramba republika obrambo republike 30.336 brigada moris brigade moris 21.987 obveščevalen oskrbljenost obveščevalna oskrbljenost 19.584 pripadnik jlo pripadniki jla 17.92 struktura sv strukturi sv 17.885 specialen brigada moris specialne brigade moris
Luščenje pomenskih razmerij • nadpomenke / podpomenke (hipernimi / hiponimi)je vrsta, je, kot je npr., prištevamo med, sodi med, med X prištevamo, uvrščamo med • soredni pojmiMed X uvrščamo Y, Z, ... • sinonimiali, ali tudi, imenujemo tudi, znan tudi kot, znan tudi pod imenom, je poimenovan, nosi ime, ...
Vaja • S pomočjo korpusa DSI (http://nl2.ijs.si/index-mono.html) raziščite terminološko pokrajino okrog izraza “strežnik”. Iz spiska konkordanc poskusite izluščiti: • termine, ki so sestavljeni po vzorcu pridevnik+samostalnik in samostalnik+samostalnik v rodilniku, • podpomenke: Kakšne vrste strežnikov poznamo? Lastnoimenske izraze obravnavajte ločeno. • glagolske kolokacije: kakšne glagolske strukture se pojavljajo v bližini besede “strežnik”? • V korpusu SVEZ izdelajte enojezično konkordanco za lemo “riba” (iskalni pogoj: [lemma=“riba”]). Tudi tu raziščite zgoraj omenjene terminološke fraze. • Kako ocenjujete uporabnost pridobljenih podatkov za morebitnega slovaropisca?