380 likes | 596 Views
Konferenca projekta “Sporazumevanje v slovenskem jeziku” Slovarji, več kot le besede 6. februar 2009. Leksikalna baza: vse, kar ste vedno želeli vedeti o jeziku. Polona Gantar apolonija.gantar@zrc-sazu.si. Vsebina. Kaj je leksikalna podatkovna baza - jezikoslovno
E N D
Konferenca projekta “Sporazumevanje v slovenskem jeziku” Slovarji, več kot le besede 6. februar 2009 Leksikalna baza: vse, kar ste vedno želeli vedeti o jeziku Polona Gantar apolonija.gantar@zrc-sazu.si
Vsebina • Kaj je leksikalna podatkovna baza - jezikoslovno - v okviru projekta SSJ - v evropskem kontekstu • Zasnova leksikalne baze za slovenščino ● Pomenski opis LE ● Kolokacije in WSE - pomenski indikator - pomenska shema● Frazeološke enote ● Skladenjski opis LE ● Zgledi - skladenjske strukture III.IDM DPS: programska oprema za izdelavo leksikalne baze
Kaj je LPB? Leksikalna podatkovna baza* je organiziran opisbesedišča (leksikona) določenega jezika v elektronski obliki. Besedišče je zbir vseh leksikalnih enot (LE; leksemov) določenega jezika obsega “znanje”, ki ga potrebuje materni govorec določenega jezika, da se lahko v njem sporazumeva. *GlossaryOfLinguisticTerms
Skupni imenovalec LB • inventar vseh* v jeziku znanih LE (vključno z variantami) • kategorizacija LE (slovnična, druge ...) • morfološke, glasoslovne in skladenjske informacije • prikaz (ustrezne*/tipične) rabeLE • računalniška berljivost • pomenLE -------------------------------------------------------- • pomenska razčlenitev LE • kulturološke in pragmatične oznake • pomenske povezave med LE • zgledi, ki ilustrirajo posamezni pomen
LB v okviru projekta SSJhttp://www.slovenscina.eu • Aktivnost: izdelava LB za slovenščino • Namen: • leksikografske potrebe • računalniška obdelava naravnega jezika (RONJ) • Obseg: • opis jedrnega dela slovenščine z vidika: pogostosti, izgovorjave, pomenskih, skladenjskih, frazeoloških in drugih lastnosti besedišča • Časovnica:junij 2008 – december 2008:pregled LB in sorodnih jezikovnotehnoloških projektov po evropskih jezikih januar 2009 – junij 2009:določitev postopkov za analizo korpusa s pomočjo specializirane programske opreme in določitev standardov za izdelavo posamezne LE v LB; izdelava navodil z vzorčnimi primeri za posamezno BV. • Izdelava LB: A – K: julij 2010; L – P: julij 2011; R – Ž: julij 2012
Sodelavci • Simon Krek (Amebis; IJS) • mag. Mojca Šorli (Trojina) • mag. Petra Zaranšek (Trojina) • Olga Pobirk (Trojina) • Simon Šuster (Trojina) • Polonca Kocjančič (Amebis) • dr. Polona Gantar (ISJ ZRC SAZU)
Evropski okvir • Skupni evropski projekti • GENELEX (1990-94) • LE PAROLE (1993-98) • SIMPLE (1998-2002) ----------------------------------------------- • ACQUILEX I, II (- 1995) • ILC- DELIS … • Izpeljave po posameznih jezikih: elexico, CLIPS, CORNETTO, DAFLES, ALFALEX, STO, ADESSE, GRIAL, CEGLEX, SPRÅKBANKEN, PRALED… • LB, po katerih smo se zgledovali:FrameNet, CPA
Zasnova LB za slovenščino • Relevantni podatki • s podatki, vključenimi v LB, mora biti mogoče v čim krajšem času priti do konkretnih za jezikovno skupnost najbolj strateško pomembnih jezikovnih priročnikov; • jedrno besedišče (osrednje : obrobno); • natančna pomenska členitev jedrnega besedišča: • skladenjski in slovnični podatki, ki so pomembni za slovarske in slovnične opise.
…in kaj je bistveno? ●Bistvo jezikovnega opisa v leksikalni bazi, ki temelji na sodobnih leksikalnogramatičnih pristopih in korpusnih podatkih, je v tem, da pomenski opis LE ni strogo ločen od njenega skladenjskega opisa. ● LB za slovenščino želi biti vsestranska analiza osnovnega besedišča splošnega jezika in oblikovana kot mreža med seboj povezanih jezikovnih podatkov o leksikalnem potencialu slovenščine.
Osnovne informacije o LE • osnovna oblika – lema • povezave na: • leksikon • morfološka zbirka • besedna vrsta • ? slovnične in pomenske kategorije (prehodnost, dovršnost, števnost ...) • ? glasoslovni podatki • ? frekvenca
Pomenski opis LE – izhodišča • Beleženje celotnega pomenskega inventarja? • Pomen ali pomenske tendence? • Različni slovarji – različni pomeni! • Podrobna pomenska členitev!
3-je slovarski vzori • New Oxford Dictionary of English (NODE; 1998) • osnovni/jedrni in odvisni pomeni • Longman Dictionary of Contemporary English(LDOCE; 20034) • pomenski indikatorji • Macmillan English Dictionary for Advanced Learners (MED; 20072) • „menu pomenov”
Pomenski indikator • pomenski indikator na kratko določi pomenski obseg ali področje obravnavanega pomena, pri večpomenskih besedah pa vzpostavlja razliko med pomeni oz. podpomeni pasti 1 znižati se na lestvici 1.1 o vrednosti (cena, tečaj, indeks, delnica) pade 1.2 o temperaturi (temperatura) pade pod (ničlo, ledišče) 1.3 o statusu pasti na (družbeno, socialno) dno; (ugled, status) pade komu 2 nastop stanja 2.1 zgoditi se (odločitev) pade; (praznik) pade na (ponedeljek) 2.2 znajti/nahajati se kje pasti med (razbojnike, razgrajače) 2.3 kaj doleti koga (breme, stroški; skrb, nesreča) pade na (ramena, pleča, grbo) (koga/komu)
Pomenska shema – izhodišča Pomensko shemosi predstavljamo kot opis pomenskega scenarija, v katerem za vsak pomen obravnavane besede natančno opišemo: • udeležence (število ter njihova pomenska vloga) • okoliščine (način, namen, vzrok; pa tudi krajevne in časovne okoliščine), ki so za opis pomenskega scenarija določenega pomena ključne. • pragmatične informacije (pozitivno, negativno vrednotenje)
Pomenska shema: udeleženci in okoliščine vzeti - ‘ukrasti’ KDO vzame KOMUKAJ (od kod) človek/institucija človek/institucija predmet storilecprizadeti lastnina/vrednost
DA Opis pomenskega scenarija LE temelji na analizi velikega števila stavkov, ki vsebujejo LE. Udeleženci in okoliščine so v pomenski shemi jasno izpostavljeni. NE Opis pomenskega scenarija ne temelji na vnaprej določenih pomenskih shemah. Poimenovanje udeležencev ni fiksirano; njihova pomenska vloga ni vnaprej predvidena. Opis pomenske sheme ni namenjen vzpostavljanju pomenskih razmerij med LE. Pomenska shema in teorija FrameNet
Pomenska shema in CPA • opis LE poteka od besede do besede • FN po pomenskih okvirjih • pozornost je namenjena pomenskemu opisu večpomenskih besed • FN vzpostavlja pomenska razmerja med LE/okvirji • pomenska shema se uresničuje prek skladenjskih struktur
Postopek oblikovanja pomenske sheme • Ugotoviti mehanizme, po katerih smo govorci slovenščine sposobni razločevati med pomenom glagola stisniti v zgledih (a) od pomena glagola stisniti v zgledih (b). • Pomen glagola v zgledih (a) ima nekatere skupne lastnosti, po katerih lahko ga lahko ločimo od pomena glagola v zgledih (b) • Razlike med pomenoma v zgledih (a) in (b) želimo v pomenski shemi opisati na način, da dosežemo skupni imenovalec razumevanja posameznega pomena oz. skupni imenovalec razlikovanja med pomenoma.
Pomenska shema za stisniti - v zgledih (a) Otipal je ženino roko in jo močno stisnil. Anja pa ni Marjana niti enkrat stisnila za ramena. Eleanor je zdravilna zelišča in pismo trdno stisnila v dlan. Cezarz dlanjo stisne ročaj meča. ČLOVEK stisne PREDMET ali DEL TELESA z DLANJO ali ROKO tako, da ga trdno oprime
Pomenska shema za stisniti - v zgledih (b) • Stisnite si limono, pomarančo, grenivko, melono, ananas itn. • Iz grozdja so stisnili 70 litrov ledenega vina. • Naberemo sveže regratove korenine in iz njihs centrifugo stisnemo sok. • Krompir olupite in še vročega stisnite skozi stiskalnico za krompir. ČLOVEK stisne TEKOČINO ali SNOV iz ČESA, kar vsebuje tekočino/snov, s pomočjo NAPRAVE ali ROK
Izraženi/neizraženi elementi Z VELIKIMI ČRKAMI zapisujemo skladenjsko in pomensko obvezne elemente pomenske sheme, ki so lahko (a) Izraženi znotraj stavka: Iz grozdja so na domači stiskalnicistisnili 70 litrovledenegavina. v sobesedilu: Jabolka je treba najprej umiti, razrezati in stisniti. Jabolčni sok nato pustimostati. (b) NeizraženiStisnite si limono, pomarančo, grenivko, melono. (tekočina, sredstvo) ČLOVEK stisne TEKOČINO ali SNOV iz ČESA, kar vsebuje tekočino/snov, s pomočjo NAPRAVE ali ROK
Skladenjski opis LE • Za potrebe RONJ; temu je v celoti prilagojen zapis skladenjske informacije. • Elemente pomenske sheme, je mogoče izraziti na različne slovnične načine (neskončno število pomenov je mogoče izraziti s končnim številom slovničnih kombinacij). • Različni pomeni LE so pogostokrat povezani z določenimi skladenjskimi vzorci. • Na kakšen način se na slovnični ravni uresničuje konkretni pomen, beležimo s skladenjskimi strukturami.
Skladenjske strukture ZGLEDI (a) (1) Če boste igračo močno stisnili, boste sprostili potlačeni bes. (2) Če te bo postalo strah, me stisni za ramena in bova pristala. (3) Eleanor je zdravilna zelišča in pismo trdno stisnila v dlan. (4) Cezarz dlanjo stisne ročaj meča. ČLOVEK stisne PREDMET ali DEL TELESA z DLANJO ali ROKO tako, da ga trdno oprime (1) S/bz1+stisniti+S/bz4[kdo] stisne [kaj4] (2) S/bz1+stisniti+S/bz4 +za+S/bz4[kdo] stisne [koga4] za [kaj4] (3) S/bz1+stisniti+S/bz4 +v+S/bz4[kdo] stisne [kaj4] v [kaj4] (4) S/bz1+stisniti+S/bz4 +z/s+ S/bz6[kdo] stisne [kaj4] z/s [čim6]
Združevanje skladenjskih struktur (1) S/bz1+stisniti+S/bz4 (3) S/bz1+stisniti+S/bz4 +v+S/bz4 (4) S/bz1+stisniti+S/bz4 +z/s+ S/bz6 S/bz1+stisniti+S/bz4+(v+S/bz4/ z/s+ S/bz6) [kdo] stisne [kaj4](v [kaj4]/z/s [čim6])
Kolokacijski opis LE • Kolokacijo razumemo kot pogosto kombinacijo besed, v kateri določena beseda (jedro) kaže očitno težnjo po sopojavljanju z drugo besedo (kolokatorjem), pri čemer je pogostost večja od naključne sopojavitve. • Tipičnost (a)pasti pod (ničlo, vpliv, streli, mejo, kolo ...) (b) pasti na (pamet, tla, izpit, bojišče ...) • Pomenska relevantnost (a)pasti pod (ničlo, minus, ledišče)(b)pasti na (pamet, misel, um) pasti pod (streli, kroglami) pasti na (tla, vozišče, pločnik) pasti pod vplivpasti na (izpitu, testu) pasti pod (mejo, raven, nivo)pasti na (bojišču, fronti) pasti pod (kolo, traktor)
Skladenjske strukture in kolokacije ● POMENSKA SHEMA: ČLOVEK stisne PREDMET ali DEL TELESAz DLANJO ali ROKO tako, da ga trdno oprime ●SKLADENJSKE STRUKTURE: S/bz1+stisniti+S/bz4 S/bz1+stisniti+S/bz4 +za+S/bz4 S/bz1+stisniti+S/bz4 +v+S/bz4 S/bz1+stisniti+S/bz4 +z/s+ S/bz6 Skladenjske strukture ali njihove dele, če so se pokazali kolokabilni, zapolnimo s konkretnimi leksikalnimi enotami. ● KOLOKACIJE stisniti [roko, dlan; ročaj] stisniti [ ] za [roko, rame/ramena] stisniti [ ] v [roko, dlan, pest] stisniti [ ] z/s [prsti, dlanjo, roko]
Orodje za avtomatsko profiliranje besed – SkE: WS • Avtomatično pridobivanje kolokacij s programskim orodjemSketchEngine • Izdelava “besednih skic” (word sketches) – leksikalnih profilov za vsako posamezno besedo (lemo) v korpusu. • Podatki o: • gramatičnih relacijah (dvo- in tročlenskih) • tipičnih kolokatorjih
Frazeologija • Frazeološke enote navajamo v samostojnem razdelku LB • Za to obstajata vsaj 2 razloga • Tehnični: delamo LB in ne slovar. Konkretni slovar lahko podatke iz LB organizira na ničin, ki najbolje ustreza njegovemu namenu. • Vsebinski: FE dojemamo kot anomalne LE (samostojni pomen, zgradba in omejena pretvorbenost), zato je njihov pomen vedno v določeni meri, zlasti prek metafore, metonimije ipd., vezan, na katerega od osnovnih pomenov, stopnja te pomenske povezanosti pa je relativna in težko določljiva.
FE: podatki • Osnovna oblika in variante (a) stisne pri srcu/v želodcu koga (b) stisniti koga v kot/ob zid • ? Tipične realizacije (biti) trn v peti kdo je čigav trn v peti kdo je trn v čigavi peti kdo je trn v peti koga kdo je komu trn v peti kdo je trn v peti za koga kdo, trn v peti koga/komu, je ... • Pomenska členitev/pomenski indikatorji (a) ‘občutiti nelagodje’ (b) ‘onemogočiti; spraviti v brezizhoden položaj’ • Zgledi rabe
Zgledi • Od abstraktnega h konkretnemu: Indikator:objeti PS:ČLOVEK stisne ČLOVEKA, ŽIVAL ali PREDMET k svojemu telesu struktura:(a) S/bz1+stisniti+S/bz4+k/h+S/bz3 struktura: (b) S/bz1+stisniti+S/bz4+v+S/bz4 kolokacija:(a) stisniti k (prsim, telesu, sebi) (b) stisniti v (naročje, objem) zgled:(a) Strastno sem jo stisnil k prsim kot izgubljeno ljubico (b)Novopečene mamice so prvič stisnile v naročje 16 deklic in šest dečkov. • Kaj zajemajo zgledi in kaj hočemo z njimi povedati? • SkE – TBL in GDEX
IDM DPS – sistem za izdelavo LB • Slovarski vmesnik (Entry Editor) • Prilagajanje strukture (DTD-ja) glede na potrebe LB • Širjenje LB z vključevanjem novih podatkov • Spremljanje delovnega procesa (dodeljevanje nalog, nadzor, uredniški posegi …) • Iskanje, urejanje in selekcioniranje podatkov • Vzdrževanje in aktualizacija
Povzetek • LB za slovenščino je namenjena izdelavi jezikovnih priročnikov in za RONJ. • Jezikovne podatke pridobivamo iz referenčnega korpusa (FidaPLUS) in jih v LB organiziramo v med seboj povezanih nivojih: pomenskem, skladenjskem, kolokacijskem. • Posebej registriramo frazeologijo. Informacije potrjujemo z zgledi. • Kolokacije in zglede pridobivamo s pomočjo SkE: WS, TL in GDX. • Za izdelavo LB uporabljamo IDM DPS.