200 likes | 343 Views
Korpus: niso ga samo besede. Nataša Logar Univerza v Ljubljani Fakulteta za družbene vede natasa.logar@fdv.uni-lj.si. 1 Projekt Sporazumevanje v slovenskem jeziku www.slovenscina.eu. Čas: junij 2008 december 2013 Konzorcij: Amebis, d. o. o., Kamnik
E N D
Korpus: niso ga samo besede Nataša Logar Univerza v Ljubljani Fakulteta za družbene vede natasa.logar@fdv.uni-lj.si
1 Projekt Sporazumevanje v slovenskem jezikuwww.slovenscina.eu • Čas: junij 2008december 2013 • Konzorcij: Amebis, d. o. o., Kamnik Institut “Jožef Stefan”, Odsek za tehnologije znanja Univerza v Ljubljani, FDV ZRC SAZU, Inštitut za slovenski jezik F. R. Trojina, zavod za uporabno slovenistiko • Vodja projekta: Miro Romih • Koordinator projekta: Simon Krek
Financiranje Projekt delno financirata Evropska unija iz Evropskega socialnega sklada ter Ministrstvo za šolstvo in šport Republike Slovenije. Projekt se izvaja v okviru Operativnega programa razvoja človeških virov za obdobje 2007–2013, katerega razvojne prioritete so: razvoj človeških virov in vseživljenjskega učenja; prednostne usmeritve pa: izboljšanje kakovosti in učinkovitosti sistemov izobraževanja in usposabljanja 2007–2013.
Cilji 1.referenčni korpus in leksikalna baza slovenskega jezika s slovničnim analizatorjem 2. jezikovne tehnologije kot del didaktičnih pristopov v vzgojno-izobraževalnih procesih 3. pedagoška korpusna slovnica in slogovni priročnik
2 Gradnja pisnega korpusa SSJ • Merila gradnje (* specifikacija) < = Korpus je enovita, standardno označena in notranje strukturirana zbirka avtentičnih besedil, nastala po vnaprej določenih merilih in z določenim ciljem, dostopna v elektronski obliki in opremljena z orodji, ki omogočajo večplastno iskanje in statistično obdelavo podatkov.
velikost prenosnik objavljenost avtor tema okolje, ki mu je besedilo namenjeno branost zvrst ...
Izhodišče FIDA + FidaPLUS + ... => cilj: nov pisni korpus v obsegu do 1 milijarde besed, zapisan v standardu XML TEI P5, lematiziran,v celoti oblikoskladenjsko označen, v določenem delu skladenjsko razčlenjen in s prepoznavo lastnih imen * čas gradnje: junij 2008december 2013
100-milijonski del < bolj načrtno strukturiran < očiščena besedila < tudi skladenjsko označen ostali del < bolj odprta merila zajemanja Velikost do 1 milijarde besed
Tema • aktualni dogodki • gospodarstvo, politika • vzgoja, izobraževanje • narava, dom • ljudje, družina, moški, ženske • zdravje, hrana • posel, finance • prosti čas, razvedrilo, moda • šport • kultura, umetnost • religija, duhovnost • računalništvo, avtomobilizem ...
Avtorstvo • razpršenost, vplivnost • podatek v glavi pri enobesedilnih dokumentih # spol, starost, število, tip, regijska pripadnost Ciljna publika • raven izobrazbe # spol, starost, (regijska pripadnost)
Branost • ključni kazalnik besedilne recepcije • za knjižno in periodično gradivo relevantna branost zadnjih let (2006); za spletne strani obiskanost (novičarski portali) in ugled (podjetja, ustanove)
Prenosnik * FidaPLUS:tiskani 98,4 % govorni 0,4 % elektronski 1,2 % > • tiskani • periodično • knjižno • elektronski • novičarski portali z visoko branostjo • predstavitvene spletne strani podjetij in ustanov • (govorni)
Objavljenost/internost/zasebnost • vključena objavljena in interna besedila Čas izdaje/nastanka • produkcija: < novi besedilodajalci: po letu 1995 < stari besedilodajalci: po letu 2005 • recepcija (branost, obisk spletnih strani) < vključitev tudi starejših besedil z visoko branostjo
Prevedenost/izvirnost • vključitev prevedenih del (knjig), različni jeziki izvirnika Lektoriranost * FidaPLUS: pripis kategorije 89 % > oznaka nelektorirano 0,6 % => opuščena kategorija
Zvrst * FidaPLUS: umetnostna: 3,5 % pesniško: 2 % prozno: 94 % dramsko: 2 % neumetnostna: 96,5 % strokovna: 10 % nestrokovna: 90 % Taksonomija pisnega korpusa SSJ > ...
Korpus SSJ: tisk knjižno leposlovje stvarna besedila periodično časopis revija drugo internet
< deloma subjektivne odločitve < uporabnik: podatki o korpusu => ustrezno vrednotenje in interpretacija
Stabej (1998: 98): Pravzaprav ne gre toliko za samo objektivizacijo kot za ponujanje možnosti uporabniku korpusa, da glede na razpoložljive podatke o korpusu /.../ selektivno izbira in vrednoti jezikovne podatke. Z drugimi besedami, korpus je sicer zaznamovan s teoretskimi prepričanji in ustreznimi odločitvami svojih snovalcev, vendar lahko uporabniki to zaznamovanost razberejo in navsezadnje tudi presežejo.