1 / 24

Spletni konkordančnik za govorni korpus slovenskega jezika GOS

Spletni konkordančnik za govorni korpus slovenskega jezika GOS. Darinka verdonik Univerza v mariboru, fakulteta za elektrotehniko, računalništvo in informatiko. MINISTRSTVO ZA VISOKO ŠOLSTVO, ZNANOST IN TEHNOLOGIJO. REPUBLIKA SLOVENIJA. Namen konkordančnika GOS.

hao
Download Presentation

Spletni konkordančnik za govorni korpus slovenskega jezika GOS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Spletni konkordančnik za govorni korpus slovenskega jezika GOS Darinka verdonik Univerza v mariboru, fakulteta za elektrotehniko, računalništvo in informatiko MINISTRSTVO ZA VISOKO ŠOLSTVO, ZNANOST IN TEHNOLOGIJO REPUBLIKA SLOVENIJA

  2. Namen konkordančnika GOS • Omogočiti spletni dostop in iskanje po nacionalnem govornem korpusu slovenščine najrazličnejšim zainteresiranim uporabnikom: • zbirka dostopna širši javnosti in bo omogočala sodobnikom vpogled v trenutno stanje jezikovne podobe slovenskega jezika, kakršen doslej ni bil mogoč, • s skrbnim hranjenjem in dostopnostjo korpusa tudi za prihodnje generacije pa predstavlja tudi dragocen kulturni dokument za naše zanamce. • Eden od korakov v okviru dolgoročne strategije razvoja, gradnje, vzdrževanja in nenehnega posodabljanja temeljne sodobne jezikoslovne infrastrukture za slovenski jezik in nadgrajuje del rezultatov predhodno začetega projekta Sporazumevanje v slovenskem jeziku.

  3. Uporabniki • Raziskovalci govora – omogoča številne raziskovalne možnosti za raziskovalce, ki se v svojih raziskavah dotikajo (tudi) človeškega govora in govorne komunikacije: • vse veje jezikoslovja, • razne veje sociologije, antropologije, kognitivnih in informacijskih znanosti itd. • V izobraževanju pri pouku slovenskega jezika, pri učenju slovenskega jezika za tuje govorce: • vir številnih avtentičnih primerov različnih govorjenih žanrov (od zbornega do pokrajinskega in narečnega govora) in govora različnih slovenskih regij • vir številnih primerov za spoznavanje oblikoslovja in skladnje govorjenega jezika • vir številnih primerov za spoznavanje pragmatične narave govorjenega diskurza itd. • Nekateri poklici, ki so v stiku z govorom: • razni pisci (scenaristi, pisatelji, novinarji...), • tolmači in prevajalci, • poklicni govorci (npr. na radiu in televiziji) idr.

  4. Cilji konkordančnika • Prost dostop do govornega korpusa GOS. • Povezanost transkribcij z zvokom na ravni izjav. • Izkoristiti čim več informacij iz gradiva. • Zadovoljiti različne skupine uporabnikov.

  5. Vključitev gradiva GOS v konkordančnik za pisni korpus… … bi zgledala nekako takole (WordSmith, del konkordančnega niza “in”): so profesorji hudli takle je som tist volec takle sovkal in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta dama al ne vem kaj [Af-star-05611 (hkrati):] eee joj [Cf-otro-05613:] in enkret bi mela poker in s nisem stavla k mi je edn eee zblefirov kolk jih je pej še? [Cf-star-05561:] še edn [Bf-otro-05560 (hkrati):] in kej [ime] že ud zjutru piše nalogo? [Am-star-05559 (hkrati):] nje nje jz sem mel tud tok jz sem mel z ruzakom osemšeeset... no in in ta je ta je še strastno hujša a veš in to če takle poba začne hujšat on on si

  6. Potencial GOS-a 2 nivoja transkribcij: • Pogovorni zapis: [Cm-star-02106:] in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta poštrejhala za pav tutele mejze pav kvadratnega metra uba • Knjižni zapis: [Cm-star-02106:] in v tisti pol uri v tri četrt uri pol sem še videl da sta celo dva nista poštrihala za pol totele mize pol kvadratnega metra oba

  7. Potencial GOS-a Zvok: [Cm-star-02106:] in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta poštrejhala za pav tutele mejze pav kvadratnega metra uba

  8. Potencial GOS-a Podatki o posnetku/diskurzu TIP DISKURZA: nejavni zasebni VRSTA SITUACIJE: osebni stik OPIS DISKURZA: doma, druzina REGIJA: CE VIR: terenski posnetek KRAJ: Žiče CAS: 25.08.2009 18:30 ST. AKTIVNIH UDELEZENCEV: 4 OPIS GOVORNEGA DOGODKA: Pogovor predvsem o temah, povezanih z življenjem na podeželju - stroji, pridelki, kuhanje …

  9. Potencial GOS-a Podatki o govorcih SPOL: m STAROST: 35 do 59 REGIONALNA PRIPADNOST1: CE REGIONALNA PRIPADNOST2: nedolocno REGIONALNA PRIPADNOST3: nedolocno REGIONALNA PRIPADNOST4: nedolocno REGIONALNA PRIPADNOST5: nedolocno IZOBRAZBA: srednja sola PRVI JEZIK: slovenscina

  10. Zasnova konkordančnika GOS

  11. A1, A2 Osnovno iskanje • A1 Privzeto po: • 2. (knjižnem) nivoju zapisa (jaz – jaz, jest, jz, jst) in • po celotnem korpusu • A2 Mogoče različne iskalne operacije, podobno kot v pisnem korpusu: • iskanje besede • iskanje z nadomestnimi znaki • iskanje po kanalih (lema – avtomatsko označena) • iskanje po frazah • iskanje po bližini …

  12. A3 Prikaz rezultatov Rezultati se prikažejo po konkordancah: vejdal de so profesorji hudli takle je som tist volec takle sovkal [smehna] | in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta [Cf-otro][1] men se zi a dama al ne vem kaj[Bm-star][2] eee joj [Cf-otro]in enkret bi mela poker in s nisem stavla k mi je edn eee zblefirov [Bf-otro] kolk jih pej še je? [Cf-star] še edn [premor] [Bf-otro] [1] in kej [ime] že ud zjutru piše nalogo? [Am-star] [2] nje nje [Om-prij] [1] jz sem mel tud tok jz sem mel z ruzakom osemšeeset... no in in ta je ta je še strastno hujša a veš in to če takle poba začne hujšat on on si

  13. A3 Prikaz rezultatov • Na klik so na voljo dodatne informacije: • Zvok: • za izjavo, v kateri je najdeni izraz • Podatki o govorcu • moški, 35 do 59, celjska regija, srednja šola, slovenščina • Podatki o diskurzu • nejavni zasebni, osebni stik, družina, 25.8.09 ob 18.30 • Pogovor predvsem o temah, povezanih z življenjem na podeželju - stroji, pridelki, kuhanje… • Knjižni zapis – cel konkordančni niz ali posamezne konkordance?: • videl da so profesorji hodili takole je samo tisti volec takole sukal [smehna] | in v tisti pol uri v tri četrt uri pol sem še videl da sta celo dva nista • Vir: • terenski posnetek

  14. A3 Prikaz rezultatov • Razširjeni kontekst, +/- 1 segment/izjava, pogovorni zapis: • [Cm-star-02106:] • som ku je vejdal de so profesorji hudli takle je som tist volec takle sovkal [smehna] • in v tisti pal uri v trej četart uri puol sn še vejdal se sta celo dvo nejsta poštrejhala za pal tutele mejze pal kvadratnga metra ubo • [[Am-soro-02104][1] + [Cm-star-02106] [2]:] [1] ja se tav je ze vidiš tisto [2] som takle sta [smehgo] ka si nuor jz sn se tak smejal puol tam zran ko sn jih gledal • Na zahtevo – zvok: • Na zahtevo – knjižni zapis: • [Cm-star-02106:] • samo ko je videl da so profesorji hodili takole je samo tisti volec takole sukal [smehna] • in v tisti pol uri v tri četrt uri pol sem še videl da sta celo dva nista poštrihala za pol totele mize pol kvadratnega metra oba • [[Am-soro-02104 ][1] + [Cm-star-02106] [2]:] [1] ja saj to je zdaj vidiš tisto [2] samo takole sta [smehgo] kaj si nor jaz sem se tako smejal pol tam zraven ko sem jih gledal

  15. A4 Urejanje rezultatov • Filtriranje rezultatov: • po atributih diskurzov (tip, kanal, regija …) • po atributih govorcev (spol, starost, izobrazba …) • Statistika in druga opravila iz pisnega korpusa

  16. Zasnova konkordančnika GOS

  17. B1 Podkorpusno iskanje • Možnost izbire znotraj gradiva glede na: • Nivo zapisa: • pogovorni zapis (in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta poštrejhala za pav tutele…) • knjižni zapis (in v tisti pol uri v tri četrt uri pol sem še videl da sta celo dva nista poštrihala za pol totele) • Oznake diskurza: • tip diskurza: JI, JR, NN, NZ • kanal: radio, tv, telefon, osebni stik • vrsta situacije: OŠ, SŠ, predavanje, družina, prijatelji… • regija: MB, LJ, MS, CE, SG, KK, PO, NM, KP, GO, Italija, Avstrija… • število udeležencev • tudi kraj (ob registraciji)

  18. B1 Podkorpusno iskanje • Možnost izbire znotraj gradiva glede na: • Oznake govorcev: • Spol • Starost: do 10, 10 do 14, 15 do 18, 19 do 24, 25 do 34, 35 do 59, nad 60, nedolocno • Izobrazba: OS ali manj, srednja sola,visja ali visoka sola, fakulteta ali vec, nedolocno • Regija: • Regija 1: MB, MS, SG, CE, LJ, KR, NM, KK, GO, PO, KP, Italija, Avstrija, Madzarska, tujina, nedolocno • Regija 2: enako • Regija 3: enako • Prvi jezik: slovenscina, anglescina, nemscina, italijanscina itd.

  19. B2, B3, B4 Podkorpusno iskanje B2 Iskalne operacije: enako kot osnovno iskanje B3 Prikaz rezultatov: enako kot osnovno iskanje B4 Urejanje rezultatov: enako kot osnovno iskanje

  20. Zasnova konkordančnika GOS

  21. C Izbor in shranjevanje transkripcij • C1 Možnost izbire znotraj gradiva enako kot pri podkorpusnem iskanju • C3 Uporabnik lahko shrani izbrane transkripcije kot txt datoteke na svoj računalnik Govorec 1: Cf-star-06564 Govorec 2: If-otro-06565 [Cf-star-06564:] kakšn film s gledala? [If-otro-06565:] čak eee čak da se spomnem [Cf-star-06564:] kdaj pa? [If-otro-06565:] eem ja včer sva drgač gle() aja [smehgo] ko je [ime] naštimvov [smehgo] | ja ta je dora ja [[If-otro-06565][1] + [If-otro-06565][2]:] [1] [smehgo] sva se odločla dava film a ne g() dava gleala film [2] ja [If-otro-06565:] sem uzela v knjižnc a ne devedeje | [neraz] [smehgo] ful smešn eem k je on ma zej a veš un ta nov eem ekran a ne za računalnik k kao loh un devede pl() plejer direkt ušteka

  22. Predlogi, roki Morebitne predloge za konkordančnik pošljite na: darinka.verdonik@uni-mb.si, govorni@slovenscina.eu Rok: konkordančnik bo na spletu do 30. septembra 2010

  23. Prihodnost GOS-a? • Želeli bi si, da bi se spletni konkordančnik za govorni korpus, in seveda tudi gradivo – korpus, v prihodnosti dodatno razvijal, nadgrajeval z novimi funkcijami in novim gradivom ter nenehno posodabljal. • ČE se bodo odprle možnosti nadaljnjega financiranja, je vizija o prihodnjih posodobitvah korpusa: • oblikoslovno označevanje in vključitev možnosti iskanja po oblikoslovnih oznakah v konkordančnik • skladenjsko označevanje in vključitev možnosti iskanja po skladenjskih oznakah v konkordančnik • širjenje gradiva na 2 mio. besed ali več • …

  24. Zahvala • Številnim ustvarjalcem GOS-a (študenti FF UL, FDV, FF MB, FERI MB in sodelavci korpusa) • Govorcem, ki so dobrohotno dovolili vstop v svojo zasebnost (sorodniki, govorci, znanci … snemalcev in sodelavcev korpusa, učitelji idr.). • Institucijam, ki so odstopile posnetke ali dovolile snemanje pod svojim okriljem: • mediji: Pop TV, RTV Slo, Radio Maribor, Radio City, Radio Center, Radio Maxi, Koroški radio, Radio Fantasy, Štajerski val, Radio Krka, Radio Alfa, Radio Kranj, Radio Belvi, Radio Slovenija, Val 202, Radio Capris) • osnovne in srednje šole • idr. … in vam za pozornost!

More Related