250 likes | 449 Views
Učni korpus govorjene slovenščine . Jana Zemljarič Miklavčič JOTA,15. 3. 2005 . Napovednik. Govorni korpusi Zbiranje gradiva Trans kribiranje Označevanje Konverzija (Knut Hofland) Uporabnost učnega korpusa Perspektive. Govorni korpusi.
E N D
Učnikorpus govorjene slovenščine Jana Zemljarič Miklavčič JOTA,15. 3. 2005
Napovednik • Govorni korpusi • Zbiranje gradiva • Transkribiranje • Označevanje • Konverzija (Knut Hofland) • Uporabnost učnega korpusa • Perspektive
Govorni korpusi • so računalniške zbirke transkribiranih posnetkov spontanega govora • govorni korpusi proti korpusom govora • za preverjanje hipotez o jeziku in opis jezika, predvsem v leksikografiji in slovnici • učenje jezika • sinteza in razpoznavanje govora • posebne potrebe
Gradnja učnega korpusa (UKGS) Namen: • spoznati metode zbiranja, shranjevanja in dokumentiranja govorjenih besedil • razviti in testirati načela transkribiranja • določiti in testirati korpusne oznake • pokazati nekatere možnosti za uporabo korpusa za jezikovne opise in analizo
Gradnja učnega korpusa (UKGS) Potek: • zbiranje gradiva • transkribiranje in označevanje • konverzija • popravljanje transkripcij in oznak • konverzija
Govorci UKGS ID Spol Leto roj. Izobr. Regija Prvi jezik Govorni polož. Poklic G02 m1965U Ljo slovformalni profesor G12 f 1969 S G slov neformalni administr. Del.
Sestava UKGS Glede na besedilnovrstno taksonomijo • velikost: 15.000 pojavnic • dialogi proti monologom: 94 % : 6 % • javna besedila proti zasebnim: 19,5 % : 80,5 % • osebni stik proti besedilom medijev: 31 % : 69 % • posneto z vednostjo govorcev proti naskrivaj: 5,6 : 94,4 % • neformalna proti formalnim besedilom: 35,5 % : 64,5 %
Transkribiranje Osnovna načela: • priporočila mednarodnih organizacij za standardizacijo korpusov (TEI, EAGLES) • razširjena ortografska transkripcija • osnovna enota je izjava, ki jo omejuje premor ali menjava govorcev • brez ločil • velika začetnica samo v lastnih imenih
Težave pri transkribiranju Problematika zadeva predvsem zapis • pogovornih/dialektalnih besed • tujejezičnih besedilnih delov • spremljevalnih zvokov (smeh, kašelj) • prekrivnega govora • premorov
Nekaj konkretnih problemov • [a je scal] <nst>scalo</nst> • [pet kosov eden] <nst>kosov</nst> ?? • [pa un kurc kva je že … ] kurc, kurac?? • [mogoče imam celo kle] <nst>kle<nst>/tukaj • [imamo mi posla i bez toga] <tj: hrv>imamo mi posla i bez toga</tj> • [karradera]<tj:katalon><?>karradera</?>/tj>
Nekaj konkretnih problemov • [una rdeča zemlja], [si slišal kaj je un Michael], [pa un kurc kva je že … ] oni/ona/ono ??? • [tadrobna zemlja],[izhodišče zataglavne fjorde] tadrobna, taglavne ali ta drobna, ta glavne • [vsak dan smo šli za ene dve ure hodit], [sem pa danes spila že ene tri kofete ], [glih pred ene dvema mescema]
<pavza> <ime> <neraz> <?>besedilo</?> – <repet/> <okr>beseda</okr> [besedilo] kratka pavza nadomešča lastno osebno ime nerazumljivi govor nezanesljiva transkripcija lažni začetek, okrnjena beseda (nepotrebna) ponovitev nestandardna beseda ali oblika kratica ali okrajšava prekrivni govor Transkripcijske oznake 1
<nst>beseda</nst> <tj: norv>besedilo</tj> <nv>smeh</nv> (opis) <??>besedilo</??> <shift=poud>besedilo</> <shift=vpr>besedilo</> nestandardna beseda tuja beseda ali besedilo neverbalni dogodki zvoki v ozadju neprepoznavni govorec poudarjeni del besedila del besedila z izrazito vprašalno intonacijo Transkripcijske oznake 2
Označevanje Glava posnetka UKGS • ni lematiziran • ni morfosintaktično označen
Wordpad dokument wordpad <Turn speaker="spk1" startTime="155.211" endTime="161.469"> <Sync time="155.211"/> <shift=vpr>;si slišal kaj je oni Michael <?>;Moore</?>; <neraz>; ali kaj imajo nekaj za študente v Ameriki</shift=vpr>; </Turn> <Turn speaker="spk2" startTime="161.469" endTime="162.15"> <Sync time="161.469"/> ne </Turn> <Turn speaker="spk1" startTime="162.15" endTime="164.894"> <Sync time="162.15"/> bog ve kaj ane verjetno je spet proti Bushu kaj </Turn> <Turn speaker="spk2" startTime="164.894" endTime="165.364"> <Sync time="164.894"/> ja </Turn>
Konverzija Knut Hofland Aksis (Oddelek za kulturo, jezik in JT) Univerza v Bergnu http://torvald.aksis.uib.no/talem/jana/
Kritični pogled na UKGS • oportunistične metode zbiranja • besedila niso cela, zaključena • pomanjkljiva demografska sestava govorcev • nepopoln zajem besedil glede na taksonomijo • nujno brisanje osebnih podatkov iz posnetkov • ni lematiziran in označen na besedni/sklad. ravni • transkripcijska načela • <repet/> • <shift=vpr> • <shift=poud> • <nst> • <nv>smeh</nv>
Perspektive za *KGS • *1-milijonski korpus • = 100 ur posnetkov (50 demo + 50 kont) • = 2000 ur transkribiranja • = 10 ljudi, 5 mesecev po 40 ur/mesec • + pregledovanje in označevanje • + konverzija • + popravljanje • = 3 leta, 10,5 milijona SIT (44.000 €)
Učnikorpus govorjene slovenščine BATMULT talekorpus jana.zemljaric@ff.uni-lj.si