190 likes | 399 Views
Eesti murrete korpusest. Liina Lindström. Eesti murrete korpus. TÜ ja EKI koostöö Eesmärk: teha murdematerjalid uurijale elektrooniliselt kättesaadavaks Samadel alustel korjatud tekstid kõigist murretest Autentne ja usaldusväärne materjal I kiht: võimalikult vanapärane murdekeel.
E N D
Eesti murrete korpusest Liina Lindström
Eesti murrete korpus • TÜ ja EKI koostöö • Eesmärk: teha murdematerjalid uurijale elektrooniliselt kättesaadavaks • Samadel alustel korjatud tekstid kõigist murretest • Autentne ja usaldusväärne materjal • I kiht: võimalikult vanapärane murdekeel
Eesti murrete korpus koosneb: • murdelindistustest; • foneetilises transkriptsioonis murdetekstidest; • lihtsustatud transkriptsioonis murdetekstidest; • morfoloogiliselt märgendatud tekstidest, mis on loetud MySQL-andmebaasi; • Accessi andmebaasist, mis sisaldab andmeid keelejuhtide ning lindistuse kohta.
2. Foneetilises transkriptsioonis tekstid • SU foneetiline transkriptsioon • Kasutatav ainult programmiga MS Word; fondid loonud Esko Oja • transkribeeritud ka küsitleja tekst • litereeritud ka partiklid, parandused, valestardid jm suulise kõne nähtused • üle933 000 litereeritud tekstisõna
3. Lihtsustatud transkriptsioonis tekstid • Automaatselt asendatud foneetilisest transkriptsioonist • Märgendatud minimaalselt: <u who=KJ> keelejuhi tekst </u> <u who=AU> küsitleja AU tekst </u> <com> kommentaarid </com> • Võimaldab teksti edasi töödelda või sellest otsida nt Unixi töövahenditega
Näide: lihtsustatud transkriptsioonis tekst <com> Võru murre, Hargla, Saru küla. Minna Hanimägi (86 a). Lindistanud 01.06.1970. a Pärja Keldrimägi. Litereerinud Pire Teras juulis 2000. Üle kuulanud Liina Lindström 21.02.2001. KJ - Minna Hanimägi, PK - Pärja Keldrimägi, JO1 - esimene juuresolija, JO2 - teine juuresolija, JO3 - kolmas juuresolija </com> <u who=KJ> `van'n'i (...) </u> <u who=JO1> nohh `puhtan Mynistõ keelen (...) </u> <u who=KJ> nohh=jahh (.) `häste (.) `prostoi `muudu (.) `lat's'i mant olõt `oppinu (...) `hapnõma=ja siss (.) `las't'i üü+päiv happada (...) siss happass ärä=ja kastõtti ärä=ja (...) `pantti kuu `naksi tõsõma (.) vai nõss- nõsõma nohh sõõ (.) nõsõma (.) ja siss (...) `pantti ahu palama=ja=ss `pantti pät's'i `ahju (...) miss=suur miis viil tulõ säält (...) <com> kommenteerib kui keegi veel tuleb </com> </u> <u who=PK> kass=õ (...) sõkkutti (.) sõkkutti kaa `leibä=või (...) </u>
1636 ja 979 ol'l' 975 siss 758 jahh 580 et 567 tuu 402 nii 362 ma 349 nohh 287 no 285 ku 268 ess 254 yks 244 vai 235 õ 235 syss 233 olõ 223 sääl 223 omm 220 ka 206 ei 203 a 190 jaq 179 e 174 ol'l'i Näide: Võru sõnede sagedussõnastik
4. Andmebaas keelejuhtide ja lindistuste kohta • lindi (digisalvestuse) number korpuses, murre, murrak, küla; • keelejuhi nimi, vanus, sünniaeg ja muud isikuandmed, mis on kättesaadavad (haridus, päritolu, vanemad jne); • lindistusaeg, lindistajate nimed ja lindi päritolu (lindi number EKI või TÜ fonoteegis); • litereeringu number EKIs või TÜs, litereerija, litereeringu kontrollija ja teksti sisestaja; • korpusesse võetud tekstiosa maht sõnades, märgendatud sõnade hulk.
5. Morfoloogiline märgendus • abiprogramm Mark • andmebaasi laetud hetkel ca 394000 sõna • morfoloogiliselt märgendatud materjali hulgas on ka vadja tekste (23416 sõna) • MySQL andmebaas, veebipõhine otsing: http://www.murre.ut.ee/otsing.html Näide: • imperfekti otsimine • prepositsioonid • märgendatud sõnade hulk murrakuti
Korpuse probleemid Vaja oleks uuemaid ja paremaid tehnilisi lahendusi: • otsisüsteemide täiustamiseks; • märgendusvigade süstemaatiliseks otsimiseks ja parandamiseks.
Mida korpusega teha saab? • Kasutada: • morfoloogiliselt analüüsitud korpus; • foneetilises transkriptsioonis tekstid; • lihtsustatud transkriptsioonis tekstid; • lindistused.
Sobib • Uurida saab: • sagedasi nähtusi; • eri murdeid võrdlevalt; • nii mikro- kui makroanalüüs; • tekst kasutuskontekstis. • Arvestada: • suuline tekst; • institutsionaalne vestlus selgete rollidega. • Morfosüntaks, foneetika, fonoloogia
Korpuse põhjal tehtud uurimusi • Keele muutumine ja varieerumine, murrete nivelleerumine (Mets 2005, Kalvik 2004) • ajaväljendite leksikaliseerumine (Velsker 2006) • Kirde- ja rannikumurde demonstratiiv- ja 3. isiku pronoomenite kasutus (Tirkkonen 2006, 2007) • pronoomeni väljajätt Muhu murrakus (Kalmus 2007) • sõna pool grammatiseerumisest eesti murretes (Läänemets 2007) • Häälikute sagedus (Lindström, Pajusalu 2003) • Sage sõnavara eri murretes (Lindström jt 2001)
Lõpetuseks Murre on keel~keelevariant, milles leiduvaid nähtusi motiveerivad samasugused inimmõtlemisele ja –tunnetusele omased protsessid kui muudes keeltes. murrete uurimine ei peaks piirduma vaid deskriptiivsete kirjeldustega. • murdekorpus võiks huvi pakkuda mitte ainult kitsalt murretega tegelevatele inimestele, vaid kõigile keeleuurijatele. • murrete uurimine ei peaks olema eesmärk omaette, vaid murded võiksid olla mitmekesiseks ja rikkalikuks materjaliks kõikvõimalikele keeleteaduslikele töödele. Näiteks: Murdekorpus võimaldab teha uurimusi, mis näitavad, kuidas erinevates keelevariantides on lahendatud mingi teatud nähtusega/muutusega kaasnev segadus.