1 / 19

Eesti murrete korpusest

Eesti murrete korpusest. Liina Lindström. Eesti murrete korpus. TÜ ja EKI koostöö Eesmärk: teha murdematerjalid uurijale elektrooniliselt kättesaadavaks Samadel alustel korjatud tekstid kõigist murretest Autentne ja usaldusväärne materjal I kiht: võimalikult vanapärane murdekeel.

deiter
Download Presentation

Eesti murrete korpusest

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Eesti murrete korpusest Liina Lindström

  2. Eesti murrete korpus • TÜ ja EKI koostöö • Eesmärk: teha murdematerjalid uurijale elektrooniliselt kättesaadavaks • Samadel alustel korjatud tekstid kõigist murretest • Autentne ja usaldusväärne materjal • I kiht: võimalikult vanapärane murdekeel

  3. Eesti murrete korpus koosneb: • murdelindistustest; • foneetilises transkriptsioonis murdetekstidest; • lihtsustatud transkriptsioonis murdetekstidest; • morfoloogiliselt märgendatud tekstidest, mis on loetud MySQL-andmebaasi; • Accessi andmebaasist, mis sisaldab andmeid keelejuhtide ning lindistuse kohta.

  4. 1. Helilindistused

  5. 2. Foneetilises transkriptsioonis tekstid • SU foneetiline transkriptsioon • Kasutatav ainult programmiga MS Word; fondid loonud Esko Oja • transkribeeritud ka küsitleja tekst • litereeritud ka partiklid, parandused, valestardid jm suulise kõne nähtused • üle933 000 litereeritud tekstisõna

  6. Eri murrete tekstisõnade hulk korpuses

  7. Eri murderühmade tekstisõnade osakaal korpuses

  8. 3. Lihtsustatud transkriptsioonis tekstid • Automaatselt asendatud foneetilisest transkriptsioonist • Märgendatud minimaalselt: <u who=KJ> keelejuhi tekst </u> <u who=AU> küsitleja AU tekst </u> <com> kommentaarid </com> • Võimaldab teksti edasi töödelda või sellest otsida nt Unixi töövahenditega

  9. Näide: lihtsustatud transkriptsioonis tekst <com> Võru murre, Hargla, Saru küla. Minna Hanimägi (86 a). Lindistanud 01.06.1970. a Pärja Keldrimägi. Litereerinud Pire Teras juulis 2000. Üle kuulanud Liina Lindström 21.02.2001. KJ - Minna Hanimägi, PK - Pärja Keldrimägi, JO1 - esimene juuresolija, JO2 - teine juuresolija, JO3 - kolmas juuresolija </com> <u who=KJ> `van'n'i (...) </u> <u who=JO1> nohh `puhtan Mynistõ keelen (...) </u> <u who=KJ> nohh=jahh (.) `häste (.) `prostoi `muudu (.) `lat's'i mant olõt `oppinu (...) `hapnõma=ja siss (.) `las't'i üü+päiv happada (...) siss happass ärä=ja kastõtti ärä=ja (...) `pantti kuu `naksi tõsõma (.) vai nõss- nõsõma nohh sõõ (.) nõsõma (.) ja siss (...) `pantti ahu palama=ja=ss `pantti pät's'i `ahju (...) miss=suur miis viil tulõ säält (...) <com> kommenteerib kui keegi veel tuleb </com> </u> <u who=PK> kass=õ (...) sõkkutti (.) sõkkutti kaa `leibä=või (...) </u>

  10. 1636 ja 979 ol'l' 975 siss 758 jahh 580 et 567 tuu 402 nii 362 ma 349 nohh 287 no 285 ku 268 ess 254 yks 244 vai 235 õ 235 syss 233 olõ 223 sääl 223 omm 220 ka 206 ei 203 a 190 jaq 179 e 174 ol'l'i Näide: Võru sõnede sagedussõnastik

  11. 4. Andmebaas keelejuhtide ja lindistuste kohta • lindi (digisalvestuse) number korpuses, murre, murrak, küla; • keelejuhi nimi, vanus, sünniaeg ja muud isikuandmed, mis on kättesaadavad (haridus, päritolu, vanemad jne); • lindistusaeg, lindistajate nimed ja lindi päritolu (lindi number EKI või TÜ fonoteegis); • litereeringu number EKIs või TÜs, litereerija, litereeringu kontrollija ja teksti sisestaja; • korpusesse võetud tekstiosa maht sõnades, märgendatud sõnade hulk.

  12. 5. Morfoloogiline märgendus • abiprogramm Mark • andmebaasi laetud hetkel ca 394000 sõna • morfoloogiliselt märgendatud materjali hulgas on ka vadja tekste (23416 sõna) • MySQL andmebaas, veebipõhine otsing: http://www.murre.ut.ee/otsing.html Näide: • imperfekti otsimine • prepositsioonid • märgendatud sõnade hulk murrakuti

  13. Korpuse probleemid Vaja oleks uuemaid ja paremaid tehnilisi lahendusi: • otsisüsteemide täiustamiseks; • märgendusvigade süstemaatiliseks otsimiseks ja parandamiseks.

  14. Mida korpusega teha saab? • Kasutada: • morfoloogiliselt analüüsitud korpus; • foneetilises transkriptsioonis tekstid; • lihtsustatud transkriptsioonis tekstid; • lindistused.

  15. Sobib • Uurida saab: • sagedasi nähtusi; • eri murdeid võrdlevalt; • nii mikro- kui makroanalüüs; • tekst kasutuskontekstis. • Arvestada: • suuline tekst; • institutsionaalne vestlus selgete rollidega. • Morfosüntaks, foneetika, fonoloogia

  16. Korpuse põhjal tehtud uurimusi • Keele muutumine ja varieerumine, murrete nivelleerumine (Mets 2005, Kalvik 2004) • ajaväljendite leksikaliseerumine (Velsker 2006) • Kirde- ja rannikumurde demonstratiiv- ja 3. isiku pronoomenite kasutus (Tirkkonen 2006, 2007) • pronoomeni väljajätt Muhu murrakus (Kalmus 2007) • sõna pool grammatiseerumisest eesti murretes (Läänemets 2007) • Häälikute sagedus (Lindström, Pajusalu 2003) • Sage sõnavara eri murretes (Lindström jt 2001)

  17. Lõpetuseks Murre on keel~keelevariant, milles leiduvaid nähtusi motiveerivad samasugused inimmõtlemisele ja –tunnetusele omased protsessid kui muudes keeltes.  murrete uurimine ei peaks piirduma vaid deskriptiivsete kirjeldustega. • murdekorpus võiks huvi pakkuda mitte ainult kitsalt murretega tegelevatele inimestele, vaid kõigile keeleuurijatele. • murrete uurimine ei peaks olema eesmärk omaette, vaid murded võiksid olla mitmekesiseks ja rikkalikuks materjaliks kõikvõimalikele keeleteaduslikele töödele. Näiteks: Murdekorpus võimaldab teha uurimusi, mis näitavad, kuidas erinevates keelevariantides on lahendatud mingi teatud nähtusega/muutusega kaasnev segadus.

More Related