210 likes | 439 Views
Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES. Juhendajad PhD Liina Lindström ja PhD Kadri Muischnek. EESTI MURRETE KORPUS. Elektrooniline leksikaalne andmebaas Murdekorpuse koostamise eesmärgid: murdetekstid elekrooniliselt kättesaadavaks teha,
E N D
Kristel UiboaedÜHENDVERBID EESTI MURRETE KORPUSES Juhendajad PhD Liina Lindström ja PhD Kadri Muischnek
EESTI MURRETE KORPUS • Elektrooniline leksikaalne andmebaas • Murdekorpuse koostamise eesmärgid: • murdetekstid elekrooniliselt kättesaadavaks teha, • võimaldada murrete kontrastiivset uurimist • Murdekorpus sisaldab: murdelindistusi, foneetilises ja lihtsustatud transkriptsioonis murdetekste, morfoloogiliselt märgendatud tekste, andmeid keelejuhtide ning lindistuste kohta
MURDEKORPUSE XML-s FAIL <u who="KJ1"> <mark><sne>rehe+tuas</sne><msn>rehe+tuba</msn><mrf slk=“S">sg in</mrf></mark> <mark><sne>oli</sne><msn>olema</msn><mrf slk="V">ps ind ipf sg 3</mrf></mark> <mark><sne>ahi</sne><msn>ahi</msn><mrf slk=“S">sg n</mrf></mark></u>
MILLEKS ON LAUSESTAMIST VAJA? (1) <u who=KJ> noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole pääva läks ära(...) vaest ol'i (.) viel kalevi ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.) tema `akkas neid `kiar+buid `kiskuma nagu (...) villane `ikke (.) kisub `kokku(...) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja labast ja kõikke olen (.) paelu teind (...) neid `kangaid (...) </u>
MILLEKS ON LAUSESTAMIST VAJA? (2) 1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.) 2) kui ol'i pikk ka~ngas 3) `ikke puole pääva läks ära (...) 4) vaest ol'i (.) viel kalevi ka~ngas 5) sie `kangeste (.) ol'i paha (...) `kiarida (.) 6) tema `akkas neid `kiar+buid `kiskuma 7) nagu (...) villane `ikke (.) kisub `kokku (...) 8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja labast 9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)
LAUSESTAMINE (1) • Materjaliks murdekorpuse morfoloogiliselt märgendatud XML-failid • Vahend: UNIX-i shelli skript
LAUSESTAMINE (2) • Lausestamise reeglid • Lausepiirid seati • erinevate kõnevoorude, • pikkade pauside, • küsi- ja sidesõnade ning • finiitverbide järgi.
NÄIDE (1) • ta Palalt ärä läks läks As'sikvere `küllä `Puuspa `Jakpille sii • ta Palalt ärä läks • läks As'sikvere `küllä `Puuspa `Jakpille sii
NÄIDE (2) <mark><sne>mull</sne><msn>mina</msn><mrf slk="ProS">sg ad</mrf></mark> <mark><sne>ol'i</sne><msn>olema</msn><mrf slk="V">ps ind ipf sg 3</mrf></mark> <mark><sne>naene</sne><msn>naine</msn><mrf slk="S">sg n</mrf></mark> <mark><sne>`võt'sin</sne><msn>võtma</msn><mrf slk="V">ps ind ipf sg 1</mrf></mark> <mark><sne>naene</sne><msn>naine</msn><mrf slk="S">sg n</mrf></mark> <mark><sne>ja</sne><msn>ja</msn><mrf slk="Konj"/></mark> <mark><sne>`ol'lin</sne><msn>olema</msn><mrf slk="V">ps ind ipf sg 1</mrf></mark> <mark><sne>kolm+gümmend+seitse</sne><msn>kolm+kümmend+seitse</msn><mrf slk="Nump">sg n</mrf></mark> <mark><sne>`aastad</sne><msn>aasta</msn><mrf slk="S">sg p</mrf></mark> <mark><sne>vana</sne><msn>vana</msn><mrf slk="A">sg n</mrf></mark> <mark><sne>kui</sne><msn>kui</msn><mrf slk="Konj"/></mark> <mark><sne>naene</sne><msn>naine</msn><mrf slk="S">sg n</mrf></mark> <mark><sne>`võt'sin</sne><msn>võtma</msn><mrf slk="V">ps ind ipf sg 1</mrf></mark>
LAUSESTAMISMEETODI TULEMUSLIKKUS • Ühendverbide leidmiseks sobib hästi • Saagis (õigesti moodustatud ja tegelikult olemasolnud osalausete suhe) 87,7% ja täpsus (õigete osalausete ning programmi poolt tekitatud osalausete suhte) 88,2%
LAUSESTAMISMEETODI PUUDUSED (1) • poes'id läksid `alla `jõele `suplema ja kalale • poes'id läksid `alla `jõele `suplema ja • kalale.
LAUSESTAMISMEETODI PUUDUSED (2) • nüd üks rän- *rändav *tiislar ol- oli se • *üöldi viel *ilma *tiislarist see • ehittas *selle *värgi nii *muidugi puust • sa esi teit tõise üttelnu sõss • kannatta esi kahh
ÜHENDVERBIDE LEIDMINE MURDEKORPUSEST • Aluseks eelnevalt osalausestatud tekst • Kaheliikmelised kombinatsioonid kõigi sõnadega osalause sees • Eraldatakse adverbi ja verbi ning afiksaaladverbi ja verbi ühendid • Stopp-sõnade loend • Saagis (kui suur osa olemasolevatest ühendverbidest õnnestus leida) 98% ja täpsus (kui suur osa leitud ühendverbidest on korrektsed) 78%
VÕRDLUSMATERJAL • Ühendverbid kirjakeele 300 000sõnalisest korpusest • Kirjakeele püsiühendite andmebaas
SAGEDASEMAD ÜHENDVERBID MURRETES JA KIRJAKEELES • 2876 erinevat ühendverbi • 1065 murrete ühendverbi puudusid kirjakeele püsiühendite andmebaasis (690 esines murdematerjalis üks kord) • 15 sagedasemat ühendverbi murretes ja kirjakeeles
ÜHENDVERBID MURRETES (1) • Ettearvatavad sarnasused (Tartu, Setu, Võru murre) • Sagedasim ühine Setu ja Võru murdes (ära minema) • Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja Võru murre • Osa murdeid analüütilisemad kui teised
ÜHENDVERBID MURRETES (2) • Kõige erinevam Alutaguse murre (peale hakkama, ette panema, kokku saama, vastu võtma, üles saama) • Kuidas murde esindatus korpuses mõjutab tulemust?
TÄHENDUSERINEVUSED • Murrete ühendverbidel vähem abstraktsemaid tähendusi • Samal ühendverbil eri murretes erinev tähendus (vastu võtma)
ÜHENDVERBE MOODUSTAVAD AFIKSAALADVERBID • 15 sagedasemat ühendverbi moodustavat afiksaaladverbi murretes ja kirjakeels
KOKKUVÕTE (1) • Materjal on piisav ühendverbide leidmiseks • Põhjalikumate järelduste tegemiseks oleks siiski vaja korpuse mahtu suurendada • Murde esindatus korpuses ei ole alati üks-üheses vastavuses leitud ühendverbide hulga ja tulemuse mitmekülgsusega
KOKKUVÕTE (2) • Murretest leitud ühendverbide koosseisu mõjutab murdetekstide temaatika • Osa murdeid ühendverbide sageduste põhjal analüütilisemad kui teised