1 / 21

Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES. Juhendajad PhD Liina Lindström ja PhD Kadri Muischnek. EESTI MURRETE KORPUS. Elektrooniline leksikaalne andmebaas Murdekorpuse koostamise eesmärgid: murdetekstid elekrooniliselt kättesaadavaks teha,

mingan
Download Presentation

Kristel Uiboaed ÜHENDVERBID EESTI MURRETE KORPUSES

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kristel UiboaedÜHENDVERBID EESTI MURRETE KORPUSES Juhendajad PhD Liina Lindström ja PhD Kadri Muischnek

  2. EESTI MURRETE KORPUS • Elektrooniline leksikaalne andmebaas • Murdekorpuse koostamise eesmärgid: • murdetekstid elekrooniliselt kättesaadavaks teha, • võimaldada murrete kontrastiivset uurimist • Murdekorpus sisaldab: murdelindistusi, foneetilises ja lihtsustatud transkriptsioonis murdetekste, morfoloogiliselt märgendatud tekste, andmeid keelejuhtide ning lindistuste kohta

  3. MURDEKORPUSE XML-s FAIL <u who="KJ1"> <mark><sne>rehe+tuas</sne><msn>rehe+tuba</msn><mrf slk=“S">sg in</mrf></mark> <mark><sne>oli</sne><msn>olema</msn><mrf slk="V">ps ind ipf sg 3</mrf></mark> <mark><sne>ahi</sne><msn>ahi</msn><mrf slk=“S">sg n</mrf></mark></u>

  4. MILLEKS ON LAUSESTAMIST VAJA? (1) <u who=KJ> noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.) kui ol'i pikk ka~ngas `ikke puole pääva läks ära(...) vaest ol'i (.) viel kalevi ka~ngas sie `kangeste (.) ol'i paha (...) `kiarida (.) tema `akkas neid `kiar+buid `kiskuma nagu (...) villane `ikke (.) kisub `kokku(...) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja labast ja kõikke olen (.) paelu teind (...) neid `kangaid (...) </u>

  5. MILLEKS ON LAUSESTAMIST VAJA? (2) 1) noohh (.) ega (.) eks ta ikke võtt kua puol `pääva (.) 2) kui ol'i pikk ka~ngas 3) `ikke puole pääva läks ära (...) 4) vaest ol'i (.) viel kalevi ka~ngas 5) sie `kangeste (.) ol'i paha (...) `kiarida (.) 6) tema `akkas neid `kiar+buid `kiskuma 7) nagu (...) villane `ikke (.) kisub `kokku (...) 8) jahh (.) aga siss (...) jahh (...) mina olen ikke kot'ti=ka~ngast ja=ja labast 9) ja kõikke olen (.) paelu teind (...) neid `kangaid (...)

  6. LAUSESTAMINE (1) • Materjaliks murdekorpuse morfoloogiliselt märgendatud XML-failid • Vahend: UNIX-i shelli skript

  7. LAUSESTAMINE (2) • Lausestamise reeglid • Lausepiirid seati • erinevate kõnevoorude, • pikkade pauside, • küsi- ja sidesõnade ning • finiitverbide järgi.

  8. NÄIDE (1) • ta Palalt ärä läks läks As'sikvere `küllä `Puuspa `Jakpille sii • ta Palalt ärä läks • läks As'sikvere `küllä `Puuspa `Jakpille sii

  9. NÄIDE (2) <mark><sne>mull</sne><msn>mina</msn><mrf slk="ProS">sg ad</mrf></mark> <mark><sne>ol'i</sne><msn>olema</msn><mrf slk="V">ps ind ipf sg 3</mrf></mark> <mark><sne>naene</sne><msn>naine</msn><mrf slk="S">sg n</mrf></mark> <mark><sne>`võt'sin</sne><msn>võtma</msn><mrf slk="V">ps ind ipf sg 1</mrf></mark> <mark><sne>naene</sne><msn>naine</msn><mrf slk="S">sg n</mrf></mark> <mark><sne>ja</sne><msn>ja</msn><mrf slk="Konj"/></mark> <mark><sne>`ol'lin</sne><msn>olema</msn><mrf slk="V">ps ind ipf sg 1</mrf></mark> <mark><sne>kolm+gümmend+seitse</sne><msn>kolm+kümmend+seitse</msn><mrf slk="Nump">sg n</mrf></mark> <mark><sne>`aastad</sne><msn>aasta</msn><mrf slk="S">sg p</mrf></mark> <mark><sne>vana</sne><msn>vana</msn><mrf slk="A">sg n</mrf></mark> <mark><sne>kui</sne><msn>kui</msn><mrf slk="Konj"/></mark> <mark><sne>naene</sne><msn>naine</msn><mrf slk="S">sg n</mrf></mark> <mark><sne>`võt'sin</sne><msn>võtma</msn><mrf slk="V">ps ind ipf sg 1</mrf></mark>

  10. LAUSESTAMISMEETODI TULEMUSLIKKUS • Ühendverbide leidmiseks sobib hästi • Saagis (õigesti moodustatud ja tegelikult olemasolnud osalausete suhe) 87,7% ja täpsus (õigete osalausete ning programmi poolt tekitatud osalausete suhte) 88,2%

  11. LAUSESTAMISMEETODI PUUDUSED (1) • poes'id läksid `alla `jõele `suplema ja kalale • poes'id läksid `alla `jõele `suplema ja • kalale.

  12. LAUSESTAMISMEETODI PUUDUSED (2) • nüd üks rän- *rändav *tiislar ol- oli se • *üöldi viel *ilma *tiislarist see • ehittas *selle *värgi nii *muidugi puust • sa esi teit tõise üttelnu sõss • kannatta esi kahh

  13. ÜHENDVERBIDE LEIDMINE MURDEKORPUSEST • Aluseks eelnevalt osalausestatud tekst • Kaheliikmelised kombinatsioonid kõigi sõnadega osalause sees • Eraldatakse adverbi ja verbi ning afiksaaladverbi ja verbi ühendid • Stopp-sõnade loend • Saagis (kui suur osa olemasolevatest ühendverbidest õnnestus leida) 98% ja täpsus (kui suur osa leitud ühendverbidest on korrektsed) 78%

  14. VÕRDLUSMATERJAL • Ühendverbid kirjakeele 300 000sõnalisest korpusest • Kirjakeele püsiühendite andmebaas

  15. SAGEDASEMAD ÜHENDVERBID MURRETES JA KIRJAKEELES • 2876 erinevat ühendverbi • 1065 murrete ühendverbi puudusid kirjakeele püsiühendite andmebaasis (690 esines murdematerjalis üks kord) • 15 sagedasemat ühendverbi murretes ja kirjakeeles

  16. ÜHENDVERBID MURRETES (1) • Ettearvatavad sarnasused (Tartu, Setu, Võru murre) • Sagedasim ühine Setu ja Võru murdes (ära minema) • Mulgi ja keskmurre sarnasemad kui Mulgi, Tartu ja Võru murre • Osa murdeid analüütilisemad kui teised

  17. ÜHENDVERBID MURRETES (2) • Kõige erinevam Alutaguse murre (peale hakkama, ette panema, kokku saama, vastu võtma, üles saama) • Kuidas murde esindatus korpuses mõjutab tulemust?

  18. TÄHENDUSERINEVUSED • Murrete ühendverbidel vähem abstraktsemaid tähendusi • Samal ühendverbil eri murretes erinev tähendus (vastu võtma)

  19. ÜHENDVERBE MOODUSTAVAD AFIKSAALADVERBID • 15 sagedasemat ühendverbi moodustavat afiksaaladverbi murretes ja kirjakeels

  20. KOKKUVÕTE (1) • Materjal on piisav ühendverbide leidmiseks • Põhjalikumate järelduste tegemiseks oleks siiski vaja korpuse mahtu suurendada • Murde esindatus korpuses ei ole alati üks-üheses vastavuses leitud ühendverbide hulga ja tulemuse mitmekülgsusega

  21. KOKKUVÕTE (2) • Murretest leitud ühendverbide koosseisu mõjutab murdetekstide temaatika • Osa murdeid ühendverbide sageduste põhjal analüütilisemad kui teised

More Related