240 likes | 491 Views
Verbide lemmatiseerimine ja märgendamine eesti vahekeele korpuses. Anni Muru anni.muru@tlu.ee IV sügisseminar, Tallinn 06.11.2009. T öö haakub riikliku programmi Eesti Keele Keeletehnoloogiline tugi (2006-2010) projektiga VAKO .
E N D
Verbide lemmatiseerimine ja märgendamine eesti vahekeelekorpuses Anni Muru anni.muru@tlu.ee IV sügisseminar, Tallinn 06.11.2009
Töö haakub riikliku programmi Eesti Keele Keeletehnoloogiline tugi (2006-2010) projektiga VAKO. Töö eesmärk on lemmatiseerida ja märgendada kõik EVKK-s sisalduvad verbivormid. EVKK normipäraste vormide lemmatiseerimisel ja märgendamisel saab toetuda eesti kirjakeele märgendamise kogemusele ja süntaksianalüsaatorile, kuid grammatikareeglitele mittevastavate vormidega tegeledes tuleb lähtuda ühelt poolt EVKK veaklassifikatsioonist ja teisalt mittegrammatiliste vormide sidumisest normipärastega, milleks saab kasutada selleks spetsiaalselt programmeeritud makrosid.
Mõisted Lemmatiseerimine (lemmatisation) - sõnavormid taandatakse lekseemi kujule. Verbivormid elas, elavad ja elatakse taandatakse lekseemi ELAMA kujule. Need vormid moodustavad lekseemi ELAMA lemma. Lemmatiseerimine võimaldab korpuses välja selekteerida kõikvõimalikud vormid, mis kuuluvad vastava lekseemi juurde, ilma et peaks kõiki vorme eraldi otsima. Tulemuseks on informatsioon lekseemi sageduse ja keeleüksuste jaotumuse kohta (McEnery & Wilson 2001: 53).
Usaldusväärne automaatne lemmatiseerimine sõltub usaldusväärsest grammatilisest märgendamisest (Kennedy 1998: 208). Morfoloogiline märgendamine (morphological tagging) –sõnavormidele lisatakse sõnaliigimärgendid (part-of-speech tagging) ja sõnavormi näitavad märgendid. Verbivormid(verb forms) – ühe ja samaverbi eri kujud, millel on ühine leksikaalne tähendus, kuid erinev grammatiline tähendus. Leksikaalne tähendus (lexical meaning) – sama sõna kõigile muutevormidele ühine tähendus, mida kannab sõna tüvi, nt verbivormide kõnelen, kõnelesid, kõneletakse tähendus ‘rääkima’.
Verbide märgendamine eesti kirjakeeles Eesti verbivormistik on keerukas. Pöördsõna vormid võivad olla finiitsed või infiniitsed, liht- või liitvormid. Finiitsetel sõnavormidel on viis morfoloogilist kategooriat: isik või pööre, tegumood, aeg, kõneliik ja kõneviis. Probleemidest sõnaliikide määramisel on kirjutanud Heiki-Jaan Kaalep, Kaili Müürisep, TiinaPuolakainen, Kadri Muischnek, Kadri Vider jt (Kaalep jt 2000; Müürisep jt 2001; Muischnek & Vider 2005). Põhijoones on välja toodud samad probleemid: partitsiibid paiknevad verbi ja adjektiivi piirimail ja mõnikord ei piisa ka lausekontekstist otsustamaks, millise sõnaliigi vormigaon tegu; verbivormidest on arenemas kaassõnu ja adverbe.
Verbide lemmatiseerimine ja märgendamine eesti vahekeeles Kõik EVKK-s sisalduvad verbivormid tuleb taandada ma-supiini kujule (nii morfosüntaktiliselt ja ortograafiliselt normipärased kui ka grammatikareeglitele mittevastavad verbivormid). EVKK-s on viga (error) määratud kui grammatikareeglile mittevastav keelekasutus ning vigade hulka ei kuulu väsimusest, hooletusest, kommunikatsioonikanali müradest jms tingitud eksimused (mistakes) ja keelevääratused (lapsus linguae). Grammatikareeglitele mittevastavaid verbivorme on põhijoones kahesuguseid: vale tüve-, tunnuse- ja/või lõpuvariandi kombinatsiooniga verbivormid vormid, mida on kasutatud vales funktsioonis (vormikasutus vastuolus kontekstiga).
Tuginedes Heiki-Jaan Kaalepi, Kaili Müürisepa, Kadri Muischneki jt artiklitele (Kaalep jt 2000; Müürisep jt 2001; Muischnek & Vider 2005), Müürisepa doktoritööle (Müürisep 2000), verbideks ei märgendata: oleviku partitsiipe osasid mineviku partitsiipe osasid mata-supiini vorme. ESTKG järgi: gerundiivi vorme märgendatakse kui verbe; kvotatiivi ja vat-infinitiivi vormid märgendatakse kvotatiiviks; imperatiivi ja jussiivi vormid märgendatakse imperatiiviks.
Sõnavormidele antakse kõikvõimalikud märgendused, et tuleksid välja sagedasemad mitmesusklassid, seda on vaja reeglite väljatöötamiseks (vt kuidas eesti kirjakeeles alustati morfoloogilist ühestamist (Müürisep jt 2001)). Vaja on leida kõige: sagedasemad mitmesed sõnavormid ja grammatiliste kategooriate mitmesused. Sagedustabel peaks andma vajaliku informatsiooni olulisimate reeglite koostamiseks.
Vaja on vaadata kuidas vormid lemma paradigmas ilmnevad (sagedus, reeglipärasus); millised vormid on erinevate verbide ja erinevate sõnaliikide piirimail; missuguseid sõnu missugustes vormides eelistatakse kasutada. Selle informatsiooni põhjal tuleb välja mõelda reeglid, millisel juhul morfoloogilisest märgendusest valitakse üks märgendus ja millisel juhul teine. Samal ajal tuleb vaadata, kuidas kitsenduste grammatika märgendus ristub EVKK veamärgendusega. Kui verbivorm on korpuses märgitud veana, siis peaks see vorm taanduma selle lemma kujule, kus see on vigase verbivormi variandina märgitud. Nt verbivorm hoolisid lemmades HOOLITSEMA ja HOOLIMA. Kui vormi on kasutatud korrektselt, kuulub see HOOLIMA lemmasse. Kui aga paronüümia tõttu on seda kasutatud sobimatus kontekstis ja see on veamärgenduses vastavalt märgendatud, kuulub vorm HOOLITSEMA lemmasse.
Näide EVKK-st: “Inimesed hoolisid surnu keha eest.” Inimesed inimene+d //_S_ com pl nom #cap // **CLB @SUBJ hoolisid hooli+sid //_V_ main indic impf ps3 pl ps af #FinV #InfP #el // @+FMV surnu surnud+0 //_A_ pos sg gen #nud // @VN> keha keha+0 //_S_ com sg gen // @P> eest eest+0 //_K_ post #gen // @ADVL Selle lause peaks kirjutama järgnevalt: “Inimesed hoolitsesid surnukeha eest.” Inimesed inimene+d //_S_ com pl nom #cap // **CLB @SUBJ hoolitsesid hoolitse+sid //_V_ main indic impf ps3 pl ps af #FinV #Intr // @+FMV surnukeha surnu_keha+0 //_S_ com sg gen // @P> eest eest+0 //_K_ post #gen // @ADVL
Praeguse seisuga on EVKK sagedussõnastikust kõik finiitsed ja infiniitsed verbivormid välja otsitud. Nende vormide arvandmeid töödeldakse tabelarvutusprogrammis Excel. Normipärased verbivormid on paigutatud vastavalt ma-tegevusnime alla, aga seda on tehtud ilma, et oleks vaadatud, kuidas need vormid lauses on esinenud.
Praegu tegeletakse sellega, et vaadataksekõik normipärased ja grammatikareeglitele mittevastavad verbivormid uuesti üle ning selgitatakse välja nende vormide leksikaalsed tähendused ja esinemissagedus. Algvormi alla paigutatakse vormid, mis leksikaalsest tähendusest lähtudes peaks sinna kuuluma. Vormi leksikaalse tähenduse määramiseks kasutatakse vormi lähikonteksti, s.t vaadatakse konkordantse, vajadusel vaadatakse ka kogu teksti, kus vastavat verbivormi on kasutatud.
Näiteid selle kohta, kuidas grammatikareeglitele mittevastavaid verbivorme lemmadele taandatakse: Kui inimine ise hoolitseb oma terviga, tegeleb spordiga, palju jalutab, õhkub värske õhkuga, siis ta parem töötada ja elada. Vorm *õhkub taandatakse HINGAMA kujule. Siis jõi ta kohvi, sõi võileiba ja lõi e-kirju. Lisaks sellele, et verbivorm lõi taandatakse lemmade LÖÖMA ja LOOMA kujule, lemmatiseeritakse see ka LUGEMA kujule.
PIDAMA pidama : pean : pidi (modaalverb (_V_mod)) tähenduses ‘kohustatud, sunnitud olema’ pidama : pean : pidas (põhiverb (_V_main)) tähenduses ‘hoidma, pikemat aega püsima, korraldama, hoolima, (midagi millekski) arvama’. Eesti kirjakeeles on võimalik neilvahet teha näiteks selle põhjal, et modaalverb pidama : pidi esineb lauses koos põhiverbiga, mis on ma-supiinis. Vahekeeles aga ei pruugi põhiverb olla ma-supiinis, vaid hoopis da-infinitiivisvõi mõnes muus vormis või puudub teine tegusõna üldse. Kui inimene ei taha, et toit rikkub varem kehtivuse aega, peab ta hoolikalt säilitada oma toitu.
Mida teha vigaste verbivormidega, mille tähendus ei ole konteksti põhjal üheselt mõistetav? Pärast seda oodake kuni kohv kevitaskokku ja pärast tõmmake pistik seinakontakti välja. Ta ei müüa enda raha eest, ta hihhab ennast, kui inimesest.
EVKK poolautomaatne lemmatiseerija EVKK-s on katsetamisjärgus poolautomaatne lemmatiseerija. Võimalik on valida erinevate märgenduste vahel. Kui sobiv märgendus puudub, saab märgenduse sisestada käsitsi. Sõnavormile saab lisada nii palju märgendusi, kui vaja on. Sõnavormile vajutades saab minna tekstide juurde, kus seda vormi on kasutatud.
Kasutatud kirjandus EKG I = Eesti keele grammatika I. 1995. Morfoloogia sõnamoodustus. Erelt, Mati, Kasik, Reet, Metslang, Helle, Rajandi, Henno, Ross, Kristiina, Saari, Henn, Tael, Kaja, Vare, Silvi. Tallinn: Eesti Teaduste Akadeemia Eesti Keele Instituut. Eslon, Pille. 2006. Eesti vahekeele korpusest korrelatsioonigrammatikani. – Eesti Rakenduslingvistika Ühingu aastaraamat 2 / Toim. H.Metslang, M.Langemets. Tallinn: EKS, lk 11-24. http://digar.nlib.ee/otsing/Data3?objekt=nlib-digar:778&dstream=VAATAMINE_3_1&asof=2006-05-05T06:53:41.939Z&filename=nlib-digar_778_1.pdf&qtime=1196374219766 (28.09.2007). Kaalep jt 2000 = Heiki-Jaan Kaalep, Kadri Muischnek, Kaili Müürisep, Andriela Rääbis, Külli Habicht. 2000. Kas tegelik tekst allub eesti keele morfoloogilistele kirjeldustele? Eesti kirjakeele testkorpuse morfosüntaktilise märgendamise kogemusest. – Keel ja Kirjandus 9, lk 623-633. Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London and New York: Longman. McEnery, Tony, Wilson, Andrew. 2001. Corpus linguistics. Second Edition. Edinburgh: Edinburgh University Press. Muischnek, Kadri, Vider, Kadri. 2005. Sõnaliigituse kitsaskohad eesti keele arvutianalüüsis. Eesti Rakenduslingvistika ühingu aastaraamat 1(2004). Eesti Keele Sihtasutus, Tallinn, lk 99-114. Müürisep jt 2001 = Kaili Müürisep, Tiina Puolakainen, Heli Uibo, Mare Koit, Tiit Roosmaa, Kadri Muischnek. 2001. Eesti keele formaalne grammatika. Tartu: Tartu Ülikooli Kirjastus http://math.ut.ee/~kaili/Loengud/Mudelid08/ems02.pdf (14.09.2009). Müürisep, Kaili. 2000. Eesti keele arvutigrammatika: süntaks. Dissertationes Mathematicae Universitatis Tartuensis 22. Tartu http://math.ut.ee/~kaili/thesis/pt3_2.html (06.09.2009).