210 likes | 560 Views
Eesti vana kirjakeele elektroonilised kogud. Külli Habicht, Külli Prillop Tartu Ülikool. Vana kirjakeel elektroonilistes kogudes (1). Elektroonilised kogud nii Tallinnas Eesti Keele Instituudis ( http://www.eki.ee/piibel ) kui ka Tartu Ülikoolis ( http://www.murre.ut.ee/vakkur ).
E N D
Eesti vana kirjakeele elektroonilised kogud Külli Habicht, Külli Prillop Tartu Ülikool
Vana kirjakeel elektroonilistes kogudes (1) • Elektroonilised kogud nii Tallinnas Eesti Keele Instituudis (http://www.eki.ee/piibel) kui ka Tartu Ülikoolis (http://www.murre.ut.ee/vakkur). • “Nišitoode” – uurimisobjekti ja materjali kasutamise eripärad (raskesti kättesaadavus, tõlgendamise keerukus). • Huvi minevikusuunaline – peaaegu 400 aastat keele- ja kultuurilugu (16. sajandist kuni 19. sajandi keskpaigani).
Vana kirjakeel elektroonilistes kogudes (2) • Andmekogud, mis aitavad säilitada ja mõtestada eestlaste keelelist ja kultuurilist identiteeti infoühiskonnas. • Olulisus: ilma keele ajalugu tundmata ei saa tulemuslikult mõtestada tänapäeva keeles toimuvaid protsesse.
Kellele vana kirjakeele korpus? • Kirjakeele ajaloo uurijad Etümoloogid Piiblitõlke ajaloo uurijad Grammatika- ja leksikauurijad (diakroonilise uurimise võimalus) • Keeleteadlaste laiem ring, kes on huvitatud (kirja)keele arengu dünaamika iseloomustamisest • Huvilised, k. a õpilased ja üliõpilased
Näiteid vanast kirjakeelest • 1606-Myller31_7.60 Nedt+ +samat keick omatse Külma Talwe Aÿall surnuth , Waidt Kewwade pohle , kuÿ se Måå hend v¨lles+ +awab , sÿßpugkewatnæmat v¨xigka Loÿus oma Pæssast ette , ninck omat ellawat . • 1766-Hupel_b_44.79Se essimenne mis sa kewwade otsid on need jöhwikad ehk kurre+ +marjad , need on jo lumme al walmis ; pikista sedda wet marjade seest wälja puhta linnase rie läbbi ; ning et se wessi ei lähhä hukka , siis keeta sedda senni kui ta pissut paksuks jääb , siis panne puddeli sisse , peält panne hästi kinni , ning lasse temma siis külmas paikas seista , sest sojas paikas lähhäb ta pea hukka .
Korpuse koosseis • 1995. a alustatud vanimate eestikeelsete tekstide lauskorpus (16. sajandist ja 17. sajandi esimesest kümnendist ka käsikirjad) kuni 1660. aastateni. Umbes 900 000 tekstisõna. • 2002. aastast 18. sajandi tekstide valikkorpus. Umbes 600 000 tekstisõna, vt http://www.murre.ut.ee/vakkur/Korpused/korpused.htm • 2005. aastast 19. sajandi esimese poole tekstide valikkorpus. Umbes 200 000 tekstisõna, vt http://www.murre.ut.ee/vakkur/Korpused/Kwic2/paring19.htm
Üldised probleemid • Vanade tekstide kvaliteet ja kättesaadavus • Kirjaviisi ja vormistiku ebaühtlus • Märgendajate väljaõpe ja kogemused ► palju mahukat käsitsitööd ► oskustega tööjõu nappus
Programmi täitjad • MA Pille Penjam • MA Külli Prillop • MA Kristel Ress • Fil. kand. Valve-Liivi Kingisepp • PhD Külli Habicht + üliõpilased kui tekstide sisestajad; märgendaja BA Piia Taremaa.
Vana kirjakeele korpus (1) • Mida korpusest otsida saab? Esialgu päringud vaid märgendamata tekstist. Päringusüsteem märgendatud tekstist loomisel (Külli Prillop). 1. probleem: kasutaja peab arvestama vanimate tekstide puhul ebakorrapärase kirjaviisi eripärade (võõrtähed, tilde (~) nasaalide asemel jm) ning alates 17. sajandi lõpust vana kirjaviisi eripäradega (nt pikkade ja lühikeste häälikute märkimine tänapäevasest erinev). Kõiki variante pole võimalik ennustada, nt poohomene ‘poomine’.
Vana kirjakeele korpus (2) Nt sõna pool variandid G. Mülleri jutlustes (1600—1606): pohl, poel – päring po[he]l, entvrd tuul – päring tu[he]l ei anna variante twl, thul, tul, st enamik variante jääb leidmata. Alles päring th*[uw]h*l annaks ammendava vastuse.
Vana kirjakeele korpus (3) • 2. probleem: kasutaja peab orienteeruma vana kirjakeele vormimoodustustavades. Nt G. Mülleril varieeruvad vormid anda, andada; istwat, istuwat; hüppas, hüppis. J. Rossihniusel (1632) varieeruvad vormid minnenut, minnut, lahenut, lennut ‘läinud’. Varieerumine pigem reegel kui erand. • Täpselt otsida saab vaid seda infot, mida teatakse või osatakse ette näha. Võimalik konteksti ja lisanäidete otsimine – abivahendiks trükitud sõnastikud.
Vana kirjakeele korpus (4) • Märgendatud korpus on vältimatult vajalik, vähemalt ebakorrapärases kirjaviisis tekstide puhul. Vanas kirjaviisis tekstide puhul sõnede kirjapilt äraarvatav. Vormimoodustus siiski varieeruv. • Otsimist lihtsustaks päringu võimalus • tänapäevase lemma, • tänapäevase morfoloogilise vormi, • tänapäevase sõnaliigi, • tänapäevase tähenduse järgi – niisiis päring märgendatud tekstist.
Vana kirjakeele korpus (5) Pärast märgendatud korpusest päringu kasutusele võtmist säiliks praegusel kujul • võimalus valida tekste, kust materjali otsitakse, vt http://www.murre.ut.ee/vakkur/Korpused/Kwic2/paring.htm • väljundis saadakse laused, otsitav sõna värviliselt markeeritud; • lisandub võimalus vaadata väljundis märgendust (klõpsates soovitud sõnal), vt http://www.murre.ut.ee/vakkur/Korpused/Tekstid/1524-Kullamaa.htm
Materjali rakendamise võimalusi • Elektroonilised sõnastikud, nt esmaesinemuste sõnastik, autori- ja tekstisõnastikud. • Elektroonilised tekstikogud. • Vanade tekstide põhjal koostatud raamatud, nt Georg Mülleri jutluste uusväljaanne 2008. a alguses. • Teaduslikud uurimused.
Riikliku programmi EKKTT raames tehtud tööd (1) • 18. sajandi tekstide valikkorpuse ja 19. sajandi esimese poole tekstide korpuse täiendamine ca 500 000 tekstisõna mahus. • Heinrich Stahli tekstide lemmatiseerimine ja morfoloogiline märgendamine 90 000 tekstisõna mahus. • Töö jätkamine vanimate sõnastike koondandmebaasi loomisel.
Riikliku programmi EKKTT raames tehtud tööd (2) • Eesti kirjakeele esmaesinemussõnastiku elektroonilise andmebaasi täiendamine. • Korpuse kasutajaliidese pidev arendamine ja kasutajasõbralikumaks muutmine; märgendamisprogrammi täiustamine.
Märgendamisprogramm Vakker (1) Märgendatakse jooksvat teksti. Tekstid XML-formaadis. Loendi märgendamisel võib tekkida vigu vormihomonüümia tõttu: kena – kena, kääna olema – olema (v), olemine (s) liiwa – liiva, leiva Mida sagedam sõne, seda suurem veaoht. Nt Mülleril ollema 171 korda, neist ühel korral substantiivsena tähenduses ‘olemine’.
Märgendamisprogramm Vakker (2) • Programm soovitab ise märksõna, sõnaliiki ja grammatilist infot. Selleks on kasutusel: • ESTMORF (suur tänu Filosoftile!) + teisendusreeglid vana sõna umbkaudseks tänapäevastamiseks, nt e > ee, e > ä. • Juba lisatud info talletatakse abisõnastikku (kui sõna tuleb tekstis ette mitmendat korda, saab vajaliku info abisõnastikust). • Umbkaudne otsing sõnastikust (ei arvesta sõnalõppe), nt kui on olnud sõna oppema, siis pakub õige lemma ka vormile oppenut. • Grammatilised “lisateadmised”, nt kui tegemist vokaallõpulise nimisõnaga (tänapäeval aga lõpus konsonant) ja selget käändetunnust pole, siis pakub genitiivi vormi.
Tulevikuplaanid (1) • Märgendada aastas 100 000 tekstisõna mahus vanu tekste – eesmärgiks märgendatud korpus. • Laiendada vana kirjakeele tekstikorpust 19. sajandi oluliste tekstidega. • Teha Internetis kasutatavaks eesti kirjakeele esmaesinemussõnastiku I etapi tulemused (kuni 1660. aastateni).
Tulevikuplaanid (2) • Koostada Heinrich Stahli tekstide sõnastik. • Teha kättesaadavaks 17. sajandi sõnastike andmebaas.