130 likes | 446 Views
Korpusā balstītas vārdnīcas automatizēta izstrāde: latviešu valodas vēsturiskās vārdnīcas piemērs. Everita Andronova, Normunds Grūzītis Letonikas II kongress 29.10.2007. LZP projekts Nr. 04.1307 (2004–2007). Latviešu valodas vēsturiskā vārdnīca (16.–18. gs.) – vadītājs Pēteris Vanags (LU FF).
E N D
Korpusā balstītas vārdnīcas automatizēta izstrāde:latviešu valodas vēsturiskās vārdnīcas piemērs Everita Andronova, Normunds Grūzītis Letonikas II kongress 29.10.2007.
LZP projekts Nr. 04.1307(2004–2007) • Latviešu valodas vēsturiskā vārdnīca (16.–18. gs.) – vadītājs Pēteris Vanags (LU FF). • Iecere – interaktīva seno tekstu vārdnīca, kas balstās uz seno tekstu korpusa datiem. • Uzdevumi – metodoloģijas izstrāde, paraugšķirkļu izveide, vārdnīcas instrukcijas rakstīšana, šķirkļa mašīnlasāmās versijas izstrāde, leksikogrāfa darba vietas sagatavošana.
SENIE – vārdnīcas izejas dati Saturs – vairāk nekā 950 000 vārdlietojumu(dominē garīga satura teksti) – 16.gs. – 3 avoti un 52 642 vārdlietojumi – 17. gs. – 22 avoti un 829 876 vārdlietojumi – 18. gs. – 15 avoti un 75 559 vārdlietojumi Lietojumrīki: – meklēšanas iespējas, – konkordances programma, – vārdformu konteksta aplūkošanas iespējas, – vārdformu biežuma saraksti, – inversā vārdnīca, – navigācija korpusa saturā (pēc autora, avota un teksta kategorijas).
Vārdnīcas rakstīšana • Vārdnīcas tipa un šķirkļa uzbūves nostādnes izstrāde. • Leksikogrāfa darbs ar korpusu (meklēšana vārdformu indeksā, vārdformu atlase, biežuma un „adrešu” uzkrāšana). • Atlasīto piemēru analīze (izmantojot konkordances programmu un izvērstā konteksta iespējas). • Šķirkļu pirmās versijas izstrāde atbilstoši mūsu izvēlētai šķirkļa struktūrai. • Šķirkļu apspriešana seminārā, komentāru uzkrāšana elektroniskā un „papīra” veidā. • Struktūras precizēšana.
Šķirkļa uzbūve • Šķirkļa vārds (arī rekonstruēta forma, kļūdaina forma) plus lietojumu skaits • Gramatiskais raksturojums • Visas korpusā sastaptās vārdformas (plus lietojumu skaits) • Tā laika latviešu valodas vārdnīcās ietvertie nozīmju skaidrojumi • Nozīmes skaidrojums (viena vai vairākas nozīmes) • Katras nozīmes lietojuma piemēri (pirmais un pēdējais citējums rakstu avotos) • Brīvie un stabilie (skaitliski nozīmīgie) vārdu savienojumi • Frazeoloģismi • Plaša mijnorāžu sistēma (vārddarināšana u.c.) • Etimoloģija
Šķirkļa paraugs bite (31) s. f. bitte (2), bitteh (1), bittehm (2), bittes (22), bischu (2), biśchu (1), bischlu=strohps (1) Bitte. bittite, die biene. Fuer1650_70_1ms, 446. ‘bite’. Ai§to ta Bitteh gir maß Puttnis / vnd dohd tomehr tohs wi§śo=śalldakus Augļus. Manc1631_Syr, 53515, Kad Biśchu Lohdas Muhŗus gah§ch/ Kaugdamas brah§ch.. LGL1685_K1, 20124; – bišu krēsliņš (1) bischu krehsliņsch (1) Bischu Krehsliņsch. Reinfahren. Fuer1650_70_1ms, 448. ‘biškrēsliņš’. Bischu Krehsliņsch. Reinfahren. Fuer1650_70_1ms, 448. – bišu strops (2)bischlu=strohps (1), biśchu strohpeem (1) irdaiņśch, bischlu=strohps, Ein löchericht, molmicht bienen stok. Fuer1650_70_1ms, 859. ‘bišu strops’. Tur tee kekkojahs dahrśa^ pee biśchu strohpeem, tapehz tahs bittes nihkst.. Fuer1650_70_1ms, 93. lpp., 17. rindiņa – medīgas bites (1) meddigas bittes (1) Meddigas bittes. honig reiche bienen. Fuer1650_70_1ms, 1573. ‘bites, kas nes daudz medus’. Meddigas bittes. honig reiche bienen. Fuer1650_70_1ms, 1573. – sausas bites (1) śaussas bittes (1) Śaussas bittes. magere bienen. Fuer1650_70_1ms, 1574. ‘vājas, tievas bites’, sal. ME I 301: sausa bite ‘die Drohne (trans)’. Śaussas bittes. magere bienen. Fuer1650_70_1ms, 1574. Sal. liet. bitė. bitīte, bitenieks.
Vārdnīcas rakstīšana - turpinājums Leksikogrāfs un sistēmas analītiķis (2006) • Šķirkļa struktūras gramatikas formalizēšana. • XML (extensible mark-up language)shēma. • Precizēta šķirkļa uzbūve.
Rezultāti • Izstrādāti ~500 “papīra” šķirkļi • Izstrādāta XML shēma • 50 šķirkļi pierakstīti mašīnlasāmā formā atbilstoši XML shēmai
Turpmākie uzdevumi • Šķirkļa shēmas uzlabošana • Datu plūsmas organizēšana • Atgriezeniskās saites ar korpusu nodrošināšana • Vārdnīcas vizualizācija • Interaktīvas meklēšanas iespēju izstrāde
Saraksts + indekss Atlase + kārtošana Datu plūsmas automatizācija Šķirkļa izstrāde Šķirkļa sagatavošana (korpuss + .txt redaktors) Šķirkļa marķēšana (shēma + rīks) - “galva” - gram. inform. - vārdn. piem. - nozīmes - savienojumi - frazeoloģija - etimoloģija - mijnorādes I - Šķirkļa vārds - Vārdlietojumi + biežumi + adreses Piemēru izguve (3 rindu konteksts katrai adresei) II Vārdnīcas piemēru atzīmēšana un precizēšana Nozīmju izšķiršana Piemēru izvēle un precizēšana Savienojumi, frazeoloģija (n-grammas) Pārējais III IV V