1 / 13

Korpusā balstītas vārdnīcas automatizēta izstrāde: latviešu valodas vēsturiskās vārdnīcas piemērs

Korpusā balstītas vārdnīcas automatizēta izstrāde: latviešu valodas vēsturiskās vārdnīcas piemērs. Everita Andronova, Normunds Grūzītis Letonikas II kongress 29.10.2007. LZP projekts Nr. 04.1307 (2004–2007). Latviešu valodas vēsturiskā vārdnīca (16.–18. gs.) – vadītājs Pēteris Vanags (LU FF).

carsten
Download Presentation

Korpusā balstītas vārdnīcas automatizēta izstrāde: latviešu valodas vēsturiskās vārdnīcas piemērs

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Korpusā balstītas vārdnīcas automatizēta izstrāde:latviešu valodas vēsturiskās vārdnīcas piemērs Everita Andronova, Normunds Grūzītis Letonikas II kongress 29.10.2007.

  2. LZP projekts Nr. 04.1307(2004–2007) • Latviešu valodas vēsturiskā vārdnīca (16.–18. gs.) – vadītājs Pēteris Vanags (LU FF). • Iecere – interaktīva seno tekstu vārdnīca, kas balstās uz seno tekstu korpusa datiem. • Uzdevumi – metodoloģijas izstrāde, paraugšķirkļu izveide, vārdnīcas instrukcijas rakstīšana, šķirkļa mašīnlasāmās versijas izstrāde, leksikogrāfa darba vietas sagatavošana.

  3. SENIE – vārdnīcas izejas dati Saturs – vairāk nekā 950 000 vārdlietojumu(dominē garīga satura teksti) – 16.gs. – 3 avoti un 52 642 vārdlietojumi – 17. gs. – 22 avoti un 829 876 vārdlietojumi – 18. gs. – 15 avoti un 75 559 vārdlietojumi Lietojumrīki: – meklēšanas iespējas, – konkordances programma, – vārdformu konteksta aplūkošanas iespējas, – vārdformu biežuma saraksti, – inversā vārdnīca, – navigācija korpusa saturā (pēc autora, avota un teksta kategorijas).

  4. Vārdnīcas rakstīšana • Vārdnīcas tipa un šķirkļa uzbūves nostādnes izstrāde. • Leksikogrāfa darbs ar korpusu (meklēšana vārdformu indeksā, vārdformu atlase, biežuma un „adrešu” uzkrāšana). • Atlasīto piemēru analīze (izmantojot konkordances programmu un izvērstā konteksta iespējas). • Šķirkļu pirmās versijas izstrāde atbilstoši mūsu izvēlētai šķirkļa struktūrai. • Šķirkļu apspriešana seminārā, komentāru uzkrāšana elektroniskā un „papīra” veidā. • Struktūras precizēšana.

  5. Šķirkļa uzbūve • Šķirkļa vārds (arī rekonstruēta forma, kļūdaina forma) plus lietojumu skaits • Gramatiskais raksturojums • Visas korpusā sastaptās vārdformas (plus lietojumu skaits) • Tā laika latviešu valodas vārdnīcās ietvertie nozīmju skaidrojumi • Nozīmes skaidrojums (viena vai vairākas nozīmes) • Katras nozīmes lietojuma piemēri (pirmais un pēdējais citējums rakstu avotos) • Brīvie un stabilie (skaitliski nozīmīgie) vārdu savienojumi • Frazeoloģismi • Plaša mijnorāžu sistēma (vārddarināšana u.c.) • Etimoloģija

  6. Šķirkļa paraugs bite (31) s. f. bitte (2), bitteh (1), bittehm (2), bittes (22), bischu (2), biśchu (1), bischlu=strohps (1) Bitte. bittite, die biene. Fuer1650_70_1ms, 446. ‘bite’. Ai§to ta Bitteh gir maß Puttnis / vnd dohd tomehr tohs wi§śo=śalldakus Augļus. Manc1631_Syr, 53515, Kad Biśchu Lohdas Muhŗus gah§ch/ Kaugdamas brah§ch.. LGL1685_K1, 20124; – bišu krēsliņš (1) bischu krehsliņsch (1) Bischu Krehsliņsch. Reinfahren. Fuer1650_70_1ms, 448. ‘biškrēsliņš’. Bischu Krehsliņsch. Reinfahren. Fuer1650_70_1ms, 448. – bišu strops (2)bischlu=strohps (1), biśchu strohpeem (1) irdaiņśch, bischlu=strohps, Ein löchericht, molmicht bienen stok. Fuer1650_70_1ms, 859. ‘bišu strops’. Tur tee kekkojahs dahrśa^ pee biśchu strohpeem, tapehz tahs bittes nihkst.. Fuer1650_70_1ms, 93. lpp., 17. rindiņa – medīgas bites (1) meddigas bittes (1) Meddigas bittes. honig reiche bienen. Fuer1650_70_1ms, 1573. ‘bites, kas nes daudz medus’. Meddigas bittes. honig reiche bienen. Fuer1650_70_1ms, 1573. – sausas bites (1) śaussas bittes (1) Śaussas bittes. magere bienen. Fuer1650_70_1ms, 1574. ‘vājas, tievas bites’, sal. ME I 301: sausa bite ‘die Drohne (trans)’. Śaussas bittes. magere bienen. Fuer1650_70_1ms, 1574. Sal. liet. bitė.  bitīte, bitenieks.

  7. Vārdnīcas rakstīšana - turpinājums Leksikogrāfs un sistēmas analītiķis (2006) • Šķirkļa struktūras gramatikas formalizēšana. • XML (extensible mark-up language)shēma. • Precizēta šķirkļa uzbūve.

  8. XML shēma

  9. XML redaktors

  10. Rezultāti • Izstrādāti ~500 “papīra” šķirkļi • Izstrādāta XML shēma • 50 šķirkļi pierakstīti mašīnlasāmā formā atbilstoši XML shēmai

  11. Turpmākie uzdevumi • Šķirkļa shēmas uzlabošana • Datu plūsmas organizēšana • Atgriezeniskās saites ar korpusu nodrošināšana • Vārdnīcas vizualizācija • Interaktīvas meklēšanas iespēju izstrāde

  12. Saraksts + indekss Atlase + kārtošana Datu plūsmas automatizācija Šķirkļa izstrāde Šķirkļa sagatavošana (korpuss + .txt redaktors) Šķirkļa marķēšana (shēma + rīks) - “galva” - gram. inform. - vārdn. piem. - nozīmes - savienojumi - frazeoloģija - etimoloģija - mijnorādes I - Šķirkļa vārds - Vārdlietojumi + biežumi + adreses Piemēru izguve (3 rindu konteksts katrai adresei) II Vārdnīcas piemēru atzīmēšana un precizēšana Nozīmju izšķiršana Piemēru izvēle un precizēšana Savienojumi, frazeoloģija (n-grammas) Pārējais III IV V

  13. Paldies!

More Related