Senosios lietuvių kalbos anotuotas referencinis korpusas Diachroninio lietuvių kalbos korpuso iniciatyva

Senosios lietuvių kalbosanotuotas referencinis korpusasDiachroninio lietuvių kalbos korpuso iniciatyva Pietro U. Dini (Pisos universitetas, Italija) Jolanta Gelumbeckaitė (Frankfurto / M. Goethe’s universitetas, Vokietija) Mindaugas Šinkūnas (Lietuvių kalbos institutas, Vilnius, Lietuva) Vytautas Zinkevičius (Lietuvių kalbos institutas, Vilnius, Lietuva)

SLIEKKAS Senosios LIEtuviųKalbos KorpusAS KALT Korpus AltLiTauisch Frankfurto prieMaino Goethe’s universitetas (Vokietija) Lietuvių kalbos institutas (Vilnius, Lietuva) Pisos universitetas (Italija)

SLIEKKAS • Multimodalinis: tekstas + faksimilė • Daugiakalbis: lietuviškas tekstas + vertimo šaltinis • Anotuotas: teksto metainformacija + gramatinės/morfosintaksinės anotacijos • Referencinis: informacija apie kalbą, jos variantus, charakteringą žodyną

Penn-Helsinki-Corpus • York-Helsinki Parsed Corpus of Old English Poetry (York Poetry Corpus), • York-Toronto-Helsinki Parsed Corpus of Old English Prose (YCOE), • Penn-Helsinki Parsed Corpus of Middle English, second edition (PPCME2).

Senųjų raštų duomenų bazė (LKI) • 72 tekstai nuo 1573 iki 1816 metų (virš 3 mln. žodžių). • Šiuo metu išoriniam vartotojui prieinami 36 tekstai. • Konkordancijos (Keyword in Contextformatas).

Senųjų raštų duomenų bazė (LKI)

Senosios lietuvių kalbos bazių deficitai: • nėra aiškių tekstų elektroninio parengimo (digitalizavimo) parametrų: • Senieji raštai: Palemonas (UTF-16), • TITUS: TITUS Cyberbit (UTF-8), • nėra tekstų vertimo šaltinių elektroninio parengimo parametrų, • nėra aiškių tekstų metaaprašo parametrų, • nėra tekstų gramatinės anotacijos standartų, • nėra aiškiai nustatytų paieškos ir tyrimo kriterijų, • nėra elektroninių tekstų ir jų elektroninių faksimilių tarpusavio susiejimo galimybės, • tekstų ir tekstų dalių tarpusavio susiejimo galimybės labai ribotos: • chronologiškai, • geografiškai, • pagal žanrą, • pagal kalbos variantus (dialektus, sociolektus), • pagal citatas (pvz., Biblijos tam tikros eilutės vertimo variantai visuose tekstuose, autorių citatos), • tekstų ir jų vertimo šaltinių tarpusavio susiejimo galimybės labai ribotos.

Iniciatyvos tikslai (1) • lietuviškų tekstų rankraščių ir spaudinių faksimilės, • tekstų perrašai, • tekstų korektūros: • rankraščių korektūrų ir/ar komentarų sluoksniai, • spaudinių korektūros pagal errata/corrigenda sąrašus pačiuose spaudiniuose, • tekstų klaidų nurodymas, analizė, taisymas (paties parengėjo/mokslininko nustatytos klaidos, t. y. kritinio leidimo sluoksniai), • lietuviškų tekstų vertimo šaltinių perrašai.

Anotacija (2) • kiekvieno žodžio standartizuota forma (t. y. kaitoma forma, kaip ji būtų atstatyta istoriniame žodyne), • kiekvieno žodžio lema (t. y. antraštinis žodis, pagrindinė forma, kokia ji būtų istoriniame žodyne), • kiekvieno žodžio lema užrašyta bendrine kalba ir pateiktos jos reikšmės, • kiekvienos žodžio formos morfologinės kategorijos ir charakteristikos (POS = Part-of-Speech Tagging). • pažymėtos eksplicitinės ir implicitinės citatos (jų ribos).

Pagrindiniai principai • ekonomija: optimaliai panaudoti jau esančius resursus, • kokybė: kiekvieną korpuso darbų etapą turi atlikti tos srities ekspertas, • paslankumas: kiek įmanoma paslankesnė korpuso architektūra, kuri leistų pildyti anotacinių sluoksnių skaičių; galimybė korpusą plėsti ir taisyti; galimybė keliems mokslininkams paraleliai dirbti prie vieno teksto/subkorpuso.

Sinchroniniai, diachroniniai ir lyginamieji klausimai • kaip kinta ortografija ir kokie jos modeliai (priklausomai nuo laiko, vietos, žanro, kalbos varianto, rankraščio ar spaudinio šrifto), • kaip kinta žodžių tvarkos modeliai (priklausomai nuo vertimo šaltinio, laiko, vietos, žanro, kalbos varianto), • kokia vieno ar kito žodžio kaitybos paradigma, • koks atributinių konstrukcijų santykis su šalutiniais sakiniais, • kokia analitinių veiksmažodžio konstrukcijų raida, pagalbinio veiksmažodžio pozicija, • kokia evidencinių formų ir konstrukcijų diachronija, • kaip verčiamas vienas ar kitas lotyniškas, vokiškas ar lenkiškas žodis ar junginys, kokia jo sintaksinė pozicija vertime lyginant su vertimo šaltiniu, • lotynų, vokiečių ir lenkų kalbos įtaka lietuvių kalbos gramatikai (pagal įvairius morfosintaksinius kriterijus). • ir t. t.

Techninė koncepcija • XML • TEI, CES, XCES • STTS, DDDTS • Timeline • Stand-off

XML • įsigalėjus XML (Extensible Markup Language) duomenų struktūrų kalbai kaip visuotiniam formatui, visi tekstai konvertuojami į XML. XML formatas leidžia įvesti daugiau teksto informacijos sluoksnių. Taip atsiranda daugiau galimybių anotuoti tekstus ir plėsti paieškos laukus.

TEI, CES, XCES • tekstų kodavimui (metainformacijai apie tekstą, vad. Header-Information ir lingvistinėms anotacijoms) iš esmės perimami tarptautiniai techniniai parametrai: • TEI (Text Encoding Initiative, www.tei-c.org) • CES, XCES (Corpus Encoding Standard, www.cs.vassar.edu/CES; www.xces.org)

STTS, DDDTS • lingvistinių anotacijų kodavimas iš principo remiasi senosios vokiečių kalbos korpuso (DDD) morfosintaksinio kodavimo pažymomis (tagset), kurios apima ir lotyniškų tekstų anotacijas • SLIEKKAS anotaciniai principai rengiami atsižvelgiant į Onos Aleknavičienės parengtus senųjų raštų indeksų rengimo principus

Timeline • pagal tekstų preindeksaciją numeruojami mažiausi teksto vienetai – ženklai

Stand-off Vad. stand-off architektūra yra formatas, kuriame kiekvienas anotacinis sluoksnis faktiškai yra atskiras dokumentas, t. y.: • pirminiai duomenys (tekstas, šaltinis) atskirti nuo anotacijų, • anotacijų sluoksniai atskirti vienas nuo kito, • pirminiai duomenys ir anotacijos vieni su kitais sinchronizuoti, • pirminiai duomenys išlieka integralūs.

Teksto ir anotacinių lygmenų seka programoje ELAN

Daiktavardžių anotacinė tvarka

PAULA (Potsdamer AUstauschformat für Linguistische Annotationen) ANNIS (ANNotation of Information Structure)

Mes uždangą nuleidom, bet daugybė Opiausių klausimų – ore pakibę... Den Vorgang zu und alle Fragen offen (Berthold Brecht, Der gute Mensch von Sezuan)

Senosios lietuvių kalbos anotuotas referencinis korpusas Diachroninio lietuvių kalbos korpuso iniciatyva

Senosios lietuvių kalbos anotuotas referencinis korpusas Diachroninio lietuvių kalbos korpuso iniciatyva

Presentation Transcript

IKT NAUDOJIMAS LIETUVIŲ KALBOS PAMOKOSE

Lietuvių terminijos i štekliai : terminų bankai ir terminų žodynai Albina Auksoriūtė Lietuvių kalbos instituto Termin

Saulius Šaltenis

Inagininko linksnio vartojimas

Dalykas, ugdymo sritis: Tema: Klasė: Priemonės paskirtis:

SAMPROTAVIMO MOKYMAS (Iš pedagoginės patirties)

Dalykas, ugdymo sritis: Tema: Klasė: Priemonės paskirtis:

Dalykas, ugdymo sritis: Tema: Klasė: Priemonės paskirtis:

pasaulio-vardai.vlkk.lt

Lietuvos kalbų politika ir visuomenės poreikiai

Lietuvių kalbos kūrybinis žaidimas - viktorina

V IEŠOSIOS KALBOS

Dalykas, ugdymo sritis: Tema: Klasė: Priemonės paskirtis:

Balys Sruoga

Vie š osios profesinės kalbos ypatumai

Kompetencijų samprata ir raiškos galimybės vadovėliuose

SKAITYMO ANKETOS DUOMENYS

PRASMINGO SKAITYMO KELIŲ BEIEŠKANT ...

Pietro U. Dini (Pisos universitetas, Italija)

Ką turi žinoti 2 klasės gimnazistas apie lietuvių kalbos patikrą 20 11 m.

Brandos egzaminų rezultatų analizė

Kalbos užduotys