H. Paasonen’s dialect dictionary of the Mordvin languages

SOOME-UGRI SÕNARAAMATUSEMINAR„Soome-ugri keelte sõnaraamatud:mis neid liidab ja mis lahutab“13.-14. november 2008, Tallinn, Eesti Keele Instituut

Jack Rueter rueter@ling.helsinki.fi

H. Paasonen’s dialect dictionary of the Mordvin languages • From dictionary to database Jack Rueter rueter@ling.helsinki.fi

Elektroninen mordvan murresanakirja • Alkuperäiset tavoitteet ja niiden toteutuminen • Tämän hetkinen työvaihe ja sen tavoitteet • Elektronisen sanakirjan lopullinen sijoitus Jack Rueter rueter@ling.helsinki.fi

The original goals and what was achieved • 1. Text with Quark tags to be converted to an XML document • 2. Font conversion XML document to UNICODE • 3. Conversion of dictionary entries to granular XML • 4. Head words tagged and DB information enhanced by automatic means Jack Rueter rueter@ling.helsinki.fi

The original goals and what was achieved • 2. Font conversion XML document to UNICODE • Be aware of ”diacritic” + ”letter” ordering before conversion to ”letter” + ”diacritic” strategies • Shakhmatov, Molotsov Unicode charts http://www.unicode.org/charts Jack Rueter rueter@ling.helsinki.fi

The original goals and what was achieved • 3. Conversion of dictionary entries to granular XML. • Forming well-nested documents according to existing hierarchies and punctuation. Jack Rueter rueter@ling.helsinki.fi

The original goals and what was achieved • 4. Head words tagged and DB information enhanced by automatic means • adjective, adverb, conjunction, gerund, interjection, noun, particle, participle, postposition, quant, verb Jack Rueter rueter@ling.helsinki.fi

More specifically Structure Access

Structure • XML data-base structure derivation from style and font tags • Dealing with dialect lemma variants, where a single lemma would be desired • Inflection as a basis for dictionary entry divisions • Enhanced tagging to provide more accessible data retrieval Jack Rueter rueter@ling.helsinki.fi

XML data-base structure derivation from style and font tags • Text with Quark tags to be converted to an XML document • Make use of styles • = bold • = italics • = superscript • Make use of fonts • Even <cyr></cyr> = Cyrillic portions of text Jack Rueter rueter@ling.helsinki.fi

Dealing with dialect lemma variants, where a single lemma would be desired • Phonetic variants given for one or both languages does not guarantee literary forms • Symmetry encourages use of ZERO Jack Rueter rueter@ling.helsinki.fi

Inflection as a basis for dictionary entry divisions • The diminutive in ńe is split into 2 separate inflections • The vocative in aj and kaj is often shown within the variants of the stem Jack Rueter rueter@ling.helsinki.fi

Enhanced tagging to provide more accessible data retrieval • ~ 99% of phonetic variants ending in ms and mks are verbs • Lemmas can be tagged as verbs and derivation affixes can be sought out. • Concrete affix + function information Jack Rueter rueter@ling.helsinki.fi

Access • Indexing by source language: lemma and example content, forward and reverse • Indexing by target language • Inter-linking strategies • Automated transliteration Jack Rueter rueter@ling.helsinki.fi

Indexing by source language: lemma and example content, forward and reverse • D • http://www.ling.helsinki.fi/~rueter/PaasonenReperl/Link-WordCtn_01.xsl • http://www.ling.helsinki.fi/~rueter/PaasonenReperl/rsc/FilterLinks1Result.pl Jack Rueter rueter@ling.helsinki.fi

Indexing by target language • Indexing by target language Jack Rueter rueter@ling.helsinki.fi

Inter-linking strategies • i Jack Rueter rueter@ling.helsinki.fi

Automated transliteration • a Jack Rueter rueter@ling.helsinki.fi

Tämän hetkinen työvaihe ja sen tavoitteet • Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä: • Tarkennetaan xsd-kielisen scheman määritelmiä. Jack Rueter rueter@ling.helsinki.fi

Tämän hetkinen työvaihe ja sen tavoitteet • Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä: • Tarkennetaan xsd-kielisen scheman määritelmiä. • Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-skriptejä. Jack Rueter rueter@ling.helsinki.fi

Tämän hetkinen työvaihe ja sen tavoitteet • Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä: • Tarkennetaan xsd-kielisen scheman määritelmiä. • Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-skriptejä. • Tietokannan xsd-validointi ei takaa sataprosenttista varmuutta tietokannan eheydestä. Jack Rueter rueter@ling.helsinki.fi

Tämän hetkinen työvaihe ja sen tavoitteet • Tarkennetaan xsd-kielisen scheman määritelmiä: • Esiintyykö kunkintyyppinen xml-elementti oikeassa ympäristössä • Onko tieto oikeanlaatuinen Jack Rueter rueter@ling.helsinki.fi

Tämän hetkinen työvaihe ja sen tavoitteet • Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-skriptejä. • Pidetään (lue muutetaan) koko tietokannan kaikkien tiedostojen xml-elementtejä samalla ajantasolla: • Tiedot foneettisen tekstiosuuden editoijasta tallennetaan tällä hetkellä xml-elementin attribuutiarvona. • Transkriptiossa oleva foneettinen muoto jaetaan foneemeihin toisenlaisten transkriptioiden rinnakkaiskäytön mahdollistamiseksi. Jack Rueter rueter@ling.helsinki.fi

Tämän hetkinen työvaihe ja sen tavoitteet • Tietokannan xsd-validointi ei takaa sataprosenttista varmuutta tietokannan eheydestä. • kaikki tiedot ovat vain määriteltyinä elementtisisältöinä tai attribuuttiarvoina • Tehdään suhteellista eheyttä tarkastavia hakuja, esimerkiksi taulukoiden avulla, ks. http://www.ling.helsinki.fi/~rueter/Paasonen2007 Jack Rueter rueter@ling.helsinki.fi

Tämän hetkinen työvaihe ja sen tavoitteet • Ongelmia ja syyt Jack Rueter rueter@ling.helsinki.fi

Tämän hetkinen työvaihe ja sen tavoitteet • Lemmaa ei ole jostain syystä saatu automaattisesti "ph_token" nimisen elementin sisään • On kirjallisuuslähdetietoja alkuperäisen kursiivi-tunnisteen vieressäRatkaisu: etsitään jäljellä olevat kursiivi-tunnisteet eri elementtityypeistä erikseen ja kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin. Jack Rueter rueter@ling.helsinki.fi

Tämän hetkinen työvaihe ja sen tavoitteet • Lemmaa ei ole jostain syystä saatu automaattisesti "ph_token" nimisen elementin sisään • On lähdetaivutusmuotoja, jotka eivät sijoitu oikeaan paikkaanRatkaisu: kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin. Jack Rueter rueter@ling.helsinki.fi

Tämän hetkinen työvaihe ja sen tavoitteet • Lemmaa ei ole jostain syystä saatu automaattisesti "ph_token" nimisen elementin sisään • On derivaatio- tai taivutustietoja, jotka saattavat esiintyä myös foneettisen tai esimerkkiosan sisälläRatkaisu: korvataan ne käsin. Jack Rueter rueter@ling.helsinki.fi

Tämän hetkinen työvaihe ja sen tavoitteet • Kirjallisuuslähde- tai asutustiedot puuttuuvat • Tiedot ovat väärässä ympäristössäRatkaisu: kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin Jack Rueter rueter@ling.helsinki.fi

Tämän hetkinen työvaihe ja sen tavoitteet • Kirjallisuuslähde- tai asutustiedot puuttuuvat • XSLT-transformaatiossa on varauduttu etsimään vierussisaruselementin tietoja, mutta ei ole vielä laajennettu XSLT-transformaatioiden when-lausekkeiden etsintäkenttää sisältämään vierussisaruselementtien vieruselementtien tietoja (useampi askel vasemmalle tai oikealle).Ratkaisu: XSLT-stylesheetin laajennus, mikä sinänsä on rajapinnan tekemistä. Jack Rueter rueter@ling.helsinki.fi

Tämän hetkinen työvaihe ja sen tavoitteet • Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä: • Tarkennetaan xsd-kielisen scheman määritelmiä siitä, missä kunkintyyppinen xml-elementti voi esiintyä tietokannassa. • Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-skriptejä, joilla pidetään (lue muutetaan) koko tietokannan kaikkien tiedostojen xml-elementtejä samalla ajantasolla. • Tietokannan xsd-validointi ei takaa sataprosenttista varmuutta tietokannan eheydestä. Jack Rueter rueter@ling.helsinki.fi

Tavoitteet • Eheä tietokanta, johon voidaan lisätä uusiakin aineistoja • Rakenne, joka mahdollistaa: • Monikielisiä hakuja esim. • ersä, mokša, saksa, venäjä jne. Jack Rueter rueter@ling.helsinki.fi

Tavoitteet • Rakenne, joka mahdollistaa: • Useamman elementin samanaikaista käyttöä määritelmissä esim. • lemma, muoto-oppi, selitys, esimerkki, etymologia • Keruupaikka, kieli Jack Rueter rueter@ling.helsinki.fi

Tulevaisuuden varalle • Ohjelmointirajapinta(engl. Application programming interface, API) on käyttöliittymä jolla eri ohjelmat voivat tehdä pyyntöjä ja vaihtaa tietoja eli keskustella keskenään.: • Saada samanaikaisesti näkymään saman yhdyssanan eriosien tietoja • Sanakirjan sisäisiä linkkejä • Ulkoisia linkkejä • Hakukielien (tässä: saksan ja venäjän) thesaurusfiltteri, jonka avulla voisi hakea esim. koira-sanaa ja tulos sisältäisi myös sanoja: hurtta, rakki, piski, peni, pentu yms. Jack Rueter rueter@ling.helsinki.fi

Elektroninen mordvan murresanakirja • Elektronisen sanakirjan lopullinen sijoitus • Kotuksen verkkosivuille • SUS:n verkkosivuille • CSC: Kielipankin yhteyteen • Yliopiston verkkosivuille Jack Rueter rueter@ling.helsinki.fi

Śuk piŕińe! Kiitos!

Elektroninen mordvan murresanakirja • Alkuperäiset tavoitteet ja niiden toteutuminen • 1.1. Quark-tunnisteinen teksti muunnetaan xml-tunnisteiseksi tyyliä esittäväksi tiedostoksi (lihavointi, kursivointi, yläindeksointi), • 1.2. Quark-dokumenteissa käytettävät fonttiratkaisut muunnetaan UNICODE-ratkaisuiksi (tarkekirjoituksessa käytetyt tarke+peruskirjain –muodot => peruskirjain+tarke -muodoiksi; UNICODE:n kyrilliset kirjaimet käyttöön), • 1.3. Artikkeleiden muuntamista XML-tunnisteiseen muotoon. • 2.1. Ersän- ja mokšankielisiä hakusanoja täydennetään kirjakielisillä muodoilla ja kahden uuden rajapinnan muodostamista linkityksineen (n. 56 000 sanaa); • 2.2. Hakusanat merkitään sanaluokkien tunnisteilla, mikä voidaan tehdä verbien osalta automaattisesti (adjektiivi, adverbi, gerundi, interjektio, konjunktio, kvantti, partikkeli, partisiippi, postpositio, substantiivi, verbi); • 2.3. Luoda ersän ja mokšan kielten morfologiseen analyysiin tarkoitettuja kaksitasomalleja, joilla voidaan tunnistaa sanakirja-aineistoissa esiintyviä sanamuotoja. Kaksitasomalleja tavallisesti luodaan kirjakielisiä tekstejä varten, mutta niitä voidaan myös laajentaa käsittämään sekä murteellisia että eri ortografioiden mukaisia muotoja. Jack Rueter rueter@ling.helsinki.fi

Elektroninen mordvan murresanakirja • Sanakirjan elektroninen versio • XML-muotoinen tietokanta • Käyttöliittymä Jack Rueter rueter@ling.helsinki.fi

Elektroninen mordvan murresanakirja • Kuinka pitkällä ollaan? • Koodaus on tehty loppuun asti • Koko aineisto on verkossa: http://www.ling.helsinki.fi/~rueter/PaasonenMW.shtml • Kokonaisena ja aakkosittain • Lemmavarianttien linkkilistoina • Esimerkkisaneiden linkkilistoina • Keräyspaikanmukaisina linkkilistoina • Ersän kirjakielen tapainen aakkosluettelo Jack Rueter rueter@ling.helsinki.fi

Elektroninen mordvan murresanakirja • Mitä materiaalilla voidaan tehdä tällä hetkellä? • Linkkilistojen avulla pääsee sana-artikkeleihin käsiksi • Aakkosjärjestyksen mukaan • Käänteisaakkosjärjestyksen mukaan Jack Rueter rueter@ling.helsinki.fi

Elektroninen mordvan murresanakirja • Elektroninen vastassaan painettu julkaisu • Kukin kombinatorinen sana-artikkeli on omanakokonaisuutena • Aakkoselliset ja käänteislinkkilistat Jack Rueter rueter@ling.helsinki.fi

Elektroninen mordvan murresanakirja • Käyttö ja sijainti • ds • http://www.ling.helsinki.fi/~rueter/Paasonen Jack Rueter rueter@ling.helsinki.fi

H. Paasonen’s dialect dictionary of the Mordvin languages

H. Paasonen’s dialect dictionary of the Mordvin languages

Presentation Transcript

Database Systems I Relational Algebra

Module 5 Implementation of XQuery (Rewrite, Indexes, Runtime System)

Mexican American English Dialect a.k.a. “Chicano” English

Language and Dialect

India

Blueprint Reading for the Machine Trades, Sixth Edition Unit 1:Dictionary of Terms

English Cognates in Various Indo-European Languages

India

The English of minorities in the USA and dialect groups

Introduction to C# Programming

Dictionary Matching and Indexing with Edits and Don’t Cares

Introduction to Parsing

English and tone languages

Graduate Course on Computer Security Lecture 7: Specification Languages

India

India

Advanced Structure of Programming Languages

Modern Languages Subject Leaders’ Meeting May 2014

Syntax Directed Translation

COP 4020 Programming Languages I

Languages and Literacies: Their Role in Global Futures