1 / 45

H. Paasonen’s dialect dictionary of the Mordvin languages

SOOME-UGRI SÕNARAAMATUSEMINAR „Soome-ugri keelte sõnaraamatud: mis neid liidab ja mis lahutab“ 13.-14. november 2008, Tallinn, Eesti Keele Instituut. H. Paasonen’s dialect dictionary of the Mordvin languages. From dictionary to database. Elektroninen mordvan murresanakirja.

cheryl
Download Presentation

H. Paasonen’s dialect dictionary of the Mordvin languages

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SOOME-UGRI SÕNARAAMATUSEMINAR„Soome-ugri keelte sõnaraamatud:mis neid liidab ja mis lahutab“13.-14. november 2008, Tallinn, Eesti Keele Instituut

  2. Jack Rueter rueter@ling.helsinki.fi

  3. H. Paasonen’s dialect dictionary of the Mordvin languages • From dictionary to database Jack Rueter rueter@ling.helsinki.fi

  4. Elektroninen mordvan murresanakirja • Alkuperäiset tavoitteet ja niiden toteutuminen • Tämän hetkinen työvaihe ja sen tavoitteet • Elektronisen sanakirjan lopullinen sijoitus Jack Rueter rueter@ling.helsinki.fi

  5. Jack Rueter rueter@ling.helsinki.fi

  6. The original goals and what was achieved • 1. Text with Quark tags to be converted to an XML document • 2. Font conversion XML document to UNICODE • 3. Conversion of dictionary entries to granular XML • 4. Head words tagged and DB information enhanced by automatic means Jack Rueter rueter@ling.helsinki.fi

  7. The original goals and what was achieved • 2. Font conversion XML document to UNICODE • Be aware of ”diacritic” + ”letter” ordering before conversion to ”letter” + ”diacritic” strategies • Shakhmatov, Molotsov Unicode charts http://www.unicode.org/charts Jack Rueter rueter@ling.helsinki.fi

  8. The original goals and what was achieved • 3. Conversion of dictionary entries to granular XML. • Forming well-nested documents according to existing hierarchies and punctuation. Jack Rueter rueter@ling.helsinki.fi

  9. The original goals and what was achieved • 4. Head words tagged and DB information enhanced by automatic means • adjective, adverb, conjunction, gerund, interjection, noun, particle, participle, postposition, quant, verb Jack Rueter rueter@ling.helsinki.fi

  10. More specifically Structure Access

  11. Structure • XML data-base structure derivation from style and font tags • Dealing with dialect lemma variants, where a single lemma would be desired • Inflection as a basis for dictionary entry divisions • Enhanced tagging to provide more accessible data retrieval Jack Rueter rueter@ling.helsinki.fi

  12. XML data-base structure derivation from style and font tags • Text with Quark tags to be converted to an XML document • Make use of styles • <b></b> = bold • <i></i> = italics • <sup></sup> = superscript • Make use of fonts • Even <cyr></cyr> = Cyrillic portions of text Jack Rueter rueter@ling.helsinki.fi

  13. Dealing with dialect lemma variants, where a single lemma would be desired • Phonetic variants given for one or both languages does not guarantee literary forms • Symmetry encourages use of ZERO Jack Rueter rueter@ling.helsinki.fi

  14. Inflection as a basis for dictionary entry divisions • The diminutive in ńe is split into 2 separate inflections • The vocative in aj and kaj is often shown within the variants of the stem Jack Rueter rueter@ling.helsinki.fi

  15. Enhanced tagging to provide more accessible data retrieval • ~ 99% of phonetic variants ending in ms and mks are verbs • Lemmas can be tagged as verbs and derivation affixes can be sought out. • Concrete affix + function information Jack Rueter rueter@ling.helsinki.fi

  16. Access • Indexing by source language: lemma and example content, forward and reverse • Indexing by target language • Inter-linking strategies • Automated transliteration Jack Rueter rueter@ling.helsinki.fi

  17. Indexing by source language: lemma and example content, forward and reverse • D • http://www.ling.helsinki.fi/~rueter/PaasonenReperl/Link-WordCtn_01.xsl • http://www.ling.helsinki.fi/~rueter/PaasonenReperl/rsc/FilterLinks1Result.pl Jack Rueter rueter@ling.helsinki.fi

  18. Indexing by target language • Indexing by target language Jack Rueter rueter@ling.helsinki.fi

  19. Inter-linking strategies • i Jack Rueter rueter@ling.helsinki.fi

  20. Automated transliteration • a Jack Rueter rueter@ling.helsinki.fi

  21. Tämän hetkinen työvaihe ja sen tavoitteet • Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä: • Tarkennetaan xsd-kielisen scheman määritelmiä. Jack Rueter rueter@ling.helsinki.fi

  22. Tämän hetkinen työvaihe ja sen tavoitteet • Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä: • Tarkennetaan xsd-kielisen scheman määritelmiä. • Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-skriptejä. Jack Rueter rueter@ling.helsinki.fi

  23. Tämän hetkinen työvaihe ja sen tavoitteet • Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä: • Tarkennetaan xsd-kielisen scheman määritelmiä. • Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-skriptejä. • Tietokannan xsd-validointi ei takaa sataprosenttista varmuutta tietokannan eheydestä. Jack Rueter rueter@ling.helsinki.fi

  24. Tämän hetkinen työvaihe ja sen tavoitteet • Tarkennetaan xsd-kielisen scheman määritelmiä: • Esiintyykö kunkintyyppinen xml-elementti oikeassa ympäristössä • Onko tieto oikeanlaatuinen Jack Rueter rueter@ling.helsinki.fi

  25. Tämän hetkinen työvaihe ja sen tavoitteet • Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-skriptejä. • Pidetään (lue muutetaan) koko tietokannan kaikkien tiedostojen xml-elementtejä samalla ajantasolla: • Tiedot foneettisen tekstiosuuden editoijasta tallennetaan tällä hetkellä xml-elementin attribuutiarvona. • Transkriptiossa oleva foneettinen muoto jaetaan foneemeihin toisenlaisten transkriptioiden rinnakkaiskäytön mahdollistamiseksi. Jack Rueter rueter@ling.helsinki.fi

  26. Tämän hetkinen työvaihe ja sen tavoitteet • Tietokannan xsd-validointi ei takaa sataprosenttista varmuutta tietokannan eheydestä. • kaikki tiedot ovat vain määriteltyinä elementtisisältöinä tai attribuuttiarvoina • Tehdään suhteellista eheyttä tarkastavia hakuja, esimerkiksi taulukoiden avulla, ks. http://www.ling.helsinki.fi/~rueter/Paasonen2007 Jack Rueter rueter@ling.helsinki.fi

  27. Tämän hetkinen työvaihe ja sen tavoitteet • Ongelmia ja syyt Jack Rueter rueter@ling.helsinki.fi

  28. Tämän hetkinen työvaihe ja sen tavoitteet • Lemmaa ei ole jostain syystä saatu automaattisesti "ph_token" nimisen elementin sisään • On kirjallisuuslähdetietoja alkuperäisen kursiivi-tunnisteen vieressäRatkaisu: etsitään jäljellä olevat kursiivi-tunnisteet eri elementtityypeistä erikseen ja kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin. Jack Rueter rueter@ling.helsinki.fi

  29. Tämän hetkinen työvaihe ja sen tavoitteet • Lemmaa ei ole jostain syystä saatu automaattisesti "ph_token" nimisen elementin sisään • On lähdetaivutusmuotoja, jotka eivät sijoitu oikeaan paikkaanRatkaisu: kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin. Jack Rueter rueter@ling.helsinki.fi

  30. Tämän hetkinen työvaihe ja sen tavoitteet • Lemmaa ei ole jostain syystä saatu automaattisesti "ph_token" nimisen elementin sisään • On derivaatio- tai taivutustietoja, jotka saattavat esiintyä myös foneettisen tai esimerkkiosan sisälläRatkaisu: korvataan ne käsin. Jack Rueter rueter@ling.helsinki.fi

  31. Tämän hetkinen työvaihe ja sen tavoitteet • Kirjallisuuslähde- tai asutustiedot puuttuuvat • Tiedot ovat väärässä ympäristössäRatkaisu: kirjoitetaan tarkkaan rajattuja perl-skriptejä niiden korvaamiseksi, tai korvataan ne käsin Jack Rueter rueter@ling.helsinki.fi

  32. Tämän hetkinen työvaihe ja sen tavoitteet • Kirjallisuuslähde- tai asutustiedot puuttuuvat • XSLT-transformaatiossa on varauduttu etsimään vierussisaruselementin tietoja, mutta ei ole vielä laajennettu XSLT-transformaatioiden when-lausekkeiden etsintäkenttää sisältämään vierussisaruselementtien vieruselementtien tietoja (useampi askel vasemmalle tai oikealle).Ratkaisu: XSLT-stylesheetin laajennus, mikä sinänsä on rajapinnan tekemistä. Jack Rueter rueter@ling.helsinki.fi

  33. Tämän hetkinen työvaihe ja sen tavoitteet • Tällä hetkellä validoidaan xml-muotoista tietokantaa jEdit-nimisellä editorilla, johon päivitetään UNIX-puolella olevia xml- ja xsd-tiedostoja tarkistuksien edistyessä: • Tarkennetaan xsd-kielisen scheman määritelmiä siitä, missä kunkintyyppinen xml-elementti voi esiintyä tietokannassa. • Kirjoitetaan xml-elementtien sisältöä tarkentavia perl-skriptejä, joilla pidetään (lue muutetaan) koko tietokannan kaikkien tiedostojen xml-elementtejä samalla ajantasolla. • Tietokannan xsd-validointi ei takaa sataprosenttista varmuutta tietokannan eheydestä. Jack Rueter rueter@ling.helsinki.fi

  34. Tavoitteet • Eheä tietokanta, johon voidaan lisätä uusiakin aineistoja • Rakenne, joka mahdollistaa: • Monikielisiä hakuja esim. • ersä, mokša, saksa, venäjä jne. Jack Rueter rueter@ling.helsinki.fi

  35. Tavoitteet • Rakenne, joka mahdollistaa: • Useamman elementin samanaikaista käyttöä määritelmissä esim. • lemma, muoto-oppi, selitys, esimerkki, etymologia • Keruupaikka, kieli Jack Rueter rueter@ling.helsinki.fi

  36. Tulevaisuuden varalle • Ohjelmointirajapinta(engl. Application programming interface, API) on käyttöliittymä jolla eri ohjelmat voivat tehdä pyyntöjä ja vaihtaa tietoja eli keskustella keskenään.: • Saada samanaikaisesti näkymään saman yhdyssanan eriosien tietoja • Sanakirjan sisäisiä linkkejä • Ulkoisia linkkejä • Hakukielien (tässä: saksan ja venäjän) thesaurusfiltteri, jonka avulla voisi hakea esim. koira-sanaa ja tulos sisältäisi myös sanoja: hurtta, rakki, piski, peni, pentu yms. Jack Rueter rueter@ling.helsinki.fi

  37. Elektroninen mordvan murresanakirja • Elektronisen sanakirjan lopullinen sijoitus • Kotuksen verkkosivuille • SUS:n verkkosivuille • CSC: Kielipankin yhteyteen • Yliopiston verkkosivuille Jack Rueter rueter@ling.helsinki.fi

  38. Śuk piŕińe! Kiitos!

  39. Jack Rueter rueter@ling.helsinki.fi

  40. Elektroninen mordvan murresanakirja • Alkuperäiset tavoitteet ja niiden toteutuminen • 1.1. Quark-tunnisteinen teksti muunnetaan xml-tunnisteiseksi tyyliä esittäväksi tiedostoksi (lihavointi, kursivointi, yläindeksointi), • 1.2. Quark-dokumenteissa käytettävät fonttiratkaisut muunnetaan UNICODE-ratkaisuiksi (tarkekirjoituksessa käytetyt tarke+peruskirjain –muodot => peruskirjain+tarke -muodoiksi; UNICODE:n kyrilliset kirjaimet käyttöön), • 1.3. Artikkeleiden muuntamista XML-tunnisteiseen muotoon. • 2.1. Ersän- ja mokšankielisiä hakusanoja täydennetään kirjakielisillä muodoilla ja kahden uuden rajapinnan muodostamista linkityksineen (n. 56 000 sanaa); • 2.2. Hakusanat merkitään sanaluokkien tunnisteilla, mikä voidaan tehdä verbien osalta automaattisesti (adjektiivi, adverbi, gerundi, interjektio, konjunktio, kvantti, partikkeli, partisiippi, postpositio, substantiivi, verbi); • 2.3. Luoda ersän ja mokšan kielten morfologiseen analyysiin tarkoitettuja kaksitasomalleja, joilla voidaan tunnistaa sanakirja-aineistoissa esiintyviä sanamuotoja. Kaksitasomalleja tavallisesti luodaan kirjakielisiä tekstejä varten, mutta niitä voidaan myös laajentaa käsittämään sekä murteellisia että eri ortografioiden mukaisia muotoja. Jack Rueter rueter@ling.helsinki.fi

  41. Elektroninen mordvan murresanakirja • Sanakirjan elektroninen versio • XML-muotoinen tietokanta • Käyttöliittymä Jack Rueter rueter@ling.helsinki.fi

  42. Elektroninen mordvan murresanakirja • Kuinka pitkällä ollaan? • Koodaus on tehty loppuun asti • Koko aineisto on verkossa: http://www.ling.helsinki.fi/~rueter/PaasonenMW.shtml • Kokonaisena ja aakkosittain • Lemmavarianttien linkkilistoina • Esimerkkisaneiden linkkilistoina • Keräyspaikanmukaisina linkkilistoina • Ersän kirjakielen tapainen aakkosluettelo Jack Rueter rueter@ling.helsinki.fi

  43. Elektroninen mordvan murresanakirja • Mitä materiaalilla voidaan tehdä tällä hetkellä? • Linkkilistojen avulla pääsee sana-artikkeleihin käsiksi • Aakkosjärjestyksen mukaan • Käänteisaakkosjärjestyksen mukaan Jack Rueter rueter@ling.helsinki.fi

  44. Elektroninen mordvan murresanakirja • Elektroninen vastassaan painettu julkaisu • Kukin kombinatorinen sana-artikkeli on omanakokonaisuutena • Aakkoselliset ja käänteislinkkilistat Jack Rueter rueter@ling.helsinki.fi

  45. Elektroninen mordvan murresanakirja • Käyttö ja sijainti • ds • http://www.ling.helsinki.fi/~rueter/Paasonen Jack Rueter rueter@ling.helsinki.fi

More Related