1 / 32

Asiasanastoista ontologioihin? YSA-YSO-näkökulma

Asiasanastoista ontologioihin? YSA-YSO-näkökulma. Eeva Kärki Kansalliskirjasto 31.5.2011. Agenda. YSA YSO YSA – YSO: eroja Selvitettävää Mitä FinnONTOn jälkeen? Osoitteita Ontologiat (demo…). Tesaurukset ja ontologiat. molemmat ovat käsitejärjestelmän kuvauksia

zurina
Download Presentation

Asiasanastoista ontologioihin? YSA-YSO-näkökulma

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Asiasanastoista ontologioihin?YSA-YSO-näkökulma Eeva Kärki Kansalliskirjasto 31.5.2011

  2. Agenda • YSA • YSO • YSA – YSO: eroja • Selvitettävää • Mitä FinnONTOn jälkeen? • Osoitteita • Ontologiat (demo…)

  3. Tesaurukset ja ontologiat • molemmat ovat käsitejärjestelmän kuvauksia • myös perinteisiä tesaurusmuotoisia asiasanastoja kutsutaan joskus ontologioiksi, lisäksi ontologioiksi on ryhdytty nimittämään RDA:ta, FRBR:ää (-> sekoittavaa) • asiasanastot, tesaurukset = ihmisen (ja koneen, jos on URI) tulkittavissa olevia • ontologiat = koneen (ja ihmisen?) tulkittavissa olevia • esityksessä keskityn sanasto-ontologioihin , lähinnä YSOon (en siis käsittele Kulttuurisampoa, TerveSuomi yms. ontologiota)

  4. YSA eli Yleinen suomalainen asiasanasto (1) • n. 29 000 asiasanaa (näistä n. 5000 maantieteellistä nimeä) • kaikki tiedonalat • ongelmallisia aloja: fysiikka, kemia, matematiikka, tekniset alat (tietotekniikka erityisesti), taloustieteet, kasvatustieteet… • epätasaisuutta: • toisilta aloilta (erityisesti ns. ”pehmeät tieteet”) melko spesifejäkin termejä, joiltakin aloilta vain yleistason termejä ( erityisesti fysiikka, kemia, matematiikka) • ei henkilön- eikä yhteisönnimiä • ylläpito: Kansalliskirjasto (1 htv) • ”tekninen” ylläpito: Fennica-tietokanta (Voyager) • jos/kun auktoriteettitietokanta toteutuu, ylläpito siirtyy Aleph-ympäristöön

  5. YSA (2)Ylläpito sanaehdotukset, muutokset (vesa-posti@helsinki.fi) Fennican indeksoijat yleiset ja tieteell. kirjastot BTJ Kirjastopalvelu arkistot, museot erikoissanastot media ”tavalliset käyttäjät”

  6. YSA (3)Sanastopalaveri • 3-4 kertaa vuodessa, osallistujia 12-15 henkeä • Fennican sisällönkuvailijat • Allärsin edustaja • BTJ Kirjastopalvelu • Helka-tietokannan edustaja • Eduskunnan kirjaston asiasanaston edustaja • Agriforestin (Maa- ja metsätaloussanasto) edustaja • Helsingin kaupunginkirjaston edustaja

  7. YSA (4) • YSA-palaverissakäsitellään n. 1000 termiä vuosittain , joista hyväksytään n. puolet (400-500) • uudet sanat ja muutokset ilmoitetaan sähköpostilistoilla parin päivän sisällä kokouksesta • päivitys Fennica-tietokantaan, sanojen väliset suhteet tehdään tässä vaiheessa • myös palaverissa ”hylätyt termit” päivitetään Fennica-tietokantaan termiehdotuksina (eivät näy VESAssa/ONKIssa), näihin ei tehdä tesaurus-suhteita • VESAssa/ONKIssan. parin viikon kuluttua kokouksesta (riippuen työtilanteesta…) • Huom! ns. vapaan indeksoinnin termejä (näihin kuuluvat myös paikannimet) ei käsitellä palaverissa eikä ilmoiteta listoilla (näitäkin tulee n. 500 per vuosi) • YSA karttuu siis n. 1000 uudella termillä vuodessa

  8. YSO eli Yleinen suomalainen ontologia(1) • FinnOnto-osaprojekti (Tekes) 2004-31.3.2012 • YSOn kehikko luotu FinnONTOssa, mukana ei ollut kirjastoihmisiä • YSO perustuu YSAn termeihin • jäljessä YSAsta, tällä hetkellä puuttuvat kaikki v. 2011 otetut uudet YSAn termit eli n. 300 • YSAnmaantieteelliset nimet eivät ole mukana YSOssa • YSAn termien ontologisoinnin YSOksi tekivät/tekevät FinnONTOn työntekijät • v. 2006 KK:sta oli mukana kaksi henkilöä puolen vuoden ajan, Mirja Anttila ja Eeva-Liisa Leppänen • YSOssa tällä hetkellä n. 22 000 termiä (YSAssa n. 29 000 termiä)

  9. YSO (2) • kieli: suomi • ruotsinkieliset vastineet • poimittu Allärsistä • ontologian nimi ALLSO (ONKI-palvelussa YSO/ALLSO) • englanninkieliset vastineet • poimittu Helsingin kaupunginkirjaston luokituskaavion englanninkielisen version hakemistosta • vastineissa virheitä, koska luokituskaavion hakemiston käännöstyössä termejä ei ole tarkistettu erikoisalojen sanastoista/sanakirjoista

  10. YSO (3) • YSOakäytetäänmyösrakenteellisenamallinajaliittymäkohtanaerikoisalojenontologioihin, kuten • AFO (Agriforestista tehty ontologia) • VALO (Valokuva-alan ontologia) • MAO (Museoalan ontologia) • Osoite: http://www.yso.fi/onki3/fi/overview/yso

  11. YSA Tesaurus-rakenne • KÄYTÄ = viittaus ohjaustermistä asiasanaan (VESA = asiasanaa xxx ei käytetä) • KT = korvaa termit • LT = laajemmat termit • ST = suppeammat termit • RT = rinnakkaistermit • Huomautus • Lähde • Ryhmäkoodi ( VESA = kuuluu ryhmiin) • Kaikki termisuhteet ovat aina vastavuoroisia

  12. leikkikalut ST keinuhevosetkiiltokuvatlegotleijatlennokitliidokitnuketnukkekoditpaperinuketpehmolelutpienoisrautatietpuulelutrakennuspalikattinasotilaatvesilelut RT käsinuket YSA

  13. ”asia” abstrakti muuttuva pysyvä paikka ajanjakso prosessi fyysinen objekti ominaisuus ilmiö henkiset tuotokset toiminto tapahtuma järjestelmä fyysinen kokonaisuus YSOn kehikko (Lähde: Katri Seppälä)

  14. YSOn kehikko • abstrakti • muuttuva • prosessit • tapahtumat • toiminta • pysyvä • ajanjakso • fyysinen kokonaisuus • fyysinen objekti • henkiset tuotokset • ilmiöt • järjestelmät • ominaisuudet • paikka

  15. Pysyvä • ajanjakso • fyysinen kokonaisuus • fyysinen objekti • aine • konkreettinen eloton objekti • …. • lavasteet • leikkikalut • legot • leikkikalut käyttöympäristön mukaan • leijat, lennokit, liidokit, vesilelut • leikkikalut materiaalin mukaan • kiiltokuvat, pehmolelut, puulelut, tinasotilaat • nuket • nukkekodit • …. • letkut • liikennemerkit • …..

  16. YSOn kehikko ST-suhteet geneeriset suhteet (laji – alalaji) voimalat - lämmitysvoimalat partitiiviset suhteet (kokonaisuus – osa) kasvinosat – juuri, kukka jne. esitetään eri tavalla kuin geneerisetST-suhteet näitä ei ole vielä tehty YSOon (eli ovat nyt tavallisia ST-suhteita)

  17. YSA – YSO (1) Sanojen väliset suhteet YSAssa • YSAssa asiasanan ympärille rakennetaan tesaurus-suhteet aikaisemmin YSAssa oleviin asiasanoihin • kaikki YSAssa esiintyvät sanat ovat ”todellisia” asiasanoja • monilla sanoilla ei ole hierarkkisia suhteita, vain assosiatiivisia suhteita (RT-suhde) • joillakin sanoilla ei ole mitään suhteita • käsitejärjestelmäkokonaisuudet melko pieniä

  18. YSA – YSO (2) Sanojen väliset suhteet YSOssa • YSOssa on valmis kehikko, johon kukin sana yritetään sijoittaa mahdollisimman loogisesti • ontologissa paljon hierarkian vaatimia ns. ”aputasosanoja”, jotka eivät ole asiasanoja (käyttäjä ei voi erottaa ”todellisista asiasanoista”) • käsitekehikko monimutkainen ja tarkka • kaikilla sanoilla/termeillä on joku hierarkkinen suhde • pitkiä hierarkioita • monet käsitteet vaikea sijoittaa kehikkoon loogisesti (ongelmana varsinkin ns. ”pehmeät tieteet” ja abstrakit käsitteet) -> kokonaisuus on jo nyt epäjohdonmukainen, koska eri ihmiset laittavat toisiaan vastaavia käsitteitä eri paikkoihin (esim. avioero, asumusero)

  19. YSA – YSO (3) Sanojen monimerkityksisyysYSAssajaYSOssa • YSAssa • osaan sanoista liitetty lisämääre, esim. • kurkku – vihannekset • kurkku – ruumiinosat • osaan sanoista liitetty selitys ja laitettu ryhmään 00 (esim. kaanonit) • YSOssa pyritty ottamaan esille mahdollisimman paljon monimerkityksisyyttä • kuinka ”syvälle” polysemiaan kannattaa mennä? • kaanonit (koko) • kaanonit (kooste) • kaanonit (ohjeet) • kaanonit (sävellykset) • kaanonit (uskonnolliset tuotokset) • YSOssa osa termeistä esitetty myös eri ”funktioissa” (esim. lapset) • YSOssans. kooste-sanoja (termiä voi käyttää useilla aloilla/funktioissa)

  20. YSA – YSO (4) Maantieteelliset nimet YSAssa ja YSOssa • YSAssa mukana n. 5000 paikannimeä (myös luonnonmaantieteellisiä nimiä, kyliä ja kaupunginosien nimiä, koti- ja ulkomaisia paikannimiä) • YSOssa ei maantieteellisiä nimiä, maantieteelliset nimet paikkaontologioissa • SUO, SAPO; sisältävät vain suomalaisia paikannimiä • SAPOssa (Suomen ajallinen paikkaontologia) ei ole mukana kyliä eikä kaupunginosia

  21. YSA – YSO (5) Alanmukaiset ryhmät • YSAssa voidaan selata alanmukaisia ryhmiä • YSOssa ei voida selata alanmukaisia ryhmiä (ainakaan vielä) Vapaa indeksointi • YSAssaohjeet vapaan indeksoinnin sanaryhmien yhteydessä • YSOssa asia ratkaisematta

  22. Selvitettävää: kysymyksiä (1) • Miksi pitäisi siirtyä asiasanoista ontologioihin? • Mitä todellista lisäarvoa ontologiat tuovat sisällönkuvailuun ja tiedonhakuun? Kustannus-hyötyanalyysi! • otettava huomioon, että jo pelkästään YSOn ylläpito vaatii enemmän resursseja kuin YSAn • ontologioilla indeksointi on todennäköisesti hitaampaa kuin perinteisillä asiasanastoilla (huom. asiasanojen eri funktiot) • tiedonhaun ongelmat • Ontologiat luotu lähinnä koneymmärrettäväksi, soveltuvatko ne ihmisen tulkittaviksi?

  23. Selvitettävää: kysymyksiä (2) • Ovatko ontologiat sisällöltään niin valmiita, että niitä voidaan ryhtyä käyttämään? • Maantieteelliset nimet: • SUO ja SAPO (paikannimiontologiat) sisältävät vain suomalaisia paikannimiä, entä ulkomaiset paikannimet (ja niiden suomennokset)? • SAPOssa ei ole mukana kyliä eikä kaupunginosia • ei ole olemassa sellaista paikannimiontologiaa, jossa olisi mukana ulkomaisten paikannimien suomalaiset vastineet (huom. YSAssa on jonkun verran mukana myös ulkomaisten paikannimien suomalaisia nimiä)

  24. Selvitettävää: kysymyksiä (3) • Miten käytetään niitä asiasanoja, jotka eivät ole missään ontologioissa? • esim. vapaan indeksoinnin sanat, numeeriset ajanmääreet: ratkaisematta • Koska asiasanaa ei voi käyttää muussa kuin ontologian esittämässä yhteydessä (sanojen merkitys sidottu tiukasti ko. sanan paikkaan /hierarkiaan ontologiassa, ontologia on siis jäykempi kuin asiasanasto), miten menetellään, jos ko. sanaa tarvitaankin ihan muissa yhteyksissä? • > aina on otettava yhteys ontologian ylläpitäjään -> hidastaa sisällönkuvailutyötä ja vaatii ylläpidolta resursseja • Onko kaikki kirjastotietokannoissa käytettävät asiasanastot ontologisoitava? • resurssit? Sisällöllinen ja tekninen ylläpito? • Entä ulkomaistenasiasanastojen ja ontologioiden käyttö?

  25. Selvitettävää: kysymyksiä (4) • Jos ontologioita ryhdytään käyttämään asiasanoituksessa, pystytäänkö aikaisemmat indeksoinnissa käytetyt asiasanat kytkemään ontologian yhteyteen? Ongelmia, esim. • ontologiassa sanoja eri merkityksissä, kuten • lapset (ikään liittyvä rooli) • lapset (kooste) • lapset (perheenjäsenet) • lapset (sosioekonomiseen ryhmään liittyvä rooli) • - > mihin näistä nyt jo tietokannoissa olevat asiasanat ”lapset” kytketään? Koosteeseenko, mutta mitä hyötyä silloin on ontologiasta? • ontologiassa asiasana tietyssä merkityksessä (tietyssä paikassa kehikossa, hierarkiassa). Tietokannassa on samaa asiasanaa voitu käyttää aivan eri yhteydessä kuin mitä ontologia tarjoaa - > tietokannassa olevaa asiasanaa ei voida kytkeä ontologiassa olevaan sanaan

  26. Selvitettävää: kysymyksiä (5) • Onko teknisiä valmiuksia ryhtyä käyttämään ontologioita sisällönkuvailussa ja tiedonhaussa? • ONKI-palvelun asiasanastoilla/ontologioilla on URI:t , jotka mahdollistavat poiminnan ja tiedonhaussa linkityksen ko. asiasanastoihin/ontologioihin • URI = UniformResourceIdentifier (merkkijono, jolla kerrotaan tietyn tiedon paikka (URL) tai yksikäsitteinen nimi (URN)) • poiminta onnistuu leijukkeen (widget) avulla suoraan järjestelmiin, joissa on toimivat Web Services –rajapinnat (esim. yliopisto- ja korkeakoulukirjastojen järjestelmässä Voyagerissa rajapintaa ei ole) • miten käy ketjutusten?

  27. Kansallinen ontologiakirjasto ONKI (1) http://onki.fi/fi/browser/ (linkki uuteen käyttöliittymään myös VESAssa) ONKI-palvelu, ONKI-selain, ONKI-palvelin FinnONTO-projekti Semanttisen laskennan tutkimusryhmä (SeCO) ONKI-palvelusta tällä hetkellä koekäytössä jo kolmas versio, ONKI-palvelussa aina silloin tällöin bugeja koska ONKIn toiminta on epäluotettavaa, VESA-käyttöliittymä tulee olemaan käytettävissä vielä v. 2011 palaute käyttöliittymästä seco-onki@tml.hut.fi http://www.yso.fi/onki3/fi/overview/ysa (linkki ONKI-palvelun sivulta)

  28. Kansallinen ontologiakirjasto ONKI (2) • KK:n sanastoilla ei ole enää yhteistä ”sateenvarjoa” (VESAa), vaan kukin VESAn sanasto on ”itsenäisenä” sanastonaan ONKI-palvelussa • mukana URI-tunnukset (koneluettavuus) • YSA ja Allärs ovat saatavilla myös raakadatana (avoimen datan periaate) kun tähän saakka niiden termit ovat olleet haettavissa vain yksitellen • ONKI-palvelimella ladattava XML-tiedosto, CreativeCommonsAttribution lisenssin puitteissa sitä voi kuka tahansa käyttää

  29. Kansallinen ontologiakirjasto ONKI (3) • 62 sanastoa/asiasanastoa/ontologiaa • asiasanastoja: YSA, Allärs, MUSA, CILLA, Kaunokki, MESA (Merenkulun asiasanasto), Valtioneuvoston asiasanastojne. • sanasto-ontologioita mm.: KOKO, YSO/ALLSO, MUSO, AFO, KAUNO, MAO, TAO, VALO • YSA, Allärs: ajantasaisia (päivittyvät joka yö, huom. VESA päivittyy kerran viikossa) • epäselvää, kuinka ajantasaisia ONKI-palvelun muut asiasanastot ja ontologiat ovat… • YSO: puuttuu n. 300 YSAn asiasanaa (tänä vuonna YSAan otetut) + kaikki paikannimet

  30. Mitä FinnONTOn jälkeen (1)? • ONKI-palvelinympäristön ylläpito? • mikä taho tulee vastaamaan teknisestä ylläpidosta? • Ryhtyvätkö kirjastot käyttämään ontologioita sisällönkuvailun ja tiedonhaun apuvälineenä? • kuka tekee päätökset? Tehdäänkö ennen päätöstä kustannus-hyötyanalyysi?

  31. Mitä FinnONTOn jälkeen (2)? • Jos kirjastot ryhtyvät käyttämään ontologioita, niin huomattava mm., että • YSO/Allso • YSO/Allson ylläpito vie enemmän resursseja kuin YSA/Allärsin ylläpito (ontologian kehikon monimutkaisuus ja tarkkuus, sanojen monimerkityksisyys) • englanninkielisen version ylläpito • ontologioiden koordinointi • erikoisontologiat • esim. mikä taho ryhtyy tekemään esim. ontologiaa, jossa ovat ulkomaiset paikannimet suomalaisine vastineineen • konsortiomalli (ONKI-konsortio)? • > vaatii ylläpito-organisaatioilta (ja varsinkin koordinoivalta organisaatiolta) melko paljon resursseja

  32. Osoitteita • http://vesa.kansalliskirjasto.fi/ (pääseesekäuuteenettävanhaankäyttöliittymään) • http://onki.fi/fi/browser/(ONKI-palvelu) • http://demo.seco.tkk.fi/onkipaikka/ (SUO = Suomalainenpaikkaontologia) • http://www.yso.fi/onki3/fi/overview/sapo (SAPO = Suomenajallinenpaikkaontologia) • http://www.yso.fi/onki3/fi/overview/koko (KOKO-ontologia) • http://www.yso.fi/?l=fi • http://www.yso.fi/lusto-demo.html (Kantapuu-museotietokanta, hakudemo) • http://wordnet.princeton.edu/ (WordNet) • http://www.yso.fi/onkiwebservice/?o=ysa&l=fi (Web Service -rajapinta)

More Related