320 likes | 426 Views
Asiasanastoista ontologioihin? YSA-YSO-näkökulma. Eeva Kärki Kansalliskirjasto 31.5.2011. Agenda. YSA YSO YSA – YSO: eroja Selvitettävää Mitä FinnONTOn jälkeen? Osoitteita Ontologiat (demo…). Tesaurukset ja ontologiat. molemmat ovat käsitejärjestelmän kuvauksia
E N D
Asiasanastoista ontologioihin?YSA-YSO-näkökulma Eeva Kärki Kansalliskirjasto 31.5.2011
Agenda • YSA • YSO • YSA – YSO: eroja • Selvitettävää • Mitä FinnONTOn jälkeen? • Osoitteita • Ontologiat (demo…)
Tesaurukset ja ontologiat • molemmat ovat käsitejärjestelmän kuvauksia • myös perinteisiä tesaurusmuotoisia asiasanastoja kutsutaan joskus ontologioiksi, lisäksi ontologioiksi on ryhdytty nimittämään RDA:ta, FRBR:ää (-> sekoittavaa) • asiasanastot, tesaurukset = ihmisen (ja koneen, jos on URI) tulkittavissa olevia • ontologiat = koneen (ja ihmisen?) tulkittavissa olevia • esityksessä keskityn sanasto-ontologioihin , lähinnä YSOon (en siis käsittele Kulttuurisampoa, TerveSuomi yms. ontologiota)
YSA eli Yleinen suomalainen asiasanasto (1) • n. 29 000 asiasanaa (näistä n. 5000 maantieteellistä nimeä) • kaikki tiedonalat • ongelmallisia aloja: fysiikka, kemia, matematiikka, tekniset alat (tietotekniikka erityisesti), taloustieteet, kasvatustieteet… • epätasaisuutta: • toisilta aloilta (erityisesti ns. ”pehmeät tieteet”) melko spesifejäkin termejä, joiltakin aloilta vain yleistason termejä ( erityisesti fysiikka, kemia, matematiikka) • ei henkilön- eikä yhteisönnimiä • ylläpito: Kansalliskirjasto (1 htv) • ”tekninen” ylläpito: Fennica-tietokanta (Voyager) • jos/kun auktoriteettitietokanta toteutuu, ylläpito siirtyy Aleph-ympäristöön
YSA (2)Ylläpito sanaehdotukset, muutokset (vesa-posti@helsinki.fi) Fennican indeksoijat yleiset ja tieteell. kirjastot BTJ Kirjastopalvelu arkistot, museot erikoissanastot media ”tavalliset käyttäjät”
YSA (3)Sanastopalaveri • 3-4 kertaa vuodessa, osallistujia 12-15 henkeä • Fennican sisällönkuvailijat • Allärsin edustaja • BTJ Kirjastopalvelu • Helka-tietokannan edustaja • Eduskunnan kirjaston asiasanaston edustaja • Agriforestin (Maa- ja metsätaloussanasto) edustaja • Helsingin kaupunginkirjaston edustaja
YSA (4) • YSA-palaverissakäsitellään n. 1000 termiä vuosittain , joista hyväksytään n. puolet (400-500) • uudet sanat ja muutokset ilmoitetaan sähköpostilistoilla parin päivän sisällä kokouksesta • päivitys Fennica-tietokantaan, sanojen väliset suhteet tehdään tässä vaiheessa • myös palaverissa ”hylätyt termit” päivitetään Fennica-tietokantaan termiehdotuksina (eivät näy VESAssa/ONKIssa), näihin ei tehdä tesaurus-suhteita • VESAssa/ONKIssan. parin viikon kuluttua kokouksesta (riippuen työtilanteesta…) • Huom! ns. vapaan indeksoinnin termejä (näihin kuuluvat myös paikannimet) ei käsitellä palaverissa eikä ilmoiteta listoilla (näitäkin tulee n. 500 per vuosi) • YSA karttuu siis n. 1000 uudella termillä vuodessa
YSO eli Yleinen suomalainen ontologia(1) • FinnOnto-osaprojekti (Tekes) 2004-31.3.2012 • YSOn kehikko luotu FinnONTOssa, mukana ei ollut kirjastoihmisiä • YSO perustuu YSAn termeihin • jäljessä YSAsta, tällä hetkellä puuttuvat kaikki v. 2011 otetut uudet YSAn termit eli n. 300 • YSAnmaantieteelliset nimet eivät ole mukana YSOssa • YSAn termien ontologisoinnin YSOksi tekivät/tekevät FinnONTOn työntekijät • v. 2006 KK:sta oli mukana kaksi henkilöä puolen vuoden ajan, Mirja Anttila ja Eeva-Liisa Leppänen • YSOssa tällä hetkellä n. 22 000 termiä (YSAssa n. 29 000 termiä)
YSO (2) • kieli: suomi • ruotsinkieliset vastineet • poimittu Allärsistä • ontologian nimi ALLSO (ONKI-palvelussa YSO/ALLSO) • englanninkieliset vastineet • poimittu Helsingin kaupunginkirjaston luokituskaavion englanninkielisen version hakemistosta • vastineissa virheitä, koska luokituskaavion hakemiston käännöstyössä termejä ei ole tarkistettu erikoisalojen sanastoista/sanakirjoista
YSO (3) • YSOakäytetäänmyösrakenteellisenamallinajaliittymäkohtanaerikoisalojenontologioihin, kuten • AFO (Agriforestista tehty ontologia) • VALO (Valokuva-alan ontologia) • MAO (Museoalan ontologia) • Osoite: http://www.yso.fi/onki3/fi/overview/yso
YSA Tesaurus-rakenne • KÄYTÄ = viittaus ohjaustermistä asiasanaan (VESA = asiasanaa xxx ei käytetä) • KT = korvaa termit • LT = laajemmat termit • ST = suppeammat termit • RT = rinnakkaistermit • Huomautus • Lähde • Ryhmäkoodi ( VESA = kuuluu ryhmiin) • Kaikki termisuhteet ovat aina vastavuoroisia
leikkikalut ST keinuhevosetkiiltokuvatlegotleijatlennokitliidokitnuketnukkekoditpaperinuketpehmolelutpienoisrautatietpuulelutrakennuspalikattinasotilaatvesilelut RT käsinuket YSA
”asia” abstrakti muuttuva pysyvä paikka ajanjakso prosessi fyysinen objekti ominaisuus ilmiö henkiset tuotokset toiminto tapahtuma järjestelmä fyysinen kokonaisuus YSOn kehikko (Lähde: Katri Seppälä)
YSOn kehikko • abstrakti • muuttuva • prosessit • tapahtumat • toiminta • pysyvä • ajanjakso • fyysinen kokonaisuus • fyysinen objekti • henkiset tuotokset • ilmiöt • järjestelmät • ominaisuudet • paikka
Pysyvä • ajanjakso • fyysinen kokonaisuus • fyysinen objekti • aine • konkreettinen eloton objekti • …. • lavasteet • leikkikalut • legot • leikkikalut käyttöympäristön mukaan • leijat, lennokit, liidokit, vesilelut • leikkikalut materiaalin mukaan • kiiltokuvat, pehmolelut, puulelut, tinasotilaat • nuket • nukkekodit • …. • letkut • liikennemerkit • …..
YSOn kehikko ST-suhteet geneeriset suhteet (laji – alalaji) voimalat - lämmitysvoimalat partitiiviset suhteet (kokonaisuus – osa) kasvinosat – juuri, kukka jne. esitetään eri tavalla kuin geneerisetST-suhteet näitä ei ole vielä tehty YSOon (eli ovat nyt tavallisia ST-suhteita)
YSA – YSO (1) Sanojen väliset suhteet YSAssa • YSAssa asiasanan ympärille rakennetaan tesaurus-suhteet aikaisemmin YSAssa oleviin asiasanoihin • kaikki YSAssa esiintyvät sanat ovat ”todellisia” asiasanoja • monilla sanoilla ei ole hierarkkisia suhteita, vain assosiatiivisia suhteita (RT-suhde) • joillakin sanoilla ei ole mitään suhteita • käsitejärjestelmäkokonaisuudet melko pieniä
YSA – YSO (2) Sanojen väliset suhteet YSOssa • YSOssa on valmis kehikko, johon kukin sana yritetään sijoittaa mahdollisimman loogisesti • ontologissa paljon hierarkian vaatimia ns. ”aputasosanoja”, jotka eivät ole asiasanoja (käyttäjä ei voi erottaa ”todellisista asiasanoista”) • käsitekehikko monimutkainen ja tarkka • kaikilla sanoilla/termeillä on joku hierarkkinen suhde • pitkiä hierarkioita • monet käsitteet vaikea sijoittaa kehikkoon loogisesti (ongelmana varsinkin ns. ”pehmeät tieteet” ja abstrakit käsitteet) -> kokonaisuus on jo nyt epäjohdonmukainen, koska eri ihmiset laittavat toisiaan vastaavia käsitteitä eri paikkoihin (esim. avioero, asumusero)
YSA – YSO (3) Sanojen monimerkityksisyysYSAssajaYSOssa • YSAssa • osaan sanoista liitetty lisämääre, esim. • kurkku – vihannekset • kurkku – ruumiinosat • osaan sanoista liitetty selitys ja laitettu ryhmään 00 (esim. kaanonit) • YSOssa pyritty ottamaan esille mahdollisimman paljon monimerkityksisyyttä • kuinka ”syvälle” polysemiaan kannattaa mennä? • kaanonit (koko) • kaanonit (kooste) • kaanonit (ohjeet) • kaanonit (sävellykset) • kaanonit (uskonnolliset tuotokset) • YSOssa osa termeistä esitetty myös eri ”funktioissa” (esim. lapset) • YSOssans. kooste-sanoja (termiä voi käyttää useilla aloilla/funktioissa)
YSA – YSO (4) Maantieteelliset nimet YSAssa ja YSOssa • YSAssa mukana n. 5000 paikannimeä (myös luonnonmaantieteellisiä nimiä, kyliä ja kaupunginosien nimiä, koti- ja ulkomaisia paikannimiä) • YSOssa ei maantieteellisiä nimiä, maantieteelliset nimet paikkaontologioissa • SUO, SAPO; sisältävät vain suomalaisia paikannimiä • SAPOssa (Suomen ajallinen paikkaontologia) ei ole mukana kyliä eikä kaupunginosia
YSA – YSO (5) Alanmukaiset ryhmät • YSAssa voidaan selata alanmukaisia ryhmiä • YSOssa ei voida selata alanmukaisia ryhmiä (ainakaan vielä) Vapaa indeksointi • YSAssaohjeet vapaan indeksoinnin sanaryhmien yhteydessä • YSOssa asia ratkaisematta
Selvitettävää: kysymyksiä (1) • Miksi pitäisi siirtyä asiasanoista ontologioihin? • Mitä todellista lisäarvoa ontologiat tuovat sisällönkuvailuun ja tiedonhakuun? Kustannus-hyötyanalyysi! • otettava huomioon, että jo pelkästään YSOn ylläpito vaatii enemmän resursseja kuin YSAn • ontologioilla indeksointi on todennäköisesti hitaampaa kuin perinteisillä asiasanastoilla (huom. asiasanojen eri funktiot) • tiedonhaun ongelmat • Ontologiat luotu lähinnä koneymmärrettäväksi, soveltuvatko ne ihmisen tulkittaviksi?
Selvitettävää: kysymyksiä (2) • Ovatko ontologiat sisällöltään niin valmiita, että niitä voidaan ryhtyä käyttämään? • Maantieteelliset nimet: • SUO ja SAPO (paikannimiontologiat) sisältävät vain suomalaisia paikannimiä, entä ulkomaiset paikannimet (ja niiden suomennokset)? • SAPOssa ei ole mukana kyliä eikä kaupunginosia • ei ole olemassa sellaista paikannimiontologiaa, jossa olisi mukana ulkomaisten paikannimien suomalaiset vastineet (huom. YSAssa on jonkun verran mukana myös ulkomaisten paikannimien suomalaisia nimiä)
Selvitettävää: kysymyksiä (3) • Miten käytetään niitä asiasanoja, jotka eivät ole missään ontologioissa? • esim. vapaan indeksoinnin sanat, numeeriset ajanmääreet: ratkaisematta • Koska asiasanaa ei voi käyttää muussa kuin ontologian esittämässä yhteydessä (sanojen merkitys sidottu tiukasti ko. sanan paikkaan /hierarkiaan ontologiassa, ontologia on siis jäykempi kuin asiasanasto), miten menetellään, jos ko. sanaa tarvitaankin ihan muissa yhteyksissä? • > aina on otettava yhteys ontologian ylläpitäjään -> hidastaa sisällönkuvailutyötä ja vaatii ylläpidolta resursseja • Onko kaikki kirjastotietokannoissa käytettävät asiasanastot ontologisoitava? • resurssit? Sisällöllinen ja tekninen ylläpito? • Entä ulkomaistenasiasanastojen ja ontologioiden käyttö?
Selvitettävää: kysymyksiä (4) • Jos ontologioita ryhdytään käyttämään asiasanoituksessa, pystytäänkö aikaisemmat indeksoinnissa käytetyt asiasanat kytkemään ontologian yhteyteen? Ongelmia, esim. • ontologiassa sanoja eri merkityksissä, kuten • lapset (ikään liittyvä rooli) • lapset (kooste) • lapset (perheenjäsenet) • lapset (sosioekonomiseen ryhmään liittyvä rooli) • - > mihin näistä nyt jo tietokannoissa olevat asiasanat ”lapset” kytketään? Koosteeseenko, mutta mitä hyötyä silloin on ontologiasta? • ontologiassa asiasana tietyssä merkityksessä (tietyssä paikassa kehikossa, hierarkiassa). Tietokannassa on samaa asiasanaa voitu käyttää aivan eri yhteydessä kuin mitä ontologia tarjoaa - > tietokannassa olevaa asiasanaa ei voida kytkeä ontologiassa olevaan sanaan
Selvitettävää: kysymyksiä (5) • Onko teknisiä valmiuksia ryhtyä käyttämään ontologioita sisällönkuvailussa ja tiedonhaussa? • ONKI-palvelun asiasanastoilla/ontologioilla on URI:t , jotka mahdollistavat poiminnan ja tiedonhaussa linkityksen ko. asiasanastoihin/ontologioihin • URI = UniformResourceIdentifier (merkkijono, jolla kerrotaan tietyn tiedon paikka (URL) tai yksikäsitteinen nimi (URN)) • poiminta onnistuu leijukkeen (widget) avulla suoraan järjestelmiin, joissa on toimivat Web Services –rajapinnat (esim. yliopisto- ja korkeakoulukirjastojen järjestelmässä Voyagerissa rajapintaa ei ole) • miten käy ketjutusten?
Kansallinen ontologiakirjasto ONKI (1) http://onki.fi/fi/browser/ (linkki uuteen käyttöliittymään myös VESAssa) ONKI-palvelu, ONKI-selain, ONKI-palvelin FinnONTO-projekti Semanttisen laskennan tutkimusryhmä (SeCO) ONKI-palvelusta tällä hetkellä koekäytössä jo kolmas versio, ONKI-palvelussa aina silloin tällöin bugeja koska ONKIn toiminta on epäluotettavaa, VESA-käyttöliittymä tulee olemaan käytettävissä vielä v. 2011 palaute käyttöliittymästä seco-onki@tml.hut.fi http://www.yso.fi/onki3/fi/overview/ysa (linkki ONKI-palvelun sivulta)
Kansallinen ontologiakirjasto ONKI (2) • KK:n sanastoilla ei ole enää yhteistä ”sateenvarjoa” (VESAa), vaan kukin VESAn sanasto on ”itsenäisenä” sanastonaan ONKI-palvelussa • mukana URI-tunnukset (koneluettavuus) • YSA ja Allärs ovat saatavilla myös raakadatana (avoimen datan periaate) kun tähän saakka niiden termit ovat olleet haettavissa vain yksitellen • ONKI-palvelimella ladattava XML-tiedosto, CreativeCommonsAttribution lisenssin puitteissa sitä voi kuka tahansa käyttää
Kansallinen ontologiakirjasto ONKI (3) • 62 sanastoa/asiasanastoa/ontologiaa • asiasanastoja: YSA, Allärs, MUSA, CILLA, Kaunokki, MESA (Merenkulun asiasanasto), Valtioneuvoston asiasanastojne. • sanasto-ontologioita mm.: KOKO, YSO/ALLSO, MUSO, AFO, KAUNO, MAO, TAO, VALO • YSA, Allärs: ajantasaisia (päivittyvät joka yö, huom. VESA päivittyy kerran viikossa) • epäselvää, kuinka ajantasaisia ONKI-palvelun muut asiasanastot ja ontologiat ovat… • YSO: puuttuu n. 300 YSAn asiasanaa (tänä vuonna YSAan otetut) + kaikki paikannimet
Mitä FinnONTOn jälkeen (1)? • ONKI-palvelinympäristön ylläpito? • mikä taho tulee vastaamaan teknisestä ylläpidosta? • Ryhtyvätkö kirjastot käyttämään ontologioita sisällönkuvailun ja tiedonhaun apuvälineenä? • kuka tekee päätökset? Tehdäänkö ennen päätöstä kustannus-hyötyanalyysi?
Mitä FinnONTOn jälkeen (2)? • Jos kirjastot ryhtyvät käyttämään ontologioita, niin huomattava mm., että • YSO/Allso • YSO/Allson ylläpito vie enemmän resursseja kuin YSA/Allärsin ylläpito (ontologian kehikon monimutkaisuus ja tarkkuus, sanojen monimerkityksisyys) • englanninkielisen version ylläpito • ontologioiden koordinointi • erikoisontologiat • esim. mikä taho ryhtyy tekemään esim. ontologiaa, jossa ovat ulkomaiset paikannimet suomalaisine vastineineen • konsortiomalli (ONKI-konsortio)? • > vaatii ylläpito-organisaatioilta (ja varsinkin koordinoivalta organisaatiolta) melko paljon resursseja
Osoitteita • http://vesa.kansalliskirjasto.fi/ (pääseesekäuuteenettävanhaankäyttöliittymään) • http://onki.fi/fi/browser/(ONKI-palvelu) • http://demo.seco.tkk.fi/onkipaikka/ (SUO = Suomalainenpaikkaontologia) • http://www.yso.fi/onki3/fi/overview/sapo (SAPO = Suomenajallinenpaikkaontologia) • http://www.yso.fi/onki3/fi/overview/koko (KOKO-ontologia) • http://www.yso.fi/?l=fi • http://www.yso.fi/lusto-demo.html (Kantapuu-museotietokanta, hakudemo) • http://wordnet.princeton.edu/ (WordNet) • http://www.yso.fi/onkiwebservice/?o=ysa&l=fi (Web Service -rajapinta)