660 likes | 867 Views
2.4.2009 Eetu Mäkelä Semantic Computing Research Group (SeCo) Helsinki University of Technology (TKK), Department of Media Technology and University of Helsinki, Department of Computer Science http://www.seco.tkk.fi.
E N D
2.4.2009 Eetu Mäkelä Semantic Computing Research Group (SeCo) Helsinki University of Technology (TKK), Department of Media Technology andUniversity of Helsinki, Department of Computer Science http://www.seco.tkk.fi Kulttuurisampo.fi – Suomalainen kulttuuri ja semanttinen web – mitä, miksi ja miten?
Sisältö • Semanttisen webin hyödyt • Suomalainen konteksti: FinnONTO 2.0-projekti • Suomalainen kulttuuri semanttisessa webissä: Kulttuurisampo.fi • Heterogeenisen tiedon yhdistäminen ja älykkäät palvelut • Miten tämä toimii? • Tesauruksista ja sanastoista ontologioihin • Miten pääsen mukaan? Mitä apuja on?
Sisältö • Semanttisen webin hyödyt • Suomalainen konteksti: FinnONTO 2.0-projekti • Suomalainen kulttuuri semanttisessa webissä: Kulttuurisampo.fi • Heterogeenisen tiedon yhdistäminen ja älykkäät palvelut • Miten tämä toimii? • Tesauruksista ja sanastoista ontologioihin • Miten pääsen mukaan? Mitä apuja on?
Miksi semanttinen web? • Jos semanttisesta webistä tulee totta, seuraavat asiat muuttuvat halvemmiksi toteuttaa: • Älykkäämmät ja siten käyttökelpoisemmat webpalvelut • Sisällöntuotannon tehostaminen • Sisällön uusiokäyttö • Sisällöntuotannon hajauttaminen • Eri toimijoiden tuottamien sisältöjen yhdistäminen • Kieli- ja kulttuurirajojen ylittäminen palveluissa • Yhteentoimivat eri toimijoiden ohjelmistojärjestelmät • Ohjelmistopalvelujen uudelleenkäyttö ja jakaminen eri toimijoiden välillä • Web 2.0-ideologiassakin pääosassa yhteisöllisyys ja tietojen ja palvelujen yhdistäminen. Semanttinen web tarjoaa seuraavan sukupolven teknologia-alustan web 2.0-ideologialle → Web 3.0
Mikä semanttinen web? • Hyvin lyhyesti: semanttinen web on teknologia, jossa tieto ja ymmärrys koodataan niin että tyhmä konekin sen ymmärtää • Kansainvälinen konteksti: Yksi keskeinen sovellusalue on World Wide Webin (WWW) seuraava sukupolvi • Tunnetuin puolestapuhuja webin ”isä” prof. Tim Berners-Lee • Teknologian kypsyys: • Standardit W3C:n ylimmässä standardiluokassa • Oracle 10.2 tukee semanttisen webin teknologioita • Adoben tuotteiden metadatan tallennus kauttaaltaan SW-pohjaista • Euroopan digitaalisen kirjastoportaalin Europeanan kehittyneempi versio rakennetaan SW-teknologialle
Suomalainen konteksti: FinnONTO-projekti • Tekes-tutkimushanke, tutkimusosapuolina TKK, Helsingin yliopisto ja Tampereen yliopisto • Ydintavoite: luoda Suomelle yhteinen kansallinen semanttisen webin infrastruktuuri, joka mahdollistaa teknologian hyödyntämisen mahdollisimman halvalla • Käytännössä: • Loppukäyttäjille suunnattuja palvelukonsepteja ja työkaluja niiden toteuttamiseen (Kulttuurisampo, TerveSuomi.fi, Opintie, ...) • Apuvälineitä tiedon tuotantoon ja yhdistämiseen • Pääpaino organisaatioiden yhteistoiminnassa (yksilöt mukaan 2009) • Käynnistyi vuonna 2003 • 2003-2004: 14 rahoittajaa • 2004-2005: 16 rahoittajaa • 2005-2006: 30 rahoittajaa • 2006-2007: 37 rahoittajaa • 2008-2009: 38 rahoittajaa • 2009-2010: uusi haku, tervetuloa mukaan!
Sininen Meteoriitti Oy Stakes Suomen Asiakastieto Oy Suomalaisen kirjallisuuden seura SKS Suomen valokuvataiteen museo Taideteollisen korkeakoulun kirjasto Terveyden edistämisen keskus (Tekry) TietoEnator Oyj Valtion taidemuseo Valtiovarainministeriö / ValtIT Wärtsilä Oyj FinnONTO-projektin rahoittajat 2008-2009 • Kansallisarkisto • Kansalliskirjasto • Kansanterveyslaitos • Koulutuskeskus Dipoli • Maa- ja metsätalousministeriö • Maanmittauslaitos • M-Cult • Merenkulkulaitos • Museovirasto • Mysema Oy • Osuuspankkikeskus OSK • PKT-Säätiö • Profium Oy • Rautaruukki Oyj • Sanastokeskus TSK • AAC Global Oy • Antikvaria-ryhmä • CelAmanzi Oy • Connexor Oy • Coronaria Oy • Eduskunta • Ego Beta Oy • Elisa Oy • Espoon kaupunginmuseo • Geol. tutkimusk. GTK • Hgin kaupunginkirjasto • Hgin yliopiston Viikin tiedekirjasto • Pilotointialueet 2008-2009: kulttuuri, terveydenhuolto, yrityspalvelut, asiakirjanhallinta
Sisältö • Semanttisen webin hyödyt • Suomalainen konteksti: FinnONTO 2.0-projekti • Suomalainen kulttuuri semanttisessa webissä: Kulttuurisampo.fi • Heterogeenisen tiedon yhdistäminen ja älykkäät palvelut • Miten tämä toimii? • Tesauruksista ja sanastoista ontologioihin • Miten pääsen mukaan? Mitä apuja on?
Kulttuurisampo.fi – Mistä on kyse? • Kulttuurisampo on keskitetty web-portaali, joka esittelee semanttisen webin teknologioista saatavaa lisäarvoa monimuotoisten ja monilähteisten kulttuurisisältöjen yhteisöllisessä julkaisussa • Valokuvat (Kuopion kulttuurihistoriallinen museo, Kansallismuseo) • Ilmavalokuvat (Veljekset Karhumäki Oy) • Henkilöt ja organisaatiot (Getty Union List of Artist Names) • Biografiat (Kansallisbiografia, SKS) • Historialliset tapahtumat (Agricola – Suomen historiaverkko) • Taidot (Taideteollisen korkeakoulun kirjasto, Suomen maatalousmuseo Sarka) • Videot (Espoon kaupunginmuseo) • Rakennetut kohteet (Espoon kaupunginmuseo) • Muinaismuistokohteet (Museovirasto) • Museoesineet (Espoon kaupunginmuseo, Lahden kaupunginmuseo, Kansallismuseo, Pohjois-Karjalan museo, Suomen maatalousmuseo Sarka) • Maalaukset, veistokset, piirustukset ja muu esittävä ja abstrakti taide (Valtion taidemuseo) • Kaunokirjallisuus (Helsingin kaupunginkirjasto) • WWW-tietosivut (Wikipedia) • Runot (ml. Kalevala) (Suomen kansan vanhat runot, SKS) • Kalevalan paikat ja henkilöt • Kansansävelmät (Jyväskylän yliopiston musiikin laitos ja SKS)
Kulttuurisammon teknologia mahdollistaa: • Eri toimijoiden eri tyyppisiä objekteja sisältävien tietokantojen yhdistämisen kustannustehokkaasti ja mielekkäästi • Moniaineistoselailun ja suosittelun • Kalevalan tekstistä kuvien kautta maalarin elämänkertaan • Paremmat hakutoiminnot • Historialliset paikat, Ontologinen tekstihaku • Yhteyksien löytämisen ja visualisoinnin • Mitä yhteistä on Akseli Gallen-Kallelalla ja Napoleonilla? • Aineiston jäsentelyn ja esitysten muodostamisen • Näyttely, aikajana, karttanäkymä Kaikki tämä ihmisen ymmärtämien merkitysten tasolla, kielestä riippumatta
Kulttuurisammon teknologia mahdollistaa: • Eri toimijoiden eri tyyppisiä objekteja sisältävien tietokantojen yhdistämisen kustannustehokkaasti ja mielekkäästi • Moniaineistoselailun ja suosittelun • Kalevalan tekstistä kuvien kautta maalarin elämänkertaan • Paremmat hakutoiminnot • Historialliset paikat, Ontologinen tekstihaku • Yhteyksien löytämisen ja visualisoinnin • Mitä yhteistä on Akseli Gallen-Kallelalla ja Napoleonilla? • Aineiston jäsentelyn ja esitysten muodostamisen • Näyttely, aikajana, karttanäkymä Kaikki tämä ihmisen ymmärtämien merkitysten tasolla, kielestä riippumatta
Kulttuurisammon teknologia mahdollistaa: • Eri toimijoiden eri tyyppisiä objekteja sisältävien tietokantojen yhdistämisen kustannustehokkaasti ja mielekkäästi • Moniaineistoselailun ja suosittelun • Kalevalan tekstistä kuvien kautta maalarin elämänkertaan • Paremmat hakutoiminnot • Historialliset paikat, Ontologinen tekstihaku • Yhteyksien löytämisen ja visualisoinnin • Mitä yhteistä on Akseli Gallen-Kallelalla ja Napoleonilla? • Aineiston jäsentelyn ja esitysten muodostamisen • Näyttely, aikajana, karttanäkymä Kaikki tämä ihmisen ymmärtämien merkitysten tasolla, kielestä riippumatta
Kulttuurisammon teknologia mahdollistaa: • Eri toimijoiden eri tyyppisiä objekteja sisältävien tietokantojen yhdistämisen kustannustehokkaasti ja mielekkäästi • Moniaineistoselailun ja suosittelun • Kalevalan tekstistä kuvien kautta maalarin elämänkertaan • Paremmat hakutoiminnot • Historialliset paikat, Ontologinen tekstihaku • Yhteyksien löytämisen ja visualisoinnin • Mitä yhteistä on Akseli Gallen-Kallelalla ja Napoleonilla? • Aineiston jäsentelyn ja esitysten muodostamisen • Näyttely, aikajana, karttanäkymä Kaikki tämä ihmisen ymmärtämien merkitysten tasolla, kielestä riippumatta
Kulttuurisammon teknologia mahdollistaa: • Eri toimijoiden eri tyyppisiä objekteja sisältävien tietokantojen yhdistämisen kustannustehokkaasti ja mielekkäästi • Moniaineistoselailun ja suosittelun • Kalevalan tekstistä kuvien kautta maalarin elämänkertaan • Paremmat hakutoiminnot • Historialliset paikat, Ontologinen tekstihaku • Yhteyksien löytämisen ja visualisoinnin • Mitä yhteistä on Akseli Gallen-Kallelalla ja Napoleonilla? • Aineiston jäsentelyn ja esitysten muodostamisen • Näyttely, aikajana, karttanäkymä Kaikki tämä ihmisen ymmärtämien merkitysten tasolla, kielestä riippumatta
Hyötyä myös koneille: Kulttuurisammon Web 2.0-arkkitehtuuri • Kulttuurisammon sekä toiminnallisuus että käyttöliittymät on rakennettu yleisistä, uudelleenkäytettävistä palikoista • Tästä johtuen lähes kaikki Kulttuurisammon toiminnallisuus on kenen tahansa omaan palveluun liitettävissä • http://www.seco.tkk.fi/applications/kulttuurisampo/ • Tulevia käyttäjiä: • Yleisten kirjastojen kaunokirjallisuusportaali Kirjasampo • SmartMuseum EU-hanke
Sisältö • Semanttisen webin hyödyt • Suomalainen konteksti: FinnONTO 2.0-projekti • Suomalainen kulttuuri semanttisessa webissä: Kulttuurisampo.fi • Heterogeenisen tiedon yhdistäminen ja älykkäät palvelut • Miten tämä toimii? • Tesauruksista ja sanastoista ontologioihin • Miten pääsen mukaan? Mitä apuja on?
Tesauruksista ja luokituksista ontologioihin • Semanttinen web perustuu pitkälti ontologoihin, jotka ovat tesaurusten ja luokitusten sukulaisia. Mikseivät tesaurukset ja luokitukset sitten riitä? • Tesaurukset ja luokitukset suunnitellaan yleisesti ihmiskäyttäjää varten. Kone on tyhmempi, ja tarvitsee tarkemmin määriteltyä tietoa • Ontologiat määrittelevät käsitteiden suhteet formaalisti ja tarkasti niin että sekä ihmiset että koneet voivat niitä käyttää • Lisähyötynä keskittymällä formaaleihin käsitemalleihin päästään eroon kieli- ja kulttuuririippuvasta ajattelusta. Neutraaleille käsitteille voidaan sitten antaa nimi/kirjoittaa kuvaus kaikilla halutuilla kielillä.
Esimerkki ongelmasta: Suomen Museot OnLine -formaatti • Myös kentät jotka ovat aikaisemmin olleet vain vapaatekstiä pitää saattaa yhdenmukaisiksi • Päivämäärät/vuodet • ”1768, jälk.” • ”1300-luku, keskiaika” • ”1870 - 1960, 1870-n.1960” • ”, n. 1965 - talvi 1976-77” • Henkilöt • "K. E. Ståhlberg" • "Ståhlberg, K. E." • Paikat • ”, Suomi, Karjala, Viipurin pitäjä, Hanhijoki, asuinrakennus” • ”Marokko, Sus (Sous)” • ”Lappi” -> Koneluettavuus kärsii, käsittelyyn tarvitaan käsityötä (n. 90% ohjelmakoodista aineiston korjailuun)
Esimerkkejä ontologisoinnista: YSA->YSO Aurinkokunta • Ovatko komeetat aurinkokuntia vai niiden osia? • Onko Halleyn komeetta yksilö vai luokka? LT Komeetta LT Halleyn komeetta Aurinkokunta Taivaankappale • Ontologiatyössä: • Yksilöt erotetaan luokista • Luokat asetetaan taksonomiseen hierarkiaan • Asioiden väliset suhteet erotellaan • Suhteiden merkitys kirjataan formaalisti partOf subClassOf Komeetta type Halleyn komeetta
Esimerkkejä käsitteiden ja yksilöiden merkitysten erottelusta • Ontologiatyössä: • Sanojen eri merkitykset erotellaan • Jokaiselle käsitteelle ja yksilölle annetaan oma globaali yksilötunnisteensa (URI) • Nokia yrityksenä <-> Nokia kaupunkina • Suomen 49 Pyhäjärvi-nimistä paikkaa
Sisältö • Semanttisen webin hyödyt • Suomalainen konteksti: FinnONTO 2.0-projekti • Suomalainen kulttuuri semanttisessa webissä: Kulttuurisampo.fi • Heterogeenisen tiedon yhdistäminen ja älykkäät palvelut • Miten tämä toimii? • Tesauruksista ja sanastoista ontologioihin • Miten pääsen mukaan? Mitä apuja on?