210 likes | 339 Views
Jani Stenvall 2005-02-17 Sähköisen julkaisemisen workshop, Viikki. Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys. Kansalliskirjasto?. Helsingin yliopiston kirjasto – Suomen kansalliskirjasto HY:n alainen erillislaitos Kaksinainen rooli: paikallispalvelut + kansalliset tehtävät
E N D
Jani Stenvall 2005-02-17 Sähköisen julkaisemisen workshop, Viikki Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys
Kansalliskirjasto? • Helsingin yliopiston kirjasto – Suomen kansalliskirjasto • HY:n alainen erillislaitos • Kaksinainen rooli: paikallispalvelut + kansalliset tehtävät • Toimialan laajennusprosessi käynnissä (kirjastoverkon palvelut) • Kolme toimipaikkaa • Pääkirjasto (Hki keskusta) • Vallila (mm. tietokantapalvelut) • Mikkeli (Mikrofilmaus, digitointi, konservointi)
Verkkojulkaisut • Mikä on verkkojulkaisu? • Yksittäinen dokumentti vs. web-sivu vs. web-sivusto • Eri toimijat, eri näkemykset • Kaupalliset kustantajat • Yliopistot, tutkimuslaitokset tms. • Julkishallinnon eri organisaatiot • Yritykset ja järjestöt • Yksityiset
Yliopistojen, tutkimuslaitoksten verkkojulkaisut • Laajat web-sivustot + • “Oikeita” julkaisuja: Raportit, selvitykset, opinnäytteet, artikkelit, sarjajulkaisut, oppimateriaalit… • Usein painettu esikuva olemassa • PDF hallitsee • Uskomus: vähän hyödynnetty digitaalisen dokumentin mahdollisuuksia • Monilla käytössä oma julkaisutietokanta (-arkisto, -rekisteri)
Digitaalinen julkaiseminen: valikoituja trendejä • Yliopistojen ja oppilaitosten kasvava verkkojulkaiseminen • Open Access - tieteellisten julkaisujen vapaa saatavuus sekä avoimet julkaisuarkistot • OAI (Open Archives Iniative) sekä OAI-PMH (= Open Archives Iniative – Protocol for Metadata Harvesting) • Muutos tavallisista web-sivuista tietokantapohjaisiin sivustoihin tai julkaisurekistereihin • Kaupalliset ohjelmistot ja ilmaisohjelmistot • Open source –ohjelmistot • Itse rakennetut • Semanttinen web
Kansalliskirjasto ja digitaalinen julkaisemisen trendit • Kansalliskirjaston oma verkkojulkaisutoiminta • Digitointi • Omien digiaineistojen hallinta ja järkevien palvelujen rakentaminen • Muita vaikutuksia kansalliskirjaston toimintaan • Digitaalisen kirjaston kehittäminen (tiedonhakuportaali, kirjastojärjestelmä, digitaalisten dokumenttien hallintajärjestelmät) • Digiaineistojen arkistointi ja pitkäaikaissäilytys (vapaakappalelaki) • Metadataformaattien ja id-tunnusten tuki • Mukana Open access –kehityksessä mm. tavoitteena tukea avoimia julkaisuarkistoja (OAI-PMH) • Mukana myös semanttisen webin kehityksessä (ns. ontologiakehityksessä)
Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys: Vapaakappalelain uudistus • Vapaakappalelaki • Nykyinen laki vuodelta 1980 • Uusi lakiluonnos esitetty opetusministerille 2003, eduskuntakäsittelyä odotellaan (Tekijänoikeuslain uudistus vaikuttaa myös) • Aikataulu uudelle laille yhä avoin • Valmistautuminen kuitenkin jo käynnissä • Uusi vapaakappalelaki, uudet vastuut • Kansalliskirjasto • kansallisten verkkoaineistojen tallennus: ”edustavasti ja monipuolisesti avoimissa tietoverkoissa eri aikoina yleisön saatavilla olevaa aineistoa” • tallenteiden (cd-rom etc.) tallennus • Suomen Elokuva-arkisto • Kotimaisten radio- ja tv-ohjelmien keräys ja tallennus
Suomalaisen web-sisällön arkistointi lakiluonnoksen mukaan • Lakiluonnoksessa periaatteessa määritelty kaksi tapaa: • Keräysohjelmalla haravoidaan kansallista web-avaruutta ja sen osia • Jos aineistoa ei voida automaattisesti kerätä ja kansalliskirjasto toteaa sen merkittäväksi: • kirjasto tekee ilmoituksen verkkojulkaisijalle => verkkojulkaisija luovuttaa aineiston tai ”mahdollistaa” kirjastolle aineiston tallennuksen (velvoite) • esim. maksulliset web-julkaisut, tietokannan kautta saatavia julkaisuja tai muita ”näkymättömän webin” aineistoja • Verkkojulkaisukokoelmien luominen yhteistyössä julkaisijoiden kanssa
Sivuhyppy: Ketkä kaikki ”arkistoivat” verkkoaineistoja? • Yleensä kansalliskirjastot : kontekstina vapaakappalelainsäädäntö tai muu mandaatti • Esim. pohjoismaat, Australia, Ranska, UK, Italia, USA... • Internet Archive (globaalisti) • www.archive.org • Muut organisaatiot • ”Itse-arkistointi” • Yhteistyötä: International Internet Preservation Consortium (IIPC) • www.netpreserve.org
Sivuhyppy: Verkkoaineistojen arkistoinnin kaksi päälinjaa • Valintaan (ja arkistointilupaan) perustuvat • Identifioidaan tallennettavat sivustot/dokumentit ja pyydetään lupa arkistointiin sivuston omistajalta • Laaja haravointi (harvesting, crawling) • Automaattisilla keräysohjelmilla kerätään suuria määriä dataa määritellyllä laajuudella (ilman yksittäisiä arkistointilupia = oikeutus yleensä lainsäädännössä) • esim. maa-domain tasolla (fi, se, fr...) • Verkkoarkistoinnin haasteita • Itse keräys, saman sivun eri versiot • Pitkäaikaissäilytys ja käytettävyys • Näkymätön web, web tietokannat tms. • Yhteistyö verkkojulkaisijoiden kanssa
Verkkoaineistojen arkistoinnin suunnitelmia kansalliskirjastossa • Internet/www-aineistojen tallennus ja säilytys • Ohjelmallisesti tallentaminen (= haravointiohjelmat) • Julkaisijan/kustantajan avulla • Tallennettu aineisto lakipykälien mukaiseen käyttöön: tutkijakäyttö (tai muut tarvitsijat), vain paikallisesti (vapaakappalekirjastot) • Vapaakappalelaki kattaa vain tämän, se ei poista esim. organisaation muita säilytysvelvoitteita • Digitaalisen aineiston pitkäaikaissäilytykseen tulee panostaa
Verkkoaineistojen arkistoinnin suunnitelmia kansalliskirjastossa 2 • Kokoelmapolitiikan ja digiarkisto(je)n määrittely • Perustetaan vapaakappaletoiminnan neuvottelukunta • Web-sivut vs. verkkojulkaisut? • Web-sivujen keräyksen nykysuunnitelmat • 1-2 kertaa vuodessa tehdään laaja haravointikierros (kaikki kotimainen mitä löydetään), massakeräys • Kerätään tiheämmin joitakin usein päivttyviä sivustoja (esim. uutissivustot, lehdistö, media) • Teemakeräyksiä (esim. vaalisivustot) • Verkkojulkaisut • Hyvien verkkojulkaisukokoelmien luominen yhteistyössä julkaisijoiden kanssa • Yksilöllinen käsitely, kuvailu ja pitkäaikaissäilytyksen metadata • Mahdolliset kytkökset ISBN- ja ISSN-tunnuksiin • Vapaaehtoisesti luovutettuja julkaisuja otetaan jo nyt vastaan
Suomalainen web Haravointi Julkaisija luovuttaa Julkaisijan tarjoama erillinen metadata Datavarasto(t) Metadata-tietokanta Full text indeksi Kaksi linjaa web-aineistojen vapaakappalearkistointiin ”Verkkoarkisto” ”Luovutetun aineiston arkisto” Käyttöliittymät Veera Doria
“Luovutetun aineiston arkisto” Julkaisut joita ei voida kerätä haravointiohjelmistolla (käyttörajoitetut julkaisut, näkymättömän webin aineistoja, kokoelmia) Julkaisut jotka on määritelty laadukkaiksi (?) (esim. julkaisusarjat, e-kirjat) Julkaisut jotka halutaan luetteloida kansallisbibliografiaan (Fennica) Mahdollimman rikasta metadataa julkaisukohtaisesti Kokoelma-ajattelu Digiarkistojen kaksi linjaa • “Verkkoarkisto” • Web-sivut ja sivustot • Kansallinen domain (.fi) + muut domain-nimet jotka tiedetään suomalaisiksi (com, net, org...) • html, gif, jpeg... • Jotkut sivustot joissa id + salasana • Haravoinnin kohteet ja rajoitteet • Kokoteksti-indeksointi, automaattisesti hyödynnettävä metadata
Verkkoarkisto: Veera • Veera-käyttöliittymä: Nordic Web Archive Toolset • Haravointi: Heritrix • Indeksointi: FAST • Datan tallennus • Tällä hetkellä testikeräyksissä kerättyä dataa noin 1,5 TB • Aineisto tallennettu ns. ARC-formaatissa (Heritrix), mukana metadataa • Kokonaissuunnittelu käynnissä digiarkistojen teknisestä ”tuotantoympäristöstä”, joka rakennetaan siinä vaiheessa kun vapaakappalelain uudistus on hyväksytty
Doria - käyttöympäristö • Doria on luonteeltaan ns. Digital Object Management System (DOMS) • Tuotenimi: ENCompass for Digital Collections • Käytössä kansalliskirjastossa (ja tulossa käyttöön myös muissa yliopisto- ja AMK-kirjastoissa) • Julkaisukokoelmat + metadatakuvailut julkaisuista • Metadata muokattavissa vapaasti aineistojen ehdoilla • Käyttöoikeudet määriteltävissä • Hakukäyttöliittymä voidaan rakentaa jokaiseen kokoelmaan erikseen (jos niin halutaan)
Doria ja vapaakappalejulkaisut (“Luovutetun aineiston arkisto”) • Aineisto jota ei haravoida verkkoarkistoon, liitetään haettavaksi ja käytettäväksi Doriaan • Ratkottava: • Dorian vapaakappalekokoelman rakenne • Metadataformaatti, joka tulee julkaisujen hallintaa ja pitkäaikaissäilytystä • Olemassa olevan metadatan hyödyntäminen • E.g. MARC-tietueet, metadataa verkkojulkaisijalta, OAI-PMH
Yliopistojen ja tutkimuslaitosten tms. verkkojulkaisut ja vapaakappaleet • Web-sivut • haravointi • ”Oikeat” julkaisut • Laadukkaita julkaisuja, joita kansalliskirjasto haluaisi tallentaa tulevien tutkijoiden käyttöön. Mikäli mahdollista -> kokoelmaksi Doriaan • Päällekkäisyyksiä tässä tulee olemaan • Haravoinnin mukana tulee/voi tulla myös “oikeat” julkaisut • Ohjeet ja suositukset verkkojulkaisijoille • Mahdollisimman vähän työtä verkkojulkaisijoille
Digiaineistojen pitkäaikaissäilytys • Digitaalisen aineiston säilyvyydessä on ongelmia • tietotekninen kehitys tuottaa uusia tuotteita, formaatteja • Säilyvyys epävarmaa ja kallis toteuttaa • OAIS-malli (Open Archival Information System) • Pitkäaikaissäilytyksen menetelmiä kehitetään • Yksi ratkaisu on tukeutua metadataan • kuvailemalla objekteja niiden säilyvyyttä voidaan parantaa
Digiaineistojen pitkäaikaissäilytys Suomessa • Kansalliskirjasto, Kansallisarkisto, Suomen elokuva-arkisto, Yhteiskuntatieteellinen tietoarkisto ja CSC ovat aloittamassa pitkäaikaissäilytyksen yhteistyötä • Joitakin näkemyksiä • Tarvitaan pitkäaikaissäilytystä kuvaavaa metadata • Tallennetaan metadata myös itse objektin yhteyteen • “Migration” lienee järkevintä kirjastoympäristössä • Tiedostoformaattien elinkyvyn seuraaminen (ks. Digital format repositories) • Prosessien luominen (automatisointi, autenttisuuden varmistaminen) • Seurataan ja osallistutaan kv-kehitykseen • Resurssointi?
Lisätietoja • Vapaakappalekuviosta • http://www.lib.helsinki.fi/julkaisuala/vapaakappaleet/ • Jos kiinnostaa julkaisujen vapaaehtoinen luovutus vapaakappalekokoelmaan • Yhteydenotot mieluiten sähköpostilla: e-vapaa@helsinki.fi