1 / 21

Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Jani Stenvall 2005-02-17 Sähköisen julkaisemisen workshop, Viikki. Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys. Kansalliskirjasto?. Helsingin yliopiston kirjasto – Suomen kansalliskirjasto HY:n alainen erillislaitos Kaksinainen rooli: paikallispalvelut + kansalliset tehtävät

zihna
Download Presentation

Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Jani Stenvall 2005-02-17 Sähköisen julkaisemisen workshop, Viikki Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

  2. Kansalliskirjasto? • Helsingin yliopiston kirjasto – Suomen kansalliskirjasto • HY:n alainen erillislaitos • Kaksinainen rooli: paikallispalvelut + kansalliset tehtävät • Toimialan laajennusprosessi käynnissä (kirjastoverkon palvelut) • Kolme toimipaikkaa • Pääkirjasto (Hki keskusta) • Vallila (mm. tietokantapalvelut) • Mikkeli (Mikrofilmaus, digitointi, konservointi)

  3. Verkkojulkaisut • Mikä on verkkojulkaisu? • Yksittäinen dokumentti vs. web-sivu vs. web-sivusto • Eri toimijat, eri näkemykset • Kaupalliset kustantajat • Yliopistot, tutkimuslaitokset tms. • Julkishallinnon eri organisaatiot • Yritykset ja järjestöt • Yksityiset

  4. Yliopistojen, tutkimuslaitoksten verkkojulkaisut • Laajat web-sivustot + • “Oikeita” julkaisuja: Raportit, selvitykset, opinnäytteet, artikkelit, sarjajulkaisut, oppimateriaalit… • Usein painettu esikuva olemassa • PDF hallitsee • Uskomus: vähän hyödynnetty digitaalisen dokumentin mahdollisuuksia • Monilla käytössä oma julkaisutietokanta (-arkisto, -rekisteri)

  5. Digitaalinen julkaiseminen: valikoituja trendejä • Yliopistojen ja oppilaitosten kasvava verkkojulkaiseminen • Open Access - tieteellisten julkaisujen vapaa saatavuus sekä avoimet julkaisuarkistot • OAI (Open Archives Iniative) sekä OAI-PMH (= Open Archives Iniative – Protocol for Metadata Harvesting) • Muutos tavallisista web-sivuista tietokantapohjaisiin sivustoihin tai julkaisurekistereihin • Kaupalliset ohjelmistot ja ilmaisohjelmistot • Open source –ohjelmistot • Itse rakennetut • Semanttinen web

  6. Kansalliskirjasto ja digitaalinen julkaisemisen trendit • Kansalliskirjaston oma verkkojulkaisutoiminta • Digitointi • Omien digiaineistojen hallinta ja järkevien palvelujen rakentaminen • Muita vaikutuksia kansalliskirjaston toimintaan • Digitaalisen kirjaston kehittäminen (tiedonhakuportaali, kirjastojärjestelmä, digitaalisten dokumenttien hallintajärjestelmät) • Digiaineistojen arkistointi ja pitkäaikaissäilytys (vapaakappalelaki) • Metadataformaattien ja id-tunnusten tuki • Mukana Open access –kehityksessä mm. tavoitteena tukea avoimia julkaisuarkistoja (OAI-PMH) • Mukana myös semanttisen webin kehityksessä (ns. ontologiakehityksessä)

  7. Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys: Vapaakappalelain uudistus • Vapaakappalelaki • Nykyinen laki vuodelta 1980 • Uusi lakiluonnos esitetty opetusministerille 2003, eduskuntakäsittelyä odotellaan (Tekijänoikeuslain uudistus vaikuttaa myös) • Aikataulu uudelle laille yhä avoin • Valmistautuminen kuitenkin jo käynnissä • Uusi vapaakappalelaki, uudet vastuut • Kansalliskirjasto • kansallisten verkkoaineistojen tallennus: ”edustavasti ja monipuolisesti avoimissa tietoverkoissa eri aikoina yleisön saatavilla olevaa aineistoa” • tallenteiden (cd-rom etc.) tallennus • Suomen Elokuva-arkisto • Kotimaisten radio- ja tv-ohjelmien keräys ja tallennus

  8. Suomalaisen web-sisällön arkistointi lakiluonnoksen mukaan • Lakiluonnoksessa periaatteessa määritelty kaksi tapaa: • Keräysohjelmalla haravoidaan kansallista web-avaruutta ja sen osia • Jos aineistoa ei voida automaattisesti kerätä ja kansalliskirjasto toteaa sen merkittäväksi: • kirjasto tekee ilmoituksen verkkojulkaisijalle => verkkojulkaisija luovuttaa aineiston tai ”mahdollistaa” kirjastolle aineiston tallennuksen (velvoite) • esim. maksulliset web-julkaisut, tietokannan kautta saatavia julkaisuja tai muita ”näkymättömän webin” aineistoja • Verkkojulkaisukokoelmien luominen yhteistyössä julkaisijoiden kanssa

  9. Sivuhyppy: Ketkä kaikki ”arkistoivat” verkkoaineistoja? • Yleensä kansalliskirjastot : kontekstina vapaakappalelainsäädäntö tai muu mandaatti • Esim. pohjoismaat, Australia, Ranska, UK, Italia, USA... • Internet Archive (globaalisti) • www.archive.org • Muut organisaatiot • ”Itse-arkistointi” • Yhteistyötä: International Internet Preservation Consortium (IIPC) • www.netpreserve.org

  10. Sivuhyppy: Verkkoaineistojen arkistoinnin kaksi päälinjaa • Valintaan (ja arkistointilupaan) perustuvat • Identifioidaan tallennettavat sivustot/dokumentit ja pyydetään lupa arkistointiin sivuston omistajalta • Laaja haravointi (harvesting, crawling) • Automaattisilla keräysohjelmilla kerätään suuria määriä dataa määritellyllä laajuudella (ilman yksittäisiä arkistointilupia = oikeutus yleensä lainsäädännössä) • esim. maa-domain tasolla (fi, se, fr...) • Verkkoarkistoinnin haasteita • Itse keräys, saman sivun eri versiot • Pitkäaikaissäilytys ja käytettävyys • Näkymätön web, web tietokannat tms. • Yhteistyö verkkojulkaisijoiden kanssa

  11. Verkkoaineistojen arkistoinnin suunnitelmia kansalliskirjastossa • Internet/www-aineistojen tallennus ja säilytys • Ohjelmallisesti tallentaminen (= haravointiohjelmat) • Julkaisijan/kustantajan avulla • Tallennettu aineisto lakipykälien mukaiseen käyttöön: tutkijakäyttö (tai muut tarvitsijat), vain paikallisesti (vapaakappalekirjastot) • Vapaakappalelaki kattaa vain tämän, se ei poista esim. organisaation muita säilytysvelvoitteita • Digitaalisen aineiston pitkäaikaissäilytykseen tulee panostaa

  12. Verkkoaineistojen arkistoinnin suunnitelmia kansalliskirjastossa 2 • Kokoelmapolitiikan ja digiarkisto(je)n määrittely • Perustetaan vapaakappaletoiminnan neuvottelukunta • Web-sivut vs. verkkojulkaisut? • Web-sivujen keräyksen nykysuunnitelmat • 1-2 kertaa vuodessa tehdään laaja haravointikierros (kaikki kotimainen mitä löydetään), massakeräys • Kerätään tiheämmin joitakin usein päivttyviä sivustoja (esim. uutissivustot, lehdistö, media) • Teemakeräyksiä (esim. vaalisivustot) • Verkkojulkaisut • Hyvien verkkojulkaisukokoelmien luominen yhteistyössä julkaisijoiden kanssa • Yksilöllinen käsitely, kuvailu ja pitkäaikaissäilytyksen metadata • Mahdolliset kytkökset ISBN- ja ISSN-tunnuksiin • Vapaaehtoisesti luovutettuja julkaisuja otetaan jo nyt vastaan

  13. Suomalainen web Haravointi Julkaisija luovuttaa Julkaisijan tarjoama erillinen metadata Datavarasto(t) Metadata-tietokanta Full text indeksi Kaksi linjaa web-aineistojen vapaakappalearkistointiin ”Verkkoarkisto” ”Luovutetun aineiston arkisto” Käyttöliittymät Veera Doria

  14. “Luovutetun aineiston arkisto” Julkaisut joita ei voida kerätä haravointiohjelmistolla (käyttörajoitetut julkaisut, näkymättömän webin aineistoja, kokoelmia) Julkaisut jotka on määritelty laadukkaiksi (?) (esim. julkaisusarjat, e-kirjat) Julkaisut jotka halutaan luetteloida kansallisbibliografiaan (Fennica) Mahdollimman rikasta metadataa julkaisukohtaisesti Kokoelma-ajattelu Digiarkistojen kaksi linjaa • “Verkkoarkisto” • Web-sivut ja sivustot • Kansallinen domain (.fi) + muut domain-nimet jotka tiedetään suomalaisiksi (com, net, org...) • html, gif, jpeg... • Jotkut sivustot joissa id + salasana • Haravoinnin kohteet ja rajoitteet • Kokoteksti-indeksointi, automaattisesti hyödynnettävä metadata

  15. Verkkoarkisto: Veera • Veera-käyttöliittymä: Nordic Web Archive Toolset • Haravointi: Heritrix • Indeksointi: FAST • Datan tallennus • Tällä hetkellä testikeräyksissä kerättyä dataa noin 1,5 TB • Aineisto tallennettu ns. ARC-formaatissa (Heritrix), mukana metadataa • Kokonaissuunnittelu käynnissä digiarkistojen teknisestä ”tuotantoympäristöstä”, joka rakennetaan siinä vaiheessa kun vapaakappalelain uudistus on hyväksytty

  16. Doria - käyttöympäristö • Doria on luonteeltaan ns. Digital Object Management System (DOMS) • Tuotenimi: ENCompass for Digital Collections • Käytössä kansalliskirjastossa (ja tulossa käyttöön myös muissa yliopisto- ja AMK-kirjastoissa) • Julkaisukokoelmat + metadatakuvailut julkaisuista • Metadata muokattavissa vapaasti aineistojen ehdoilla • Käyttöoikeudet määriteltävissä • Hakukäyttöliittymä voidaan rakentaa jokaiseen kokoelmaan erikseen (jos niin halutaan)

  17. Doria ja vapaakappalejulkaisut (“Luovutetun aineiston arkisto”) • Aineisto jota ei haravoida verkkoarkistoon, liitetään haettavaksi ja käytettäväksi Doriaan • Ratkottava: • Dorian vapaakappalekokoelman rakenne • Metadataformaatti, joka tulee julkaisujen hallintaa ja pitkäaikaissäilytystä • Olemassa olevan metadatan hyödyntäminen • E.g. MARC-tietueet, metadataa verkkojulkaisijalta, OAI-PMH

  18. Yliopistojen ja tutkimuslaitosten tms. verkkojulkaisut ja vapaakappaleet • Web-sivut • haravointi • ”Oikeat” julkaisut • Laadukkaita julkaisuja, joita kansalliskirjasto haluaisi tallentaa tulevien tutkijoiden käyttöön. Mikäli mahdollista -> kokoelmaksi Doriaan • Päällekkäisyyksiä tässä tulee olemaan • Haravoinnin mukana tulee/voi tulla myös “oikeat” julkaisut • Ohjeet ja suositukset verkkojulkaisijoille • Mahdollisimman vähän työtä verkkojulkaisijoille

  19. Digiaineistojen pitkäaikaissäilytys • Digitaalisen aineiston säilyvyydessä on ongelmia • tietotekninen kehitys tuottaa uusia tuotteita, formaatteja • Säilyvyys epävarmaa ja kallis toteuttaa • OAIS-malli (Open Archival Information System) • Pitkäaikaissäilytyksen menetelmiä kehitetään • Yksi ratkaisu on tukeutua metadataan • kuvailemalla objekteja niiden säilyvyyttä voidaan parantaa

  20. Digiaineistojen pitkäaikaissäilytys Suomessa • Kansalliskirjasto, Kansallisarkisto, Suomen elokuva-arkisto, Yhteiskuntatieteellinen tietoarkisto ja CSC ovat aloittamassa pitkäaikaissäilytyksen yhteistyötä • Joitakin näkemyksiä • Tarvitaan pitkäaikaissäilytystä kuvaavaa metadata • Tallennetaan metadata myös itse objektin yhteyteen • “Migration” lienee järkevintä kirjastoympäristössä • Tiedostoformaattien elinkyvyn seuraaminen (ks. Digital format repositories) • Prosessien luominen (automatisointi, autenttisuuden varmistaminen) • Seurataan ja osallistutaan kv-kehitykseen • Resurssointi?

  21. Lisätietoja • Vapaakappalekuviosta • http://www.lib.helsinki.fi/julkaisuala/vapaakappaleet/ • Jos kiinnostaa julkaisujen vapaaehtoinen luovutus vapaakappalekokoelmaan • Yhteydenotot mieluiten sähköpostilla: e-vapaa@helsinki.fi

More Related