140 likes | 270 Views
Internet ve službách archivu a archivace webu. PhDr. Jaroslav Šulc, Národní archiv. Proč archivovat web?. Plošnou archivací s cílem uchování intelektuálního dědictví internetu pro budoucí generace se v celosvětovém měřítku zabývají především knihovny.
E N D
Internet ve službách archivu a archivace webu PhDr. Jaroslav Šulc, Národní archiv
Proč archivovat web? • Plošnou archivací s cílem uchování intelektuálního dědictví internetu pro budoucí generace se v celosvětovém měřítku zabývají především knihovny. • Webové stránky jako digitální dokument vzniklý z činnosti konkrétního původce může být předmětem výběru archiválií ve smyslu archivního zákona. • Stále více dokumentů je zveřejňováno jen v elektronické formě na webu. • Web se stává interaktivním médiem a může mít značnou vypovídací hodnotu o tocích informací mezi původcem a uživateli webu nebo u původce samotného (webově orientované intranety).
Základní problémy archivace webu • Webová stránka má jako dokument značná specifika oproti klasickému dokumentu. • Jedním z hlavních je obtížnost ohraničení webových stránek jako dokumentu – stránka je vždy provázána se svým kontextem. Při archivaci je třeba explicitně vymezit hranice dokumentu a tím jej vyjmout z původního kontextu. • Weby rychle vznikají, zanikají a mění svou podobu – zvýšený tlak na proces výběru a sběru dat, frekvenci a metodu archivace. • Nové technologie - fenomény WEB 2.0 a WEB 3.0.
Archivace webu - činnosti • Výběr webu k dlouhodobému uložení • Metody sběru dat • Kontrola kvality a popis (metadata) • Dlouhodobé uchovávání webu • Zpřístupňování archivovaného webu • Právní problematika • Řízení životního cyklu archivovaného webu • Kooperace, standardizace při archivaci webu
Metody výběru dat k archivaci • Plošná metoda – výběr je limitován snadno proveditelným způsobem, např. omezen na národní doménu (.cz). Výhodou je archivace širokého kontextu dat a úspora nákladů na výběr, nevýhodou obrovské nároky na ukládací kapacity. Provádějí především národní knihovny. • Tematický výběr – jsou stanovena tematická kriteria výběru, výhodou je možnost klást větší důraz na kvalitu a nižší nároky na ukládací kapacity a řízení projektu. • Selektivní přístup – vybírá se na základě úzce definovaných kriterií, výhody obdobně jako u tematického výběru.
Metody sběru dat (sklizně) • Přímý transfer – získání dat přímo z webového serveru. Nutná spolupráce s poskytovatelem. • Vzdálená sklizeň – využívá se speciálního softwaru, který pracuje na principu webového prohlížeče a vzdáleně sklízí vybraná data. Nejrozšířenější metoda. • Archivace databází – použitelné u dynamicky generovaných webových stránek, jejichž obsah je uložen v databázových systémech, konverze proprietárních databázových formátů do XML. • Transakční archivace – speciální software sbírá ze serveru aktuální transakce mezi serverem a klientským prohlížečem.
Nástroje archivace webu • Heritrix, HTTrack – software pro vzdálenou sklizeň. • Web Curator – software pro selektivní vzdálenou archivaci • DeepArc – nástroj pro konverzi dat uložených v databázových systémech do standardizovaného formátu, obvykle na bázi XML • Xinq – nástroj pro zpřístupnění XML databáze • PageVault, Vignette WebCapture – nástroje pro transakční archivaci • NutchWAX – nástroj pro vyhledávání ve webovém archivu • Wayback Machine, WERA – nástroje pro zpřístupnění archivovaného webu
Kontrola kvality a popis dat • Kontrola před sklizní stránek – diagnostika možných rizik, testování zvolené metody. • Kontrola po sběru dat – prověřuje úspěšnost sklizně, úplnost obsahu dokumentu, jeho přístupnost a funkčnost navigace. • Ke sklizeným webovým stránkám se vytvářejí metadata – způsoby popisu, standardy a formáty se liší u různých typů institucí (MARC21, ISAD). • WARC – standardizovaný formát pro archivaci webu.
Dlouhodobé uchování webu • Intelektuálně, technicky, technologicky a finančně náročný úkol, který přesahuje rozhodovací pravomoci archiváře – knihovníka, v kompetenci speciálních pracovišť. • Základní strategie uchovávání MIGRACE a EMULACE. • Model životního cyklu archivovaného dokumentu v digitálním archivu – OAIS. • Budování Národního digitálního archivu v ČR.
Zpřístupnění archivovaného webu • Je prováděno pomocí speciálních softwarů. • Problémem je omezená možnost zpřístupnění webových stránek v původním kontextu – závislost na zvolené metodě výběru a metodě sběru dat, řešením může být kooperace a společné programy. • Problém autenticity dokumentu, chybějící části (např. dynamicky generovaných, Flash obsahů apod.), ztráta dynamických funkcí původního webu.
Právní problémy • Autorský zákon (č. 121/2000 Sb.) sice umožňuje vytváření digitálního archivu, avšak jeho zpřístupňování nikoli. Jeho novelizaci v brzké době ovšem není reálné očekávat. Řešením jsou smlouvy s jednotlivými původci o zpřístupnění lokálně či on-line. • Licence CREATIVE COMMONS. • Internet archive řeší tento problém jinak – vychází ze stavu předpokládaného souhlasu původce a vyřazuje stránky jen na základě žádosti původce, zpřístupňuje jen webové stránky starší šesti měsíců.
Programy a instituce • The Internet Archive – od roku 1996, plošné sklizně • Severské země – Nordic Web Archive • PANDORA – program Australské národní knihovny • NEDLIB – iniciativa zaštítěná Evropskou komisí • Národní knihovna ve Francii – sofistikovaný přístup, vyspělé nástroje pro automatizaci výběru • MINERVA – projekt Kongresové knihovny ve Washingtonu • Národní knihovna ČR – projekt Webarchiv • IIPC – mezinárodní konsorcium pro archivaci webu