310 likes | 421 Views
WebArchiv digitální knihovna českého webu. Ludmila Celbová, Národní knihovna ČR Petr Žabička, Moravská zemská knihovna a Masarykov a Univerzit a v Brně. INFOS 2003.
E N D
WebArchivdigitální knihovna českého webu Ludmila Celbová, Národní knihovna ČR Petr Žabička, Moravská zemská knihovna a Masarykova Univerzita v Brně INFOS 2003
Registrace, ochrana a zpřístupnění domácích elektronických zdrojův síti Internetpilotní projekt VaV (2000–2001)navazující projekt VISK3 (2002)integrovaný projekt VISK8 (2003) ? • Zadavatel projektu: Ministerstvo kultury ČR • Nositel projektu: Národní knihovna ČR • Spolupráce na řešení: ÚVT MU, Brno
Elektronické zdroje – hledisko přístupu • offline distribuované na fyzickém, přenosném nosiči (např. CD-ROM) a čitelné pomocí počítače; mohou být následně zpřístupňovány v síti • online uložené pomocí digitální technologie a šířené prostřednictvím digitální sítě, např. v síti Internet (dálkově přístupné)
Elektronické zdroje publikované na Internetu z hlediska jejich akvizice • zahraniční – na základě licenční smlouvy • domácí – v souladu s kritérii výběru ČNB
Elektronické zdroje publikované na Internetu z hlediska jejich vzniku • digitální (vzniklé jako síťové = online originál) • digitalizované (vzniklé převodem z jiné formy dokumentu do formy digitální = digitální kopie)
Digitální knihovna = integrovaný systém • sbírka digitálních objektů • digitalizované dokumenty • digitální dokumenty • procesy a služby (tvorba a organizace sbírek; věcná analýza, indexace, tvorba metadat; ochrana a správa) • zpřístupnění dokumentů
Dálkově přístupné elektronické zdroje • nedílná součást národní kulturní produkce => národní kulturní dědictví • obrovské množství dokumentů různé kvality • nehmotné dokumenty dynamické povahy – nestálé ‼ Cíl: Zajištění trvalého/dlouhodobého přístupu
Způsob řešení Aplikace zkušeností z podobných projektů • EVA - Acquisition and Archiving of Electronic Network Publications • Nordic Metadata I, II • NEDLIB - Networked European Deposit Library • Nordic Web Archive • Doporučení UNESCO • a další
Předmět řešení • získávání (co, jak; oprávnění – povinný výtisk?) • registrace (ČNB – bibliografická kontrola) • archivace (co, jak; oprávnění – autorský zákon?) • ochrana (trvalé uchování a zpřístupnění – souvislost s vývojem ICT) • zpřístupnění (technická i legislativní stránka)
Kudy vede cesta? Testování 2 metod: • shromažďování, registrace a archivace vybraných zdrojů podle stanovených kritérií pro účely ČNB (= intelektuální práce) • shromažďování a archivace domácích zdrojů z Internetu v relativní úplnosti pomocí speciálního indexačního programu (= automatizovaný proces, harvesting)
Aspekty řešení • technické • knihovnické • popis archivovaných zdrojů vs. automatická indexace (aplikace formátů typu MARC, resp. Dublin Core) • legislativní • oprávnění akvizice (povinný výtisk ?) • autorská práva (archivace, možnosti zpřístupňování veřejnosti)
Legislativní otázky • povinný výtisk • monografické publikace – zákon č. 37/1995 Sb., o neperiodických publikacích • seriálové publikace – zákon č. 46/2000 Sb., o právech a povinnostech při vydávání periodického tisku a o změně některých dalších zákonů (tiskový zákon) • autorské právo zákon č. 121/2000 Sb., o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon)
Povinný výtisk pro online elektronické zdroje – platné zákony • Norsko (1990) specifikován obecně – všechny druhy dokumentů včetně přístupných v síti • Dánsko (1998) vše bez ohledu na techniku publikování nebo typ nosiče • Jihoafrická republika (1998) jakýkoliv objekt, který je určen pro uložení nebo poskytování informací v textové, grafické, vizuální, sluchové nebo jiné srozumitelné podobě prostřednictvím jakéhokoliv média
Povinný výtisk pro online elektronické zdroje – platné zákony (pokrač.) • Slovensko (2000) zákon č. 182/2000 Z.z. – každý vydavatel periodické i neperiodické publikace v el. formě povinen poskytovat 1 kopii UK a SNK • Švédsko (1993); 2002 vládní nařízení – umožňuje Královské knihovně automatický sběr zdrojů z webu a lokální zpřístupnění • Velká Británie (2003) nový zákon právě projednáván v parlamentu – neknižní dokumenty vč. dokumentů přístupných přes internet
Prozatímní řešení – smlouvy s vydavateli • doporučení CENL/FEP, IFLA/IPA • praktická aplikace smluv s vydavateli např. Austrálie, Nizozemí, Německo, Finsko aj. • Česká republika / WebArchiv – uzavírání smluv s vydavateli
Zajištění trvalého/dlouhodobého přístupu • Tradiční role depozitních knihoven a archivů • Ale: výhodná je archivace na národní úrovni • Problémy: • trvanlivost a morální zastarávání médií • morální zastarávání formátů souborů • Řešení: • migrace na nová média • emulace nebo konverze
Výsledky projektu server www.webarchiv.cz: • Informace o projektu • Odkazy na zdroje a zahraniční/ mezinárodní projekty • Vyvinuté/lokalizované nástroje pro podporu využívání metadat: • generátor/extraktor metadat Dublin Core • generátor jednoznačného identifikátoru dokumentu (URN) • kalkulátor kontrolního součtu dokumentu MD5 • Nedlib Harvester
Identifikátor URN/NBN • Jde o jednoznačný identifikátor dokumentu, přidělovaný automaticky národní agenturou (u nás Národní knihovnou) na základě žádosti vydavatele. • NK zaručuje při jeho vydání jeho jednoznačnost • Vhodné pro zdroje, které nepoužívají žádný jiný identifikátor (např. ISBN, ISSN, …) • Syntaxe: URN:NBN:cz-nkRRRRnnnn • Variantně lze použít místo čísla kontrolní součet dokumentu MD5: URN:NBN:cz-nka-3d516af8e71cc42f369b04efc51322d1
Dublin Core metadata generator • Analýza existujícího dokumentu a extrakce metadat • Tvorba nebo úprava metadat Dublin Core • Vygenerování DC metadat v syntaxi XHTML pro vložení do HTML stránky nebo XML(RDF) pro samostatné uložení • Podpora kvalifikátorů DC • Možnost přidělení URN
Nedlib Harvester (1/3) • Programový systém pro archivaci webových informačních zdrojů • Princip podobný robotům pro indexaci webu, ale stahuje a archivuje veškeré typy dokumentů • Podporuje protokoly http 1.0, 1.1 a ftp • Může procházet i dynamicky generované stránky (URL s parametrem) • V HTML souborech hledá odkazy na další dokumenty • Nepodporuje javascript, flash, … • Navržen tak, aby nepřetěžoval jednotlivé sklízené servery • dodržuje pravidla v souboru robots.txt
Nedlib Harvester (2/3) • Vývoj podporován především Finskou Národní knihovnou • Volně dostupný software • Sám o sobě neřeší indexaci a zpřístupnění archivu • Archivované soubory ukládá v tar.gz balících po 2000 souborech přímo do souborového systému => snadná manipulace a migrace archivu • Spolu s každým dokumentem se v samostatném souboru archivují metadata popisující okolnosti jeho stažení • V NK archiv uložen na páskovém robotu – nevhodné pro budoucí zpřístupnění
Doména .cz • Současné kolo sklízení probíhá s přestávkami již téměř 1 rok • doposud staženo 10 milionů unikátních dokumentů z cca 32.000 domén 2. úrovně • v současné době registrováno v doméně .cz cca 132.000 domén 2. úrovně • zatím ve 2 kolech sklizeno 350 GB (nekomprimovaných) dat • průměrná velikost souboru 17 kB
Doména .cz - zastoupení hlavních typů souborů v archivu podle objemu dat
Zpřístupnění archivu • nutno ošetřit legislativní aspekty zpřístupnění archivu • závislost na kapacitě a výkonu hardwaru • severské země - NWA toolset – GNU/GPL nástroje, zatím vyjma indexovacího enginu • Internet Archive – výsledky do tří let • projekt CUBE v rámci 6RP EU – zatím nejisté • u nás – využití NWA toolsetu v kombinaci s • Convera RetrievalWare (podpora velkého množství formátů, fuzzy search) • studentský projekt na MFF UK (dokončení jaro 2003) může být využit přinejmenším pro zkušební provoz
Spolupráce • Neformální spolupráce s tvůrci většiny popsaných programových nástrojů (opravy chyb, drobné úpravy funkčnosti, lokalizace) • Účast na přípravě mezinárodního projektu v rámci 6. rámcového programu EU (CUBE) • V rámci NK snaha o integraci tohoto projektu do ostatních procesů NK (např. Jednotná informační brána), příprava spolupráce s MZK • Nutnost spolupráce s vydavateli
Děkujeme za pozornost • WebArchiv http://www.webarchiv.cz • Ludmila Celbová ludmila.celbova@nkp.cz • Petr Žabička zabak@mzk.cz INFOS 2003