250 likes | 379 Views
WebArchiv – digitální knihovna českého webu. Petr Žabička Moravská zemská knihovna v Brně z abak @mzk.cz. Rufis 2002. Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet Pilotní projekt VaV (2000–2001), navazující projekt VISK3 (2002). Zadavatel projektu:
E N D
WebArchiv – digitální knihovna českého webu Petr Žabička Moravská zemská knihovna v Brně zabak@mzk.cz Rufis 2002
Registrace, ochrana a zpřístupnění domácích elektronických zdrojův síti InternetPilotní projekt VaV (2000–2001), navazující projekt VISK3 (2002) • Zadavatel projektu: Ministerstvo kultury ČR • Nositel projektu: Národní knihovna ČR • Spolupráce na řešení: ÚVT MU, Brno
Vzdáleně přístupné elektronické zdroje • nedílná součást národní kulturní produkce => národní kulturní dědictví • obrovské množství publikací různé kvality • nehmotné dokumenty dynamické povahy – nestálé
Zajištění trvalého/dlouhodobého přístupu • role depozitních knihoven • význam archivace na národní úrovni • Problémy: • trvanlivost a morální zastarávání médií • morální zastarávání formátů souborů • Řešení: • migrace na nová média • emulace vs. konverze
Další aspekty • knihovnické • popis archivovaných zdrojů vs. automatická indexace • legislativní • oprávnění akvizice (povinný výtisk ?) • autorská práva • možnosti zpřístupňování
Výsledky projektu server webarchiv.nkp.cz: • Informace o projektu • Odkazy na zdroje a zahraniční/ mezinárodní projekty • Vyvinuté/lokalizované nástroje pro podporu využívání metadat • generátor/extraktor metadat Dublin Core • generátor jednoznačného identifikátoru dokumentu URN • kalkulátor kontrolního součtu dokumentu MD5 • Nedlib Harvester
Generátor URN (NBN) • Jde o jednoznačný identifikátor dokumentu, přidělovaný automaticky národní agenturou (u nás Národní knihovnou) na základě žádosti vydavatele. • NK zaručuje při jeho vydání jeho jednoznačnost • Vhodné pro zdroje, které nepoužívají žádný jiný identifikátor (např. ISBN, ISSN, …) • Syntaxe: URN:NBN:cz-nkRRRRnnnn • Variantně lze použít místo čísla kontrolní součet dokumentu MD5 • Připravuje se přepracování systému přidělování URN jako služby integrovatelné do webových publikačních systémů
Dublin Core metadata generator • Analýza existujícího dokumentu a extrakce metadat • Tvorba nebo úprava metadat Dublin Core • Vygenerování DC metadat v syntaxi XHTML pro vložení do HTML stránky nebo XML(RDF) pro samostatné uložení • Podpora kvalifikátorů DC • Možnost přidělení URN
Nedlib Harvester 1/2 • Programový systém pro archivaci webových informačních zdrojů • Princip podobný robotům pro indexaci webu, ale stahuje a archivuje veškeré typy dokumentů • Podporuje protokoly http a ftp • Může procházet i dynamicky generované stránky (URL s parametrem) • V HTML souborech hledá odkazy na další dokumenty • Nepodporuje javascript, flash, … • Navržen tak, aby nepřetěžoval jednotlivé sklízené servery • dodržuje pravidla v souboru robots.txt
Nedlib Harvester (2/2) • Vývoj podporován především Finskou Národní knihovnou • Volně dostupný • Sám o sobě neřeší indexaci a zpřístupnění archivu • Archivované soubory ukládá v tar.gz balících po 2000 souborech přímo do souborového systému => snadná manipulace a migrace archivu • Spolu s každým dokumentem se v samostatném souboru archivují metadata popisující okolnosti jeho stažení • V NK archiv uložen na páskovém robotu – nevhodné pro budoucí zpřístupnění
Sklizeň domény .cz (1/2) • probíhá s přestávkami (opravy chyb, povodně,…) od 23.4.2002 • doposud staženo 10.4 milionu unikátních dokumentů z cca 32.000 domén 2. úrovně • v současné době registrováno v doméně .cz cca 120.900 domén 2. úrovně • zatím sklizeno 250 GB (nekomprimovaných) dat • průměrná velikost souboru 17 kB
Sklizeň domény .cz (2/2) • kompresní poměr při ukládání průměrně 85% • denní přírůstek archivu cca 5,5 GB komprimovaných dat • průměrný datový tok pouze 640 kb/s • rychlost sklízení není limitována rychlostí připojení k Internetu, ale výpočetním výkonem serveru. (Nyní PC server / Linux)
Zpřístupnění archivu • nutno ošetřit legislativní aspekty zpřístupnění archivu • závislost na kapacitě a výkonu hardwaru • severské země - NWA toolset – GNU/GPL nástroje, zatím vyjma indexovacího enginu (Lucene ?) • pro projekt NWA zakoupena technologie norské firmy Fast (prohledávač AllTheWeb) • u nás – využití NWA toolsetu v kombinaci s • Convera RetrievalWare (podpora velkého množství formátů, fuzzy search) • studentský projekt na MFF UK (dokončení 1.pol. 2003) může být využit přinejmenším pro zkušební provoz (požadované funkce: vyhledávání pomocí URL, času, metadat i fulltextu)
Spolupráce • Neformální spolupráce s tvůrci většiny popsaných programových nástrojů (opravy chyb, drobné úpravy funkčnosti, lokalizace) • Účast na přípravě mezinárodního projektu "European Web Archive" v rámci 6. rámcového programu EU (podání "Expression of Interest") • V rámci NK snaha o integraci tohoto projektu do ostatních procesů NK (např. spolupráce s týmen JIB) • Nutnost spolupráce s vydavateli
Děkuji za pozornost • WebArchiv http://webarchiv.nkp.cz • Petr Žabička zabak@nkp.cz Rufis 2002 - 4. září 2002