1 / 31

WebArchiv digitální knihovna českého webu

WebArchiv digitální knihovna českého webu. Ludmila Celbová, Národní knihovna ČR Petr Žabička, Moravská zemská knihovna a Masarykov a Univerzit a v Brně. INFOS 2003.

Download Presentation

WebArchiv digitální knihovna českého webu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. WebArchivdigitální knihovna českého webu Ludmila Celbová, Národní knihovna ČR Petr Žabička, Moravská zemská knihovna a Masarykova Univerzita v Brně INFOS 2003

  2. Registrace, ochrana a zpřístupnění domácích elektronických zdrojův síti Internetpilotní projekt VaV (2000–2001)navazující projekt VISK3 (2002)integrovaný projekt VISK8 (2003) ? • Zadavatel projektu: Ministerstvo kultury ČR • Nositel projektu: Národní knihovna ČR • Spolupráce na řešení: ÚVT MU, Brno

  3. Elektronické zdroje – hledisko přístupu • offline distribuované na fyzickém, přenosném nosiči (např. CD-ROM) a čitelné pomocí počítače; mohou být následně zpřístupňovány v síti • online uložené pomocí digitální technologie a šířené prostřednictvím digitální sítě, např. v síti Internet (dálkově přístupné)

  4. Elektronické zdroje publikované na Internetu z hlediska jejich akvizice • zahraniční – na základě licenční smlouvy • domácí – v souladu s kritérii výběru  ČNB

  5. Elektronické zdroje publikované na Internetu z hlediska jejich vzniku • digitální (vzniklé jako síťové = online originál) • digitalizované (vzniklé převodem z jiné formy dokumentu do formy digitální = digitální kopie)

  6. Digitální knihovna = integrovaný systém • sbírka digitálních objektů • digitalizované dokumenty • digitální dokumenty • procesy a služby (tvorba a organizace sbírek; věcná analýza, indexace, tvorba metadat; ochrana a správa) • zpřístupnění dokumentů

  7. Dálkově přístupné elektronické zdroje • nedílná součást národní kulturní produkce => národní kulturní dědictví • obrovské množství dokumentů různé kvality • nehmotné dokumenty dynamické povahy – nestálé ‼ Cíl: Zajištění trvalého/dlouhodobého přístupu

  8. Způsob řešení Aplikace zkušeností z podobných projektů • EVA - Acquisition and Archiving of Electronic Network Publications • Nordic Metadata I, II • NEDLIB - Networked European Deposit Library • Nordic Web Archive • Doporučení UNESCO • a další

  9. Předmět řešení • získávání (co, jak; oprávnění – povinný výtisk?) • registrace (ČNB – bibliografická kontrola) • archivace (co, jak; oprávnění – autorský zákon?) • ochrana (trvalé uchování a zpřístupnění – souvislost s vývojem ICT) • zpřístupnění (technická i legislativní stránka)

  10. Kudy vede cesta? Testování 2 metod: • shromažďování, registrace a archivace vybraných zdrojů podle stanovených kritérií pro účely ČNB (= intelektuální práce) • shromažďování a archivace domácích zdrojů z Internetu v relativní úplnosti pomocí speciálního indexačního programu (= automatizovaný proces, harvesting)

  11. Aspekty řešení • technické • knihovnické • popis archivovaných zdrojů vs. automatická indexace (aplikace formátů typu MARC, resp. Dublin Core) • legislativní • oprávnění akvizice (povinný výtisk ?) • autorská práva (archivace, možnosti zpřístupňování veřejnosti)

  12. Legislativní otázky • povinný výtisk • monografické publikace – zákon č. 37/1995 Sb., o neperiodických publikacích • seriálové publikace – zákon č. 46/2000 Sb., o právech a povinnostech při vydávání periodického tisku a o změně některých dalších zákonů (tiskový zákon) • autorské právo zákon č. 121/2000 Sb., o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon)

  13. Povinný výtisk pro online elektronické zdroje – platné zákony • Norsko (1990) specifikován obecně – všechny druhy dokumentů včetně přístupných v síti • Dánsko (1998) vše bez ohledu na techniku publikování nebo typ nosiče • Jihoafrická republika (1998) jakýkoliv objekt, který je určen pro uložení nebo poskytování informací v textové, grafické, vizuální, sluchové nebo jiné srozumitelné podobě prostřednictvím jakéhokoliv média

  14. Povinný výtisk pro online elektronické zdroje – platné zákony (pokrač.) • Slovensko (2000) zákon č. 182/2000 Z.z. – každý vydavatel periodické i neperiodické publikace v el. formě povinen poskytovat 1 kopii UK a SNK • Švédsko (1993); 2002 vládní nařízení – umožňuje Královské knihovně automatický sběr zdrojů z webu a lokální zpřístupnění • Velká Británie (2003) nový zákon právě projednáván v parlamentu – neknižní dokumenty vč. dokumentů přístupných přes internet

  15. Prozatímní řešení – smlouvy s vydavateli • doporučení CENL/FEP, IFLA/IPA • praktická aplikace smluv s vydavateli např. Austrálie, Nizozemí, Německo, Finsko aj. • Česká republika / WebArchiv – uzavírání smluv s vydavateli

  16. Zajištění trvalého/dlouhodobého přístupu • Tradiční role depozitních knihoven a archivů • Ale: výhodná je archivace na národní úrovni • Problémy: • trvanlivost a morální zastarávání médií • morální zastarávání formátů souborů • Řešení: • migrace na nová média • emulace nebo konverze

  17. Výsledky projektu server www.webarchiv.cz: • Informace o projektu • Odkazy na zdroje a zahraniční/ mezinárodní projekty • Vyvinuté/lokalizované nástroje pro podporu využívání metadat: • generátor/extraktor metadat Dublin Core • generátor jednoznačného identifikátoru dokumentu (URN) • kalkulátor kontrolního součtu dokumentu MD5 • Nedlib Harvester

  18. Identifikátor URN/NBN • Jde o jednoznačný identifikátor dokumentu, přidělovaný automaticky národní agenturou (u nás Národní knihovnou) na základě žádosti vydavatele. • NK zaručuje při jeho vydání jeho jednoznačnost • Vhodné pro zdroje, které nepoužívají žádný jiný identifikátor (např. ISBN, ISSN, …) • Syntaxe: URN:NBN:cz-nkRRRRnnnn • Variantně lze použít místo čísla kontrolní součet dokumentu MD5: URN:NBN:cz-nka-3d516af8e71cc42f369b04efc51322d1

  19. Dublin Core metadata generator • Analýza existujícího dokumentu a extrakce metadat • Tvorba nebo úprava metadat Dublin Core • Vygenerování DC metadat v syntaxi XHTML pro vložení do HTML stránky nebo XML(RDF) pro samostatné uložení • Podpora kvalifikátorů DC • Možnost přidělení URN

  20. Nedlib Harvester (1/3) • Programový systém pro archivaci webových informačních zdrojů • Princip podobný robotům pro indexaci webu, ale stahuje a archivuje veškeré typy dokumentů • Podporuje protokoly http 1.0, 1.1 a ftp • Může procházet i dynamicky generované stránky (URL s parametrem) • V HTML souborech hledá odkazy na další dokumenty • Nepodporuje javascript, flash, … • Navržen tak, aby nepřetěžoval jednotlivé sklízené servery • dodržuje pravidla v souboru robots.txt

  21. Nedlib Harvester (2/3) • Vývoj podporován především Finskou Národní knihovnou • Volně dostupný software • Sám o sobě neřeší indexaci a zpřístupnění archivu • Archivované soubory ukládá v tar.gz balících po 2000 souborech přímo do souborového systému => snadná manipulace a migrace archivu • Spolu s každým dokumentem se v samostatném souboru archivují metadata popisující okolnosti jeho stažení • V NK archiv uložen na páskovém robotu – nevhodné pro budoucí zpřístupnění

  22. Nedlib harvester (3/3)

  23. Doména .cz • Současné kolo sklízení probíhá s přestávkami již téměř 1 rok • doposud staženo 10 milionů unikátních dokumentů z cca 32.000 domén 2. úrovně • v současné době registrováno v doméně .cz cca 132.000 domén 2. úrovně • zatím ve 2 kolech sklizeno 350 GB (nekomprimovaných) dat • průměrná velikost souboru 17 kB

  24. Doména .cz - relativní četnost souborů v archivu podle typů

  25. Doména .cz - zastoupení hlavních typů souborů v archivu podle objemu dat

  26. Zpřístupnění archivu • nutno ošetřit legislativní aspekty zpřístupnění archivu • závislost na kapacitě a výkonu hardwaru • severské země - NWA toolset – GNU/GPL nástroje, zatím vyjma indexovacího enginu • Internet Archive – výsledky do tří let • projekt CUBE v rámci 6RP EU – zatím nejisté • u nás – využití NWA toolsetu v kombinaci s • Convera RetrievalWare (podpora velkého množství formátů, fuzzy search) • studentský projekt na MFF UK (dokončení jaro 2003) může být využit přinejmenším pro zkušební provoz

  27. Spolupráce • Neformální spolupráce s tvůrci většiny popsaných programových nástrojů (opravy chyb, drobné úpravy funkčnosti, lokalizace) • Účast na přípravě mezinárodního projektu v rámci 6. rámcového programu EU (CUBE) • V rámci NK snaha o integraci tohoto projektu do ostatních procesů NK (např. Jednotná informační brána), příprava spolupráce s MZK • Nutnost spolupráce s vydavateli

  28. Nordic Web Archive – časová osa

  29. Nordic Web Archive – časová osa

  30. Internet Archive – časová osa

  31. Děkujeme za pozornost • WebArchiv http://www.webarchiv.cz • Ludmila Celbová ludmila.celbova@nkp.cz • Petr Žabička zabak@mzk.cz INFOS 2003

More Related