220 likes | 317 Views
Nové nástroje pro archivaci webu. Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK. WebArchiv – kdo a proč?. potřeba zachránit netištěné informace kulturní a historické hodnoty pro další generace až 90% webových dokumentů existuje pouze v elektronické podobě
E N D
Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK AKM'06 Praha NA
WebArchiv – kdo a proč? • potřeba zachránit netištěné informace kulturní a historické hodnoty pro další generace • až 90% webových dokumentů existuje pouze v elektronické podobě • NK ČR je depozitní knihovnou, odpovídá za trvalé uchovávání fondu bohemikálních dokumentů jako součásti národního historického a kulturního dědictví • WA vznikl v rámci programového projektu MK ČR VaV - "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet" • řešen od roku 2000 v NK ČR ve spolupráci s MZK Brno a ÚVT Masarykovy univerzity v Brně AKM'06 Praha NA
Cíle WebArchivu • zajistit pokud možno trvalý přístup k „domácím” elektronickým zdrojům publikovaným v síti Internet • připravit podmínky pro získávání, zpracování, archivaci a ochranu online přístupných elektronických zdrojů • zajistit zpřístupnění zdrojů z digitálního archivu za podmínek respektujících autorské právo • stanovit kritéria výběru zdrojů pro národní bibliografii AKM'06 Praha NA
Kritéria výběru webových zdrojů • množství online dokumentů je obrovské, kvalita různá nutno aplikovat kritéria výběru uchovat dokumenty, které mají dokumentární hodnotu Pro akvizici (harvesting)zdrojů se aplikují dva přístupy: • výběrová archivace - sklízejí a archivují se pouze dokumenty vybrané podle určitých kritérií • plošná archivace – např. celé národní domény. Nutná pouze kritéria technické povahy a nastavení harvesteru. • tematické sklizně – např. volby, povodně apod. • trend – oba přístupy najednou (např. Austrálie, Dánsko) AKM'06 Praha NA
Co máme za sebou • průběžné testování: • SW nástrojů s využitím HW pořízeného v rámci finančních možností • tj. aplikací pro stahování, archivaci, indexaci a zpřístupnění webových stránek • SW výhradně open source • snaha o změnu zákonů • mezinárodní spolupráce (aktivní účast na výzkumu a vývoji v rámci IIPC – členství od roku 2007) • zpřístupňování veřejné části archivu online pomocí fulltextového prohledávání od podzimu 2005 • zpřístupnění indexu celého archivu prostřednictvím aplikace Wayback AKM'06 Praha NA
Registrované domény v .cz AKM'06 Praha NA
Provedené sklizně domény .cz • 2001 1. pokus o plošnou sklizeň domény .cz, 1 stroj + páskový robot, nedokončena z tech. důvodů • 2002 sklizeň po několika měsících přerušena pro omezený výkon serveru a záplavy ( tematická sklizeň Povodně) • 2004 zastavena po zaplnění dostupného úložného prostoru. >> všechny sklizně prováděny s NEDLIB harvesterem, hloubka zanoření 25-50 odkazů << • 2005 1. pokus o sklizení domény .cz pomocí Heritrixu, neúspěch kvůli nedostatkům použité verze programu • září 2006 2.sklizeň domény .cz pomocí Heritrixu. Zastavena předčasně pro zaplnění dostupné diskové kapacity. Limity: max. 5000 dokumentů na server, max. velikost souboru 100 MB AKM'06 Praha NA
Sklizně domény .cz v číslech AKM'06 Praha NA
Současný stav projektu • 4-6x ročně je sklízen soubor zdrojů (asi 300 serverů), na které má NK smlouvu o zpřístupnění. (nově se sklízejí se i vybrané zdroje bez smluv, ale ty nejsou zpřístupňovány). • právě skončená sklizeň těchto zdrojů se stane základem průběžného sklízení s využitím deduplikátoru. • příležitostné tematické sklizně (letos sklizeň volby) • čeká se na zprovoznění datového úložiště NK, které umožní dokončit letošní celoplošnou sklizeň. Zbývá cca 20.000 domén. • v současné době je ve WebArchivuuloženo cca 5,5 TB dat (před kompresí) ≈ 135 milionů archivovaných souborů. AKM'06 Praha NA
Počet dokumentů sklizených za den AKM'06 Praha NA
Počet souborů a objem dat AKM'06 Praha NA
Změny softwarového vybavení • 2004-2005 postupný přechod na SW vyvíjený konsorciem IIPC (International Internet Preservation Consortium – www.netpreserve.org) • vývoj softwarového vybavení v rámci IIPC stále probíhá • archivní souborový formát tar.gz nahrazen ARC formátem (podporovaným nástroji IIPC) bylo nutno převést již uložená data do nového formátu. • připravuje se nová verze formátu ARC, formát WARC, vylepšující stávající formát o nové vlastnosti. • podpora komprese dat a správy jejich integrity • schopnost ukládat jedinečné identifikátory záznamů • schopnost uložit metadata o datových transforamcích a o duplikovaném obsahu • podpora pro zpracování velmi rozsáhlých záznamů AKM'06 Praha NA
Budoucnost projektu pokračování • maximálně zautomatizovat proces od výběru zdroje, oslovení vydavatele k podpisu smlouvy s vydavatelem až po zpřístupnění • legální lokální zpřístupnění celého archivu (vyhledávánípodle URL a času sklizně dokumentu) – počátkem roku 2007 • vylepšení indexace (inkrementální indexování, distribuovaný index?) • pokus o automatizované sklízení bohemikálních zdrojů mimo doménu .cz • podpora standardů digitálních knihoven (OAI protokol, METS, jednoznačná identifikace dokumentů) • 2008 integrace do připravované „Digitální knihovny ČR” AKM'06 Praha NA
Webarchiv – jak to funguje A1nová sklizeň A2konec sklízení -> indexovat A3aktualizovat fulltext A4aktualizovat seznam souborů AKM'06 Praha NA
Akvizice - Heritrix • modulární, rozšiřitelný, probíhá neustálý vývoj (nyní verze 1.10.1) • zkvalitňování systému • zvýšení bezpečnosti • platformě nezávislý (java aplikace) • kvalitní a rychlá podpora vývojářů z Internet Archive • open source kódy a modularita umožňují spolupráci třetích stran na jeho vývoji • v nejnovější verzi vylepšena ochrana před pádem do pastí • nelze dlouhodobě sklízet web bez odborných zásahů v průběhu sklizně AKM'06 Praha NA
Akvizice - DeDuplicator • Modul pro Heritrix • Snaží se detekovat duplikáty ještě před jejich stažením • Využívá toho, že některé typy dokumentů (např. HTML) se mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video). • formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC AKM'06 Praha NA
Akvizice – WEB CURATOR TOOL • nástroj pro správu sklízení • první verze uvolněna v září 2006 • vyvinut v rámci IIPC díky spolupráci Britské knihovny a Národní knihovny Nového Zélandu. • umožňuje správu sklízení méně kvalifikovaným uživatelům prostřednictvím graficky přívětivého a propracovaného webového rozhraní • výborná podpora uživatelských oprávnění • nepodporuje inkrementální sklízení • multiplatformní, ale stávající verze optimalizována pro platformu Windows (problém s malými a velkými písmeny při komunikaci s databází). • nekonzistentní konfigurace AKM'06 Praha NA
Indexace – Nutch, NutchWAX Nutch • volně dostupný modulární vyhledávací engine • umí stáhnout a zpracovat miliony stránek měsíčně; spravovat jejich index, vyhledávat v něm 1000x za vteřinu NutchWAX • nástavba vyhledávacího rozhraníNutch vytvořená pro potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko • Od letošní verze 0.6 pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop) • tato verze je zatím nestabilní AKM'06 Praha NA
WERA - WEb aRchive Access • spolupráce konsorcia IIPC, Internet Archive a NWA • využívá hlavní části NWA Toolset • velmi snadná navigace a propracované uživatelské rozhraní (časová osa zobrazuje časové verze dokumentu) • výsledky vyhledávání v podobě URL zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL • zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy • archivované dokumenty a WERA propojeny skrz index NutchWAXe • Problémy s javascriptem v některých stránkách • Vývoj ukončen, přechod na Wayback AKM'06 Praha NA
WAYBACK • Aplikace, která v budoucnu nahradí stávající Wayback Machine Internet Archivu • Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci • Režimy zpřístupnění: • Archival URL = úprava odkazů na stránce (link zpět do archivu) • Proxy = chová se jako proxy server, ale je pak složité měnit časové verze (WAX Toolbar – plugin pro Firefox) • Timeline = časová osa, zatím experimentální • Připravuje se podpora fulltextového vyhledávání a lokalizace AKM'06 Praha NA
Zkusíte to také?? • dejte nám tipy na zdroje • převezměte naše zkušenosti • začněte sklízet sami • minimální požadavky: slušné PC, přiměřené množství úložného prostoru, dobrý správce systému/programátor • realizovaná spolupráce: • Univerzitná knižnica Bratislava • v budoucnu maďarská NK? • po dohodě sklizeň na požádání AKM'06 Praha NA
Děkujeme za pozornosta těšíme se na budoucí spolupráci!webarchiv@nkp.cz AKM'06 Praha NA