170 likes | 240 Views
Možnosti využití programového vybavení WebArchivu dalšími subjekty. Ing. Petr Žabička, MZK. Registrované domény v .cz. Počet dokumentů sklizených za den. Po čet souborů a objem dat. Fakta. Počet sklizených souborů ke dni 14.2.2007 je 134,5 miliónů Objem sklizených dat je 5 465 GB
E N D
Možnosti využití programového vybavení WebArchivu dalšími subjekty Ing. Petr Žabička, MZK SDRUK-IT 14.2.2007
Registrované domény v .cz SDRUK-IT 14.2.2007
Počet dokumentů sklizených za den SDRUK-IT 14.2.2007
Počet souborů a objem dat SDRUK-IT 14.2.2007
Fakta • Počet sklizených souborů ke dni 14.2.2007 je 134,5 miliónů • Objem sklizených dat je 5 465 GB • První dokument byl archivován 3.9.2001 SDRUK-IT 14.2.2007
Webarchiv – jak to funguje A1nová sklizeň A2konec sklízení -> indexovat A3aktualizovat fulltext A4aktualizovat seznam souborů SDRUK-IT 14.2.2007
Akvizice - Heritrix • modulární, rozšiřitelný, probíhá neustálý vývoj (nyní verze 1.10.2) • zkvalitňování systému • zvýšení bezpečnosti • platformě nezávislý (java aplikace) • kvalitní a rychlá podpora vývojářů z Internet Archive • open source kódy a modularita umožňují spolupráci třetích stran na jeho vývoji • v nejnovější verzi vylepšena ochrana před pádem do pastí • nelze dlouhodobě sklízet web bez odborných zásahů v průběhu sklizně • HDFS Writer Processor – zápis do Hadoop filesystému SDRUK-IT 14.2.2007
Akvizice - DeDuplicator • Modul pro Heritrix • Snaží se detekovat duplikáty ještě před jejich stažením • Využívá toho, že některé typy dokumentů (např. HTML) se mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video). • formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC SDRUK-IT 14.2.2007
Akvizice – WEB CURATOR TOOL • nástroj pro správu sklízení • první verze uvolněna v září 2006 • vyvinut v rámci IIPC díky spolupráci Britské knihovny a Národní knihovny Nového Zélandu. • umožňuje správu sklízení méně kvalifikovaným uživatelům prostřednictvím graficky přívětivého a propracovaného webového rozhraní • výborná podpora uživatelských oprávnění • nepodporuje inkrementální sklízení • multiplatformní, ale stávající verze optimalizována pro platformu Windows (problém s malými a velkými písmeny při komunikaci s databází). • nekonzistentní konfigurace, částečně odlišný workflow SDRUK-IT 14.2.2007
Akvizice – deep web - DeepArc SDRUK-IT 14.2.2007
Indexace – Nutch, NutchWAX Nutch • volně dostupný modulární vyhledávací engine, podpora A9 search • umí stáhnout a zpracovat miliony stránek měsíčně; spravovat jejich index, vyhledávat v něm 1000x za vteřinu NutchWAX • nástavba vyhledávacího rozhraníNutch vytvořená pro potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko • Od loňské verze 0.6 (nyní 0.10) pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop) SDRUK-IT 14.2.2007
WERA - WEb aRchive Access • spolupráce konsorcia IIPC, Internet Archive a NWA • využívá hlavní části NWA Toolset • velmi snadná navigace a propracované uživatelské rozhraní (časová osa zobrazuje časové verze dokumentu) • výsledky vyhledávání v podobě URL zobrazeny velmi přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL • zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy • archivované dokumenty a WERA propojeny skrz index NutchWAXe • Problémy s javascriptem v některých stránkách • Vývoj ukončen, přechod na Wayback SDRUK-IT 14.2.2007
WAYBACK • Aplikace, která v budoucnu nahradí stávající Wayback Machine Internet Archivu • Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci • Režimy zpřístupnění: • Archival URL = úprava odkazů na stránce (link zpět do archivu) • Proxy = chová se jako proxy server, ale je pak složité měnit časové verze (WAX Toolbar – plugin pro Firefox) • Timeline = časová osa, zatím experimentální • Připravuje se podpora fulltextového vyhledávání a lokalizace SDRUK-IT 14.2.2007
WAXToolbar • Plugin pro firefox (do verze 1.9) • Spolupracuje s Wayback v proxy režimu SDRUK-IT 14.2.2007
XInq • XML INQuiry • Search and browse tool for accessing an XML database SDRUK-IT 14.2.2007
Děkuji za pozornost!webarchiv@nkp.cz SDRUK-IT 14.2.2007