180 likes | 284 Views
Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu. Martin Bella, xbella@fi.muni.cz. Osnova. zber dát sprístupnenie archívu nová generácia nástrojov. Zber dát. semienka „klikanie“ na odkazy na stránkach pravidlá pasce. Heritrix. robustnosť modulárnosť
E N D
Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu Martin Bella, xbella@fi.muni.cz
www.webarchiv.cz Osnova • zber dát • sprístupnenie archívu • nová generácia nástrojov
www.webarchiv.cz Zber dát • semienka • „klikanie“ na odkazy na stránkach • pravidlá • pasce
Heritrix • robustnosť • modulárnosť • rozšíriteľnosť • pluginy • Deduplicator • Hadoop DFS Writer www.webarchiv.cz
www.webarchiv.cz Web Curator Tool • tvorcovia National Library of New Zealand a British Library • nadstavba Heritrixu • prívetivé užívateľské rozhranie • nepodporuje inkrementálny zber • nám nevyhovujúci Workflow
www.webarchiv.cz Web Curator Tool
www.webarchiv.cz Netarchive Suite • nadstavba Heritrixu • prívetivé užívateľské rozhranie • nástroj na plánovanie a spúšťanie zberov, archiváciu dát a kontrolu kvality • možnosť distribuovanej konfigurácie systému
www.webarchiv.cz Nástroje na sprístupnenie • nutnosť rešpektovať autorský zákon • metadáta uložené v SQL databáze • Wayback, štatistiky, pripravuje sa OAI-PMH
www.webarchiv.cz Wayback • aplikácia na sprístupnenie archívu podľa URL a času • režimy sprístupnenia: • archival URL, proxy, timeline • vynikajúce možnosti konfigurácie • v budúcnosti podpora fulltextového vyhľadávania
www.webarchiv.cz Wayback
www.webarchiv.cz NutchWAX • Nutch • crawler • vyhľadávací engine • NutchWAX • nadstavba vytvorená pre potreby webových archívov • nutná aplikácia na rekonštrukciu stránok z archívu
www.webarchiv.cz NutchWAX
www.webarchiv.cz WERA • sprístupnenie a rekonštrukcia stránok • využíva index NutchWAXu • fulltextové vyhľadávanie a vyhľadávanie podľa URL • časová os • ukončený vývoj – prechod na Wayback
www.webarchiv.cz Budúcnosť • inšpirácia od Googlu • počítačové gridy • distribuované filesystémy • Hadoop a NutchWAX verzia >= 0.6 • Map-Reduce
www.webarchiv.cz Map–Reduce • nástroj, pomocou ktorého je možné distribuovať výpočet • dva základné kroky • map(kľúč, hodnota) • reduce(kľúč, zoznam hodnôt)
www.webarchiv.cz Map-Reduce – počet výskytov každého slova • funkcia map map (in kľúč, in hodnota) { pre každé slovo z hodnota: vytvorPár(slovo, 1) } • funkcia reduce reduce (in kľúč, in zoznam_hodnôt) { výsledok = sum(zoznam_hodnôt) }
www.webarchiv.cz Hadoop • open-source implementácia GFS • podpora Map-Reduce • replikácie, webové rozhranie • architektúra • namenode • datanode • tasktracker
www.webarchiv.cz Nutch(WAX) • NutchWAX 0.10 + Hadoop 0.9.2 • vyhľadávanie :-(