1 / 18

Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu. Martin Bella, xbella@fi.muni.cz. Osnova. zber dát sprístupnenie archívu nová generácia nástrojov. Zber dát. semienka „klikanie“ na odkazy na stránkach pravidlá pasce. Heritrix. robustnosť modulárnosť

john
Download Presentation

Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Uchování a trvalé zpřístupnění webových dokumentů - zkušenosti z WebArchivu Martin Bella, xbella@fi.muni.cz

  2. www.webarchiv.cz Osnova • zber dát • sprístupnenie archívu • nová generácia nástrojov

  3. www.webarchiv.cz Zber dát • semienka • „klikanie“ na odkazy na stránkach • pravidlá • pasce

  4. Heritrix • robustnosť • modulárnosť • rozšíriteľnosť • pluginy • Deduplicator • Hadoop DFS Writer www.webarchiv.cz

  5. www.webarchiv.cz Web Curator Tool • tvorcovia National Library of New Zealand a British Library • nadstavba Heritrixu • prívetivé užívateľské rozhranie • nepodporuje inkrementálny zber • nám nevyhovujúci Workflow

  6. www.webarchiv.cz Web Curator Tool

  7. www.webarchiv.cz Netarchive Suite • nadstavba Heritrixu • prívetivé užívateľské rozhranie • nástroj na plánovanie a spúšťanie zberov, archiváciu dát a kontrolu kvality • možnosť distribuovanej konfigurácie systému

  8. www.webarchiv.cz Nástroje na sprístupnenie • nutnosť rešpektovať autorský zákon • metadáta uložené v SQL databáze • Wayback, štatistiky, pripravuje sa OAI-PMH

  9. www.webarchiv.cz Wayback • aplikácia na sprístupnenie archívu podľa URL a času • režimy sprístupnenia: • archival URL, proxy, timeline • vynikajúce možnosti konfigurácie • v budúcnosti podpora fulltextového vyhľadávania

  10. www.webarchiv.cz Wayback

  11. www.webarchiv.cz NutchWAX • Nutch • crawler • vyhľadávací engine • NutchWAX • nadstavba vytvorená pre potreby webových archívov • nutná aplikácia na rekonštrukciu stránok z archívu

  12. www.webarchiv.cz NutchWAX

  13. www.webarchiv.cz WERA • sprístupnenie a rekonštrukcia stránok • využíva index NutchWAXu • fulltextové vyhľadávanie a vyhľadávanie podľa URL • časová os • ukončený vývoj – prechod na Wayback

  14. www.webarchiv.cz Budúcnosť • inšpirácia od Googlu • počítačové gridy • distribuované filesystémy • Hadoop a NutchWAX verzia >= 0.6 • Map-Reduce

  15. www.webarchiv.cz Map–Reduce • nástroj, pomocou ktorého je možné distribuovať výpočet • dva základné kroky • map(kľúč, hodnota)‏ • reduce(kľúč, zoznam hodnôt)‏

  16. www.webarchiv.cz Map-Reduce – počet výskytov každého slova • funkcia map map (in kľúč, in hodnota) { pre každé slovo z hodnota: vytvorPár(slovo, 1)‏ } • funkcia reduce reduce (in kľúč, in zoznam_hodnôt) { výsledok = sum(zoznam_hodnôt)‏ }

  17. www.webarchiv.cz Hadoop • open-source implementácia GFS • podpora Map-Reduce • replikácie, webové rozhranie • architektúra • namenode • datanode • tasktracker

  18. www.webarchiv.cz Nutch(WAX)‏ • NutchWAX 0.10 + Hadoop 0.9.2 • vyhľadávanie :-(

More Related