1 / 31

Magyar Internet Archívum pilot és elemzés

Magyar Internet Archívum pilot és elemzés. Gulyás László ELTE 2014. április 14. Munkacsapat. Bálint Balázs, MSc, Pálmai Attila, BSc Jurányi Zsolt, BSc, PetaByte Nonprofit Kft. Keszthelyi Gabriella, ELTE PhD hallg. Kampis György, ELTE egy.tan. Gulyás László, ELTE adj. MIA – Mi ez?.

Download Presentation

Magyar Internet Archívum pilot és elemzés

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Magyar Internet Archívum pilot és elemzés Gulyás László ELTE 2014. április 14.

  2. Munkacsapat Bálint Balázs, MSc, Pálmai Attila, BSc Jurányi Zsolt, BSc, PetaByte Nonprofit Kft. Keszthelyi Gabriella, ELTE PhD hallg. Kampis György, ELTE egy.tan. Gulyás László, ELTE adj.

  3. MIA – Mi ez? Az Internet Archívum (Internet Archive) egy internetkönyvtár, célja, hogy hozzáférést adjon a kutatóknak egy digitális formában létező történelmi gyűjteményhez. Magyar Internet Archívum (MIA):magyar akadémiai site-ok archiválása a NIIF tagintézmények (http://www.niif.hu/tagok/...), az MTA intézetei (http://mta.hu/mta_kutatointezetei), valamint a magyarországi egyetemek és főiskolák (Hungarian Science intézmények) Jelenleg mintegy 400 kulcsonfontosságú website van folyamatosan letöltve, archiválva.

  4. Pilot Feladat: az Internet Archívum az egész internetet bejárva egy indexelt és archivált másolatot hivatott létrehozni. A Magyar Internet Archivum a .hu domain tartalmaira összpontosít Nehézségek: tartalomkezelő rendszerek mögötti adatok, belső linkek inkonzisztens kezelése sokhelyütt, illetve egyéb, közvetlen odafigyelést és adattisztítást igénylő tényezők. Megoldás: ezek kezelésére különböző nemzeti archívumok jöttek létre, a magyar változat (egyik?) pilotja a mi műhelyünkben készül, számos innovatív (illetve kényszer szülte) saját hozzájárulással.

  5. Eszközök és módszerek Más nemzeti archívumok által használt módszerek átvétele/módosítása (köztük a British Library internet archiváló programja és segédprogramjai). Szoftver: Heritrix crawler (módosított, speciálisan céljainkra továbbfejlesztett). Hardver: Dell T710 server (2x4 core Xeon E5520, 48GB RAM, 2TB HDD) Longitudinális archiválás mirror-formátumban, két hetes letöltési periódussal.

  6. Adatok Az MTA kutatóintézetei anyagának teljes másolata 33GB, ebből a különböző szöveges formátumok (html, doc, docx, rtf, pdf, ps) 6,5GB. Az egyetemek és főiskolák anyaga 53GB, ebből szöveg: 36GB. Átlagos méret: 974 MB per oldal (medián: 137 MB) Átlagos szövegméret: 474 MB per oldal (medián: 47 MB) Az adatok eloszlása „nagyjából” a hatványtörvényt követi (de legalábbis erősen ferde eloszlású)

  7. Összes adat rang-eloszlása

  8. Szöveges adatok rang-eloszlása

  9. Példányszámok alakulása

  10. Példányszámok alakulása

  11. Tárigény alakulása

  12. Tárigény alakulása

  13. Tartalmi elemzések A rendelkezésünkre álló adatokból automatikus elemzéseket is végzünk A „közbeszéd” megragadása Mit kommunikálnak magukról az egyetemek és a kutató intézetek?

  14. Tartalmi elemzések: Szófelhők

  15. Tartalmi elemzések: Trendek

  16. Tartalmi elemzések: Trendek

  17. Tartalmi elemzések: Trendek

  18. Tartalmi elemzések: Trendek

  19. Tartalmi elemzések: Trendek

  20. Tartalmi elemzések: Site-ok

  21. Köszönöm a figyelmet!

  22. Példányszámok és tárigények részletesebben

  23. Példányszámok alakulása

  24. Példányszámok alakulása

  25. Példányszámok alakulása

  26. Példányszámok alakulása

  27. Tárigény alakulása

  28. Tárigény alakulása

  29. Tárigény alakulása

  30. Tárigény alakulása

More Related