310 likes | 420 Views
Magyar Internet Archívum pilot és elemzés. Gulyás László ELTE 2014. április 14. Munkacsapat. Bálint Balázs, MSc, Pálmai Attila, BSc Jurányi Zsolt, BSc, PetaByte Nonprofit Kft. Keszthelyi Gabriella, ELTE PhD hallg. Kampis György, ELTE egy.tan. Gulyás László, ELTE adj. MIA – Mi ez?.
E N D
Magyar Internet Archívum pilot és elemzés Gulyás László ELTE 2014. április 14.
Munkacsapat Bálint Balázs, MSc, Pálmai Attila, BSc Jurányi Zsolt, BSc, PetaByte Nonprofit Kft. Keszthelyi Gabriella, ELTE PhD hallg. Kampis György, ELTE egy.tan. Gulyás László, ELTE adj.
MIA – Mi ez? Az Internet Archívum (Internet Archive) egy internetkönyvtár, célja, hogy hozzáférést adjon a kutatóknak egy digitális formában létező történelmi gyűjteményhez. Magyar Internet Archívum (MIA):magyar akadémiai site-ok archiválása a NIIF tagintézmények (http://www.niif.hu/tagok/...), az MTA intézetei (http://mta.hu/mta_kutatointezetei), valamint a magyarországi egyetemek és főiskolák (Hungarian Science intézmények) Jelenleg mintegy 400 kulcsonfontosságú website van folyamatosan letöltve, archiválva.
Pilot Feladat: az Internet Archívum az egész internetet bejárva egy indexelt és archivált másolatot hivatott létrehozni. A Magyar Internet Archivum a .hu domain tartalmaira összpontosít Nehézségek: tartalomkezelő rendszerek mögötti adatok, belső linkek inkonzisztens kezelése sokhelyütt, illetve egyéb, közvetlen odafigyelést és adattisztítást igénylő tényezők. Megoldás: ezek kezelésére különböző nemzeti archívumok jöttek létre, a magyar változat (egyik?) pilotja a mi műhelyünkben készül, számos innovatív (illetve kényszer szülte) saját hozzájárulással.
Eszközök és módszerek Más nemzeti archívumok által használt módszerek átvétele/módosítása (köztük a British Library internet archiváló programja és segédprogramjai). Szoftver: Heritrix crawler (módosított, speciálisan céljainkra továbbfejlesztett). Hardver: Dell T710 server (2x4 core Xeon E5520, 48GB RAM, 2TB HDD) Longitudinális archiválás mirror-formátumban, két hetes letöltési periódussal.
Adatok Az MTA kutatóintézetei anyagának teljes másolata 33GB, ebből a különböző szöveges formátumok (html, doc, docx, rtf, pdf, ps) 6,5GB. Az egyetemek és főiskolák anyaga 53GB, ebből szöveg: 36GB. Átlagos méret: 974 MB per oldal (medián: 137 MB) Átlagos szövegméret: 474 MB per oldal (medián: 47 MB) Az adatok eloszlása „nagyjából” a hatványtörvényt követi (de legalábbis erősen ferde eloszlású)
Tartalmi elemzések A rendelkezésünkre álló adatokból automatikus elemzéseket is végzünk A „közbeszéd” megragadása Mit kommunikálnak magukról az egyetemek és a kutató intézetek?