160 likes | 290 Views
LiWA - Living Web Archives. Libor Coufal Národní knihovna ČR. O projektu. Výzkumný projekt zaměřený na oblast archivace webu Financováno EU z prostředků 7. rámcového programu (€ 2 682 400) únor 2008 - leden 2011 (36 měsíců). Partneři. Výzkumné organizace:
E N D
LiWA - Living Web Archives Libor Coufal Národní knihovna ČR
O projektu • Výzkumný projekt zaměřený na oblast archivace webu • Financováno EU z prostředků 7. rámcového programu (€ 2 682 400) • únor 2008 - leden 2011 (36 měsíců)
Partneři • Výzkumné organizace: • Výzkumné centrum L3S, Leibnizova universita Hannover (koordinátor) • Institut Maxe Plancka pro informatiku • Výzkumný ústav počítačů a automatizace, Maďarská akademie věd • Webové archivy: • Národní knihovna ČR • Moravská zemská knihovna • European Archive • Hanzo Archives Ltd. • Stichting Nederlands Instituut voor Beeld en Geluid 3
Motivace • Webové technologie se neustále vyvíjejí a stávají se stále sofistikovanějšími 4
Motivace • Webové technologie se neustále vyvíjejí a stávají se stále sofistikovanějšími • Scriptovací jazyky, Flash, multimédia, databáze, … 7
Motivace • Webové technologie se neustále vyvíjejí a stávají se stále sofistikovanějšími • Nástroje pro archivaci webu narážejí na své hranice 8
Motivace • Webové technologie se neustále vyvíjejí a stávají se stále sofistikovanějšími • Nástroje pro archivaci webu narážejí na své hranice • Dlouhodobá perspektiva webových archivů 9
Cíl • Nová generace technologií, která zvýší: • Kvalitu webových archivů • Jejich dlouhodobou využitelnost „Od prostého úložiště webových stránek k živoucím webovým archivům“ • Dlouhodobá interpretovatelnost • Zvýšená důvěryhodnost • Rozmanitost obsahu 11
Oblasti výzkumu • (Ne)kompletnost obsahu • Extrakce ne-HTML odkazů • Archivace skrytého webu • Webové formuláře • Jiné protokoly než http • Filtrace nepodstatného obsahu (šumu) • Spam • Webové pasti • Detekce změn a duplikátů 12
Oblasti výzkumu • Časová koheze • Temporální skladba archivu (datování) • Identifikace, analýza a korekce časových mezer • Konzistence v rámci federovaných webových archívů • Sémantický vývoj a dlouhodobá interpretovatelnost • Terminologická evoluce • Sémantická evoluce 13
Výstup • Sada inovativních služeb pro sklízení,uchování a obohacení obsahu Webu • 2 demo aplikace: streaming a sociální web • integrated reference open source solution for web archiving aligned with work of International Internet Preservation Consortium (IIPC)
Organization of Work WP2: Enhanced Capturing WP7: LiWA Application „Streaming“ WP3: Data Cleansing + Noise Filtering Architecture + Integration Activities „Living Web Archives“ (EA) WP1: Requirement Analysis WP8: LiWA Application „Social Web Archiving“ WP4: Archive Coherence WP5: Handling Semantic Evolution WP10: Dissemination & Exploitation WP9: Project Management (LUH)
Díky za pozornost Libor Coufal Odd. archivace webu Národní knihovna ČR libor.coufal@nkp.cz www.liwa-project.eu