140 likes | 262 Views
Indexy a uživatelé paměťových institucí IKI, 17. ledna 201 2. Martin Vojnar vojnar@multidata.cz. vyhledávání a agregace formou „velkých“ index ů (relevance, obsah, zahlcení, …) kulturní instituce a jejich sbírky a u ž ivatelé (knihovny, AMG, archivy, …). Vyhledávání formou velkých index ů.
E N D
Indexy a uživatelé paměťových institucíIKI, 17. ledna 2012 Martin Vojnar vojnar@multidata.cz
vyhledávání a agregace formou „velkých“ indexů (relevance, obsah, zahlcení, …) • kulturní instituce a jejich sbírky a uživatelé (knihovny, AMG, archivy, …)
Vyhledávání formou velkých indexů • existují a fungují dva modely: • (A) 1 index (někde v oblaku)kam posíláte všechna data a uživatele • (B) ekosystém více indexů • lokální dokumenty pod Vaší přímou správou • „přátelské“ indexy odpovídající zájmu Vašich uživatelů • globální (centrální) indexy – části nebo celé
Na mezinárodní scéně • pro kultivaci ekosystému indexů vznikla na konci 2011 nová NISO pracovní skupina: Open Discovery Initiative • a delší dobu funguje také např. http://discovery.ac.uk/(sponzorováno JISC)
Co jsou přátelské indexy ? • kde má své místo: • (B) ekosystém více indexů • lokální dokumenty pod Vaší přímou správou • přátelské indexy odpovídající zájmu Vašich uživatelů • globální (centrální) indexy – části nebo celé • typicky se jedná o specializovaný index (dle formátu, obsahu, producenta), který je vytvořen a udržován pro vícenásobné použití: • může mít vlastní rozhraní pro vyhledávání • umožňuje zařazení do libovolného jiného vyhledávacího systému zpřístupněním indexu • obvykle neumožňuje samostatnou agregaci dat
Z nabídky přátelských indexů • souborné báze a katalogy NK ČR (např. SK ČR nebo ANL / ANL+) • Manuscriptorium / Kramerius / Webarchiv • registr digitalizace (mohla by odpadnout nutnost indexovat jednotlivé K3 nebo K4) • české příspěvky do Europeany a eSbírky (NM) • Registr sbírek výtvarného umění (RG ČR a CITEM) • Digitální parlamentní knihovna • státní oblastní archivy / Národní digitální archiv • vládní dokumenty • výsledky vědy a výzkumu a primární data (www.datacite.org)
Příklad přátelského indexu: ANL+ (anlplus.jib.cz) • český článkový prostor, ca 700 tis. článků z 30 titulů • pilotní projekt NK ČR v testovacím režimu od září 2011
ANL+ nebo ANL- ? • test v roce 2011 nebyl úplný, mělo by být doplněno v roce 2012(chybí digitalizace NK – ca 250 zejména odborných titulů) • chybí minulé roky • tradiční ANL (bohatá metadata) vs. ANL+ (plné texty, náhledy) • potenciál vyhledávacího prostoru českých článků v tištěné podobě je > 50 mil. • vyhledávat může kdokoliv, zobrazovat pouze oprávněný uživatel • zkušenosti velkých indexů signalizují jeden problém: relevance!
Relevance vyhledávání • příklad komerčního přístupu k relevanci: ScholarRank • podrobněji v příspěvku Tamar Sadeh (např. na CASLINu 2011) • řazení relevance vychází z: • dotazu • kontextu dokumentu • kontextu uživatele
AMGK+ http://aries.multidata.cz • jiný příklad přátelského indexu • experiment z oblasti digitálních a digitalizovaných sbírek • může zahrnovat všechny typy paměťových institucí • propojení různých pohledů a komunit • typologie a žánry • fáze 1: hledání podpory v oblasti AMG • zapojení knihoven: ideálně pomocí registru digitalizace, ale … • zapojení knihoven: ideálně na úrovni článku
Na UK se chystá jednotné vyhledávání … • nejde jen o to, jaké indexy a data bude zahrnovat • ale také jakým komunitám uživatelů bude sloužit • mají všichni uživatelé vyhledávat ve stejné množině dokumentů ? • zařadit do vyhledávání některé přátelské indexy ? • jaká kritéria pro stanovení optimálního záběru jednotného vyhledávání použít ? • např. role uživatele (student / doktorand / profesor / …) • studijní obor / příslušnost k dané fakultě • vlastní zájem a hledání uživatele
Díky za pozornost. vojnar@multidata.cz