450 likes | 572 Views
Problematika velkého indexu. Martin Vojnar vojnar@multidata.cz. Obsah. předehra: jednotné prostředí velký index vs. metavyhledávání vytváření velkého indexu a jeho vlastnosti velký index a český obsah malá úskalí velkého indexu praktické ukázky otázky / diskuse. 1a: jednotné prostředí.
E N D
Problematika velkého indexu Martin Vojnar vojnar@multidata.cz
Obsah • předehra: jednotné prostředí • velký index vs. metavyhledávání • vytváření velkého indexu a jeho vlastnosti • velký index a český obsah • malá úskalí velkého indexu • praktické ukázky • otázky / diskuse
Jednotné prostředí • pro vyhledávání informací a dokumentů • pro dodávání informací a dokumentů • pro objevení nového • používáte ho každý den • ukázka
Proč ? • v rámci vyhledávání a dodávání informací zahájily před ca 5 lety nástup nové nástroje • byly původně označovány jako katalogy nové generace (next-gen OPACs) • postupně se vyvinuly v tzv. „discovery“ systémy • jejich hlavní důraz je kladen na koncového uživatele, jeho potřeby a prostředí, samostatnost a spokojenost • užitečný nástroj v kontextu informační gramotnosti
Cíle jednotného prostředí • každý dotaz musí být prováděn ve všech zdrojích knihovny (tištěné, elektronické, digitalizované, …) • výsledky jsou zobrazeny v jedné výsledkové množině s jednotnou relevancí a s úplnou navigací • zobrazení plného textu na jedno kliknutí • podpora SSO, integrace objednávání a čtenářského konta
Co není jednotné prostředí • pokud uživatel musí přecházet do jiných systémů • pokud se musí uživatel opakovaně přihlašovat • pokud uživatel ztrácí kontinuitu svého vyhledávání • pokud uživatel musí začínat v „discovery“ systému (příklad) • pokud rozhraní nenabízí jednotné výsledky • pokud rozhraní neumožňuje začlenění libovolného zdroje
Očekávání ze strany uživatelů* • rychlé, jednoduché, intuitivní používání • jediné rozhraní • navigace pomocí faset • DYM, návrhy/našeptávání • RSS • pokrytí relevantního obsahu • základní přehled „discovery“ systémůhttp://www.librarytechnology.org/discovery.pl *Marshall Breeding
Přidaná hodnota „discovery“ • jedno společné rozhraní = méně práce s lepším výsledkem • konec informačního přehlcení díky: • konfigurovatelné relevanci (zlato vs. šum) • personalizaci výpočtu relevance • seskupování výsledků (FRBR) • doporučení • zapojení uživatelů • integrace s jejich prostředím • komentáře / hodnocení • čtenářské konto • sledování novinek • virtuální knihovnička
Typické zdroje pro „discovery“ • knihovní fond • licencované databáze • volně dostupné dokumenty a data (open access) • digitální knihovny • institucionální repozitáře … a další dle potřeb uživatelů • různé formáty, různé oprávnění, různé instituce, různý význam • discovery také může být zdrojem pro vyšší třídu vyhledávačů
UIdiscovery discovery index
UIdiscovery discovery index obsahuje různé zdroje
UIdiscovery včetně elektronických zdrojů
Anatomie vyhledávání • index lokálních zdrojů • index elektronických zdrojů (tzv. velký index) • paralelní vyhledávání (tzv. metavyhledávání) – více v kapitole 2 • externí vyhledávání (sám sebe, Solr, API, …) • zadávání dotazů a jejich typy
Ukázka systému Primo (naživo později) • elektronické zdroje: • získání plného textu (přímé linkování, více zdrojů) • doporučení, citovanost • dostupnost • seskupení (FRBR) • čtenářské konto a objednávání z knihovního fondu • otevřenost (aktuální články) • lokální obsah (wikipedie, www stránky, české zdroje) • metavyhledávání vs. velký index • filozofie velkého indexu • webové rozhraní pro administrátora
Výzva pro knihovny • sjednocení vyhledávacího prostředí • sjednocení služeb na něj navázaných • výsledek: • efektivnější využívání zdrojů knihovny • častější využívání zdrojů knihovny • získání nových uživatelů • opakované využívání zdrojů knihovny
UIdiscovery včetně elektronických zdrojů ukázka: video
Změna filozofie velkého indexu • paralelní vyhledávání = ve sbírkách • velký index = v obsahu • oddělení fáze vyhledávání a dodávání • nepřihlášeným uživatelům: • povoleno obojí • povoleno jen vyhledávání • není povoleno ani vyhledávání • dodávání na základě elektronických holdingů (dostupnost)
Příklad dostupnosti • např. ve formátu pro Google Scholar <item type="electronic"> <sfx_id>954921333005</sfx_id> <object_type>JOURNAL</object_type> <title>Abacus</title> <title>ABACUS A JOURNAL OF ACCOUNTING FINANCE AND BUSINESS STUDIES</title> <title>ABACUS OXFORD</title> <issn>0001-3072</issn> <eissn>1467-6281</eissn> <coverage> <from> <year>1965</year> </from> <to></to> <embargo> <days_not_available>365</days_not_available> </embargo> </coverage> </item>
Pro uživatele Metalibu • význam paralelního vyhledávání • velký index jako cíl v paralelním vyhledávání (obrat 180°) • paralelní vyhledávání jako doplňková metoda přístupu v UI rozhraní velkého indexu • příklad
Plnění velkého indexu • Ex Libris vs. tradiční agregátoři • open aktivity v rámci JISC (RDTF, KBART, lis-oss aj.) • smlouvy s poskytovateli různého typu (typicky na 3 roky) • rozsah získávaných metadat: • základní metadata • + věcný popis • + abstrakt • + plný text
Váš obsah ve velkém indexu (dnes) • sbírky vs. tituly • profil velkého indexu • dostupnost na úrovni instituce • analýza procentuálního zastoupení titulů • počet elektronických titulů (ISSN/ISBN/název) • počet předplácených titulů • počet recenzovaných titulů
Váš obsah ve velkém indexu (zítra) • plnění je nekonečný proces • řídí se podle cestovní mapy (ukázka) • nikdy nebude 100%-ně úplný • nikdy nebude 100%-ně aktuální • petice IGELU
Důraz na otevřenost velkého indexu • během plnění (open discovery) • jeho obsahu (open access, open data) • jeho dostupnosti (open platform) • zařazení do jiných rozhraní (open source) • v budoucnu lze očekávat i kombinování více velkých indexů (např. lokální/globální, více globálních apod.), bude-li úspěšně vyřešena normalizace relevance
Co je nejdůležitější na velkém indexu ? • pokrytí • relevance • dostupnost • rychlost odezvy • neutralita • možnosti konfigurace (jaké?) • jak moc je důležité pokrytí lokálního obsahu ?
Dvě dimenze obsahu velkého indexu • (nějaký) obsah je k dispozici online • dostupnost obsahu pro daného uživatele (tj. instituci) • jaký český obsah je k dispozici ?
Potenciál českého obsahu • SK ČR, ANL, registr digitalizace • oborové bibliografie • národní digitální knihovny (M+K+W) • oborové digitální knihovny (DML-CZ) • NUŠL • placené zdroje (Anopress IT, Newton Media, Infobanka ČTK, Beck online, ASPI, …) • nová média: wiki, archivy vysílání, e-knihy • publikační činnost / výstupy VaV • nástroje pro podporu vzdělávání, doporučená literatura • institucionální repozitáře (DSpaceCZ, digitalizace KNAV ČR, …) • a další (?)
Potenciál českého obsahu – pár čísel • experiment v testovacím prostředí UK: • katalog + kvalifikační práce ca 1 mil. záznamů • ostatní ca 800 tis. záznamů, v tom: • cswiki ca 200 tis. záznamů • manuscriptorium ca 200 tis. záznamů • ANL (online) ca 200 tis. záznamů • BMČ (online), BDÚ (online), ZPB (online), GEOBIBLINE ca 60 tis. záznamů • DML-CZ a NUŠL ca 100 tis. záznamů • různé ca 50 tis. záznamů (Forum, Anopress IT, Kramerius NKP, …)
Oborové bibliografie • hlavní zdroj: oborové bibliografie • týká se ANL • týká se národních digitálních knihoven (K) • týká se institucionálních repozitářů (digitalizace KNAV ČR) • ukončení plnění ANL v NK ČR, udržování pro další knihovny • průzkum stavu oborových bibliografií
Spojení českého obsahu • opravdu na jednom místě • praktické zkušenosti: jednání, vysvětlování, … • licencovaný obsah limitován předchozími smlouvami • jak a kdo [bude chtít | by měl | může] tuto službu nabízet (knihovny vs. dodavatelé, licence, smlouvy, …) • bylo by velmi vhodné zahrnout do strategie knihoven • pár ukázek
Ukázka systému Primo • elektronické zdroje: • získání plného textu (přímé linkování, více zdrojů) • doporučení, citovanost • dostupnost • seskupení (FRBR) • čtenářské konto a objednávání z knihovního fondu • otevřenost (aktuální články) • lokální obsah (wikipedie, www stránky, české zdroje) • metavyhledávání vs. velký index • filozofie velkého indexu • webové rozhraní pro administrátora
Pár zajímavých odkazů • přehled nejlepších v analýze „Web Scale Discovery Services“ (Jason Vaughan, obsah není volně dostupný)http://www.alatechsource.org/taxonomy/term/106/web-scale-discovery-services • Federated Search blog (Sol Lederman)http://federatedsearchblog.com/2011/01/21/must-read-article-on-discovery-services/ • Informační gramotnost uživatelů vs. vyhledávací nástroje nové generace (Vilém Sklenák, ProInflow)http://pro.inflow.cz/informacni-gramotnost-uzivatelu-vs-vyhledavaci-nastroje-nove-generace
Jedno prostředí pro uživatele • vyhledávací nástroje nové generace se na Vás tlačí • velký index je toho součástí (jak moc je důležitý?) • každý velký index jde svou cestou • důraz na otevřenost • jak velká míra kontrola ze strany knihovny je třeba?
Otázky / diskuze. vojnar@multidata.cz
Některé z otázek • je velký index luxus ? • záleží na velikosti indexu ? • jak otestovat rozsah indexu ? • má smysl podpořit Open Discovery ? • co to stojí a kdo to platí ? • proč si to knihovny neudělají samy a lépe ? • jakou míru kontroly chci mít nad velkým indexem ? • jaké z mých sbírek jsou ve velkém indexu ? • jaké zdroje / jaký obsah by tam mí uživatelé rádi viděli ?