390 likes | 467 Views
Zpřístupnění digitalizace pro veřejnost. Martin Vojnar vojnar@multidata.cz. Z předchozího víme. proč usilovat o dlouhodobou archivaci jaké efekty může přinést řešení na národní úrovni předpoklady úspěšného nasazení
E N D
Zpřístupnění digitalizace pro veřejnost Martin Vojnar vojnar@multidata.cz
Z předchozího víme • proč usilovat o dlouhodobou archivaci • jaké efekty může přinést řešení na národní úrovni • předpoklady úspěšného nasazení • veřejnost a poskytovatelé dotace budou projekt vnímat a hodnotit podle vnějších výsledků: • formálně (kvantifikátory, splněné ukazatele) • prakticky (slovenský kulturní „google“) • technicky (vše musí fungovat hladce) • jejich očekávání a požadavky budou v čase narůstat(tj. na co se dnes připravujete, zítra už nebude stačit)
Dále se budeme bavit o • zpřístupnění dokumentů pro veřejnost • v širším kontextu jednotného prostředí • co znamená malý a velký index • praktické ukázky • otázky / diskuse
veřejné rozhraní pro vyhledávání digitalizované / digitální objekty
veřejné rozhraní pro vyhledávání digitalizované / digitální objektyz různých sektorů agregace (neustálý a nekonečný přísun objektů a metadat)
Otázka na úvod • kde mají být výsledky digitalizace prezentovány ? • specializované digitální knihovny šité na míru jednotlivým sbírkám • dlouhodobý archiv (light vs. dark archiv) • nápověda: repozitář (digitální knihovna/archiv) by měl být oddělen od koncového rozhraní
Požadované funkce na zpřístupnění • vyhledávání • nejen metadata, ale i „uvnitř“ objektu (např. články, plný text, titulky, …) • dodání (zobrazení) obsahu objektu • různé verze dodání • vhodný prohlížeč/plugin dle typu objektu • v souladu s autorskými právy • společenský kontext a aktivity uživatelů
Příklad systému pro zpřístupnění • přirozeně: Primo = koncové rozhraní nad LTP systémem Rosetta • National Library of New Zealand • Binghamton University • proč klademe důraz na samostatnékoncové rozhraní ? • proč jednoduše neříkáme, že LTP má koncové rozhraní ? • konec konců také lze uvažovat: Primo = koncové rozhraní nad digitálními knihovnami, jejichž obsah je archivován v LTP systému • Univerzita Karlova
Směr: jednotné prostředí • ideálně: Primo = koncové rozhraní nejen nad LTP systémem Rosetta • cíl: začlenění výsledků digitalizace do jednotného prostředí(jednotné prostředí ≠ Europeana) • řešení pro všechny uživatele všech kulturních institucí včetně: • digitalizovaného prostoru • elektronického prostoru • tradičního fyzického prostoru • proč má smysl uvažovat v kontextu jednotného prostředí ? • tlak webu • růst očekávání uživatelů
Jednotné prostředí • pro vyhledávání informací a dokumentů • pro dodávání informací a dokumentů • pro objevení nového • používáte ho každý den • pro každý dotaz
Proč ? • v rámci vyhledávání a dodávání informací zahájily před ca 5 lety nástup nové nástroje • byly původně označovány jako katalogy nové generace (next-gen OPACs) • postupně se vyvinuly v tzv. „discovery“ systémy • jejich hlavní důraz je kladen na koncového uživatele, jeho potřeby a prostředí, samostatnost a spokojenost • užitečný nástroj v kontextu informační gramotnosti
Cíle jednotného prostředí • každý dotaz musí být prováděn ve všech zdrojích instituce* (tištěné, elektronické, digitalizované, …) • výsledky jsou zobrazeny v jedné výsledkové množině s jednotnou relevancí a s úplnou navigací • zobrazení plného textu nebo objektu na jedno kliknutí • podpora SSO, integrace objednávání a čtenářského konta * v kontextu KIS3G apod.
Co není jednotné prostředí • pokud uživatel musí přecházet do jiných systémů • pokud se musí uživatel opakovaně přihlašovat • pokud uživatel ztrácí kontinuitu svého vyhledávání • pokud uživatel musí začínat v „discovery“ systému (příklad) • pokud rozhraní nenabízí jednotné výsledky • pokud rozhraní neumožňuje začlenění libovolného zdroje
Očekávání ze strany uživatelů* • rychlé, jednoduché, intuitivní používání • jediné rozhraní • navigace pomocí faset • DYM, návrhy/našeptávání • RSS • pokrytí relevantního obsahu • základní přehled „discovery“ systémůhttp://www.librarytechnology.org/discovery.pl *Marshall Breeding
Typické zdroje jednotného prostředí • knihovní, muzejní, archivní fondy • licencované databáze • volně dostupné dokumenty a data (open access) • digitální a digitalizované sbírky • institucionální repozitáře … a další dle potřeb uživatelů • různé formáty, různé oprávnění, různé instituce, různý význam • discovery také může být zdrojem pro vyšší třídu vyhledávačů
Typické zdroje jednotného prostředí jednotnéprostředí včetně elektronických zdrojů
Anatomie vyhledávání • index lokálních zdrojů instituce / institucí • index elektronických zdrojů (tzv. velký/centrální index) • index národních zdrojů (tzv. malý index) výhody: rychlost, kompletní navigace, jednotná relevance • paralelní vyhledávání (tzv. metavyhledávání) • externí vyhledávání (jiné Primo, Solr, API, …) • zadávání dotazů a jejich typy
Dimenze obsahu indexu • obsah je online • obsah je k dispozici pro daného uživatele (tj. instituci) • velký index: stovky miliónů záznamů (licencované i otevřené) • jaký je potenciál národního obsahu ?
Příklad: potenciál českého obsahu • SK ČR, ANL, registr digitalizace • oborové bibliografie • národní digitální knihovny (M+K+W) • oborové digitální knihovny (DML-CZ) • NUŠL • placené zdroje (Anopress IT, Newton Media, Infobanka ČTK, Beck online, ASPI, …) • nová média: wiki, archivy vysílání, e-knihy • publikační činnost / výstupy VaV • nástroje pro podporu vzdělávání, doporučená literatura • institucionální repozitáře (DSpaceCZ, digitalizace KNAV ČR, …) • a další (?)
Potenciál českého obsahu – pár čísel • experiment v testovacím prostředí UK: • katalog + kvalifikační práce ca 1 mil. záznamů • ostatní ca 1 mil. záznamů, v tom: • cswiki + wikiskripta.eu ca 200 tis. záznamů • manuscriptorium a kramerius ca 200 tis. záznamů • ANL (online) ca 200 tis. záznamů • BMČ (online), BDÚ (online), ZPB (online), GEOBIBLINE ca 60 tis. záznamů • DML-CZ a NUŠL ca 100 tis. záznamů • různé ca 50 tis. záznamů (Forum, Anopress IT, Beck online, palmknihy.cz, Newton Media…) • SK ČR ca 50 tis. záznamů
Zdroj č. 1: souborné báze NK ČR • Souborný katalog ČR • celkem ca 5 mil. záznamů • z toho ca 51 tis. záznamů s online obsahem • problém: rozlišení typu online obsahu v poli 856 (MARC21) • česká článková bibliografie (báze ANL) • celkem ca 1,4 mil. záznamů • z toho ca 206 tis. záznamů s online obsahem • problém: nefunkční nebo neplatné odkazy
Zdroj č. 2: digitalizace NK ČR • Kramerius a Manuscriptorium • celkem 200 tis. záznamů v obou digitálních knihovnách • ca 10 mil. digitalizovaných stran • ca 20 tis. digitalizovaných záznamů • problém: chybí metadata na úrovni článků, DJVU plugin • registr digitalizace – v testovací fázi
Zdroj č. 3: wiki zdroje • wikipedie (cs) • ca 180 tis. záznamů článků (dump abstract.xml) • wikizdroje (cs-books) • ca 18 tis. záznamů článků • wikiknihy (cs-sources) • ca 2 tis. záznamů článků • wikiskripta • ca 4 tis. záznamů lékařských článků • problém: wiki syntaxe; chybí univerzální wiki parser
Zdroj č. 4: komerční databáze • Anopress IT • vzorek ca 15 tis. záznamů článků (textové přepisy audiovizuálních relací) • Newton Media • vzorek ca 500 záznamů (deník MF Dnes s plnými texty) • C.H.Beck online • vzorek ca 30 záznamů různých právních dokumentů(judikatura, literatura, Sb.z., mezin. smlouvy, vyhlášky, …)
Zdroj č. 5: oborové digitální knihovny • DML-CZ • česká matematická digitální knihovna • ca 50 tis. záznamů článků • privátní rozšíření kvalifikovaného DC • NUŠL • národní úložiště šedé literatury • ca 42 tis. záznamů různých druhů dokumentů (bez plného textu pro indexování) • palmknihy.cz • volně dostupné elektronické knihy • ca 3,5 tis. záznamů v různých formátech (ePub, mobi, pdf, …)
Zdroj č. 6: oborové bibliografie • budovány samostatně odbornými institucemi, typicky ústavy AV • týká se ANL (část bibliografií částečně přispívá) • týká se národních digitálních knihoven (K) • týká se institucionálních repozitářů (digitalizace KNAV ČR) • problém: absence propojení s digitální knihovnou AV ČR
Malý a velký index • velký index celosvětových zdrojů je příliš velký a drahý na to, aby si ho instituce mohly dovolit budovat samy • malý index národních zdrojů je naopak ideální příležitostí pro lokální cenu/výkon, byť se řada zdrojů pohybuje v šeru
Ukázka systému Primo • uživatelé: 800 knihoven celosvětově • v Evropě: Finsko, Rakousko, Lucembursko, Německo, Belgie, … • elektronické zdroje: • získání plného textu (přímé linkování, více zdrojů) • doporučení, citovanost • dostupnost • deduplikace, seskupení (FRBR) • čtenářské konto a objednávání z knihovního fondu • otevřenost (aktuální články) • webové rozhraní pro administrátora
Ukázka systému Primo • chemistry • rfid application in libraries • babička • zemětřesení japonsko • mapa měsíce • hypokalcemie • versaillská smlouva • beckonline • mikuláš rutze • rur • vít richter čtenář • vít richter ikaros
Výzva pro kulturní instituce OBECNĚ • sjednocení vyhledávacího prostředí • sjednocení služeb na něj navázaných • výsledek: • efektivnější využívání zdrojů instituce • častější využívání zdrojů instituce • získání nových uživatelů pro instituci
Výzva pro kulturní instituce CULTURE.GOV.SK • sjednocení digitalizace • využití existujících sítí KIS3G, NISPEZ ad. • každá instituce může přispívat a čerpat, ale nemusí spravovat • o podobě koncového rozhraní a plnění indexu rozhodujete Vy • výsledek: • spokojení uživatelé • spokojené instituce a jejich pracovníci • spokojení zřizovatelé
Máme za sebou • zpřístupnění dokumentů pro veřejnost • širší kontext: jednotné prostředí • malý a velký index • praktické ukázky • otázky / diskuse
Děkuji za pozornost. vojnar@multidata.cz