310 likes | 423 Views
Perspektivy trvalých identifikátorů v ČR. Jan Hutař Libor Coufal. Souvislosti. Koncepce Národní digitální knihovny - čeká na schválení vládou Centrální digitální repozitář CDR v NK >> potřeba jednoznačné identifikace jak v rámci CDR tak i navenek Kramerius Manuscriptorium WebArchiv.
E N D
Perspektivy trvalých identifikátorů v ČR Jan Hutař Libor Coufal
Souvislosti • Koncepce Národní digitální knihovny - čeká na schválení vládou • Centrální digitální repozitář CDR v NK >> potřeba jednoznačné identifikace jak v rámci CDR tak i navenek • Kramerius • Manuscriptorium • WebArchiv
Souvislosti • Žádná instituce v ČR zatím PID pro digitální dokumenty plnohodnotně nevyužívá • KNAV používá DOI pro své článkové databáze • WebArchiv přiděluje NBN – nemá resolver • ÚVT UK – ID v DigiToolu
Pracovní skupina PID • na základě zájmu NK zavést standardní PID, široce podporovaný a použitelný i v jiných institucích • velký zájem o spolupráci z ostatních institucí • KNAV • STK • Městská knihovna Praha • MZK • AiP Beroun (Manuscriptorium) • UVT UK • UVT MU • Cosmotron Bohemia s.r.o
Co jsou identifikátory? • řetězce čísel, písmen a symbolů reprezentující určitý objekt 80-7309-151-8
Identifikátor vyžaduje • Standard, který jej definuje (sám o sobě nedává smysl, např. RČ) • Správce, který přiřazuje ID objektům Identifikátor ~ společenská dohoda jejíž hodnota závisí na organizaci
K čemu slouží identifikátory? • Identifikace r.č. 050505/5527
K čemu slouží identifikátory? • Odkazování http://emk.cz/
K čemu slouží identifikátory? • Odkazování http://www.osu.cz/konference/khv/dokumenty/sborn%C3%ADk_khv2007.pdf
Požadavky na ID • Jednoznačnost • každý objekt má pouze jeden ID • jeden ID odkazuje pouze na jeden objekt • často požadavek na globální jednoznačnost • důležitý je kontext • Trvalost (Persistence) > PID • ID = vztah mezi řetězcem a věcí > vydrží tak dlouho, jak dlouho vydrží tento vztah • perzistentnost není vlastností technologie, ale organizace • jak dlouhá je „perzistentnost“?
PID v knihovnách • tradiční • LCCN 1898 • ISBN 1970 • ISSN 1975 > ISMN, ISAN (vše garantováno ISO) • „nové“ • DOI; URI; URL; URN; ARK; PURL; NBN; Handles aj.
Problémy PID v knihovnách • Neexistuje univerzální ID, pokrývající všechny typy intelektuálních děl • Lze využít tradiční ID v novém kontextu? ANO - např. urn:ISBN:0-789-12345-1
Co od PID očekáváme/-te? Obecné požadavky a očekávání jednotlivých institucí: • jednoznačná identifikace DO na všech úrovních (titul > část > kapitola > strana) nebo (titul > ročník > číslo > strana > článek) • nejen v rámci jednoho systému, ale i v systémech ostatních • fungující propojení elektronických dokumentů s katalogem (SKC x knihovny)
Pracovní skupina - plán • specifikace konkrétních požadavků na trvalý identifikátor od jednotlivých institucí • převedení specifikace do formy hodnotících kritérií • hodnocení kandidátů na základě kritérií • analýza existujících PID, výběr užšího okruhu vhodných kandidátů • výběr nejvhodnějšího trvalého identifikátoru • vytvoření konkrétní podoby (syntaxe)
Analýza - otázky • Používáte nebo plánujete používat trvalé identifikátory? • Jakým způsobem, v rámci jakého projektu a pro jaké typy dokumentů? • Co konkrétně čekáte od jejich zavedení ve vaší instituci? • Jaké jsou vaše představy?
Analýza odpovědí Celkem jsme obdrželi 10 odpovědí. Nejčastějšími požadavky byly: • jednoznačná a persistentní identifikace 10x • umožnění linkování dokumentů 9x • propojení dokumentů s SKC 6x • propojení dokumentů s lokálním katalogem 5x • zajištění resoluční služby (resolveru) 3x
Analýza odpovědí • Využívají ID v současnosti (spíše pasivně) 4x • Chtějí ID na úrovni titulu, i části dokumentů (kapitoly nebo články) 4x
Analýza odpovědí Přidělovat PID těmto typům dokumentů: • digitalizované dokumenty 8x • kvalifikační práce 2x • články 2x • webové dokumenty 1x
Typy a druhy PID • Od 90tých let bylo představeno několik číselných schémat používajících name space • name space – pro uložení jména a lokace dokumentu – ID jsou registrovány centrálně • ID je resolvováno (tj. správný dokument je nalezen), aniž by uživatel věděl jeho skutečnou lokaci • jde o handles, DOI, ARK, PURL, URN, NBN a OpenURL aj.
Uniform Resource Name URN • obecná syntaxe: “urn:“<NID>“:“<NSS> • globálnost – různé zdroje nemohou mít stejné URN • dovoluje integraci jiných schemat (ISBN, ISSN, NBN aj.) urn:isbn:3-1456979-78-9
urn:nbn:cz:nkp-1178446urn:nbn:cz-123456789 National Bibliographic number NBN URN:NBN:<ISO country code:sub-namespace>-<NBN číslo> • pro národní knihovny • globální registr URN:NBN namespace v LoC • NK rozhoduje komu dá sub-namespace
Handles <handle naming auth.>/<handle local name> • Handle ~ konkrétní ID • unikátnost, persistence (fce administrátorské péče), umí odkazovat na různé výskyty konkrétního zdroje, Unicode 2/UTF-8 –vyjádří „cokoliv“, • distribuovaný model: globální služba může delegovat dotazy lokální sl. a naopak 145.76/jan2004-rk132648
Handles 2 145.76/jan2004-rk132648 • nezávislé na DNS – má vlastní root server (Global Handle System na CNRI) • tj. GHS ví o všech Naming authorities (NA) a přeposílá jim dotazy • SW volně na webu CNRI • registrační poplatek je 50 USD
Digital Object Identifier DOI • DOI Foundation - poskytuje technickou i administrativní vrstvu • obojí postavené na možnostech Handle systému + sada dalších schémat a standardů • služby jdou dále než jen technická úroveň • DOI deleguje vše tzv. RA (Registračním Agenturám) • využíváno komerčně – vydavatelé • články, části textů, ale i pro výrobky, vědecká měření apod. • za registraci a použití se platí! tisíce dolarů doi:10.1430/8105
Archival Resource Keys ARK • ARK schéma opatruje California Digital Library • nejen koncept pro PID, ale i kompletní protokol a SW suite k okamžitému startu identifikace a resolvování ! • otevřený rámec pro perz. identifikaci sestávající z: • administrativního modelu • jmenné konvence • síťového protokolu • persistence je čistě otázkou služeb než syntaxe ark:/<12345>/1234-xth-12/oiis
ARK 2 ark:/<12345>/1234-xth-12/oiis [“http://“ <NMAH>“/“] “ark:/“ <NAAN> “/“ <name> [ <qualifier>] • ARK dokáže vyjádřit hierarchii
PURL • vyvinuto OCLC – jako „naming and resolution service“ • URL, které nemíří přímo na zdroj, ale na resolution službu, která odkazuje na zdroj, kt. mohl být mezitím přemístěn • http, DNS – resolver purl.oclc.org • PURL nelze smazat – lze změnit/smazat cíl kam odkazuje • persistence tak dlouho, dokud se udržuje resolution server http://purl.oclc.org/net/digizeit.doc
Co používají jinde ... NBN • Švédsko – projekt DIVA – urn:nbn:se dostali z NK + sami vlastní subnamespace – resolvováno v NK • Německo – DDB - projekt EPICUR (NK) – urn:nbn:de pro online disertace • http://www.persistent-identifier.de/ • resolver v DDB dokáže resolvovat NBN (URN), URL a DOI ARK • USA – NLM, LoC, California Digital Library, Internet Archive, DCC aj. • Francie – BNdF, ve všech jejích sbírkách DK Gallica http://gallica.bnf.fr/ark:/12148/btv1b78399773 PURL • Německo - Goettingen – všechny digitální sbírky na webu http://resolver.sub.uni-goettingen.de/purl/?webdoc-1460 Handles • USA - American Memory – LoC http://hdl.loc.gov/loc.gmd/g3290.ct001038v
Řešení? • může být (a bude) pro instituce různé • 1 instituce i více druhů ID • všespásné řešení pro všechny není • cesta nejmenšího odporu • cesta nejlepší služby
další informace a materiály naleznete na http://pid.ndk.cz/ děkujeme za pozornost jan.hutar@nkp.cz libor.coufal@nkp.cz