200 likes | 349 Views
Implementace formátu METS v Systému Kramerius. Jiří Polišenský. Charakteristika formátu METS. METS (Metadata Encoding and Transmission Standard) je standardizovaný formát XML určený pro výměnu komplexních digitálních objektů mezi systémy
E N D
Implementace formátu METS v Systému Kramerius Jiří Polišenský
Charakteristika formátu METS • METS (Metadata Encoding and Transmission Standard) je standardizovaný formát XML určený pro výměnu komplexních digitálních objektů mezi systémy • Jedná se o kontejnerový formát, který může obsahovat data v různých formátech • Pro bibliografická metadata byl zvolen formát MARC21 (MARC XML) a Dublin Core, pro technická metadata formát PREMIS a MIX
Okolnosti implementace • Implementace formátu METS byla realizována týmem pracovníků Národní knihovny ČR, Knihovny Akademie věd ČR a firmy Qbizm jako součást realizace programového projektu „Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru“ • Výsledkem je rozšíření funkcionality Systému Kramerius o export metadat v tomto formátu • Systém Kramerius již obsahuje velké množství digitalizovaných dokumentů, rozšíření funkcionality muselo respektovat princip zpětné kompatibility • Konverze bibliografických metadat do formátu MARC 21 byla usnadněna skutečností, že stávající formát byl založen na katalogizačním formátu UNIMARC
Struktura dokumentů ve stávajícím formátu • Ve stávajícím formátu tvoří metadata popisné jednotky jeden XML soubor členěný takto: Monograph Monograph, MonographUnit, MonographComponent Part, MonographPage Periodical Periodical, PeriodicalVolume, PeriodicaItem, PeriodicalInternalComponentPart, PeriodicalPage
Struktura dokumentů ve formátu METS • Ve formátu METS bylo nutné rozdělit metadata jedné popisné jednotky na několik souborů METS: • Monograph, MonographComponentPart • Periodical, PeriodicalVolume, PeriodicalItem, PeriodicalComponentPart • Formát METS obsahuje na jednotlivých úrovních mnohonásobně více údajů než stávající formát
Datové sekce • Data ve formátu METS budou tvořit kořenový element a šest sekcí dat: - sekci hlavička HdrSec - sekci popisných metadat dmdSec - sekci administrativních metadat amdSec - sekci souborů fileSec - strukturální mapu structMap - sekci strukturálních odkazů structLink
Sekce hlavičky HdrSec • Sekce hlavičky obsahuje následující atributy: - datum vytvoření (CREATEDATE) - agent - role (CREATOR) - agent - typ (ORGANIZATION) - agent – jméno (ABA 001)
Sekce popisných metadat dmdSec • Popisná metadata obsahují bibliografické údaje ve formátu MARC 21 (MARC XML), a ve formátu DublinCore (pouze v nejvyšších úrovních) • Na nižších úrovních se využívá formát DC – terms k propojení nižších úrovní na vyšší • Pro potřeby generování popisných metadat byla zpracována převodní tabulka mezi formátem MARC21 a DTD pro periodika a monografie • Pro úplnost popisných metadat ve formátu MARC 21 bude nutné některé popisné elementy doplňovat z katalogizačních záznamů.
Sekce administrativních metadat amdSec • Administrativní metadata jsou technické údaje o digitálních objektech nebo právech a událostech, která se k nim vztahují. Sekce administrativních metadat se dále člení do čtyř částí: techMD (technická metadata) se bude používat pro uložení administrativních metadat jednotlivých stránek. Pro každou stránku budou vytvořena dvě techMD, první bude obsahovat technická metadata o vlastním souboru ve formátu PREMIS – Object, druhá bude obsahovat některé další údaje, které nelze vyjádřit ve formátu PREMIS – Object. Pro tato data se použije formát MIX, rightsMD bude používána pro uložení metadat o administrativních a legislativních právech. I tato část se dále dělí na PREMISRights (administrátorská oprávnění) a METSRigts (legislativní práva), sourceMD slouží pro uložení metadat o původci údajů obsažených v METS dokumentu, digiprovMD bude v Systému Kramerius využívána pro uložení údajů o událostech spojených s jednotlivými objekty. Pro tento typ údajů bude využita část formátu PREMIS – Events.
Sekce souborů fileSec • Sekce souborů obsahuje 4 skupiny (fileGrp) podle typů souborů - URL odkazy do Krameria, na všechny úrovně - METS odkazy na soubory METS vyšších a nižších úrovní - IMAGE odkaz na zdroj obrazové reprezentace dané stránky (odkaz na documentServlet) - TXT odkaz na zdroj textové reprezentace dané stránky (odkaz na documentServlet)
Strukturální mapa structMap • Strukturální mapa definuje hierarchickou strukturu dokumentu a slouží k navigaci v něm. Tato sekce tvoří základní prvek každého METS souboru • V Systému Kramerius budou využívány dva typy strukturální mapy definované atributem TYPE: structMap logical a structMAP pages (fyzická struktura)
Strukturální odkazy structLink • Tato sekce slouží k propojování jednotlivých elementů METS dokumentu, zejména k propojení logické a fyzické struktury
Požadavky na rozšíření stávajícího DTD • Rozšíření stávajícího standardu o element PageIndex • Rozšíření ComponentPart o výčet stránek • Rozšíření DTD monografií o element UniqueIdentifier
Rozšíření stávajícího standardu o element PageIndex • Rozšíření stávajícího standardu o element PageIndex umožní řešit problémy s nekompatibilitou mezi logickou a fyzickou strukturou ústící při vytváření struktury dokumentu v účelová řešení. Index stránky zabezpečuje jednoznačné rozlišení stránek (elementy PeriodicalPage/MonographPage) uvnitř importovaného souboru. Unikátnost musí být zabezpečena v případě periodika na úrovni PeriodicalVolume a PeriodicalItem, v případě monografie pak na úrovni Monograph a MonographUnit.
Rozšíření ComponentPart o výčet stránek • Stávající DTD pro monografie a periodika neumožňuje specifikovat stránky na úrovni ComponentPart výčtem, ale pouze odkazuje na první stranu kde vnitřní část začíná. To neumožňuje popsat situace, kdy např. článek v novinách začíná na str. 1 a pokračuje na str. 3. • Dalším problémem je nemožnost přesně určit začátek logické jednotky, který se dohledává pomocí elementu „PageNumber“, který reprezentuje logické číslování, nikoliv index stránky uvnitř fyzické jednotky. Specifikace všech stran výčtem s použitím elementu PageIndex tyto problémy odstraní.Toto řešení si vyžádalo modifikaci uživatelského rozhraní.
Rozšíření DTD monografií o element UniqueIdentifier • Tento nový element je nutný při importu administrativních metadat do Systému Kramerius. UniqueIdentifier, bude sloužit pro provázání dané úrovně monografie s příslušnými administrativními metadaty, která se k němu vztahují. Pro zachování zpětné kompatibility bude volitelný.
Administrativní metadata a jejich implementace v Systému Kramerius • Jedná se o novou oblast metadat, se kterou nejsou dlouhodobé zlkušennosti • Administrativní metadata budou procházet změnami, které mohou znamenat časté změny DTD a Systému Kramerius • Administrativní metadata nejsou součástí stávajícího standardu (DTD pro periodika nebo monografie), ale jsou uložena v rámci Systému Kramerius a při exportu se transformují do formátu METS.
Vygenerování METS dokumentu Dokumenty METS bude možné získávat ze Systému Kramerius několika způsoby: • on-line generováním jednoho METS souboru a následným generováním ostatních relevantních METS souborů pomocí klientské aplikace, • uživatelským generováním METS dokumentu dané úrovně, • pomocí utility pro hromadné stažení METS dokumentů daného podstromu, • pomocí harvestovacího protokolu OAI-PMH
Závěr • V současné době je rozšířen Systém Kramerius o export ve formátu METS (MARC21, PREMIS a MIX) • Dokončují se úpravy v komerčním produkčním systému Sirius, umožňující vytváření administrativních metadat • V rámci programu VISK7 budou již v letošním roce digitalizované dokumenty obsahovat administrativní a technická metadata • Implementace formátu METS je významným krokem k vytvoření „trusted repository“ a Národní digitální knihovně
Děkuji za pozornost Polisensky.Jiri@cdh.nkp.cz