1 / 20

Implementace formátu METS v Systému Kramerius

Implementace formátu METS v Systému Kramerius. Jiří Polišenský. Charakteristika formátu METS. METS (Metadata Encoding and Transmission Standard) je standardizovaný formát XML určený pro výměnu komplexních digitálních objektů mezi systémy

jarah
Download Presentation

Implementace formátu METS v Systému Kramerius

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Implementace formátu METS v Systému Kramerius Jiří Polišenský

  2. Charakteristika formátu METS • METS (Metadata Encoding and Transmission Standard) je standardizovaný formát XML určený pro výměnu komplexních digitálních objektů mezi systémy • Jedná se o kontejnerový formát, který může obsahovat data v různých formátech • Pro bibliografická metadata byl zvolen formát MARC21 (MARC XML) a Dublin Core, pro technická metadata formát PREMIS a MIX

  3. Okolnosti implementace • Implementace formátu METS byla realizována týmem pracovníků Národní knihovny ČR, Knihovny Akademie věd ČR a firmy Qbizm jako součást realizace programového projektu „Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru“ • Výsledkem je rozšíření funkcionality Systému Kramerius o export metadat v tomto formátu • Systém Kramerius již obsahuje velké množství digitalizovaných dokumentů, rozšíření funkcionality muselo respektovat princip zpětné kompatibility • Konverze bibliografických metadat do formátu MARC 21 byla usnadněna skutečností, že stávající formát byl založen na katalogizačním formátu UNIMARC

  4. Struktura dokumentů ve stávajícím formátu • Ve stávajícím formátu tvoří metadata popisné jednotky jeden XML soubor členěný takto: Monograph Monograph, MonographUnit, MonographComponent Part, MonographPage Periodical Periodical, PeriodicalVolume, PeriodicaItem, PeriodicalInternalComponentPart, PeriodicalPage

  5. Struktura dokumentů ve formátu METS • Ve formátu METS bylo nutné rozdělit metadata jedné popisné jednotky na několik souborů METS: • Monograph, MonographComponentPart • Periodical, PeriodicalVolume, PeriodicalItem, PeriodicalComponentPart • Formát METS obsahuje na jednotlivých úrovních mnohonásobně více údajů než stávající formát

  6. Datové sekce • Data ve formátu METS budou tvořit kořenový element a šest sekcí dat: - sekci hlavička HdrSec - sekci popisných metadat dmdSec - sekci administrativních metadat amdSec - sekci souborů fileSec - strukturální mapu structMap - sekci strukturálních odkazů structLink

  7. Sekce hlavičky HdrSec • Sekce hlavičky obsahuje následující atributy: - datum vytvoření (CREATEDATE) - agent - role (CREATOR) - agent - typ (ORGANIZATION) - agent – jméno (ABA 001)

  8. Sekce popisných metadat dmdSec • Popisná metadata obsahují bibliografické údaje ve formátu MARC 21 (MARC XML), a ve formátu DublinCore (pouze v nejvyšších úrovních) • Na nižších úrovních se využívá formát DC – terms k propojení nižších úrovní na vyšší • Pro potřeby generování popisných metadat byla zpracována převodní tabulka mezi formátem MARC21 a DTD pro periodika a monografie • Pro úplnost popisných metadat ve formátu MARC 21 bude nutné některé popisné elementy doplňovat z katalogizačních záznamů.

  9. Sekce administrativních metadat amdSec • Administrativní metadata jsou technické údaje o digitálních objektech nebo právech a událostech, která se k nim vztahují. Sekce administrativních metadat se dále člení do čtyř částí: techMD (technická metadata) se bude používat pro uložení administrativních metadat jednotlivých stránek. Pro každou stránku budou vytvořena dvě techMD, první bude obsahovat technická metadata o vlastním souboru ve formátu PREMIS – Object, druhá bude obsahovat některé další údaje, které nelze vyjádřit ve formátu PREMIS – Object. Pro tato data se použije formát MIX, rightsMD bude používána pro uložení metadat o administrativních a legislativních právech. I tato část se dále dělí na PREMISRights (administrátorská oprávnění) a METSRigts (legislativní práva), sourceMD slouží pro uložení metadat o původci údajů obsažených v METS dokumentu, digiprovMD bude v Systému Kramerius využívána pro uložení údajů o událostech spojených s jednotlivými objekty. Pro tento typ údajů bude využita část formátu PREMIS – Events.

  10. Sekce souborů fileSec • Sekce souborů obsahuje 4 skupiny (fileGrp) podle typů souborů - URL odkazy do Krameria, na všechny úrovně - METS odkazy na soubory METS vyšších a nižších úrovní - IMAGE odkaz na zdroj obrazové reprezentace dané stránky (odkaz na documentServlet) - TXT odkaz na zdroj textové reprezentace dané stránky (odkaz na documentServlet)

  11. Strukturální mapa structMap • Strukturální mapa definuje hierarchickou strukturu dokumentu a slouží k navigaci v něm. Tato sekce tvoří základní prvek každého METS souboru • V Systému Kramerius budou využívány dva typy strukturální mapy definované atributem TYPE: structMap logical a structMAP pages (fyzická struktura)

  12. Strukturální odkazy structLink • Tato sekce slouží k propojování jednotlivých elementů METS dokumentu, zejména k propojení logické a fyzické struktury

  13. Požadavky na rozšíření stávajícího DTD • Rozšíření stávajícího standardu o element PageIndex • Rozšíření ComponentPart o výčet stránek • Rozšíření DTD monografií o element UniqueIdentifier

  14. Rozšíření stávajícího standardu o element PageIndex • Rozšíření stávajícího standardu o element PageIndex umožní řešit problémy s nekompatibilitou mezi logickou a fyzickou strukturou ústící při vytváření struktury dokumentu v účelová řešení. Index stránky zabezpečuje jednoznačné rozlišení stránek (elementy PeriodicalPage/MonographPage) uvnitř importovaného souboru. Unikátnost musí být zabezpečena v případě periodika na úrovni PeriodicalVolume a PeriodicalItem, v případě monografie pak na úrovni Monograph a MonographUnit.

  15. Rozšíření ComponentPart o výčet stránek • Stávající DTD pro monografie a periodika neumožňuje specifikovat stránky na úrovni ComponentPart výčtem, ale pouze odkazuje na první stranu kde vnitřní část začíná. To neumožňuje popsat situace, kdy např. článek v novinách začíná na str. 1 a pokračuje na str. 3. • Dalším problémem je nemožnost přesně určit začátek logické jednotky, který se dohledává pomocí elementu „PageNumber“, který reprezentuje logické číslování, nikoliv index stránky uvnitř fyzické jednotky. Specifikace všech stran výčtem s použitím elementu PageIndex tyto problémy odstraní.Toto řešení si vyžádalo modifikaci uživatelského rozhraní.

  16. Rozšíření DTD monografií o element UniqueIdentifier • Tento nový element je nutný při importu administrativních metadat do Systému Kramerius. UniqueIdentifier, bude sloužit pro provázání dané úrovně monografie s příslušnými administrativními metadaty, která se k němu vztahují. Pro zachování zpětné kompatibility bude volitelný.

  17. Administrativní metadata a jejich implementace v Systému Kramerius • Jedná se o novou oblast metadat, se kterou nejsou dlouhodobé zlkušennosti • Administrativní metadata budou procházet změnami, které mohou znamenat časté změny DTD a Systému Kramerius • Administrativní metadata nejsou součástí stávajícího standardu (DTD pro periodika nebo monografie), ale jsou uložena v rámci Systému Kramerius a při exportu se transformují do formátu METS.

  18. Vygenerování METS dokumentu Dokumenty METS bude možné získávat ze Systému Kramerius několika způsoby: • on-line generováním jednoho METS souboru a následným generováním ostatních relevantních METS souborů pomocí klientské aplikace, • uživatelským generováním METS dokumentu dané úrovně, • pomocí utility pro hromadné stažení METS dokumentů daného podstromu, • pomocí harvestovacího protokolu OAI-PMH

  19. Závěr • V současné době je rozšířen Systém Kramerius o export ve formátu METS (MARC21, PREMIS a MIX) • Dokončují se úpravy v komerčním produkčním systému Sirius, umožňující vytváření administrativních metadat • V rámci programu VISK7 budou již v letošním roce digitalizované dokumenty obsahovat administrativní a technická metadata • Implementace formátu METS je významným krokem k vytvoření „trusted repository“ a Národní digitální knihovně

  20. Děkuji za pozornost Polisensky.Jiri@cdh.nkp.cz

More Related