140 likes | 270 Views
Projekt hromadné digitalizace Ad fontes v Archivu hlavního města Prahy. Název : Záchranná digitalizace a zpřístupnění nejvzácnějších historickýc h archiválií hlavního města Prah y.
E N D
Projekt hromadné digitalizace Ad fontesv Archivu hlavního města Prahy Název:Záchranná digitalizace a zpřístupněnínejvzácnějšíchhistorických archiváliíhlavního města Prahy Projekt komplexní digitální ochrany, záchrany a obecného zpřístupněnínejvzácnějších historických dokumentů hlavního města Prahy Podpořeno grantem z Norska Prostřednictvím Norského finančního mechanismu
Cíle projektu: • Záchrana a trvalé uchování historicky nejvýznamnějších, památkově nejcennějších a fyzicky nejvíce ohrožených archiválií ze sbírek a fondů Archivu hlavního města Prahy, významných pro národní i evropské dějiny, cestou vytvoření všestranně využitelných digitálních kopií z originálů těchto archiválií • Zpřístupnění archiválií v digitální podobě pro badatele a širokou veřejnost Zaměření / koncepce: • Uchování evropského kulturního dědictví • Zlepšení péče a ochrana movitého kulturního dědictví • Ochrana vzácných písemných dokumentů Prahy • ePraha Motivace: • riziko zničení nebo ztráty archiváliearchivace její digitální kopie na jiném bezpečném místě • riziko poškození archiválie jejím častým půjčováním do badatelnyzpřístupnění její digitální kopie v Informačním systému v badatelně • nutnost prezenčního studia archiválie v badatelně archivuzpřístupnění na Internetu
Časový harmonogram projektu a financování projektu Doba trvání projektu: 1.4.2007 – 30.9.2010 Celkové náklady projektu: 778 855 EUR Celková výše grantu: 483 591 EUR
Technické vybavení – zařízení pro digitalizaci • 2 portálové skenery A1 600 DPI ProServ ScannTech 601ivýhody: • vysoká kvalita výstupů, vysoké rozlišení • rovnoměrné osvětlení a geometrie (portál) • univerzální použití – knižní předlohy s vazbou (kolébka), plošné materiály • nastavení přítlaku • spolehlivost, rychlost a konektivita– 1 Gbps LAN • nevýhody: • sklo (riziko poškrábání) • skládání obrazu (3 CCD) • kalibrace CCD • 1 portálový skener A2 600 DPI ProServ ScannTech 602i • 1 plošný skener s nástavcem pro skenování transparentních předloh A3+ 2400 DPI Epson Expression 10000 XL
Technické vybavení - datové úložiště a zařízení pro archivaci • Datový a aplikační server Hewlett Packard DL380 G5 • Zálohovací zařízení Hewlett Packard StorageWorks MSL4048 Ultrium 960 • Diskové pole RAID 6 Hewlett Packard 15TB • Zařízení pro archivaci Plasmon Archive Appliance AA80-W2NDN2E
Výběr archiválií a jeho kritéria • historická dokumentární hodnota archiválie • míra reálného nebo možného fyzického poškození • frekvence jejího využívání badatelskou veřejnostíCelkem bude během během3 let pořízeno 230 000 scanů.
Proces digitalizace a s tím související činnosti • Příprava archiválií (vyčištění, narovnání, konzervace) • Naskenování (provoz: 4 osoby plný úvazek + supervizor, 1 směna) • Úprava skenu (oříznutí, korekce) • Popis metadat, identifikace dat • Kontrola záznamů (obrázek+metadata) • Transformace záznamů pro publikaci • Založení pracovních kopií do Informačního systému • Archivace záznamů na archivační média
Identifikace Sady: • soubor archivního materiálu, který lze identifikovat a popisovat • knihy (např. rukopisy, matriky), soubor jednotlivin (např. stavební plány) • vlastní tzv. profilová karta v grafické databázi, zakládá se před skenováním • 1 sada = 1 adresář s názvem sady • název sady: 5 ciferné přírustkové číslo strojově generované IS grafické databáze • Sada obsahuje n skenů, n technických metadat, 1 soubor s popisnými metadaty Skeny(objekty): • Název souboru: 5 ciferné přírustkové číslo 00001.tif – nnnnn.tif • Názvy souborů neobsahují odkazy na signatury či inventární čísla • Obsah objektů v popisných metadatech Identifikace objektů (ID): • jedinečný identifikátor • 32 znaků • generovaný algoritmicky • není nutné centrální přidělení • vazba metadata – data – záznamy v databázi • možnost off-line zpracování dat
Výstupy • Záchranné kopie nejvzácnějších archiválií ve formátu TIFF RAW group 6 bez komprese 600 DPI (24 bitů/pixel, RGB)Celkem bude během 3 let pořízeno 230 000 scanů. • Skeny v náhlížecí kvalitě JPEG 300 DPI • Technická metadata ve formátu XML odpovídající specifikaci MIX v.2.0Specifikace se odkazuje na standard popisu technických metadat digitálních statických obrazů Z39.87. • Popisná metadata pro identifikaci ve formátu XML podle vlastního schématu IDA AMP v.2.0 (Identifikace archiválie AMP)Všechny soubory ve formátu XML se ukládají ve znakové sadě (kódování) UTF-8.
Metadata • Technická metadata • NISO MIX v.2.0 – dle standardu popisu dig. statických obrazů Z39.87 • XML, UTF-8 • Obsahují kontrolní řetězec – zajišťuje autentičnost dat • Popisná metadata pro identifikaci • IDA AMP v.2.0 – vlastní schéma • XML, UTF-8 • Popis sady: označení sady (strojově generované přírustkové 5 ciferné číslo), datace, jméno operátora digitalizace, zařízení pro digitalizaciPopis archiválie:povinné: číslo NAD, název fondu/sbírky, forma (1=kniha, 2=jednotlivina, 3=hybridní)část fondu, manipulace, úložná jednotka, inv. Č., signatura, č. jednací, obsah, typ, autor, poznámkaPopis záznamů (skenů):povinné: pořadí, název souboručíslování, typ číslování, část celku, inv. Č., signatura, poř. č./č. jedn., obsah, autor, poznámka
Zpracování metadat • Technická metadata • Hromadná kontrola DPI a syntaxe názvů souborů • Hromadné generování hashovacích řetězců a ID objektů (záznamy/skeny) • Dávkové generování technických metadat na základě výběru XML šablony, profilu skeneru, hash řetězce a ID, údajů z hlavičky TIFF • Popisná metadata pro identifikaci • Dávkové generování ida.xml pro zvolenou sadu na základě údajů v dokumentu info.ods • Automatická volba transformace dle parametru forma archiválie • Automatické doplnění ID, kontrola vazby na objekty • Dávková validace všech metadatVšechny operace jsou logovány. • Zpřístupnění – výhled • Zprovoznění archivního datového repozitáře – data i metadata • Vazba popisná metadata pro identifikaci (grafická databáze) – popisná metadata (textová databáze ProArchiv) - EAD • Standardizace, zpřístupnění, vyhledávání, sklízení – OAI-PMH
Archivace Archivace dat: dlouhodobé uložení dat se zajištěním: • Udržitelnosti • Formátu – TIFF RAW group 6 (ISO standard, bez komprese) • Datového archivačního média – životnost UDO média 50-70 let • Neměnnosti(autentičnosti) dokumentu – média typu WORM, hashovací řetězec • Důvěryhodnosti– historická sbírka, garant instituce Technologie: • Archivace na optická média UDO II typu WORM ve 2 kopiích (primární a sekundární řada). Kapacita UDO II média je 60 GB a výrobcem deklarovaná životnost 50-70 let. • Archivace souborů ve formátu TIFF RAW spolu s technickými a popisnými metadaty pro identifikaci • Použití kontrolního řetězce (64 znaků) generovaného na základě hashovací funkce sha-256 používající pro výpočet hashovacího řetězce 256 bitový klíč – součást technických metadat • Oddělení dat (obrázků) a metadat (popisu)– obsah některých elementů se mění
Partnerské projekty: • Společný projekt Národního archivu a Archivu hlavního města Prahy: Možnosti a formy zpřístupnění archivních fondů nebo jejich součástí veřejnosti v elektronické podobě. • Koordinační komise pro projekty schválené v první výzvěFM EHM/Norsko. členové komise: • Archiv hlavního města Prahy • Městská knihovna v Praze • Národní knihovna ČR koordinátor: • odbor umění a knihoven Ministerstva kultury ČR. účel: • výměna zkušeností • společná propagace
Tomáš Hanousek Email: tomas.hanousek@cityofprague.cz Tomáš Dvořák Email: tomas.dvorak@cityofprague.cz Archiv hlavního města Prahy http://www.ahmp.cz http://www.ahmp.cz/adfontes