310 likes | 478 Views
Digitalizace knihovních dokumentů. Jiří Polišenský. Obsah prezentace. Základní prvky digitalizace Formáty a standardy Skenery Digitalizační work flow Systémy pro prezentaci a evidenci digitalizovaných dokumentů Projekt Národní digitální knihovna. Základní prvky digitalizace.
E N D
Digitalizace knihovních dokumentů Jiří Polišenský
Obsah prezentace • Základní prvky digitalizace • Formáty a standardy • Skenery • Digitalizační work flow • Systémy pro prezentaci a evidenci digitalizovaných dokumentů • Projekt Národní digitální knihovna
Základní prvky digitalizace Digitální objekty + metadata Digitální objekty • Obrazové soubory • Zvuk • Video • atd.
Funkce digitálních objektů • Archival master – archivní soubor • Modified master – modifikovaný soubor • User copy – uživatelská kopie
Obrazové soubory • Základní bitmapa získaná skenováním • Různé způsoby komprese podle použitých obrazových formátů • Ztrátová a bezztrátová komprese • Vlastnosti obrazových souborů • Obrazový formát • Rozlišovací schopnost v dpi • Černobílé zobrazení, šedá škála, barva • Velikost v bytech
Formáty obrazových souborů • TIFF neztrátový • JPEG ztrátový • JP2 neztrátový • PNG neztrátový • DjVu ztrátový • PDF
Metadata • Popisná metadata • Strukturální metadata • Administrativní a technická metadata
Standardy • Popisná metadata • V současné době NK používá národní standard založený na UNIMARCu a DTD pro periodika a monografie, XML • Další používané standardy: • Dublin Core • MARC XML • MODS • Administrativní a technická metadata • PREMIS, MIX
Příprava dokumentů pro digitalizaci • Selekce dokumentů – stanovit selekční kriteria • Kontrola stavu zpracování v elektronickém katalogu • Čárový kód • Fyzický stav • Přílohy – volné, rozkládací apod. • Jazyk a písmo (OCR)
Skenery Skenery pro různé typy dokumentů: • Knižní skenery • Manuální • Robotické • Kombinované • Hybridní kamery • Skenery pro jiné typy dokumentů • Průběžné • Bubnové • Mikrofilmové • Atd.
Vlastnosti skenovacích zařízení • Maximální velikost předlohy • Způsob uložení knihy (bookcradle) • Maximální dpi v celé ploše • Rychlost skenování • Přenos souborů
Zpracování obrazových souborů • Separace jednotlivých stránek dokumentu • Narovnání • Manuální • Poloautomatické • Ořez • Uvnitř stránky dokumentu • Vně stránky dokumentu • Zlepšení kvality • Potlačení pozadí (průtisků) • Odstranění šumu
OCR • Optical Character Recognition • Antikva • Fraktura německá • Fraktura česká • Formáty • TXT, PDF, PDF HT, METS ALTO, ALTO XML, PAGE XML • Příčiny nízké úspěšnosti rozpoznávání • Nízká kvalita předlohy • Chyby v nastavení skenovacích parametrů (např. nízké dpi) • Zastaralý typ písma • Starší podoba jazyka
Struktura dokumentu • Jednostránkové soubory / dvoustránkové / vícestránkové • Jendosvazkové /vícesvazkové dokumenty • Seriály a nepravá periodika • Pravá periodika • Noviny
Struktura dokumentu • Složité struktury, např. noviny • Titul • Ročník metadata • Výtisk • Strana • Reprezentace strany digitální objekt
Struktura dokumentu • Struktura pro zpřístupnění archivaci: PSP, SIP • Popisná metadata – xml • Složka JP2 – Modified master (neztrátová komprese) • Složka JP2 – User copy (ztrátová komprese) • Složka METS ALTO
Kontrola kvality • Kontrola kvality obrazových souborů • DPI, stupně šedé barvy, věrnost barevného podání podle obrazce, atd. • Kontrola úspěšnosti OCR • Na písmena (vícenásobné selhání u stejného písmene) • Na slova • Validace XML • Konsistence struktury dokumentu
Nástroje pro digitalizaci • Skenery • Programové nástroje pro zpracování obrazu • OCR • Nástroje pro vytvoření struktury dokumentu • Nástroje pro tvorbu metadat (XML editor) • Kompletní work flow (DocWorks, Sirius, Goobi, atd.)
Automatizace procesu digitalizace • Tvorba popisných metadat konverzí záznamu z elektronického katalogu • Generování administrativních a technických metadat v průběhu digitalizace nebo archivace • Automatizované operace s daty umožňuje využívání identifikátorů (čárový kód, číslo ČNB, ISSN, ISBN, atd.)
Prezentace digitalizovaných dokumentů • Aplikace pro digitální knihovnu - Kramerius 3, Kramerius 4(open source): http://kramerius.nkp.cz/ • Vyhledávání dokumentů podle metadat a fulltextu • Jednotná informační brána • Federované katalogy • Europeana, TEL
Evidence digitalizovaných dokumentů • Evidence digitalizovaných dokumentů, nebo vybraných pro digitalizaci, je důležitá pro: • Eliminaci duplicitních neekonomických činností • Zjišťování informací o digitalizovaných dokumentech • http://sluzby.incad.cz/esp/rdcz/
Národní program Kramerius • VISK 7 program zaměřený na mikrofilmování a digitalizaci dokumentů ohroženýchz degradací kyselého papíru • Podporuje MK ČR – hradí 70% nákladů • Otevřený všem veřejným knihovnám registrovaným MK ČR • Výzva k podávání projektů listopad 2010, uzávěrka leden 2011 • Informace na webu NK ČR
Projekt Národní digitální knihovna • Integrovaný operační program, Smart administration • Trvání 2010 – 2014 • Udržitelnost 2015 – 2019 • Celkem digitalizace 26 mil. stran • V rámci projektu budou vybudována dvě pracoviště digitalizace NK ČR a MZK • Využití robotických skenerů • Nové standardy a formáty (konverze a migrace dat)
Děkuji za pozornost Jiri.Polisensky@nkp.cz