290 likes | 414 Views
Výsledky projektu VaV "Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru". Jiří Polišenský. Archivy, knihovny a muzea v digitálním světě 2009. Obsah. Charakteristika projektu Cíle projektu METS – charakteristika METS – základní části METS - standardy
E N D
Výsledky projektu VaV "Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru" Jiří Polišenský Archivy, knihovny a muzea v digitálním světě 2009
Obsah • Charakteristika projektu • Cíle projektu • METS – charakteristika • METS – základní části • METS - standardy • Zlepšení výsledků OCR • Časové a tematické rozvrstvení • Nástroj BookSave • Nástroj BookStore • Báze WordBase • ComponentsDescriptionGenerator • Projekt IMPACT Archivy, knihovny a muzea v digitálním světě 2009
Charakteristika projektu • Projekt se realizuje v rámci programu MK ČR DC - Zpřístupnění a ochrana kulturních, uměleckých a vědeckých zdrojů. 1. podprogram: Integrované interaktivní zpřístupnění kulturního dědictví • Termín: 2006 – 2010 • Řešitel J. Polišenský NK ČR, spoluřešitel M. Lhoták KNAV • Náklady: 5 323 000 Kč • Spolupracující firmy: Qbizm, a.s., Elsyst Engineering Archivy, knihovny a muzea v digitálním světě 2009
Cíle projektu • 1. Implementaci kontejnerového formátu METS do Systému Kramerius • 2. Zvýšení úspěšností rozpoznávání starších bohemikálních dokumentů pomocí OCR vytvořením a využitím znalostních bází pro češtinu z období let 1800 až 1989 • 3. vytvoření nástroje pro popis vnitřních částí digitalizovaných dokumentů a převod jejich interního informačního aparátu do textové podoby Archivy, knihovny a muzea v digitálním světě 2009
Formát METS charakteristika • METS (Metadata Encoding and Transmission Standard) • http://www.loc.gov/standards/mets/ • Kontejnerový formát určený pro ukládání a archivaci digitálních dokumentů v systémech digitálních knihoven a pro výměnu mezi nimi Archivy, knihovny a muzea v digitálním světě 2009
Formát METS části • Kontejnerový formát METS obsahuje celkem 6 datových sekcí: • sekci hlavička HdrSec • sekci popisných metadat dmdSec • sekci administrativních metadat amdSec • sekci souborů fileSec • strukturální mapu structMap • sekci strukturálních odkazů structLink Archivy, knihovny a muzea v digitálním světě 2009
Formát METS standardy • Deskriptivní metadata: MARC 21, Dublin Core • Technická a administrativní metadata: PREMIS a MIX • Dokumenty METS se vytváří ve formátu XML Archivy, knihovny a muzea v digitálním světě 2009
Zlepšení výsledků OCR • Digitalizují se dokumenty poškozené používáním a degradací papíru • Výsledky rozpoznávání jsou negativně ovlivněny kvalitou dokumentů • Nevyrovnaná úroveň úspěšnosti rozpoznávání OCR snižuje vytěžitelnost prostřednictvím vyhledávacích nástrojů • Další zlepšování kvality obrazových souborů již neposkytuje lepší výsledky OCR • Pro zlepšení byla zvolena metoda budování znalostních bází českého jazyka Archivy, knihovny a muzea v digitálním světě 2009
Časové a tematické rozvrstvení • Pro realizaci tohoto cíle bylo třeba rozdělit používaný jazyk na časová období a tematické skupiny: • Časová období: I. období: 1800–1850 II. období: 1850–1880 III. období: 1880–1918 III. období: 1880–1918 IV. období: 1918-1945 V. období: 1945–1989 Archivy, knihovny a muzea v digitálním světě 2009
Časové a tematické rozvrstvení Tematické skupiny: • 1. Přírodní vědy (matematika, fyzika, chemie, astronomie, geologie, geografie, paleontologie, biologie – botanika, zoologie, antropologie; ostatní nevyčleněné přírodovědné obory) • 2. Lékařství (zdravověda, farmakologie, veterinární léčba, léčitelství, bylinářství) • 3. Zemědělství (zemědělské obory, zahrádkářství, chovatelství, lesnictví, myslivost) • 4. Průmysl (technika, řemesla, doprava – železnice, automobilismus, letecká doprava; pošta) • 5. Společenské vědy (psychologie, sociologie, jazykověda, literární věda, knihovnictví, archivnictví, statistika, demografie; ostatní nevyčleněné obory; slovníky) • 6. Filozofie a náboženství (filozofické systémy, světová náboženství, teologie, sekty, astrologie, okultismus, magie, spirituální discipliny) • 7. Politika a právo (politologie, diplomacie, státní správa, legislativa, kriminalistika, problematika terorismu v dobových kontextech) • 8. Ekonomie (hospodářství, finančnictví, účetnictví, obchod, řízení, hospodářský zeměpis) • 9. Dějiny (archeologie, genealogie, místopis, vlastivěda, národopis, etnologie; cestopisy; vojenství) • 10. Vzdělávání (pedagogika, školství, výchova) • 11. Umění (beletrie, poezie, dramatická tvorba, literatura faktu, výtvarné umění, fotografie, kinematografie, architektura, teatrologie, tanec, muzikologie a hudba) • 12. Žurnalistika (celonárodní a regionální deníky, periodika pro děti a mládež; publicistika; kalendáře; zájmové činnosti - vaření, domácnost, móda, ruční práce, sběratelství; sport, turistika; všeobecnosti a ostatní) Archivy, knihovny a muzea v digitálním světě 2009
Nástroj BookSave • Nástroj slouží pro opravy rozpoznaných textů • Základem je běžná verze SW FineReader 7 • Nástroj umožňuje následující operace: • vytvořit novou dávku dokumentů • nastavit parametry rozpoznávání a provést rozpoznání dokumentů • provést kontrolu a opravu rozpoznaných textů • uložit textové soubory • uložit dávku Archivy, knihovny a muzea v digitálním světě 2009
Nástroj BookSave • Uložené dávky je třeba zpracovat pomocí následujících operací: • spuštění aplikace BookSave • vyplnění popisu knihy (identifikační údaje o knize, časová vrstva, tematická skupina) • výběru textových souborů • importu do slovní báze Archivy, knihovny a muzea v digitálním světě 2009
Báze WordBase • Báze WordBase slouží pro ukládání rozpoznaných a opravených slov • Uložená slova mají zachovanou vazbu na původní část dokumentu a informaci o časovém období a tematické skupině • V současné době je ve slovní bázi uloženo 1 891 695 slovních tvarů Archivy, knihovny a muzea v digitálním světě 2009
Nástroj BookStore • Nástroj BookStore slouží k provádění operací nad bází WordBase (prohlížení, editace) • Jednoduché uživatelské rozhraní sestává ze tří částí: • seznam monografií • seznam stran ve vybrané monografii • seznam slov na vybrané straně Archivy, knihovny a muzea v digitálním světě 2009
Plnění slovních bází • NK ČR zakoupila 3 notebooky vč. licencí na FR • NK ČR a KNAV provádí výběr dokumentů a jejich skenování • Pomocí externích pracovníků na DPČ se provádí rozpoznávání a opravy textů • Import opravených dokumentů do báze WordBase provádí firma EE, která pomocí dalších externistů provádí i „čištění“ báze Archivy, knihovny a muzea v digitálním světě 2009
Nástroj pro popis vnitřních částí • Nástroj by měl sloužit pro automatizovaný popis vnitřních částí dokumentů jako jsou názvy kapitol, článků, příp. obsahy, rejstříky apod. • Součástí nástroje je SW FineReader 8 (vývojová verze) který se využívá pro nalezení zón s textem, rozpoznání textu (vč. fraktury), uložení textu v různých formátech (TXT, PDF, DOC) • Firma EE připravuje i export do formátu ALTO XML (mimo rámec projektu) Archivy, knihovny a muzea v digitálním světě 2009
Nástroj pro popis vnitřních částí • Nástroj pro popis vnitřních částí (vytváření rozšířených metadat) má provizorní rozhraní • Uživatel označí vybranou složku v některém z formátů (JPG, TIFF, BMP) • Před rozpoznáním OCR je možné zadat některé volitelné parametry • Invertovat barvy – bílý text na černém pozadí • Exportovat XML – export struktury strany do formátu ALTO XML • Získat český text – do XML se uloží text v českém jazyce ke každému požadovanému nadpisu (v multijazyčných monografiích) • Neuronová síť – testování rozpoznávání objektů na straně pomocí umělé inteligence Archivy, knihovny a muzea v digitálním světě 2009
Nástroj pro popis vnitřních částí • Před rozpoznáním je třeba označit objekt a v dialogovém okně zadat typ zóny: • Globální – označený text se vyhledává v celém kontextu strany • Lokální – označený text se vyhledává vždy jen v uživatelem označené oblasti • Obrázek – vyhledává obrázky v celém kontextu strany • Číslo strany – vyhledává lokálně čísla stran v levé i pravé části Archivy, knihovny a muzea v digitálním světě 2009
Nástroj pro popis vnitřních částí • Po rozpoznání všech stran je možné získané texty nebo údaje opravovat nebo editovat • Uživatel po označení přepínače „Opravit“ vyvolá kliknutím na jakoukoliv textovou oblast dialogové okno „Atributy vybrané zóny“ • V tomto okně je možné opravit nebo změnit vlastnosti označeného textu Archivy, knihovny a muzea v digitálním světě 2009
Projekt IMPACT • Projekt IMPACT je zaměřen na zlepšení přístupu k historickým textům a odstranění bariér masové digitalizace evropského kulturního dědictví • V rámci projektu se řeší také problematika zlepšení výsledků OCR pomocí jazykových bází. • NK ČR byla oslovena s nabídkou rozšíření projektu o český jazyk ve spolupráci s Ústavem českého národního korpusu • V rámci projektu by NK ČR měla digitalizovat české dokumenty, zajišťovat konverzi OCR a opravy textů Archivy, knihovny a muzea v digitálním světě 2009
Děkuji za pozornost Jiri.Polisensky@nkp.cz Archivy, knihovny a muzea v digitálním světě 2009