1 / 29

Jiří Polišenský

Výsledky projektu VaV "Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru". Jiří Polišenský. Archivy, knihovny a muzea v digitálním světě 2009. Obsah. Charakteristika projektu Cíle projektu METS – charakteristika METS – základní části METS - standardy

neila
Download Presentation

Jiří Polišenský

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Výsledky projektu VaV "Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací papíru" Jiří Polišenský Archivy, knihovny a muzea v digitálním světě 2009

  2. Obsah • Charakteristika projektu • Cíle projektu • METS – charakteristika • METS – základní části • METS - standardy • Zlepšení výsledků OCR • Časové a tematické rozvrstvení • Nástroj BookSave • Nástroj BookStore • Báze WordBase • ComponentsDescriptionGenerator • Projekt IMPACT Archivy, knihovny a muzea v digitálním světě 2009

  3. Charakteristika projektu • Projekt se realizuje v rámci programu MK ČR DC - Zpřístupnění a ochrana kulturních, uměleckých a vědeckých zdrojů. 1. podprogram: Integrované interaktivní zpřístupnění kulturního dědictví • Termín: 2006 – 2010 • Řešitel J. Polišenský NK ČR, spoluřešitel M. Lhoták KNAV • Náklady: 5 323 000 Kč • Spolupracující firmy: Qbizm, a.s., Elsyst Engineering Archivy, knihovny a muzea v digitálním světě 2009

  4. Cíle projektu • 1. Implementaci kontejnerového formátu METS do Systému Kramerius • 2. Zvýšení úspěšností rozpoznávání starších bohemikálních dokumentů pomocí OCR vytvořením a využitím znalostních bází pro češtinu z období let 1800 až 1989 • 3. vytvoření nástroje pro popis vnitřních částí digitalizovaných dokumentů a převod jejich interního informačního aparátu do textové podoby Archivy, knihovny a muzea v digitálním světě 2009

  5. Formát METS charakteristika • METS (Metadata Encoding and Transmission Standard) • http://www.loc.gov/standards/mets/ • Kontejnerový formát určený pro ukládání a archivaci digitálních dokumentů v systémech digitálních knihoven a pro výměnu mezi nimi Archivy, knihovny a muzea v digitálním světě 2009

  6. Formát METS části • Kontejnerový formát METS obsahuje celkem 6 datových sekcí: • sekci hlavička HdrSec • sekci popisných metadat dmdSec • sekci administrativních metadat amdSec • sekci souborů fileSec • strukturální mapu structMap • sekci strukturálních odkazů structLink Archivy, knihovny a muzea v digitálním světě 2009

  7. Formát METS standardy • Deskriptivní metadata: MARC 21, Dublin Core • Technická a administrativní metadata: PREMIS a MIX • Dokumenty METS se vytváří ve formátu XML Archivy, knihovny a muzea v digitálním světě 2009

  8. Zlepšení výsledků OCR • Digitalizují se dokumenty poškozené používáním a degradací papíru • Výsledky rozpoznávání jsou negativně ovlivněny kvalitou dokumentů • Nevyrovnaná úroveň úspěšnosti rozpoznávání OCR snižuje vytěžitelnost prostřednictvím vyhledávacích nástrojů • Další zlepšování kvality obrazových souborů již neposkytuje lepší výsledky OCR • Pro zlepšení byla zvolena metoda budování znalostních bází českého jazyka Archivy, knihovny a muzea v digitálním světě 2009

  9. Časové a tematické rozvrstvení • Pro realizaci tohoto cíle bylo třeba rozdělit používaný jazyk na časová období a tematické skupiny: • Časová období: I. období: 1800–1850 II. období: 1850–1880 III. období: 1880–1918 III. období: 1880–1918 IV. období: 1918­-1945 V. období: 1945–1989 Archivy, knihovny a muzea v digitálním světě 2009

  10. Časové a tematické rozvrstvení Tematické skupiny: • 1. Přírodní vědy (matematika, fyzika, chemie, astronomie, geologie, geografie, paleontologie, biologie – botanika, zoologie, antropologie; ostatní nevyčleněné přírodovědné obory) • 2. Lékařství (zdravověda, farmakologie, veterinární léčba, léčitelství, bylinářství) • 3. Zemědělství (zemědělské obory, zahrádkářství, chovatelství, lesnictví, myslivost) • 4. Průmysl (technika, řemesla, doprava – železnice, automobilismus, letecká doprava; pošta) • 5. Společenské vědy (psychologie, sociologie, jazykověda, literární věda, knihovnictví, archivnictví, statistika, demografie; ostatní nevyčleněné obory; slovníky) • 6. Filozofie a náboženství (filozofické systémy, světová náboženství, teologie, sekty, astrologie, okultismus, magie, spirituální discipliny) • 7. Politika a právo (politologie, diplomacie, státní správa, legislativa, kriminalistika, problematika terorismu v dobových kontextech) • 8. Ekonomie (hospodářství, finančnictví, účetnictví, obchod, řízení, hospodářský zeměpis) • 9. Dějiny (archeologie, genealogie, místopis, vlastivěda, národopis, etnologie; cestopisy; vojenství) • 10. Vzdělávání (pedagogika, školství, výchova) • 11. Umění (beletrie, poezie, dramatická tvorba, literatura faktu, výtvarné umění, fotografie, kinematografie, architektura, teatrologie, tanec, muzikologie a hudba) • 12. Žurnalistika (celonárodní a regionální deníky, periodika pro děti a mládež; publicistika; kalendáře; zájmové činnosti - vaření, domácnost, móda, ruční práce, sběratelství; sport, turistika; všeobecnosti a ostatní) Archivy, knihovny a muzea v digitálním světě 2009

  11. Nástroj BookSave • Nástroj slouží pro opravy rozpoznaných textů • Základem je běžná verze SW FineReader 7 • Nástroj umožňuje následující operace: • vytvořit novou dávku dokumentů • nastavit parametry rozpoznávání a provést rozpoznání dokumentů • provést kontrolu a opravu rozpoznaných textů • uložit textové soubory • uložit dávku Archivy, knihovny a muzea v digitálním světě 2009

  12. Nástroj BookSave • Uložené dávky je třeba zpracovat pomocí následujících operací: • spuštění aplikace BookSave • vyplnění popisu knihy (identifikační údaje o knize, časová vrstva, tematická skupina) • výběru textových souborů • importu do slovní báze Archivy, knihovny a muzea v digitálním světě 2009

  13. Báze WordBase • Báze WordBase slouží pro ukládání rozpoznaných a opravených slov • Uložená slova mají zachovanou vazbu na původní část dokumentu a informaci o časovém období a tematické skupině • V současné době je ve slovní bázi uloženo 1 891 695 slovních tvarů Archivy, knihovny a muzea v digitálním světě 2009

  14. Nástroj BookStore • Nástroj BookStore slouží k provádění operací nad bází WordBase (prohlížení, editace) • Jednoduché uživatelské rozhraní sestává ze tří částí: • seznam monografií • seznam stran ve vybrané monografii • seznam slov na vybrané straně Archivy, knihovny a muzea v digitálním světě 2009

  15. Plnění slovních bází • NK ČR zakoupila 3 notebooky vč. licencí na FR • NK ČR a KNAV provádí výběr dokumentů a jejich skenování • Pomocí externích pracovníků na DPČ se provádí rozpoznávání a opravy textů • Import opravených dokumentů do báze WordBase provádí firma EE, která pomocí dalších externistů provádí i „čištění“ báze Archivy, knihovny a muzea v digitálním světě 2009

  16. Nástroj pro popis vnitřních částí • Nástroj by měl sloužit pro automatizovaný popis vnitřních částí dokumentů jako jsou názvy kapitol, článků, příp. obsahy, rejstříky apod. • Součástí nástroje je SW FineReader 8 (vývojová verze) který se využívá pro nalezení zón s textem, rozpoznání textu (vč. fraktury), uložení textu v různých formátech (TXT, PDF, DOC) • Firma EE připravuje i export do formátu ALTO XML (mimo rámec projektu) Archivy, knihovny a muzea v digitálním světě 2009

  17. Nástroj pro popis vnitřních částí • Nástroj pro popis vnitřních částí (vytváření rozšířených metadat) má provizorní rozhraní • Uživatel označí vybranou složku v některém z formátů (JPG, TIFF, BMP) • Před rozpoznáním OCR je možné zadat některé volitelné parametry • Invertovat barvy – bílý text na černém pozadí • Exportovat XML – export struktury strany do formátu ALTO XML • Získat český text – do XML se uloží text v českém jazyce ke každému požadovanému nadpisu (v multijazyčných monografiích) • Neuronová síť – testování rozpoznávání objektů na straně pomocí umělé inteligence Archivy, knihovny a muzea v digitálním světě 2009

  18. Nástroj pro popis vnitřních částí • Před rozpoznáním je třeba označit objekt a v dialogovém okně zadat typ zóny: • Globální – označený text se vyhledává v celém kontextu strany • Lokální – označený text se vyhledává vždy jen v uživatelem označené oblasti • Obrázek – vyhledává obrázky v celém kontextu strany • Číslo strany – vyhledává lokálně čísla stran v levé i pravé části Archivy, knihovny a muzea v digitálním světě 2009

  19. Nástroj pro popis vnitřních částí • Po rozpoznání všech stran je možné získané texty nebo údaje opravovat nebo editovat • Uživatel po označení přepínače „Opravit“ vyvolá kliknutím na jakoukoliv textovou oblast dialogové okno „Atributy vybrané zóny“ • V tomto okně je možné opravit nebo změnit vlastnosti označeného textu Archivy, knihovny a muzea v digitálním světě 2009

  20. Projekt IMPACT • Projekt IMPACT je zaměřen na zlepšení přístupu k historickým textům a odstranění bariér masové digitalizace evropského kulturního dědictví • V rámci projektu se řeší také problematika zlepšení výsledků OCR pomocí jazykových bází. • NK ČR byla oslovena s nabídkou rozšíření projektu o český jazyk ve spolupráci s Ústavem českého národního korpusu • V rámci projektu by NK ČR měla digitalizovat české dokumenty, zajišťovat konverzi OCR a opravy textů Archivy, knihovny a muzea v digitálním světě 2009

  21. Děkuji za pozornost Jiri.Polisensky@nkp.cz Archivy, knihovny a muzea v digitálním světě 2009

More Related