1 / 9

CODEG 4 nástroj pro podporu OCR a tvorbu rozšířených metadat

CODEG 4 nástroj pro podporu OCR a tvorbu rozšířených metadat. Jiří Polišenský Ondřej Lehrl. Obsah. Charakteristika nástroje CODEG 4 OCR starších textů Vývojové etapy Práce s nástrojem CODEG 4. Charakteristika nástroje CODEG 4.

Download Presentation

CODEG 4 nástroj pro podporu OCR a tvorbu rozšířených metadat

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CODEG 4 nástroj pro podporu OCR a tvorbu rozšířených metadat Jiří Polišenský Ondřej Lehrl

  2. Obsah • Charakteristika nástroje CODEG 4 • OCR starších textů • Vývojové etapy • Práce s nástrojem CODEG 4 Knihovny současnosti 2011

  3. Charakteristika nástroje CODEG 4 • Nástroj byl vyvíjen v rámci realizace projektu VaV„Optimalizace nástrojů pro digitalizaci tištěných dokumentů ohrožených degradací kyselého papíru“ • Víceúčelová aplikace pro podporu rozpoznávání starších tištěných textů a tvorbu rozšířených metadat • Umožňuje vytvářet specializované slovní báze pro podporu rozpoznávání • Umožňuje editaci a opravy rozpoznaných textů a regionů • Umožňuje vytvářet polo automatizovaným způsobem metadata dílčích částí dokumentů Knihovny současnosti 2011

  4. Problematika rozpoznání starších textů • Výsledky rozpoznávání starších tištěných textů bývají negativně ovlivněny následujícími faktory: • degradací papíru způsobující barevné změny (zežloutnutí nebo zhnědnutí) • horší kvalitou tisku • starší podobou jazyka • archaickou podobou písma (pravopisné reformy, gotika) Knihovny současnosti 2011

  5. Fáze vývoje nástroje CODEG 4 • Návrh jazykových vrstev češtiny 19. a 1. poloviny 20. stol., definování dvanácti tematických skupin • Vývoj nástrojů pro opravy textů, plnění jazykových bází a tvorbu znalostní báze • Implementace formátu ALTO XML • Tvorba rozšířených metadat • Integrace vyvinutých algoritmů do jediného nástroje CODEG 4 Knihovny současnosti 2011

  6. Využití nástroje CODEG 4 • Opravy OCR textů • Tvorba externích slovníků • Budování znalostních bází českého jazyka • Tvorba rozšířených metadat (popisná metadata pro dílčí části dokumentů – články, kapitoly apod.) ve formátu ALTO XML • Kooperativní systém pro opravy OCR textů dobrovolníky z řad veřejnosti Knihovny současnosti 2011

  7. Navazující aktivity • Opravy textů a zón pro evropský projekt IMPACT • Další vývoj nástroje v projektu VaV „Nástroje pro zpřístupnění tištěných textů 19. století a první poloviny 20. století“ • Vývoj funkcí pro správu systému • Plnění znalostní báze slovními tvary Knihovny současnosti 2011

  8. Knihovny současnosti 2011

  9. Kontakty a informace • Jiri.Polisensky@nkp.cz • Ondrej.Lehrl@nkp.cz • http://kramerius-info.nkp.cz/projekt-optimalizace/nastroj-codeg4 • http://kramerius-info.nkp.cz/projekt-optimalizace/prednaska-dr-polisenskeho-z-akm-2010/view Knihovny současnosti 2011

More Related