110 likes | 324 Views
Utilería para digitalizar, generar OCR y crear archivos PDF de código abierto Luis René Salas López DanniHilton@gmail.com Coordinación de Automatización Bibliotecaria Xalapa. Reconocimiento Óptico de Caracteres. OCR. Los despido a todos. _ Estoy muy cansado… Quiero dormirme .
E N D
Utilería para digitalizar, generar OCR y crear archivos PDF de código abiertoLuis René Salas LópezDanniHilton@gmail.comCoordinación de Automatización BibliotecariaXalapa
Reconocimiento Óptico de Caracteres OCR Los despido a todos. _Estoy muy cansado… Quiero dormirme. _¿No vas a merendar? _No. Tengo mucho sueño...
Tesseract-OCR • Desarrollado por HP entre 1985 y 1994. • Nunca se usó en un producto HP. • Código liberado en 2005 y adoptado por Google. • Altamente portable • Reconoce más de 60 lenguajes.
Creación del documento • Cuando se realiza el proceso de OCR sobre una imagen, podemos obtener un archivo con ubicación espacial del texto: hocr
Creación del documento • hOcr2Pdf.NET Es una librería para convertir .hocrhtml producidos por el motor Tessract-OCR o Cuneiform en pdfbuscable. Liberado bajo licencia GNU General PublicLicenseversion 2 (GPLv2).
Creación del documento • iTextSharp Es una librería compatible con C# de iText para java de código abierto para la creación y manipulación de archivos PDF. Liberado bajo licencia Affero GNU PublicLicense.
Referencias • “hOcr2Pdf.NET”, consultada por Internet el 29 de Abril del 2013. Dirección de Internet: https://hocrtopdf.codeplex.com/ • “iTextSharp”, consultada por Internet el 29 de Abril del 2013. Dirección de Internet: http://sourceforge.net/projects/itextsharp/ • “Tesseract-OCR”, consultada por Internet el 29 de Abril del 2013. Dirección de Internet: https://code.google.com/p/tesseract-ocr/