520 likes | 759 Views
Proyectos de Digitalización. Gestión, metadatos y control de calidad 2011. Conceptos Técnicos: ¿qué es una imagen digital?. ¿esto?. ¿o esto?. Cuadrícula de píxeles con un valor tonal asignado a través de un código binario (bits). ¿qué es una imagen digital?. ¿qué es una imagen digital?.
E N D
Proyectos de Digitalización CSIC, Unidad de Coordinación de Bibliotecas Gestión, metadatos y control de calidad 2011
Conceptos Técnicos:¿qué es una imagen digital? ¿esto? ¿o esto? CSIC, Unidad de Coordinación de Bibliotecas
Cuadrícula de píxeles con un valor tonal asignado a través de un código binario (bits) ¿qué es una imagen digital? CSIC, Unidad de Coordinación de Bibliotecas
¿qué es una imagen digital? • Para nosotros: ¡MATEMÁTICAS!!! CSIC, Unidad de Coordinación de Bibliotecas
CONCEPTOS TÉCNICOS DE LA IMAGEN DIGITAL Resumiendo mucho: La imagen digital es: una cuadrícula de píxeles Y para saber cómo esta conformada esa cuadrícula, hay que saber: el alto y el ancho pero ¡en píxeles! CSIC, Unidad de Coordinación de Bibliotecas
CONCEPTOS TÉCNICOS DE LA IMAGEN DIGITAL Aquí se esconde un pequeño problema que cuesta entender: Tenemos una cuadrícula medida en píxeles. Pero, ¿Cuánto mide un píxel? Ese es el “quid” de la cuestión. CSIC, Unidad de Coordinación de Bibliotecas
CONCEPTOS TÉCNICOS DE LA IMAGEN DIGITAL Ahora bien una imagen digital necesita: - Un dispositivo de entrada • (que convierta de analógico a digital o un dispositivo nativo digital) - Un dispositivo de salida • (Un dispositivo nativo digital para visualizarlo en pantalla o un dispositivo que vuelva a convertir lo digital a analógico) Así es que esta cuadrícula de píxeles habrá que saber como se ha generado y cómo se quiere reproducir. CSIC, Unidad de Coordinación de Bibliotecas
CONCEPTOS TÉCNICOS DE LA IMAGEN DIGITAL Vamos a empezar por lo que nos es más conocido: una cámara de fotos ¿qué significa una cámara de 2 mpx? Pues significa que la fotografía digital producida en esa cámara tendrá una cuadrícula de 1600 x 1200 píxeles (1600 x 1200 = 1.920.000) Hasta aquí todo claro. Pero ¿qué pasa cuando queremos visualizar o imprimir esto?. Pues que dependemos de la resolución. CSIC, Unidad de Coordinación de Bibliotecas
CONCEPTOS TÉCNICOS DE LA IMAGEN DIGITAL Si una imagen de 1600 x 1200, la queremos imprimir en un papel de 13 x 18 cm, ¿qué resolución tenemos que utilizar? Empezamos con las matemáticas: Si elegimos 200 ppp (pixel por pulgada) será: 1600 : 200 = 8 pulgada 1 pulgada son 2.54 cm, luego 8 x 2.54 = 20.32 cm Si elegimos 300 ppp será: 1600 : 300 = 5.33 pulgada (13.53 cm) Luego ya tenemos a qué resolución tenemos que imprimir la foto para obtener esta dimensión. CSIC, Unidad de Coordinación de Bibliotecas
CONCEPTOS TÉCNICOS DE LA IMAGEN DIGITAL Pero en una fotografía no hay un objeto con un tamaño determinado que hay que conservar para la reproducción facsimilar. En la digitalización de un libro sí. Un libro tiene unas proporciones y unas medidas que no deben perderse. No es lo mismo el Guernica que el autorretrato de Durero o un misal, que un cantoral. Mantener la información del tamaño original es importante en los proyectos de digitalización. Así es que vamos a ver lo qué es un escáner y como procede. CSIC, Unidad de Coordinación de Bibliotecas
Básicamente un escáner es: una cámara colocada (normalmente) a una distancia fija. CONCEPTOS TÉCNICOS DE LA IMAGEN DIGITAL CSIC, Unidad de Coordinación de Bibliotecas
Conceptos técnicos de la imagen digital Cuando nos hablan de un escáner nos suelen decir: Digitaliza a 300 ppp o a 600 ppp. ¿Esto qué significa? La resolución es un concepto que siempre tiene que ir vinculado con una medida. Podemos decir que la resolución es: “la cantidad de puntos por unidad de medida” o en nuestro caso: “la relación entre el tamaño de la imagen y la dimensión física”. Por eso cuando nos dicen que un escáner digitaliza a 600 ppp nos tienen que decir a qué medida ¿A1, A2, A3…? CSIC, Unidad de Coordinación de Bibliotecas
Conceptos técnicos de la imagen digital Pongamos que digitaliza a 600 ppp en A2 (594x420 mm o 23.38 x 16.53 pulgadas), luego ese escáner lo máximo que puede hacer es una cuadricula de: 23.38 x 600 = 14.028 pixeles 16.53 x 600 = 9.918 pixeles Si digitalizamos un libro de 22.10 x 15.76 cm y la imagen que obtenemos tiene 5221 x 3723 píxeles, dividiendo las cifras, tiene que salir la resolución a la que se ha hecho la imagen. (5221 : 8.7 p. (22.10cm) = 600 ppp) CSIC, Unidad de Coordinación de Bibliotecas
Conceptos técnicos de la imagen digital Recordad que en la digitalización, las dimensiones del libro no se pueden perder. Por eso es tan importante que sepáis manejar estas cifras. Así podréis comprobar, si se ha conservado la relación facsimilar y si os están entregando imágenes de la resolución correcta. Hasta aquí las matemáticas. CSIC, Unidad de Coordinación de Bibliotecas
Conceptos técnicos de la imagen digital Poco a poco nos vamos introduciendo en la gestión de los proyectos pero antes vamos hablar algo de los formatos. Los proyectos de digitalización se realizan buscando dos objetivos principales: • La preservación del original • La difusión Y dentro de la preservación del original, se incluye también, digitalizar sólo una vez o por lo menos digitalizar con visos de perdurabilidad (de las imágenes). Pues bien, dos funciones, dos formatos. No os arméis líos. Existen muchos formatos y pueden aparecer más, pero a día de hoy, el formato más adecuado para la conservación es el formato TIFF. CSIC, Unidad de Coordinación de Bibliotecas
Conceptos técnicos de la imagen digital TIFF versus JPG TIFF (= TaggedImgageFileformat), es decir un: Formato de imagen etiquetado, que almacena la información sin pérdida. No es el único formato que almacena sin pérdidas PNG, BMP, GIF, tampoco tienen pérdidas. Sin embargo las ventajas del TIFF son muchas: • Universal (lo soportan todas las plataformas) • Soporta todos los color space (RGB, CMYK, YCbCr, etc) • Es muy flexible. • Contienemuchainformaciónsobre la imagenmisma • Admitecompresion • Se puedemanipularcuantasvecesquiera y no se deteriora. • Almacenavariasimagenes en un fichero, etc.. • Es un estándar, en definitiva..! CSIC, Unidad de Coordinación de Bibliotecas
Conceptos técnicos de la imagen digital TIFF versus JPG JPG (JointPhotographicExpertsGroup)es: un formato de compresión con pérdidas, con pérdidas de calidad. La calidad que se pierde NO se puede recuperar. Nadie se imagina guardar un doc. Word y que cuando se vuelva a abrir haya habido pérdidas ¿no? Pues lo que hace el jpg es comprimir con pérdidas. El jpg modifica los datos de los píxeles (los valores de color) para que la compresión sea más eficaz. Esto permite una gran reducción de tamaño pero los datos ya no son los mismos y no podrán volver nunca a ser los mismos. Por lo que es un formato exclusivamente para la difusión. Y debería ser un derivado. Esto significa que hay que tener el master (en Tiff) y de ahí generaremos cuantos jpgs queramos y tantas veces como queramos. Al revés, ¡DE NINGUNA DE LAS MANERAS! CSIC, Unidad de Coordinación de Bibliotecas
DISEÑO Y GESTIÓN DE PROYECTOS Digitalizar es costoso: • Económicamente hablando • En empleo de tecnología • Para el propio material, porque sufre con el escaneo. • Para la biblioteca, porque necesita emplear recursos humanos. CSIC, Unidad de Coordinación de Bibliotecas
DISEÑO Y GESTIÓN DE PROYECTOS ¿cómo sabemos que podemos abordar un proyecto de digitalización? • Valoración e interés del proyecto • Estudio de viabilidad CSIC, Unidad de Coordinación de Bibliotecas
DISEÑO Y GESTIÓN DE PROYECTOS 1- Valoración del proyecto: No se trata de reproducir en formato digital la biblioteca que tenemos en papel. Por lo que se recomienda seguir algunos criterios para valorar el interés del fondo a digitalizar: • Que tengan un gran uso • Que tengan una especial relevancia • Que tengan riego de deterioro • Que formen unidades temáticas • Que refuercen líneas de investigación • Que las obras estén catalogadas • Que no estén ya digitalizados, etc… CSIC, Unidad de Coordinación de Bibliotecas
DISEÑO Y GESTIÓN DE PROYECTOS 2- Estudio de viabilidad: Es conveniente evaluar antes si el proyecto es viable para la biblioteca: • ¿tenemos personal para dedicarse a esta tarea? • ¿tenemos dinero suficiente para pagar la digitalización? Para saber esto, tenemos que saber, cuantas páginas queremos digitalizar aprox. y multiplicar el número de páginas por el coste de la imagen. • ¿podemos emplazar el escáner en la biblioteca o debemos sacar al material? CSIC, Unidad de Coordinación de Bibliotecas
DISEÑO Y GESTIÓN DE PROYECTOS Si todas las preguntas previas han sido respondidas positivamente, y sabemos que vamos a realizar el proyecto porque tenemos la financiación y el personal, lo primero entonces sería: • Informe • Código de proyecto + Registro CSIC, Unidad de Coordinación de Bibliotecas
DISEÑO Y GESTIÓN DE PROYECTOS Todos los proyectos de digitalización tienen tres fases : • Preparación • Desarrollo • difusión. CSIC, Unidad de Coordinación de Bibliotecas
GESTIÓN DE PROYECTOS: 1-preparación • Control del proyecto • Checklist [*] (esto es simplemente una herramienta de ayuda) • Tabla (esto es obligatorio y necesario) • Revisión de las obras • ¿están ya digitalizadas en otras webs fiables? • Revisar la catalogación • Revisar los ejemplares • Orden de entrega o trabajo • Contacto con las empresas • Pliego de condiciones [*] • Presupuestos • Contrato firmado CSIC, Unidad de Coordinación de Bibliotecas
GESTIÓN DE PROYECTOS: 1-preparación Revisión de la catalogación Es un buen momento para mejorar y revisar los registros, pero además, hay que tener en cuenta que la ficha bibliográfica irá inserta en los metadatos. a. Normalización de las series existentes b. Revisión de las autoridades y de las secundarias c. Revisión de facticias. d. Partes incompletas o continuaciones con otros títulos e. Materias • Derechos de autor. Revisión de ejemplares Aquí lo importante es ver si: • Faltan páginas, mal colocadas, rotas • Anotaciones manuscritas, exlibris • Falsas nuevas ediciones • Planos con tamaños extras, láminas, etc. CSIC, Unidad de Coordinación de Bibliotecas
GESTIÓN DE PROYECTOS: 1-preparación Pliego de condiciones + contrato: CSIC, Unidad de Coordinación de Bibliotecas
GESTIÓN DE PROYECTOS: 1-preparación Al final antes de empezar el escaneo, tenemos que tener: - Todos los datos completamente bajo control (nº páginas, nº volúmenes, nº registros aleph, etc.) - La tabla lista, con todas las anotaciones necesarias - El contrato firmado con la empresa - El flujo de trabajo organizado - La catalogación revisada CSIC, Unidad de Coordinación de Bibliotecas
GESTIÓN DE PROYECTOS: 2-Desarrollo En la fase de desarrollo de la digitalización propiamente hablando, lo único que tenemos que hacer es comprobar que se siguen los criterios establecidos. • Mantener la tabla de ejemplares actualizada • Control del movimiento de las obras • Control de la imagen al inicio para comprobar que los parámetros exigidos se cumplen. • Control de calidad de los máster (gradual) • Control de calidad del proyecto final tras la entrega de los derivados. CSIC, Unidad de Coordinación de Bibliotecas
GESTIÓN DE PROYECTOS: 2-Desarrollo Los criterios que el CSIC ha establecido para las imágenes Tiff son varios y se encuentran también disponibles en la intranet: - El TIFF debe ser a simple página con un marco no superior a 0.5 cm. - Las láminas a doble página deben digitalizarse a página simple y también a página doble. Aunque cuando se trate de libros constituidos sólo por láminas, nos podemos ahorrar la imagen partida. - Los desplegables, deben digitalizarse plegados y desplegados. Aunque en algunos casos, si son muchos, se puede obviar la página plegada. - Se digitaliza todo, lomo, cubierta, guardas, etc.….Si los lomos no se pueden escanear, se le pedirá a la empresa que los fotografíe. - Si las páginas tienen agujeros o les faltan trozos, se pondrá una cartulina de fondo para ver bien la delimitación de la página. • Cuando las letras de las páginas posteriores se transparenten mucho también se utilizará una cartulina CSIC, Unidad de Coordinación de Bibliotecas
Máster CSIC, Unidad de Coordinación de Bibliotecas
GESTIÓN DE PROYECTOS: 2-Desarrollo Se recomienda que la empresa entregue las imágenes de forma gradual y poco a poco para hacer los controles de calidad con tiempo. Una vez comprobados al inicio que los parámetros están bien, los controles de calidad de las entregas, los tiene que hacer la biblioteca, entre otras razones porque tiene el original a mano. - que no falta ninguna imagen - que tienen un color correcto - que no están cortadas, ni torcidas, etc. - que los desplegables están digitalizados también desplegados - que las medidas de los libros se corresponden, etc. - que las imágenes estén bien nombradas. CSIC, Unidad de Coordinación de Bibliotecas
GESTIÓN DE PROYECTOS: 2-Desarrollo Si todos los máster están bien, la empresa puede empezar los post procesos para generar los derivados. A los que también habrá que examinar para ver si cumplen con lo acordado. Pero este examen, es menos costoso y también menos importante. Recordad lo del principio. Si el máster está bien, SIEMPRE podemos generar el derivado. CSIC, Unidad de Coordinación de Bibliotecas
GESTIÓN DE PROYECTOS: 3-difusión Hasta ahora lo prioritario ha sido conseguir un corpus con suficiente volumen y entidad para poder avanzar. El siguiente paso es difundir este corpus con un software adecuado al objeto digital. Y esto será el siguiente objetivo. Hasta el momento, los resultados de los proyectos de digitalización se han difundido en Aleph a través de un pdf vinculado al registro bibliográfico y a veces se ha realizado algunas páginas web como por ejemplo: http://manuscripta.bibliotecas.csic.es/ CSIC, Unidad de Coordinación de Bibliotecas
4- metadatos ¿qué es un metadato? UNA FICHA. (un poquito más compleja) Simplemente una ficha para describir un objeto digital. Puesto que la naturaleza del objeto es distinta (no es un objeto físico), la ficha también será algo distinta. ¿cómo haríais esa ficha? ¿alguna idea? CSIC, Unidad de Coordinación de Bibliotecas
4- metadatos¿qué es un metadato? • Registro bibliográfico (autor, título, materia…) • Derechos de autor (la difusión es web) • Información técnica sobre la imagen ¿no damos información física sobre el ejemplar? • Información sobre la “encuadernación digital”. Es decir, si un libro no tuviera las páginas encuadernadas juntas, ¿no habría que indicar qué paginas pertenecen a qué libro? • Por último, ¿no habría que indicar el orden en el que debe “encuadernarse digitalmente” ese libro?. Es decir el orden estructural de esas imágenes. CSIC, Unidad de Coordinación de Bibliotecas
Si más de estas imágenes pueden formar un libro, ¿cómo sabemos que orden establecer para poder interpretar correctamente el libro en un visualizador? ¿por el número currens de la imagen? Y si han digitalizado, la pares primero y luego las impares y si se nos “traspapela” alguna o se nos daña un archivo? 4- metadatos ¿qué es un metadato? CSIC, Unidad de Coordinación de Bibliotecas
4- metadatos¿qué es un metadato? Bien pues sí ya tenemos una ficha con todos estos datos ya tendríamos un fichero de metadatos. Sin embargo, seguro que pensáis esto no es tan sencillo… Y no lo es, en parte: • porque en este momento el bibliotecario todavía tiene “demasiada tecnología vista” y el manejo es poco amigable. • Porque hay demasiados estándares y en continuo cambio. • Porque hay un salto cuántico entre la gestión del objeto digital y la del objeto físico. • Y porque la palabra “metadato” a día de hoy, se ha vaciado de significado, por un uso excesivo y a veces erróneo. CSIC, Unidad de Coordinación de Bibliotecas
4- metadatos¿qué es un metadato? Metadatos embebidos: Ventajas y desventajas [*] Todos los formatos de imagen llevan metadatos embebidos, es decir insertos en la imagen. Esto es un perfecto cinturón de seguridad para prevenir catástrofes. Sin embargo no se adaptan tan bien para la interoperabilidad y para el tratamiento en bloque. También están algo menos desarrollados o digamos lo así “estandarizados”. La ventaja es que si una imagen se “extravía” y hemos cualificado los metadatos embebidos por ejemplo con el número de signatura en alguna etiqueta. Siempre podremos saber a qué libro pertenece esa imagen. El problema es que hasta la fecha, los “fabricantes”, los software etc, no se han puesto de acuerdo para aceptar ciertas etiquetas como “estándar” y por tanto unos programas muestran unas etiquetas, otros otras, etc.. No hay uniformidad a este respecto. Solamente con las etiquetas básicas del TIFF se llegó a un acuerdo. Pero además, no sólo se trata de la selección de etiquetas, sino de los estándares de metadatos embebidos (xmp, exif, iptc..) algunos software son capaces de leerlos y otros no. Lo cual no quiere decir que no estén embebidos en la imagen. CSIC, Unidad de Coordinación de Bibliotecas
4- metadatos¿qué es un metadato? Metadatos externos: Ficheros • DublinCore: • Mods • Marcxml • Mix • Premis • Mets CSIC, Unidad de Coordinación de Bibliotecas
4- metadatos¿qué es un metadato? CSIC, Unidad de Coordinación de Bibliotecas
4- metadatos¿qué es un metadato? CSIC, Unidad de Coordinación de Bibliotecas
4- metadatos¿qué es un metadato? CSIC, Unidad de Coordinación de Bibliotecas
4- metadatos¿qué es un metadato? CSIC, Unidad de Coordinación de Bibliotecas
4- metadatosmets No es un metadato ¿qué es? Es un estándar para la codificación y la transmisión de metadatos. (MetadataEncoding and Transmission Standard) CSIC, Unidad de Coordinación de Bibliotecas
4- metadatosmets Para entendernos es un armario móvil que sabemos que tiene: • dos espacios largos • cuatro espacios de longitud media • 20 cajones • cuatro cuerpos de estanterías Esto es lo que nos dice Mets, pero NO nos dice cómo hay que distribuir estos módulos, ni qué vamos a meter dentro de los módulos. Esto lo define cada institución. Por eso puede haber armarios muy diferentes. Y es lo que se llama Perfil de METS. La library of Congress lleva un registro de estos perfiles. La flexibilidad del Mets lo hace una herramienta estupenda para también mucho más compleja. CSIC, Unidad de Coordinación de Bibliotecas
4- metadatosmets Es: • Un archivo de almacenamiento • Un formato de transmisión • Un paquete de información OAIS • Una fuente “activa” de información (aplicación) • Un esquema en lenguaje XML que expresa: • La estructura jerárquica de los objetos digitales • Los nombres y las ubicaciones de los archivos que componen los objetos • Los metadatos asociados a ese objeto. CSIC, Unidad de Coordinación de Bibliotecas
4- metadatosmets De partida que tiene y que exige el mets: • Vocabulario controlado • Identificadores en todas las secciones • Inserción de datos o metadatos de dos maneras: • Insertados en la sección correspondiente • En forma de lenguaje xml • En codigo binario • Relacionados a través de un vínculo a un elemento externo. CSIC, Unidad de Coordinación de Bibliotecas
4- metadatosmets Lo que ya todos conocemos…: • Cabecera (MetsHeader) • Sección descriptiva (dmdSec) • Sección administrativa (amdSec) • Sección registro de ficheros (FileSec) • Sección Mapa estructural (StructMap) • Sección enlaces estruturales (StructLink) • Sección de comportamiento (BehaviorSec) CSIC, Unidad de Coordinación de Bibliotecas
4- metadatosmets • Cabecera (MetsHeader) Incluye información sobre el documentos mismo. Como información sobre el autor, agente, identificadores para el mets, estatus y fecha de creación… • Sección descriptiva (dmdSec) Incluye la información descriptiva del item. Para esto puede utilizarse cualquier estándar (mods, dc, marcml…) y puede insertarse o relacionarse con un vínculo. • Sección administrativa (amdSec) • Metadatos técnicos (techMD) • Metadatos sobre la fuente original (SourceMD) • Metadatos sobre derechos (RightsMD) • Metadatos sobre la procedencia digital (DigiprovMD) • Sección registro de ficheros (FileSec) Esta sección es un registro o inventario de todos los ficheros que componen el objeto digital con sus informaciones asociadas. • Sección Mapa estructural (StructMap) Especifica las relaciones jerárquicas y estructurales del objeto. • Sección enlaces estruturales (StructLink) Esta sección se compone de los enlaces estructurales. Relaciona la estructura con el contenido. Fija las divisiones. • Sección de comportamiento (BehaviorSec) Vincula eventuales acciones con el contenido del mets. Contiene elementos de “comportamiento” que son interpretados por una aplicación. CSIC, Unidad de Coordinación de Bibliotecas
4- metadatosperfil del csic • Cabecera (MetsHeader) • Sección descriptiva (dmdSec) El CSIC incluye en esta sección los registros en Marcxml. Generados directamente del Aleph. • Sección administrativa (amdSec) • Metadatos técnicos (techMD). El CSIC inserta aquí MIX y PREMIS • Metadatos sobre la fuente original (SourceMD). No se usa en el CSIC • Metadatos sobre derechos (RightsMD). Usa MetsRights • Metadatos sobre la procedencia digital (DigiprovMD). Aquí se usa otra parte del Premis (event) • Sección registro de ficheros (FileSec) • Sección Mapa estructural (StructMap) En el CSIC hemos establecido la posibilidad de 4 niveles (libro, volumen, capitulo y página) • Sección enlaces estruturales (StructLink) Se crean de forma automática. • Sección de comportamiento (BehaviorSec) No se usa por el CSIC. CSIC, Unidad de Coordinación de Bibliotecas