300 likes | 427 Views
Sistemas de recuperación de imágenes basados en atributos visuales del contenido. Sara Pérez Álvarez Facultad de Ciencias de la Información. Universidad Complutense de Madrid. Modelos de representación y recuperación de imágenes. Deben tipificar 4 aspectos: Cómo se realiza la búsqueda.
E N D
Sistemas de recuperación de imágenes basados en atributos visuales del contenido Sara Pérez Álvarez Facultad de Ciencias de la Información. Universidad Complutense de Madrid
Modelos de representación y recuperación de imágenes Deben tipificar 4 aspectos: • Cómo se realiza la búsqueda. • Cómo han sido representados los documentos. • Cuál es la respuesta obtenida al plantear una búsqueda. • Regla de recuperación o relación entre los tres primeros elementos. (Robledano y Moreiro) Para conseguir sistemas de recuperación factibles y que ofrezcan el rendimiento requerido para cada tipo de fondo, el modelo de recuperación de imágenes se tiene que fundamentar en el entendimiento de la naturaleza semántica, técnica y formal de los documentos que van a ser representados en ese sistema, de las necesidades de información de sus usuarios, de los tiempos de respuesta ante consultas que precisan éstos, y de las formas de difusión requeridas.
Situación actual de la recuperación de imágenes • INTERNET como medio generalizado de acceso a la información gráfica. DESINTERMEDIACIÓN Implicaciones desde la perspectiva de nuevos diseños de sistemas: • Mayor desarrollo de prototipos avanzados de recuperación. • Amplia tipología de usuarios. • Usuario activo. • Sistemas que conjuguen facilidad de uso y potencia en la recuperación. • Entorno de descubrimiento. • Distintos niveles de descripción de las imágenes y distintas posibilidades de búsqueda.
Modelos existentes de SARI • Un SARIes un Sistema automatizado de recuperación de imágenes. Se compone de herramientas informáticas, documentos y procedimientos de consulta que hacen posible la búsqueda selectiva de imágenes fotográficas integradas en un fondo documental. • El modelo de SARI más utilizado, por su mayor potencia, se basa en la integración de un programa de gestión de bases de datos documentales y de un sistema de gestión de imágenes digitales. Consta de dos módulos: • Módulo de entrada de información. Se suele almacenar distintos tamaños de una misma imagen: MOSAICO, PREVISUALIZACIÓN, ALTA RESOLUCIÓN. • Módulo de consulta y recuperación de información.
Modelos existentes de SARI Los sistemas de recuperación de imágenes hacen uso de dos posibles técnicas de representación y consulta, que pueden ser utilizadas de forma aislada o combinada. Dichas técnicas son la CONCEPTUAL y la VISUAL. Fruto de estas dos formas de representación y recuperación tenemos las siguientes variantes en modelos de SARI: • LL (representación y recuperación conceptuales) • VV (representación y recuperación visuales) • LV (representación conceptual y recuperación visual) • VL (representación visual y recuperación conceptual) • Sistemas mixtos.
Modelo LL: Sistemas lingüísticos • Emplean sistemas de gestión documental con soporte de imágenes digitales -un ejemplo sería Inmagic. Son los más ampliamente conocidos y utilizados. • Diversas posibilidades: • Procesamiento automático de texto vinculado a la imagen (título/pie de foto); • Adscripción de contenido por un analista humano a través de una representación textual; • Sistemas hipermediales (la recuperación se realiza mediante técnicas de navegación a través de enlaces hipertextuales que llevan a imágenes o a textos que contienen imágenes). • Principal ventaja: • La capacidad del texto para describir muchos aspectos de la semántica de la imagen. Esta ventaja se pone en entredicho si consideramos que el sistema de significación de la imagen es distinto al del texto lingüístico. • Debilidades: • La potencia de los sistemas de gestión documentales se ve reducida al aplicarse sobre grandes bancos de imágenes. • No satisface recuperación basada en identificación de patrones ni sensaciones subjetivas del usuario.
Modelo VV: Sistemas visuales puros • Permiten la representación automática de los atributos visuales de la imagen y la recuperación a partir de esos criterios. • Intentan solucionar las debilidades impuestas por el modelo lingüístico: • Permite la recuperación por cualidades gráficas (colores, texturas, formas geométricas, etc.) y sensaciones estéticas. • Supera los problemas de inconsistencia, alto coste en tiempo y dinero propios de la asignación de texto a las imágenes. • Principal inconveniente: • Problemas para la recuperación semántica: objetos, personas, escenas...
Modelo LV: Sistemas de representación lingüística y recuperación visual • Representaciones textuales de las imágenes, pero con posibilidad de recuperar a partir de las propias imágenes (por ejemplo, mediante un tesauro visual) http://ai.bpa.arizona.edu/~mramsey/papers/gkrs/node36.html • Pueden ser de gran utilidad en dominios muy restringidos. • Sus inconvenientes principales derivan de los problemas en la representación textual ya comentados.
Modelo VL: Sistemas de representación visual y recuperación lingüística • Intentan superar dos limitaciones importantes de los modelos descritos hasta ahora: • La restricción de las posibilidades expresivas del usuario al realizar la consulta, por parte de los sistemas visuales. • La dificultad para expresar una parte importante de la significación de la imagen durante el proceso de representación, por parte de los sistemas lingüísticos. Un ejemplo muy interesante es un sistema para una galería de arte electrónica llamado ART MUSEUM.
Sistemas mixtos • Integran varios de los modelos de recuperación descritos. • Su tecnología es la más adecuada para las necesidades de recuperación de un fondo gráfico voluminoso digitalizado. • Los sistemas mixtos más comunes se basan en la integración de un sistema visual puro con un sistema lingüístico. Esta integración permite que un usuario pueda utilizar, de manera combinada, durante el proceso de recuperación funciones de consulta visuales y lingüísticas. Para la recuperación lingüística se utiliza un sistema de gestión de base de datos que puede ser de tipo relacional o documental. Ejemplo: http://www.si.umich.edu/Space/ Base de datos con imágenes relativas a ciencias de la tierra y del espacio
Sistemas CBIR: Sistemas de Recuperación basados en el Contenido • CBIR es abreviatura de Content-based image retrieval systems. ¿QUÉ SON? (Prof. Robledano Arillo) Modelo de recuperación visual de imágenes basado en el uso de las características intrínsecas de los documentos que son extraídas y representadas automáticamente a través de estructuras de datos numéricas. • Responden al modelo VV, sistemas de recuperación visuales puros. Sin embargo, suelen presentarse de forma mixta.
Sistemas CBIR • Los sistemas CBIR hoy día operan de forma eficaz en el nivel de abstracción más bajo (rasgos primitivos: color, forma, textura, distribución espacial, posición, bordes, etc.) • Esto no significa que su intención no sea alcanzar también posibilidades de recuperación semántica de la imagen. • Ése es precisamente el principal reto actual.
Funcionamiento • Fase de archivo: Se analiza automáticamente las características intrínsecas de las imágenes. Se generan vectores de características gráficas por cada imagen. El índice visual vincula cada atributo con las imágenes que lo contienen. • Fase de consulta: El usuario especifica una o varias características visuales. ¿Cómo? Mediante las opciones que estén disponibles en el interfaz: • Consulta a través de ejemplo visual: • Consulta por imagen índice mostrada. • Consulta por ejemplo realizado. • Uso de lenguaje visual. • Fase de recuperación: Las imágenes se muestran en orden decreciente de similitud.
Problemas habituales en la recuperación CBIR • Imprecisión y vaguedad en las búsquedas del usuario: • Inexactitud respecto a lo que busca. • Conocimiento impreciso de las características visuales. • Generalización excesiva. • Errores en la representación. • Falta de coincidencia entre la percepción del usuario y la del sistema. • La imprecisión y vaguedad derivada de la subjetividad en la interpretación de los conceptos plásticos se intenta superar, ejemplos: • Teoría de Johannes Itten acerca de los significados inducidos por el uso de los colores . • Sistema ART MUSEUM. • Sistemas expertos. • No obstante, estos problemas están lejos de superar de cara a aplicar sistemas de uso genérico.
Tipos de sistemas CBIR • Sistemas algorítmicos • Son los más habituales y cercanos al usuario casual. Sus procesos fundamentales responden a la explicación anterior. • Se caracterizan por emplear algoritmos para la localización, representación y comparación de atributos visuales de carácter gráfico. • También pueden emplear algoritmos de recuperación basados en la identificación y reconocimiento de texto presente en la imagen o adyacente a ésta. (OCR) • Sistemas basados en IA • Destaca el uso de redes neuronales para el reconocimiento de patrones gráficos y, a partir de éstos, aproximaciones hacia el reconocimiento de objetos. Una dirección con demos relativos a Visión Artificial en: (http://www-2.cs.cmu.edu/afs/cs/project/cil/ftp/html/txtv-demos.html)
Presentación de aplicaciones existentes • Un caso español: SAID • Sistema Automático de Identificación Dactilar. • Se usa en España desde 1986. • Guardia Civil y Cuerpo Nacional de Policía • Procesos básicos de SAID: • Lectura e interpretación de dactilogramas. • Comparación automática puntos característicos. • Presentación en pantalla de las imágenes de los candidatos.
Presentación de aplicaciones existentes • Son numerosos los prototipos de investigación, algunos con módulos consultables en web. Menor es la cantidad de aplicaciones comerciales disponibles. • Comentario de 3 ejemplos: • ADL (Alexandria Digital Library) • Indización espacial por regiones. • Aplicación: Catalogación e indización de materiales especiales. • Ofrece acceso web a un conjunto de fondos del MIL (Map and Imagery Laboratory) • URL: http://www.alexandria.ucsb.edu/
AMORE (Advanced Multimedia Oriented Retrieval Engine) • Actualmente no disponible en demo.
NETRA • Prototipo de investigación.
Ejemplos de sistemas consultables en web: BLOBWORLD Y QUICKLOOK • BLOBWORLD • Blobworld Image Retrieval using regions • Desarrollado por el UC Berkeley Computer Vision Group,Computer Science Division, University of California, Berkeley(USA) • http://dlp.cs.berkeley.edu/photos/blobworld • QUICKLOOK • QUICKLOOK On The Web Site (v1.2) • Istituto per le Tecnologie Informatiche Multimediali (ITIM), dependiente del Consiglio Nazionale delle Ricerche, Milán (Italia) • http://quicklook.itc.cnr.it/main.html
Campos de aplicación de sistemas CBIR • fondos de patentes • logotipos comerciales • sellos • diseños industriales basados en texturas • imágenes médicas • obras de arte pictóricas no figurativas • reconocimiento de billetes de banco falsos • identificación de copias falsas • videocámaras • museos digitales • bibliotecas digitales • bases de datos multimedia
Problemas a los que se enfrenta la tecnología CBIR • Vacío semántico • Evaluación • Se constata un escaso éxito de estos sistemas a nivel general. Apuesta por una aproximación cognitiva para evaluar su eficacia desde una perspectiva de usuario: La importancia del interfaz de usuario.
Análisis de usabilidad • Definiciones de la ISO: • 1) ISO/IEC 9126 "La usabilidad se refiere a la capacidad de un software de ser comprendido, aprendido, usado y ser atractivo para el usuario, en condiciones específicas de uso" ; • 2) ISO/IEC 9241 "Usabilidad es la efectividad, eficiencia y satisfacción con la que un producto permite alcanzar objetivos específicos a usuarios específicos en un contexto de uso específico". • Análisis de usabilidad o evaluación heurística: • Método de evaluación consistente en detectar los problemas de usabilidad en un diseño de interfaz de usuario.
Metodología del análisis • Método: Recorrer el interfaz varias veces y durante varias sesiones de conexión a fin de inspeccionar los diversos elementos de diálogo, su diseño, localización e implementación, y compararlos con una lista de 10 principios heurísticos. • Objetivo: Determinar si existe, o no, una adecuada interacción usuario-máquina.
Principios de usabilidad • Principios heurísticos empleados: 1. Visibilidad del estado del sistema. 2. Relación entre el sistema y el mundo real. 3. Control y libertad del usuario. 4. Consistencia y estándares. 5. Prevención de errores. 6. Reconocer mejor que recordar. 7. Flexibilidad y eficacia de uso. 8. Diseño estético y minimalista. 9. Ayuda a los usuarios a reconocer, diagnosticar y recuperarse de los errores. 10. Documentación de ayuda. • Posible escala de puntuaciones (basada en la Escala de Likert (TROCHIM): + 3, +2, +1 / 0 / -3, -2, -1
Conclusiones de evaluaciones heurísticas sobre sistemas CBIR • El diseño del sistema debe ayudar al usuario. • Los modelos de diseño ajustados al usuario determinan con más precisión: • Las necesidades reales de los usuarios sobre las imágenes. • Sobre qué nuevas posibilidades de recuperación se ha de trabajar. • La documentación de ayuda debe ser didáctica y completa. • Se recomienda implementar el método de indicación de la relevancia para mejorar el criterio del usuario sobre la eficacia de estos sistemas.
Líneas a seguir • Aumentar la oferta de sistemas con un propósito de aplicación general. • Más investigación sobre reconocimiento automático de objetos y de contenido con un mayor nivel de abstracción. • Más investigación sobre las necesidades de usuarios (destaca el IIDR de la Universidad de Northumbria) y cómo adecuar los sistemas a dichas necesidades. • Más investigación sobre las formas de interacción entre el usuario y el fondo para definir: • Modelos de usuarios. • Estrategias de recuperación. • Funciones de manipulación durante la consulta. • Integrar los resultados de estudios de usuarios, evaluaciones heurísticas y aportaciones de otras disciplinas, tales como IPO, Arquitectura de la Información, Visualización de la Información, Psicología, etc. Todo ello ha de permitir: • Establecimiento de principios de diseño adecuados a interfaces CBIR.
Bibliografía • EAKINS, J.P. y GRAHAM, M.E. (1999). Content-based image retrieval: A report to the JISC Technology Applications Programme, disponible en http://www.unn.ac.uk/iidr/report.html. • PÉREZ ÁLVAREZ, Sara (2003). Análisis de usabilidad de sistemas CBIR, Documentación de las Ciencias de la Información nº26, pp. 313-350. • ROBLEDANO ARILLO, Jesús (1999). La recuperación de la imagen fija. Perspectiva funcional de los sistemas automatizados de recuperación de imágenes, En El Análisis de la fotografía de prensa en entornos automatizados (Tesis Doctoral), pp.265-310. • ROBLEDANO ARILLO, Jesús y MOREIRO GONZÁLEZ, José Antonio (2002). La recuperación documental del documento fotográfico: perspectiva tecnológica y documen.tal, en Primeras Jornadas de Imagen, Cultura y Tecnología (Universidad Carlos III, Madrid. 1-5 julio), (actas), pp.179-200. • TROCHIM, William M.K.(2002). Escala Likert, disponible en http://trochim.human.cornell.edu/kb/scallik.htm. • VELTKAMP, Remco C. y TANASE, Mirela (2000). Content-based Image Retrieval Systems: A survey. Department of Computing Science, Utrecht University, Technical ReportUU-CS-2000-34 • VENTERS, Colin C. y COOPER, Matthew (2000). A review of Content-Based Image Retrieval Systems: A report to the JISC Technology Applications Programme, disponible en http://www.jtap.ac.uk/reports/htm/jtap-054.html.