170 likes | 343 Views
Visión por computador. Ontología para visión computacional (I). Objetos conceptuales y relaciones entre objetos (predicados lógicos) similares en el problema 2D y 3D.
E N D
Ontología para visión computacional (I) • Objetos conceptuales y relaciones entre objetos (predicados lógicos) similares en el problema 2D y 3D. • Problema en general más simple en geometría plana si se intenta resolver computacional-numéricamente (ej: rectificación en geom. epipolar). Problema lógico afectado en menor medida por el aumento de dimensiones • Conceptualización generalizable a más dimensiones, y ampliable a dimensiones con coordenadas asimétricas y a problemas de Geometría Computacional y Métrica.
Ontología para visión computacional (II) • Una vez definido el problema de forma estándar el ontologista establece clasificaciones y taxonomías de situaciones y agrupaciones de objetos, en base a los conceptos, asociaciones, relaciones y preguntas que el experto (en este caso de Visión por computador) entienda relevantes al problema. • Análisis del ontologista puede sugerir al experto categorías adicionales o nuevas preguntas de interés. • En su caso el ontologista traslada determinados problemas al matemático (que actúa como ontologista especializado en las operaciones aritméticas, algebraicas, geométricas, ...).
Ontología para visión computacional (III) • Objetos conceptuales (3D): • Sistemas de referencia: Asociados a objetos (de la escena, cámaras, imágenes, ...) como sólidos rígidos. • Geométricos simples: Puntos (centros óptico de cámara, esquinas de la imagen, ...), rectas (rayos visuales, segmentos de borde de objetos), planos (de la imagen, p.ej.), curvas paramétricas, ... • Objetos complejos: • Poliedros (representación por triangulación de objeto arbitrario, p.ej.). • Sólidos definidos por generación: Superficies de revolución (directriz más eje de rev.), Sup. Regladas, Constructive Solid Geometry, ... • Carácterísticas de objetos (“features”), definidos de forma conceptual, racionalizados de alguna forma concreta.
Ontología para visión computacional (IV) Representación de objetos conceptuales (3D): • Sistemas de referencia (6 dof) -> 2 rectas que se cortan (4 dof para recta + 1 dof para pto referencia en recta + 1 dof para ángulo en haz de planos), o [1 punto (3 dof) + 1 dirección (2 dof) + 1 ángulo de giro (1 dof)]. Triángulo en 3D (3x3dof = 9 dof, pero muchos triángulos posibles para el mismo plano; se restan 3 dof por mov. sólido rígido en 2D) define plano (y normal al mismo en el espacio), origen y eje X. Definición alternativa por punto origen (posición de un pto del sist. de ref., 3 dof) y 3 ángulos de Euler (orientación).
Ontología para visión computacional (V) Representación de objetos conceptuales (3D, cont.): • Geométricos simples: Puntos (3 coord., esto es, 3 dof por punto, en general), rectas (4 dof, p.ej. intersección con plano XY + az/el dirección) y planos (3 dof, como sist. de ref. con ejes XY sin posicionar en el plano). • Objetos complejos: • Poliedros (3 dof por punto, salvo restricciones o condiciones entre puntos) • Sólidos definidos por generación: Superficies de revolución (dof´s directriz como curva paramétrica + 4 dof recta eje revolución si situado en posición y orientación), Constructive Solid Geometry (tantos dof´s como parámetros independientes, no condicionados, de input en el proceso de generación), ... • Carácterísticas de objetos (“features”) parametrizados con cuantificación de elementos definidores)
Ontología para visión computacional (VI) • Relaciones entre objetos: • Lógicas: “estar entre” (para puntos y objetos genéricos), “estar a la derecha de” (cuando se ha definido orientación en 2D/3D), “estar detrás de”, ... Suficiente en muchos casos para obtener información métrica aproximada. Posibilidad de introducir lógica borrosa. • Cuantitativas: Aplicadas a variables cuantificadoras de la representación abstracta de los objetos. Relaciones de tipo matemático susceptibles de tratamiento estándar (algebraico o numérico). Posibilidad de estudios paramétricos y análisis dimensional. Ej: Definición paramétrica de superficie NURBS).
Ontología para visión computacional (VII) • Axiomas/Propiedades: Establecen relaciones entre ciertos objetos que son singulares en la modelación (puntos, líneas, etc definidos como básicos y definidores de elementos adicionales) • Ejemplos: • Eje óptico (asociado a una lente) perpendicular al plano de la imagen • Triángulos (geometría epipolar) definidos por 3 condiciones independientes (en posición, medidas de lados/ángulos, combinación de varios tipos de condiciones, etc) • Desplazamiento del plano imagen paralelo a sí mismo (3D) supone cambio en factor de escala de la imagen (homotecia)
Ontología para visión computacional (VIII) • Ventajas: • Definición clara y precisa de los datos (imágenes) y metadatos (información) que suministrados por el usuario • Clasificación de problemas tipo • Traducción conceptual de problemas a ámbitos geométricos que le son propios. • Análisis funcional y paramétrico en base a dof y ligaduras entre variables. • Utilización de herramientas/algoritmos estándar para la resolución de problemas geométricos, numéricos, etc • Automatización de los procesos de cálculo y análisis. • Posibilidad de incorporar contenido semántico adicional en relación a la escena o acceder a conocimiento/información externos para problemas parciales específicos (matemáticos, computacionales, ...)
Visión Binocular, Visión 3D y Visión aumentada • Visión humana (visión 2.5D): Percepción de profundidad limitada en resolución y variando mucho con la distancia (objetos lejanos aparecen planos): • Monocular por diferencia enfoque de objetos (sistema óptico basado en lente fina). • Binocular (diferencia de apuntamiento de ojos y reconstrucción mental por correspondencia de puntos para dos imágenes ligeramente desplazadas) • Visión 3D supone la posibilidad de generar vista desde cualquier ubicación espacial, como si el observador estuviese en todas partes al mismo tiempo • Visión 3D+ (aumentada): Incorporación de variable temporal y/o contenido semántico
Visión distribuida (I) • Visión en seres humanos concentrada en 2 puntos de vista muy próximos (prácticamente la misma vista desde ambos ojos). • Dos imágenes más separadas suponen poder obtener una mayor precisión en los cálculos de profundidad (problema matemático mejor condicionado) pero zonas amplias sin correspondencia entre las dos imágenes. • Visión binocular supone en términos prácticos un compromiso entre precisión y tamaño de áreas comunes en ambas imágenes (sobre las que es posible calcular la profundidad).
Visión distribuida (II) • Punto de vista extenso con sistemas de exploración clínica (TAC, RMN, ...) • Sensores repartidos en edificios o viviendas permiten integrar la información visual del conjunto, o al menos la relevante para los propósitos que se consideren. • VLT (Very Large Telescope): Un conjunto de telescopios viendo de forma conjunta, como un ojo más extenso (situado en varios lugares a la vez). • SAR (Synthetic Aperture Radar): Radar activo, embarcado en satélites, con antena rectangular generando y recibiendo pulsos de radiación electromagnética (iluminando y recogiendo los reflejos en la escena). Emisor-receptor extenso (no puntual) y continuo.
Visión distribuida (III) ASAR (Envisat)
Ilusiones ópticas • Análisis útil porque muestran preconcepciones o mecanismos mentales que complementan nuestra visión física en las actividades cotidianas. • Efecto de la perspectiva asentado, por ejemplo, en que asumimos que con la distancia (percepción de profuncidad) se produce disminución del tamaño de los objetos, pérdida de detalle, etc. • Visión humana adecúa elementos de la imagen a estructuras preconcebidas geométricamente sencillas (prismas rectos, líneas de perspectiva convergentes resultan de paralelas en el espacio).
Otras formas de ver • Luz reflejada en todos los objetos de la escena permite recoger información del conjunto. Actúa como elemento extenso (vs. punto de vista discreto) “tocando” en mayor o menor medida los elementos de la escena. • Reconstrucción a partir de sombras (como negación de luz) con hipótesis sobre partes de la escena no visibles directamente o de elementos generadores de áreas opacas (interponiéndose entre la fuente luminosa y el objeto) • Posibilidad (al menos teórica) de ubicar aproximadamente objetos ocultos en la escena por su efecto en la iluminación • Imágenes sónicas (sónar) con varias “cámaras” y visualización/reconstrucción espacial de propagación del sonido • Medida del albedo de la Tierra por su reflejo en la cara oscura de la Luna (imagen con información integrada, no de detalle)