250 likes | 400 Views
Analisis de datos hiperespectrales: otra revisión. Hyperespectral image data analysis, D. Landgrebe, IEEE Signal Processing Magazine, Jan 2002, p.17-28. Introducción. Idea básica: sustituir resolución espacial por resolución espectral.
E N D
Analisis de datos hiperespectrales: otra revisión Hyperespectral image data analysis, D. Landgrebe, IEEE Signal Processing Magazine, Jan 2002, p.17-28 analisis de datos en imagenes hiperespectrales: intro
Introducción • Idea básica: sustituir resolución espacial por resolución espectral. • Clases distintas de cobertura de la superficie tienen distintas respuestas espectrales, únicas dentro de un conjunto de datos. analisis de datos en imagenes hiperespectrales: intro
Representación de la señal • Cada pixel es un vector de N dimensiones. • Los pixels pueden considerarse como realizaciones de una variable aleatoria. • La caracterización de los datos se hará en términos de la distribución de probabilidad condicionada a la clase. analisis de datos en imagenes hiperespectrales: intro
Discriminación entre clases • Distancia de Bhattacharyya entre dos clases en función de sus densidades condicionales analisis de datos en imagenes hiperespectrales: intro
En la derivación se asumen distribuciones gausianas. El primer término de la distancia es la diferencia entre las medias, el segundo se refiere a la discriminación basada en los segundos momentos centrales. Un resultado derivado es la posibilidad de discriminar clases que tienen la misma media, pero distintas matrices de covarianza. Esto requiere discriminantes cuadráticos. Clasificación basada en las funciones discriminantes: analisis de datos en imagenes hiperespectrales: intro
La distribución condicional puede servir como función discriminante. En este caso el clasificador es de máxima verosimilitud. Si todas las clases tienen varianza unidad y las caracteristicas son incorreladas, tenemos el clasificador de mínima distancia a las medias. Las clases tienen la misma covarianza, las características no son incorreladas y no tienen la misma varianza: discriminante lineal de Fisher Distintas matrices de covarianza por clase: clasificador cuadrático gausiano: analisis de datos en imagenes hiperespectrales: intro
En teoría, si se conocen las probabilidades a priori se pueden construir los clasificadores de mínimo error basados en la probabilidad a posteriori, pero es poco usual. Aumentar el orden de los clasificadores puede mejorar el rendimiento del clasificador, el inconveniente es la falta de datos para realizar la estimación de los parámetros. Inconvenientes de redes neuronales: grandes tiempos de entrenamiento y conjuntos de datos de entrenamiento. analisis de datos en imagenes hiperespectrales: intro
Problemas en datos de alta dimensión • La ventaja de los datos de alta dimension es que el desdoblamiento de los datos puede reforzar las habilidades discriminantes. Si bien en la representación bidimensional no se aprecian dos clases, en la representación tridimensional dada por la imagen en color si se aprecián. analisis de datos en imagenes hiperespectrales: intro
Considerese una hiperesfera de radio d, el volumen que ocupa es Idem para un hipercubo: La fracción del volumen de un hipercubo ocupado por la hiperesfera inscrita en el es: Esta fracción tiende a cero al crecer la dimensión. Los datos se concentran en las esquinas de los hipercubos. analisis de datos en imagenes hiperespectrales: intro
Conclusión: el espacio de alta dimensión está practicamente vacio. Los datos se pueden proyectar en espacios de baja dimensión sin pérdida de capacidad de discriminación. ¿cuales? Consecuencia 2: los datos distribuidos normalmente se concentran en la cola de la distribución al aumentar la dimensión. Esto dificulta la estimación de las densidades. analisis de datos en imagenes hiperespectrales: intro
Dependencia de la bondad del clasificador sobre el tamaño del conjunto de muestras para entrenamiento (m). Efcto de Hughes. Si el numero de muestras es finito se encuentra un máximo de rendimiento a partir del cual entrenar modelos más complejos empeora los resultados. El valor del máximo aumenta con el tamaño de la muestra. analisis de datos en imagenes hiperespectrales: intro
Extracción de características • Reducción de la dimensión garantizando la bondad de la clasificación con los datos reducidos. • Extracción basada en la capacidad discriminante (DAFE) • Extracción basada en la frontera de decisión (DBFE). analisis de datos en imagenes hiperespectrales: intro
Discriminate Analysis Feature Extraction: DAFE • Busca el subespacio óptimo garantizando que las clases tienen máxima separación de las medias sobre este nuevo eje, mientras que sus varianzas en la proyección son tan pequeñas como sea posible. Trata de maximizar: analisis de datos en imagenes hiperespectrales: intro
En formato matricial La función criterio a maximizar en la selección de vectores característicos se formula como: analisis de datos en imagenes hiperespectrales: intro
DBFE • Se basa en la frontera de decisión y las muestras que la definen. • Las características discriminantes tienen al menos un componente que es ortogonal a la frontera de decisión en al menos un punto. • Características redundantes son ortogonales al vector normal a la frontera de decisión en todos los puntos. analisis de datos en imagenes hiperespectrales: intro
Paradigma de analisis de datos • Primer paso en la construcción del clasificador: dar una lista de clases • Donde cada clase tenga algun valor informativo • Exaustiva: todo pixel puede ser clasificado • Separable: las clases deben ser separables en función de las características disponibles. • Segundo: disponer de datos de entrenamiento fiables y abundantes. analisis de datos en imagenes hiperespectrales: intro
1- datos multiespectrales: no existe una frontera definida entre datos multi e hiperespectrales. Las propiedades del espacio varian al aumentar la dimensión. Las dimensiones varian entre 10 y 102. 2- extracción de las características importantes para la tarea, condicionada a la información específica de la tarea 3- selección de las características calculadas. 4- algoritmo de clasificación dependiente de la aplicación... 5- preparación del conjunto de entrenamiento. 6- construccion de los modelos cuantitativos de los datos: distribuciones condicionales 7-uso de información de calibración para obtener datos de entrenamiento a partir de las observaciones. analisis de datos en imagenes hiperespectrales: intro
Utilización de los datos no etiquetados para mejorar la efectividad del clasificador supervisado. Clases en el espacio de características. Cada clase caracterizada por m componentes gausianos. Datos de entramiento de cada clase. Datos de entrenamiento sin etiquetar. Verosimilitud a maximizar en el proceso de estimación. analisis de datos en imagenes hiperespectrales: intro
Proceso de maximización de la expectación (EM) Probabilidades a posteriori. analisis de datos en imagenes hiperespectrales: intro
Airborne sensor, 3m pixels, 210 bands 0.4 to 2.4 mm. 1208 lineas, 307 pixels por linea. Imagen con las bandas 60,27,17 para RGB. No ajuste geométrico. 2-clases: tejados, carretera,hierba, arboles, pista, agua, sombra. Se desea distinguir entre carreteras y tejados. Se definen 10 subclases de tejados, con 10-100 muestras etiquetadas por cada subclase. analisis de datos en imagenes hiperespectrales: intro
3- Extracción de características: DAFE obtiene 210 bandas que son combinación lineal de las originales, ordenadas por capacidad discriminante. Las nueve primeras parecen ser suficientes. 4- la selección consiste en reformatear la imagen. 5- clasificación inicial (ECHO) algoritmo cuadrático que segmenta la escena en objetos homogeneos y los clasifica en base a la verosimilitud cuacrática. 6- se refina el entrenamiento añadiendo algunas muestras etiquetadas adicionales. 7- clasificación final. analisis de datos en imagenes hiperespectrales: intro
Resultado final del etiquetado. analisis de datos en imagenes hiperespectrales: intro