180 likes | 446 Views
Maestría en Explotación de Datos y Descubrimiento del Conocimiento. Aplicaciones en Ciencia y Tecnología. Aplicaciones. Textos Ontologías Datos espaciales y temporales Imágenes Grafos Redes Sociales Biología Series de Tiempo Streams. Aplicaciones. Minería de Texto
E N D
Maestría en Explotación de Datos y Descubrimiento del Conocimiento Aplicaciones en Ciencia y Tecnología
Aplicaciones • Textos • Ontologías • Datos espaciales y temporales • Imágenes • Grafos • Redes Sociales • Biología • Series de Tiempo • Streams
Aplicaciones Minería de Texto Clasificar o categorizar documentos Análisis de encuestas Procesamiento automático de mensajes Construcción de Ontologías Buscadores (Vivisimo) Datos espaciales Patrones de evolución de Enfermedades Clasificación en astronomía Grafos Patrones en estructuras moleculares Patrones de uso en la web Redes sociales Biología Expresiones de genes Alineamiento de secuencias
Tratamiento genérico Datos no estructurados o estructuras complejas Procesamiento previo y extracción de características Estructuras adecuadas a algoritmos adaptados o específicos Ejecución de los algoritmos Vector de pesos Clasificación de documentos Sacar palabras muy comunes, Stemming (raíz de la palabra) Texto Imágenes Grafos Datos Espaciales Datos Genéticos Encontrar formas comunes Dividir en formas simples R-Tree
Cuándo aplicar minería en C&T No existen métodos analíticos o estos son extremadamente complejos Es muy costoso cubrir todos los casos o pueden ser datos técnicamente disponibles pero no en la práctica El mundo está lleno de correlaciones accidentales; el resultado de una búsqueda puede ser un reflejo de lo que queremos encontrar y no del fenómeno real.
Cuándo aplicar minería en C&T Exploración petrolera Solución de un número creciente de problemas en la industria petrolera, en áreas tales como: caracterización de yacimientos, optimización integrada subsuelo-superficie, detección temprana de mermas de producción, y monitoreo y control de operación de pozos. Astronomía Sloan Digital Sky Survey, SDSS: imágenes en el espectro visible. Más de un millón de objetos clasificados. 15,7 TB de imágenes, 26,8 TB de otros datos. Comportamientos de Epidemias Capacidades para la detección de la enfermedad, el seguimiento, y la situación de Salud. (Datos Espacio/Temporales, grafos)
Cuándo aplicar minería en C&T Microarreglos
Minería de Textos • Análisis de información no estructurada en forma de texto • Usa técnicas de Recuperación de la Información, extracción de • la Información y procesamiento de lenguaje natural • Es necesario un preprocesamiento de la información • Crear un diccionario con todas las palabras ocurridas en los documentos • Remover las palabras “stops”, “stemming” (variantes de la misma • palabra raíz pueden ser consideradas equivalentes) • Convertir a un vector de frecuencias de palabras: nuestro espacio de búsqueda • es un espacio vectorial de palabras desde un vocabulario controlado. • Aplicaciones: Categorización y clasificación de documentos
Minería de Textos • Se debe “pesar” la palabra en el contexto de la colección de documentos: • cuanto más aparece, menos valor discriminante tiene. • Reducir la dimensión del espacio de vectores en un espacio de conceptos • que agrupen palabras con igual significado: Latent Semantic Indexing. • Categorización de documentos, consiste en asignar a cada documento • una o varias categorías temáticas de entre un conjunto de categorías • preestablecido. • Agrupamiento de documentos consiste en la generación automática de grupos • de documentos relacionados, por ejemplo, documentos que traten un mismo • tema o asunto. A diferencia de lo que ocurre en la categorización, en los • procesos de agrupamiento no existe un conjunto de categorías • preestablecido, sino que el propio algoritmo a utilizar debe generar • automáticamente esas categorías, contribuyendo de esta forma a generar • un nuevo conocimiento.
Minería de Textos Concepto A Concepto B
Minería de Datos Espaciales Representar el objeto por el rectángulo más pequeño [(x1,y1), (x2,y2)] (MBR) y de manera recursiva (x2,y2) (x1,y1)
Minería de Datos Espaciales R6 R8 R1 R7 R2 R3 R4 R5 • R-Tree: Los MBR forman un árbol de orden m (en este caso 3) R8 R6 R7 R1 R2 R3 R4 R5 • Se puede usar la infromación espacial a niveles diferentes de • granularidad
Minería de Grafos Redes sociales, interacciones de proteínas, análisis de estructuras en compuestos químicos, redes de computadoras. Encontrar subgrafos comunes Encontrar subgrafos inusuales