1 / 16

Aplicaciones en Ciencia y Tecnología

Maestría en Explotación de Datos y Descubrimiento del Conocimiento. Aplicaciones en Ciencia y Tecnología. Aplicaciones. Textos Ontologías Datos espaciales y temporales Imágenes Grafos Redes Sociales Biología Series de Tiempo Streams. Aplicaciones. Minería de Texto

lyris
Download Presentation

Aplicaciones en Ciencia y Tecnología

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Maestría en Explotación de Datos y Descubrimiento del Conocimiento Aplicaciones en Ciencia y Tecnología

  2. Aplicaciones • Textos • Ontologías • Datos espaciales y temporales • Imágenes • Grafos • Redes Sociales • Biología • Series de Tiempo • Streams

  3. Aplicaciones Minería de Texto Clasificar o categorizar documentos Análisis de encuestas Procesamiento automático de mensajes Construcción de Ontologías Buscadores (Vivisimo) Datos espaciales Patrones de evolución de Enfermedades Clasificación en astronomía Grafos Patrones en estructuras moleculares Patrones de uso en la web Redes sociales Biología Expresiones de genes Alineamiento de secuencias

  4. Tratamiento genérico Datos no estructurados o estructuras complejas Procesamiento previo y extracción de características Estructuras adecuadas a algoritmos adaptados o específicos Ejecución de los algoritmos Vector de pesos Clasificación de documentos Sacar palabras muy comunes, Stemming (raíz de la palabra) Texto Imágenes Grafos Datos Espaciales Datos Genéticos Encontrar formas comunes Dividir en formas simples R-Tree

  5. Cuándo aplicar minería en C&T No existen métodos analíticos o estos son extremadamente complejos Es muy costoso cubrir todos los casos o pueden ser datos técnicamente disponibles pero no en la práctica El mundo está lleno de correlaciones accidentales; el resultado de una búsqueda puede ser un reflejo de lo que queremos encontrar y no del fenómeno real.

  6. Cuándo aplicar minería en C&T Exploración petrolera Solución de un número creciente de problemas en la industria petrolera, en áreas tales como: caracterización de yacimientos, optimización integrada subsuelo-superficie, detección temprana de mermas de producción, y monitoreo y control de operación de pozos. Astronomía Sloan Digital Sky Survey, SDSS: imágenes en el espectro visible. Más de un millón de objetos clasificados. 15,7 TB de imágenes, 26,8 TB de otros datos. Comportamientos de Epidemias Capacidades para la detección de la enfermedad, el seguimiento, y la situación de Salud. (Datos Espacio/Temporales, grafos)

  7. Cuándo aplicar minería en C&T Microarreglos

  8. Minería de Textos • Análisis de información no estructurada en forma de texto • Usa técnicas de Recuperación de la Información, extracción de • la Información y procesamiento de lenguaje natural • Es necesario un preprocesamiento de la información • Crear un diccionario con todas las palabras ocurridas en los documentos • Remover las palabras “stops”, “stemming” (variantes de la misma • palabra raíz pueden ser consideradas equivalentes) • Convertir a un vector de frecuencias de palabras: nuestro espacio de búsqueda • es un espacio vectorial de palabras desde un vocabulario controlado. • Aplicaciones: Categorización y clasificación de documentos

  9. Minería de Textos • Se debe “pesar” la palabra en el contexto de la colección de documentos: • cuanto más aparece, menos valor discriminante tiene. • Reducir la dimensión del espacio de vectores en un espacio de conceptos • que agrupen palabras con igual significado: Latent Semantic Indexing. • Categorización de documentos, consiste en asignar a cada documento • una o varias categorías temáticas de entre un conjunto de categorías • preestablecido. • Agrupamiento de documentos consiste en la generación automática de grupos • de documentos relacionados, por ejemplo, documentos que traten un mismo • tema o asunto. A diferencia de lo que ocurre en la categorización, en los • procesos de agrupamiento no existe un conjunto de categorías • preestablecido, sino que el propio algoritmo a utilizar debe generar • automáticamente esas categorías, contribuyendo de esta forma a generar • un nuevo conocimiento.

  10. Minería de Textos Concepto A Concepto B

  11. Minería de Datos Espaciales Representar el objeto por el rectángulo más pequeño [(x1,y1), (x2,y2)] (MBR) y de manera recursiva (x2,y2) (x1,y1)

  12. Minería de Datos Espaciales R6 R8 R1 R7 R2 R3 R4 R5 • R-Tree: Los MBR forman un árbol de orden m (en este caso 3) R8 R6 R7 R1 R2 R3 R4 R5 • Se puede usar la infromación espacial a niveles diferentes de • granularidad

  13. Minería de Datos Espaciales

  14. Minería de Grafos Redes sociales, interacciones de proteínas, análisis de estructuras en compuestos químicos, redes de computadoras. Encontrar subgrafos comunes Encontrar subgrafos inusuales

  15. Series de Tiempo

  16. Series de Tiempo

More Related