170 likes | 335 Views
Presentación del documento COTEC sobre oportunidades tecnológicas: Minería de Datos. Angel Navia Vázquez (navia@tsc.uc3m.es) Aníbal R. Figueiras Vidal (arfv@tsc.uc3m.es) Departamento de Teoría de la Señal y Comunicaciones Universidad Carlos III de Madrid. Objetivos del documento.
E N D
Presentación del documento COTEC sobre oportunidades tecnológicas: Minería de Datos Angel Navia Vázquez (navia@tsc.uc3m.es) Aníbal R. Figueiras Vidal (arfv@tsc.uc3m.es) Departamento de Teoría de la Señal y Comunicaciones Universidad Carlos III de Madrid
Objetivos del documento • Sensibilizar a la empresa respecto a la necesidad de innovación (en general) • Visibilizar la Minería de Datos y sus potenciales aplicaciones para el desarrollo del negocio • Servir de guía de iniciación a la minería de datos
Contenido del documento 1.- Presentación 2.- El valor oculto en los datos • Exceso de volumen de datos: infoxicación! • Dificultad de percepción de datos “crudos”: necesidad de herramientas de procesado: la minería de datos 3.- Los fundamentos de la minería de datos • El proceso de la minería de datos y sus etapas: obtención de datos, preprocesado, tratamiento, interpretación, aplicación 4.- Aplicaciones de la minería de datos • Tipología parcial y sectorial de la minería: telecomunicaciones, comercio, seguros, finanzas, etc. • Examen de algunos casos reales: MCI, Mellon Bank, Jubii, ClearCommerce Corp., Visanet Brasil, Endesa, y deCODE genetics.
Contenido del documento (II) 5.- El estado actual de la minería de datos • Algunas estadísticas de usos, herramientas, tecnologías 6.- Sobre oportunidades y obstáculos • Estimular la creatividad e innovación: preguntarse continuamente cómo mejorar el proceso de minería 7.- Relación de prestadores de servicios • Centros de I+D+i • Consultores y desarrolladores • Proveedores Apéndices y glosario
Frases a recordar • “De donde no hay, no se puede sacar”: calidad de los datos • “Sólo interesan las respuestas a lo que no se sabe”: generalización • “Cada uno a lo suyo”: el papel de los expertos y las herramientas • “No hay que meterse en lo que no te importa”: perder miedo al manejo de datos personales • “Siempre se rompe la cuerda por lo más flojo”: cuidar todos los eslabones del proceso
Algunos ejemplos adicionales……nuevas tecnologías desarrolladas en la Universidad Carlos III para minería de datos y multimedia
Créditos al consumo en grandes superficies Calificación de créditos • Relación morosidad-volumen de negocio • Modelos de máquinas de vectores soporte • Base de datos de una entidad financiera • Caracterización de la clientela: saldo actual, importe últimas nóminas, importe del préstamo, plazo del préstamo, estado civil, edad. • Exploración de mejores tecnologías de calificación (1998): • Análisis Lineal Discriminante (87%) • Red neuronal (94%)
Detección de fraude en llamadas • Identificación de perfiles de cada llamada • Desagregación en modelos paralelos, por provincia, tipo de terminal, etc. • Detección de novedad con máquinas de vectores soporte monoclase: ¿fraude? • Análisis en mayor detalle por expertos: filtrado posterior de alarmas
Enrutado de noticias • Se define un clasificador por cada categoría • Tecnología propia de SVMs: ventaja sobre estado del arte • Entrenables mediante ejemplos (“relevance feedback”): clasificación personalizada
Segmentación adaptativa • Divisiones no binarias obtenidas con parada automática • Monitorización de nuevos grupos • Tecnología propia (KHC) = “Kernel Hierarchical Clustering” 2 3 2 3 1 1 Grupo modificado Nuevo grupo (consolidado) Nuevo grupo (vigilancia)
Autoorganización de colecciones de documentos para “navegación” “Mac” “PC” “hard” “soft”
Recuperación de imágenes • Realimentación de relevancia ayuda a identificar el “concepto”/preferencias en la mente del usuario, mediante interacción, prueba y error • Buen método de ajustar servicios/aplicaciones de modo “transparente” para el usuario Distancia mínima Realimentación relevancia
No hay porque empezar por escenarios complejos, casos difíciles, y herramientas costosas…… implantación gradual de soluciones de Minería de Datos
1 2 No. Botellas/año 3 20 60 65 70 25 30 35 40 45 50 55 75 18 Ejemplo: segmentación de mercados • Objetivo: identificar grupos preferentes de clientes • Datos iniciales: listado de 200.000 compras de vino, de las cuales se conoce también la edad del cliente. • Visualización de esos datos mediante una representación fácilmente asimilable, que aporte mayor información sobre el negocio • Aparentemente 3 grupos de clientes: ¿correcto? • ¿cuáles son los grupos principales? ¿1 y 2? • ¿algún otro factor a tener en cuenta?: ¿coste de las botellas?
1 2 No. Botellas/año 4 3 20 25 30 35 40 45 50 55 60 65 70 75 18 Ejemplo: segmentación de mercados • Nueva respuesta una vez se representa volumen de negocio (línea verde) • Destacan los grupos 2 y 4 como relevantes, en cuanto a volumen de negocio/beneficios: centrar campaña en ellos • El proceso de minería continuaría: ¿qué nuevas variables puedo incorporar? • Cada respuesta nos guía hacia nuevas preguntas: el ciclo de la minería se completa con la captura de nuevos datos, su procesado y la obtención de nuevas respuestas…
Conclusiones • Cualquier proceso de negocio es potencialmente susceptible de mejora mediante técnicas de minería de datos • No es necesario desplegar grandes soluciones desde un primer momento: implantación gradual: el propio proceso nos va ir indicando nuestras necesidades • La innovación continua es el camino hacia la competitividad: “No esperar a acordarse de Santa Bárbara ya en plena tormenta…”