630 likes | 880 Views
Minería de Datos como Herramienta para la Gestión Moderna. DR. NICOLAS KEMPER VALVERDE Laboratorio de Sistemas Inteligentes CENTRO DE CIENCIAS APLICADAS Y DESARROLLO TECNOLOGICO UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO e-mail : kemper@servidor.unam.mx.
E N D
Minería de Datos como Herramienta para la Gestión Moderna DR. NICOLAS KEMPER VALVERDE Laboratorio de Sistemas Inteligentes CENTRO DE CIENCIAS APLICADAS Y DESARROLLO TECNOLOGICO UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO e-mail: kemper@servidor.unam.mx
Gestión Moderna: Contexto de los negocios • Globalización • Competencia • Ventajas competitivas • Tecnología • Cambio • Cultura organizacional • Distancias geográficas e Internet
Gestión Moderna: Contexto de los negocios • Economía del conocimiento • Administración de la relación con clientes • Campañas de publicidad • Mejoramiento de procesos • Diseño de producto • Investigación de mercados • Investigación de productos
Tipos de Empresas • Manufactureras Tarjetas de Crédito • Servicios Medios: TV, radio, prensa • Gobierno Telefonía fija y móvil • Bancarias Medicina • Bursátiles Farmacéuticas • Seguros Minoristas
Competencia y conocimiento • Competencia • Expertise • Conocimiento • Información • Datos • Símbolos
Ventaja competitiva • Aprender sobre los clientes • Utilizar lo aprendido sobre los clientes para aumentar la rentabilidad de la compañía y hacerles a los clientes la vida más fácil
Ventaja competitiva • Aprender sobre los competidores • Utilizar lo aprendido sobre los competidores para aumentar la rentabilidad de la compañía y hacerles a los clientes la vida más fácil
Ventaja competitiva • Aprender sobre los proveedores • Utilizar lo aprendido sobre los proveedores para aumentar la rentabilidad de la compañía y hacerles a los clientes la vida más fácil
Ventaja competitiva • Aprender sobre los procesos internos • Utilizar lo aprendido sobre los procesos internos para aumentar la rentabilidad de la compañía y hacerles a los clientes la vida más fácil
¿Qué hacer para adquirir ventajas competitivas? • Comprar los resultados: • Comprar el software y los modelos: • Contratar consultores • Desarrollar la expertisia internamente
Inteligencia de Negocios y MD Negocios Inteligencia de Negocios Administración del Conocimiento Minería de datos OLAP
Negocios:Establecimiento de metas concretas • Incremento de las ventas en un 30% en productos • de baja rotación en los próximos 10 meses • Reducir de 2 a 1% el número de clientes premier • que se pueden ir a la competencia en este trimestre • (retención de clientes) • Encontrar las características demográficas de los • clientes de un nuevo producto • (predicción de demanda )
Negocios:Establecimiento de metas concretas • Detección de fraudes en tarjetas de crédito • Estrategia de las promociones en una sala • de venta al por menor • Encontrarpatrones de enfermedades • Establecer estrategias para el ahorro de energía
Factores de Éxito Escoger bien el problema del negocio Tener los datos apropiados (cantidad y calidad) • Otros: • habilidades de modelación • herramienta interactiva • medios de visualización
Inteligencia de Negocios El flujo de información y conocimiento en una empresa es actualmente muy importante si se quiere mantener una posición fuerte en el mercado, sin embargo, la gran mayoría de las organizaciones tienen una abundancia de datos, pero muy poco conocimiento explicito. La Inteligencia de Negocios, es un concepto que trata de englobar todos los sistemas de información de una organización para obtener de ellos no solo información o conocimiento, si no una verdadera inteligencia que le confiera a la organización una ventaja competitiva por sobre sus competidores. El éxito de un negocio depende de que tan bien conozca a sus clientes, que tan bien entienda sus procesos internos y que tan efectivo sea para realizar todas sus operaciones
Inteligencia de Negocios • La Inteligencia de Negocios se compone de todas las actividades relacionadas a la organización y entrega de información así como el análisis del negocio. • Data Warehousing y Data Marts, • Sistemas de almacén de datos. • Aplicaciones analíticas. • Data Mining, herramientas para minería de datos. • OLAP, herramientas de procesamiento analítico de datos. • Herramientas de consulta y reporte de datos. • Herramientas de producción de reportes personalizados. • ELT, herramientas de extracción, traducción y carga de datos. • Herramientas de administración de sistemas. • Portales de información empresarial. • Sistemas de base de datos. • Sistemas de administración del conocimiento.
Administración del Conocimiento Manejo de la información para generar conocimiento, abarcando todos los recursos intelectuales de una organización en todos los niveles de responsabilidad. Así mismo, la Gestión de Conocimiento ayuda a obtener mayor comprensión y entendimiento del entorno y de los procesos desde la propia experiencia en las personas y organizaciones.
Administración del Conocimiento Ante este reto, se plantea la necesidad de alcanzar una forma de organización que rompa los límites tradicionales. Una organización con estructuras más flexibles que supere los cuatro tipos de fronteras más frecuentes: . verticales o jerárquicas, entre personas; . horizontales, entre funciones y disciplinas; . externas, con suministradores, clientes, empresas y otros stakeholders; . y geográficas, con naciones, culturas y mercados.
MINERIA DE DATOS La Minería de Datos se centra en la búsqueda de patrones interesantes y regularidades importantes en grandes bases de datos
Supuestos de la Minería de Datos • El pasado es un buen descriptor y predictor • del futuro • Hay datos disponibles • Los datos contienen lo que queremos describir o • predecir
Nuevas Necesidades del Análisis de Grandes Volúmenes de Datos • El aumento del volumen y variedad de información que se encuentran en bases de datos digitales ha crecido espectacularmente en la última década. • Gran parte de esta información es histórica, es decir, representa transacciones o situaciones que se han producido (bitácoras). • Aparte de su función de “memoria de la organización”, la información histórica es útil para predecir la información futura.
La mayoría de decisiones de empresas, organizaciones e instituciones se basan también en información de experiencias pasadas extraídas de fuentes muy diversas. Las decisiones colectivas suelen tener consecuencias mucho más graves, especialmente económicas, y, recientemente, se deben basar en volúmenes de datos que desbordan la capacidad humana. El área de la extracción automática de conocimiento de bases de datos ha adquirido recientemente una importancia científica y económica inusual
Tamaño de datos poco habitual para algoritmos clásicos: • número de registros (ejemplos) muy largo (108-1012 bytes). • datos altamente dimensionales (nº de columnas/atributos): 102-104. • El usuario final no es un experto en aprendizaje automático ni en estadística. • El usuario no puede perder más tiempo analizando los datos: • industria: ventajas competitivas, decisiones más efectivas. • ciencia: datos nunca analizados, bancos no cruzados, etc. • Los sistemas clásicos de estadística son difíciles de usar y no • escalan al número de datos típicos en bases de datos.
“Descubrimiento de Conocimiento a partir de Bases de Datos” (KDD, del inglés Knowledge Discovery from Databases). • “proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia comprensibles a partir de los datos”. Fayyad et al. 1996 • Diferencia clara con métodos estadísticos: la estadística se utiliza para validar o parametrizar un modelo sugerido y preexistente, no para generarlo. • Diferencia sutil “Análisis Inteligente de Datos” (IDA, del inglés Intelligent Data Analysis) que correspondía con el uso de técnicas de inteligencia artificial en el análisis de los datos.
KDD nace como interfaz y se nutre de diferentes disciplinas: • estadística. • sistemas de información / bases de datos. • aprendizaje automático / Inteligencia Artificial. • visualización de datos. • computación paralela / distribuida. • interfaces de lenguaje natural a bases de datos.
La minería o prospección de datos (DM) no es más que una fase del KDD: • Fase que integra los métodos de aprendizaje y métodos estadísticos para obtener hipótesis de patrones y modelos. • Al ser la fase de generación de hipótesis, vulgarmente se asimila al KDD con DM. • Además, las connotaciones de aventura y de dinero fácil del término “minería de datos” han hecho que éste se use como identificador del área.
La minería de datos no es una extensión de los sistemas de informes inteligentes o sistemas OLAP (On-Line Analytical Processing). La minería de datos aspira a más
Otras herramientas, p.ej. consultas sofisticadas o análisis estadístico, pueden responder a preguntas como: “¿Han subido las ventas del producto X en junio?” “¿Las ventas del producto X bajan cuando promocionamos el producto Y?” Pero sólo con técnicas de minería de datos podremos responder a preguntas del estilo: “¿Qué factores influyen en las ventas del producto X?” “¿Cuál será el producto más vendido si abrimos una sucursal en Chiclayo?
Visión con las herramientas tradicionales: • El analista empieza con una pregunta, una suposición o simplemente una intuición y explora los datos y construye un modelo. El analista propone el modelo. • Visión con la minería de datos: • Aunque el analista no pierde la posibilidad de proponer modelos, el sistema encuentra y sugiere modelos. • Ventajas: • Generar un modelo requiere menos esfuerzo manual y permite evaluar cantidades ingentes de datos. • Se pueden evaluar muchos modelos generados automáticamente, y esto aumenta la probabilidad de encontrar un buen modelo. • El analista necesita menos formación sobre construcción de modelos y menos experiencia.
El Proceso del KDD El descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases, KDD). Se refiere a un proceso que consta de una serie de fases, mientras que la minería de datos es sólo una de ellas.
El Proceso del KDD. FASES • Determinar las fuentes de información que pueden ser útiles y dónde conseguirlas. • 2. Diseñar el esquema de un almacén de datos (Data Warehouse) que consiga unificar de manera operativa toda la información recogida. • 3. Implantación del almacén de datos que permita la “navegación” y visualización previa de sus datos, para discernir qué aspectos puede interesar que sean estudiados. • 4. Selección, limpieza y transformación de los datos que se van a analizar. La selección incluye tanto una criba o fusión horizontal (filas) como vertical (atributos). • 5. Seleccionar y aplicar el método de minería de datos apropiado. • Evaluación, interpretación, transformación y • representación de los patrones extraídos. • 7. Difusión y uso del nuevo conocimiento.
Minería de Datos • La Minería de Datos es un conjunto de técnicas de análisis de datos que permiten: • Extraer patrones, tendencias y regularidades para describir y comprender mejor los datos. • Extraer patrones y tendencias para predecir comportamientos futuros. • Debido al gran volumen de datos este análisis ya no puede ser manual (ni incluso facilitado por herramientas de almacenes de datos y OLAP) sino que ha de ser (semi-)automático.
Minería de Datos La Minería de Datos se diferencia claramente del resto de herramientas en el sentido de que: • no transforma y facilita el acceso a la información para que el usuario la analice más fácilmente. la minería de datos “analiza” los datos
¿Es necesario tener almacenes de datos para realizar minería de datos? • Los almacenes de datos no son imprescindiblespara hacer extracción de conocimiento a partir de datos. • se puede hacer minería de datos sobre un simple fichero de datos. • Las ventajasde organizar un almacén de datos para realizar minería de datos se amortizan sobradamente a medio y largo plazo cuando: • tenemos grandes volúmenes de datos, o • éstos aumentan con el tiempo, o • provienen de fuentes heterogéneas o • se van a combinar de maneras arbitrarias y no predefinidas.
Tipología de Técnicas de Minería de Datos • Las técnicas de minería de datos crean modelos que son predictivos y/o descriptivos. • Un modelo predictivo responde preguntas sobre datos futuros. • ¿Cuáles serán las ventas el año próximo? • ¿Es ésta transacción fraudulenta? • ¿Qué tipo de seguro es más probable que contrate el cliente X? • ¿Cuántos clientes nuevos habrán en este mes?
Tipología de Técnicas de Minería de Datos • Un modelo descriptivo proporciona información sobre las relaciones entre los datos y sus características. Genera información del tipo: • Los clientes que compran pañales suelen comprar cerveza. • El tabaco y el alcohol son los factores más importantes en la enfermedad Y. • Los clientes sin televisión y con bicicleta tienen características muy diferenciadas del resto.
Tipos de conocimiento • Asociaciones: Una asociación entre dos atributos ocurre cuando la frecuencia de que se den dos valores determinados de cada uno conjuntamente es relativamente alta. • Ejemplo, en un supermercado se analiza si los pañales y los biberones de bebé se compran conjuntamente.
Tipos de conocimiento • Dependencias: Una dependencia funcional (aproximada o absoluta) es un patrón en el que se establece que uno o más atributos determinan el valor de otro. Ojo! Existen muchas dependencias nada interesantes (causalidades inversas). • Ejemplo: que un paciente haya sido ingresado en maternidad determina su sexo. La búsqueda de asociaciones y dependencias se conoce a veces como análisis exploratorio.
Tipos de conocimiento • Clasificación: Una clasificación se puede ver como el esclarecimiento de una dependencia, en la que el atributo dependiente puede tomar un valor entre varias clases, ya conocidas. • Ejemplo: se sabe (por un estudio de dependencias) que los atributos edad, número de miopías y astigmatismo han determinado los pacientes para los que su operación de cirugía ocular ha sido satisfactoria. • Podemos intentar determinar las reglas exactas que clasifican un caso como positivo o negativo a partir de esos atributos.
Tipos de conocimiento • Agrupamiento/Segmentación: El agrupamiento (o clustering) es la detección de grupos de individuos. Se diferencia de la clasificación en el que no se conocen ni las clases ni su número (aprendizaje no supervisado), con lo que el objetivo es determinar grupos o racimos (clusters) diferenciados del resto.
Tipos de conocimiento • Tendencias/Regresión: El objetivo es predecir los valores de una variable continua a partir de la evolución sobre otra variable continua, generalmente el tiempo. • Ejemplo, se intenta predecir el número de clientes o pacientes, los ingresos, llamadas, ganancias, costes, etc. a partir de los resultados de semanas, meses o años anteriores. Reglas Generales: patrones no se ajustan a los tipos anteriores. Recientemente los sistemas incorporan capacidad para establecer otros patrones más generales.
El Problema de la Extracción Automática de Conocimiento La minería de datos no es más que un caso especial de aprendizaje computacional inductivo. • ¿Qué es aprendizaje? • (visión genérica, Mitchell 1997) es mejorar el comportamiento a partir de la experiencia. Aprendizaje = Inteligencia. • (visión más estática) es la identificación depatrones, de regularidades, existentes en la evidencia. • (visión externa) es la predicción de observaciones futuras con plausibilidad. • (visión teórico-informacional, Solomonoff 1966) es eliminación de redundancia = compresión de información. Aprendizaje Inductivo: razonamiento hipotético de casos particulares a casos generales.
Data Mining Verification Driven DM Discovery Driven DM SQL Generator SQL Description Prediction Query Tools Statistical Regression Classification Visualization OLAP Clustering Decision Tree Association Rule Induction Sequential Association Neural Network Distillation Taxonomía Técnicas de Minería de Datos
Taxonomía de Técnicas de DM • DESCRIPTIVO: Análisis Exploratorio • Técnicas: • Estudios correlacionales • Asociaciones. • Dependencias. • Detección datos anómalos. • Análisis de dispersión.
Taxonomía de Técnicas de DM • DESCRIPTIVO: Segmentación (Aprendizaje no supervisado) • Técnicas de clustering: • k-means (competitive learning). • SOM: redes neuronales de Kohonen • EM (Estimated Means) (Dempster et al. 1977). • Cobweb (Fisher 1987). • AUTOCLASS • …
Taxonomía de Técnicas de DM • PREDICTIVO: Interpolación y Predicción Secuencial. • Generalmente las mismas técnicas: • Datos continuos (reales): • Regresión Lineal: • Regresión lineal global (clásica). • Regresión lineal ponderada localmente. • Regresión No Lineal: logarítmica, pick & mix, ... • Datos discretos: • No hay técnicas específicas: se suelen utilizar técnicas de algoritmos genéticos.
Taxonomía de Técnicas de DM • PREDICTIVO: Aprendizaje supervisado. • Dependiendo de si se estima una función o una correspondencia: • clasificación: se estima una función (las clases son disjuntas). • categorización: se estima una correspondencia (las clases pueden solapar).
Taxonomía de Técnicas de DM • Dependiendo del número y tipo de clases: • clase discreta: se conoce como “clasificación”. • Ejemplo: determinar el grupo sanguíneo a partir de los grupos sanguíneos de los padres. • si sólo tiene dos valores (V y F) se conoce como “concept learning”. Ejemplo: Determinar si un compuesto químico es cancerígeno. • clase continua o discreta ordenada: se conoce como “estimación” (o también “regresión”). • Ejemplo: estimar el número de hijos de una familia a partir de otros ejemplos de familias.
Taxonomía de Técnicas de DM • PREDICTIVO: Aprendizaje supervisado (Clasificación). • Técnicas: • k-NN (Nearest Neighbor). • k-means (competitive learning). • Perceptron Learning. • Multilayer ANN methods (e.g. backpropagation). • Radial Basis Functions.