180 likes | 327 Views
DATA MINING. Bibliografía : Introduction to Data Mining and knowledge discovery- Two crows corporation A survey of Data Mining and knowledge discovery software tools- M. Goebel and Le Gruenwald An introduction to Data Warehousing - Vivek R. Gupta. Data Mining (DM). I- Introducción
E N D
DATA MINING • Bibliografía: Introduction to Data Mining and knowledge discovery- Two crows corporation A survey of Data Mining and knowledge discovery software tools- M. Goebel and Le Gruenwald An introduction to Data Warehousing -Vivek R. Gupta
Data Mining (DM) I- Introducción II- Data warehouse, data mart, data mining III- Knowledge discovery IV- Funcionalidades DM V- Metodología DM VI- Aplicaciones DM
I- Introducción • Rápido crecimiento de sistemas de base de datos • Complejidad/imposibilidad de analizar manualmente estos datos para la toma de decisiones • Necesidad de herramientas automáticas para análisis de información contenida en grandes bases de datos • DM & Knowledge discovery: son técnicas que permiten encontrar o deducir información estratégica contenida implícita o explícitamente en las BD en forma automática.
DM: hasta hace pocos años eran técnicas experimentales, con el desarrollo de internet se ha potenciado su uso y actualmente son técnicas utilizadas en el comercio electrónico. La novedad no radica en las técnicas de cálculo, si no en la aplicación interactiva de las mismas. • No sustituye el análisis humano sobre el valor de la información en la organización, solamente encuentra automáticamente patterns de comportamiento y relaciones entre los datos que luego es necesario testear en el mundo real. No elimina la necesidad de conocer un negocio, comprender sus datos y conocer los métodos de análisis de información
Un sistema de DM debe ser capaz de: • describir sus datos en forma resumida, dando sus principales propiedades estadísticas, • visualización gráfica de los datos • descubrir potenciales relaciones entre sus datos • Construir modelos predictivos, en base a los patterns encontrados • Verificar los modelos construidos • DM no descubre soluciones automaticamente sin guia. • Es necesario comprender las técnicas utilizadas para poder realizar un buen ajuste de parámetros para optimizar la performance y precisión de los algoritmos utilizados.
Data source II-Data warehouse, data mart, data mining Data warehouse Geographics data mart Analysis data mart Data mining Data mart
Frecuentementelos datos a ser tratados son extraídos de DW y se analizan desde un DM o desde data mart. • DM son una subconjunto lógico del DW (no físico) • No es imprescindible la existencia de DW para que exista un DM • Diferencias DM vs OLAP (On-line analytical processing): • OLAP: proceso deductivo que permite verificar si ciertas hipótesis que realiza el operador son ciertas o no • DM: en vez de verificar patterns de comportamiento, los descubre
III- Knowledge discovery (KDD) • DM: a veces se usa como sinónimo de KDD y para otros es solamente uno de los pasos involucrados en KDD. • KDD: conjunto de procesos no triviales en BD que posibilitan la identificación de nuevos patterns en los datos (válidos y potencialmente utilizables): • Adquirir y seleccionar conjunto de datos sobre los que se trabajará. • Validación de datos, integración, preprocesamiento y transformación de datos iniciales • Elección de algoritmos de DM • Interpretación y visualización de datos • Verificación y test de resultados, tunning de modelos • Uso y mantenimiento del ¨conocimiento¨ generado
Características de las BD para KDD: • Habilidad para acceder a variadas fuentes de datos • Accesos online/offline • Modelo de datos: modelos no estandares (no relacionales, ej. Orientado a objetos, multimedia,espaciales o temporales son comunes en KDD) • Tipos de atributos a manejar: a veces las herramientas utilizadas para KDD (DM) presentan restricciones en los tipos de atributos a manejar en la BD, por ejemplo, las redes neuronales usualmente requieren que todos los atributos sean numéricos. • Lenguaje de query: en KDD via interfaz gráfica (GUI) • El tamaño de la BD en un importante factor a la hora de elegir las herramientas de KDD, para poder obtener buenas performances
IV- Funcionalidades DM • Procesamiento de datos: dependiendo de los objetivos y requerimientos se deben poder seleccionar, filtrar, agregar, extraer muestras, validar y transformar datos • Predicción: dado un conjunto de datos y un modelo de predicción que trabaja sobre ellos, se trata de predecir el valor de un atributo específico que todavía no se tiene ( a veces la funcionalidad de predicción se utiliza para validar hipótesis que involucran otros datos) • Regresión: es el análisis de dependencia entre valores de atributos (modelos lineales). El atributo dependiente se puede predecir aplicando el modelo de regresión y el valor de los atributos independientes.
Series de tiempo: se utiliza para predicir valores de un atributo que presenta autocorrelación temporal (estacionalidades, efectos calendario,etc), en base a series de datos históricas del mismo atributo • Clasificación: dado un conjunto predeterminado de clases categóricas, determinar a qué clase pertenece un item. • Clustering: divide a los datos en diferentes grupos, el objetivo es encontrar una agrupación de datos de forma que los datos de un mismo grupo sean muy similares y muy diferentes entre grupos distintos. A diferencia de la clasificación, no se conocen los ¨clusters¨al comenzar ni tampoco los atributos por los cuales serán agrupados. Los clusters deben ser interpretados, por ejemplo: dado un conjunto de clientes, identificar los subgrupos de clientes con comportamiento de compra similar.
Asociación: dado un conjunto de datos, identificar las relaciones entre atributos, de forma de identificar, por ejemplo, que la ocurrencia de cierto pattern implica la ocurrencia de otro (Ej: considerando el conjunto de consumidores de leche, el 64% de ellos son también consumidores de pan) • Visualización del modelo: juegan un importante rol en KDD para la interpretación humana • Análisis exploratorio de datos : permite la exploración interactiva de datos, sin modelos preconcebidos.
V- Metodología DM DM no involucra una única técnica, se dispone de un conjunto de métodos que pueden ayudar a extraer mas información de los datos originales. La mayoría de los métodos utilizados en DM pueden ser clasificados en alguna de las siguientes categorías: Análisis estadístico: enfocado principalmente al testeo de hipótesis y ajuste de modelos. Generalmente necesitan de la intervención humana la generación de hipótesis y modelos.
Razonamiento por casos: es una técnica que trata de resolver problemas en base al uso de experiencia pasada y soluciones. Un caso es usualmente un problema específico que ha sido previamente encontrado y resuelto. Dado un nuevo problema, si hay resuelto uno ¨similar¨, la solución es aplicada al nuevo problema y se guarda el caso en la BD. Redes neuronales Árboles de decisión: cada nodo no terminal representa un test o decisión sobre los datos y dependiendo del resultado se elige la rama por la cual continuar. Pueden ser interpretados como una forma especial de conjuntos de reglas, caracterizados por su organización jerárquica.
Reglas de inducción: son de la forma x1^..^xn [c,s] Los atributos x1..xn predicen con confianza C y significancia S Bayesian belief networks (BBN): son representaciones gráficas de distribuciones de probabilidad. BBN: grafos acíclicos, dirigidos/: • Nodos: representan atributos variables y • Arcos: representan dependencias probabilísticas entre los atributos. Asociado a cada nodo, hay una probabilidad condicional que describe la relación de un nodo con sus vecinos.
Algoritmos genéticos: son utilizados para formular hipótesis sobre dependencias entre variables (reglas de asociación) Fuzzy sets: es una metodología para representar y procesar incertidumbre en los datos de (ruido, imprecisión, inconsistencias, etc) y maneja un lenguaje adecuado para estos datos. Se utilizan cuando no hay datos de entrada precisos (inviable o muy caro) para obtener modelos robustos y tolerantes a los ruidos en el input.
Rough sets: como los fuzzy, sirven para representar datos con errores. Se definen a través de una cota inferior y una cota superior del conjunto/ si un elemento no pertenece al conjunto cota superior, entonces seguramente no pertenece al conjunto. Son un tipo especial de fuzzy, con una función de pertenencia al conjunto trivaluada (si, no, tal vez) y se utilizan a veces para producir soluciones iniciales, comunmente aparecen combinados con otras metodologías: reglas de inducción, clasificación, etc.
VI- Aplicaciones DM • Determinar características de clientes (¨profiling¨) • Detección de fraudes (tarjetas de crédito, telecomunicaciones) • Predicciones: demanda de productos, efectividad de medicamentos, • Elaboración de estrategias de marketing. • Comercio electrónico: sistemas de recomendación, optimización de inventarios