1.03k likes | 1.23k Views
Data Mining. Hugo M. Castro. Data Mining. Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de los datos y descubrir relaciones entre variables. Data Mining. Trabajo conjunto Negocios Especialista Problema puntual
E N D
Data Mining Hugo M. Castro
Data Mining • Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de los datos y descubrir relaciones entre variables
Data Mining • Trabajo conjunto • Negocios • Especialista • Problema puntual • Datos al nivel más detallado • No un solo enfoque • No una sola solución
Data Mining Dos tipos de modelos • Predictivos • Clasificación • Regresión • Descriptivos • Asociación • Segmentación
Data Mining Modelos Predictivos • Clasificación • Predice un valor discreto • Sí / No • Alto / Mediano / Bajo • Regresión • Predice un valor continuo • Importes • Cantidades
Data Mining Modelos Descriptivos • Asociación • Análisis de Canasta • Soporte • Confianza • Segmentación
Modelos de Data Mining • Entrenamiento • Supervisado • No supervisado • Prueba • Evaluación
Modelos de Data Mining PRUEBA De los casos históricos disponibles se destina una cierta cantidad para entrenar el modelo y se reserva una porción de ellos para probar el modelo Se presentan los casos como si fueran nuevos y se coteja la respuesta del modelo con los valores reales
Modelos de Data Mining Matriz de confusión Cantidad de casos Predicción No Sí Sí 455 29 Real No 32 384
Matriz de confusión Sobre un total de 900 casos el modelo predijo 455 como sí y en realidad era sí 384 como no y en realidad era no 839 predicciones correctas (93,2%) El resto (6,8%) los predijo en forma incorrecta PRECISION
Modelos predictivos • Los atributos (variables) son columnas de la tabla • Variables de entrada (atributos descriptivos) • Variable objetivo (atributo objetivo) • El entrenamiento tiene por objeto descubrir las relaciones entre las variables de entrada y la variable objetivo • En producción usa ese conocimiento para predecir el valor de la variable objetivo
Modelos predictivos Pautas para la evaluación • Precisión • No hay un algoritmo que sea siempre más preciso que otro u otros • Interpretabilidad • Facilidad para interpretar los resultados • Velocidad • Entrenamiento • Producción
Modelos de clasificación • Predicen el valor de un atributo con una cantidad finita de valores posibles • Bayes • Redes Neuronales • K-vecinos (CBR) • Árboles de decisión
Bayes Construcción y entrenamiento • De los 10 casos hay 6 con calificación B y 4 con calificación M. • Sin saber nada más, la probabilidad a priori de que la calificación sea B es 0,6 y de que sea M es 0,4 • La información sobre Nivel de Ingresos, Nivel de Deudas y si es casado o no apunta a calcular la probabilidad a posteriori de que sea calificado B o M.
Bayes • Nivel de Ingresos • De los que tienen Nivel de Ingresos A hay 3 B y 0 M. • De los que tienen Nivel de Ingresos M hay 2 B y 1 M. • De los que tienen Nivel de Ingresos B hay 1 B y 3 M.
Bayes • De los 6 B hay 3 que tienen Nivel del Ingresos A. Luego P(B/Ingresos A) = 3/6 = 0.5 • De los 6 B hay 2 que tienen Nivel del Ingresos M. Luego P(B/Ingresos M) = 2/6 = 0.33 • De los 6 B hay 1 que tiene Nivel del Ingresos B. Luego P(B/Ingresos B) = 1/6 = 0.17
Bayes • De la misma manera • P(M/Ingresos A) = 0 • P(M/Ingresos M) = 0.25 • P(M/Ingresos B) = 0.75
Bayes Nivel de Deudas • De los que tienen Nivel de Deudas A hay 1 B y 3 M. • De los que tienen Nivel de Deudas M hay 3 B y 0 M. • De los que tienen Nivel de Deudas B hay 2 B y 1 M.
Bayes Calculamos las probabilidades de la misma forma que en el caso anterior • P(B/Deudas A) = 0.17 • P(B/Deudas M) = 0.50 • P(B/Deudas B) = 0.33 • P(M/Deudas A) = 0.75 • P(M/Deudas M) = 0 • P(M/Deudas B) = 0.25
Bayes Casado • De los que tienen Casado sí hay 4 B y 1 M • De los que tienen Casado no hay 2 B y 3 M Con lo que • P(B/Casado sí) = 0.67 • P(B/Casado no) = 0.33 • P(M(Casado sí) = 0.25 • P(M/Casado no) = 0.75
Bayes PRODUCCION Tomás tiene • Nivel de Ingresos A • Nivel de Deudas B • Casado no
Bayes La probabilidad a posteriori de que Tomás tenga una calificación B sale del producto de • P(B) = 0.6 • P(B/Ingresos A) = 0.5 • P(B/Deudas B) = 0.33 • P(B/Casado no) = 0.33 • Esta probabilidad resulta 0.6 x 0.5 x 0.33 x 0.33 = 0.03267
Bayes • La probabilidad a posteriori de que Tomás tenga una calificación M sale del producto de • P(M) = 0.4 • P(M/Ingresos A) = 0 • P(M/Deudas B) = 0.25 • P(M/Casado no) = 0.75 • Esta probabilidad resulta 0.4 x 0 x 0.25 x 0.75 = 0
Bayes Como la probabilidad de tener calificación B es mayor que la de tener M, resulta que El modelo predice queTomás va a tener calificación B
Bayes Por su parte Lucía tiene • Nivel de Ingresos M • Nivel de Deudas B • Casado sí
Bayes En base a estos datos, Lucía tiene • probabilidad de calificación B igual a 0,6 x 0,33 x 0,33 x 0,67 = 0,04378 • probabilidad de calificación M igual a 0,4 x 0,25 x 0,25 x 0,25 = 0,00625
Bayes Como la probabilidad de tener calificación B es mayor que la de tener M, resulta que El modelo predice queLucíava a tener calificación B
Bayes A su vez Horacio tiene • Nivel de Ingresos B • Nivel de Deudas A • Casado sí
Bayes En base a estos datos, Horacio tiene • probabilidad de calificación B igual a 0,6 x 0,17 x 0,17 x 0,67 = 0,0116 • probabilidad de calificación M igual a 0,4 x 0,75 x 0,75 x 0,25 = 0,0562
Bayes Como la probabilidad de tener calificación M es mayor que la de tener B, resulta que El modelo predice que Horaciova a tener calificación M
Redes Neuronales COMPONENTES CONEXION NODO W FACTOR DE PONDERACION NODO
Redes Neuronales X1 NODO w1 ENTRADAS x2 w2 v Puede ser más de una, pero todas tienen el mismo valor w3 SALIDA x3
Redes neuronales • Estructura • Nodos • Conexiones • Factores de ponderación
Perceptrón de tres capas • Aprendizaje supervisado • Se presentan los casos de entrenamiento con sus respuestas • Errores • Cambios en los factores de ponderación • Prueba
Perceptrón de tres capas wji wkj Datos de entrada Respuesta deseada Respuesta Corrección de factores de ponderación Entrada Salida Intermedia
K-vecinos • También llamada CBR • Razonamiento basado en casos • Resuelve un problema tomando en cuenta casos parecidos • Función de vecindad o de distancia • Función de combinación
K-vecinos • El modelo de los K-vecinos no tiene fase de entrenamiento • Entra directamente en la fase de producción • K indica la cantidad de casos parecidos (vecinos) que se van a considerar • En este caso vamos a tomar K = 3
K-vecinos Función de vecindad • para nivel de ingresos y nivel de deudas • 0 si son iguales • 1 si uno tiene A y el otro M • 1 si uno tiene M y el otro B • 2 si uno tiene A y el otro B • para casado • 0 si son iguales • 1 si son distintos
K-vecinos Función de vecindad • Para cada caso a resolver se confronta con todos los casos testigo • Se suman los 3 valores • Se eligen los 3 (K) casos testigo que tienen el menor valor de esta función
K-Vecinos • Tomás tiene como vecinos a • Andrea (1), Débora (1), Paola (1) • Lucía tiene a • Débora (1), Paola (1), Román (1) • Y Horacio a • Sergio (1), Vanesa (1), Mario (0)
K-Vecinos Función de combinación • Vamos a tomar como valor de la predicción sobre la calificación aquella que corresponda a la mayoría de los vecinos. • Ejemplos • Vecinos: B B M - Predicción: B • Vecinos: M B M - Predicción: M
K-Vecinos PREDICCIONES • Andrea B, Débora B, Paola B • Predicción para Tomás: B • Débora B, Paola B, Román B • Predicción para Lucía: B • Sergio M, Vanesa B, Mario M • Predicción para Horacio: M
Árboles de decisión • ID3 • Elección de los mejores separadores • Entropía • Mide la incertidumbre sobre un suceso • Entropía (S) = Σi –pi log2 pi
Arbol de decisión Niv. ingresos A B M B Niv. deuda Casado A B M No Sí M B M M Niv. deuda B M A B M B
Arbol de decisión Niv. ingresos A B M B Niv. deuda Casado A B M No Sí M B M M Niv. deuda Tomás B Lucía B Horacio M B M A B M B
Modelos de regresión • El más difundido es una versión del modelo de los k-vecinos • Función de vecindad • Equilibrio • Función de combinación • Mayor peso de los más cercanos
Los compradores Función de vecindad • Debe ser un coeficiente que sea mayor cuando el caso es más cercano • Deben influir en él en forma pareja los valores de las variables de entrada (sexo y edad) • Tomamos como vecinos a los cinco casos