470 likes | 763 Views
Análisis de asociación. Parte teórica Tema 8. Análisis de asociación. Encuentra reglas de asociación las cuales especifican cuáles eventos pueden ocurrir simultáneamente Análisis de canasta de supermercado Objetos que se consumen simultáneamente Análisis de patrones secuenciales
E N D
Análisis de asociación Parte teórica Tema 8 Minería de datos Dr. Francisco J. Mata
Análisis de asociación • Encuentra reglas de asociación las cuales especifican cuáles eventos pueden ocurrir simultáneamente • Análisis de canasta de supermercado • Objetos que se consumen simultáneamente • Análisis de patrones secuenciales • Orden en que las cosas ocurren Minería de datos Dr. Francisco J. Mata
Análisis de canasta de supermercado Minería de datos Dr. Francisco J. Mata
Aplicaciones de análisis de canasta de supermercado • Elementos comprados simultáneamente • Compras hechas con una misma tarjeta de crédito (ej., hotel y carro de alquiler) • Servicios optativos u opcionales • Combinaciones inusuales en reclamos de seguros (pueden ser un indicador de fraude) • Combinaciones de tratamiento e historia de pacientes (pueden indicar complicaciones) Minería de datos Dr. Francisco J. Mata
Asociación • Útil para • Minería indirecta • Utilizada como punto de arranque • Puede servir para plantear hipótesis de asociaciones en minería directa • Diferencia entre almacenes nuevos y viejos Minería de datos Dr. Francisco J. Mata
Tipos de reglas • Útiles • Los días jueves los compradores de supermercados frecuentemente compran pañales desechables y cerveza • Triviales • Consumidores que compran contratos de mantenimiento son más propensos a comprar electrodomésticos grandes • Inexplicables • Al abrir un almacén de ferretería nuevo, uno de los productos más vendidos son sillas de inodoro Minería de datos Dr. Francisco J. Mata
Datos para el análisis de canasta de supermercado Minería de datos Dr. Francisco J. Mata
Preparación de datos para análisis de canasta de supermercado Minería de datos Dr. Francisco J. Mata
Análisis de canasta de supermercado Transacciones Tabla de co-ocurrencia de ítems Minería de datos Dr. Francisco J. Mata
Análisis de canasta de supermercado Extensión de una tabla de co-ocurrencia a 3 dimensiones Minería de datos Dr. Francisco J. Mata
Reglas de asociación • Patrones que se pueden observar • Jugo y soda al igual que jugo y detergente son más propensos • a comprarse juntos que cualquiera otros dos productos • 2. Detergente nunca se compra con limpiador de ventanas o • leche • 3. Leche nunca se compra con soda o detergente Minería de datos Dr. Francisco J. Mata
¿Qué tan buena es una regla de asociación? • Confianza • Número de transacciones con todos los ítemes mencionados en la regla dividido por el número de transacciones con los ítemes que aparecen en la parte si de la regla • Proporción de transacciones en las cuales la regla es verdadera • p(condición y resultado)/p(condición) Minería de datos Dr. Francisco J. Mata
¿Qué tan buena es una regla de asociación? • ¿Cuál es la confianza para la regla si un cliente compra soda entonces también compra jugo?: • 2 de 3 compras de soda también incluyen jugo, por lo tanto 67% • p(soda y jugo)/p(soda)= 0.4/0.6=67% • ¿Cuál es la confianza de la regla reversa: si un cliente compra jugo entonces también compra soda? • 2 de 4 compras de jugo también incluyen soda, por lo tanto 50% • p(jugo y soda)/p(jugo)=0.4/0.8=50% Transacciones Minería de datos Dr. Francisco J. Mata
¿Qué tan buena es una regla de asociación? • Apoyo • Número de transacciones que contienen todos los ítemes que aparecen en la regla dividido entre el número total de transacciones • Porcentaje de transacciones que contienen todos los ítemes que aparecen en la regla • p(condición y resultado) Minería de datos Dr. Francisco J. Mata
¿Qué tan buena es una regla de asociación? • ¿Cuál es la apoyo para la regla si un cliente compra soda entonces también compra jugo?: • 2 de 5 compras contienen de soda y jugo, por lo tanto 40% • p(soda y jugo)=2/5=40% • ¿Cuál es el apoyo de la regla reversa: si un cliente compra jugo entonces también compra soda? • La misma de la regla anterior, 40% • p(soda y jugo)=p(jugo y soda) Transacciones Minería de datos Dr. Francisco J. Mata
¿Qué tan buena es una regla de asociación? • “Lift” o mejoría • Mide cuánto mejor es una regla para predicción que una estimación hecha tomando un cliente al azar • Número de transacciones que soportan la regla dividido entre número de transacciones esperado asumiendo que no existe relación entre los ítemes • p(condición y resultado)/(p(condición) * p(resultado)) • Cuando el lift < 1 la regla es peor que una estimación educada y la negación de la regla produce una mejor regla que una estimación al azar Minería de datos Dr. Francisco J. Mata
¿Qué tan buena es una regla de asociación? • ¿Cuál es el “lift” para la regla si un cliente compra soda entonces también compra jugo?: • p(soda y jugo)/(p(soda) * p(jugo))=0.4/(0.6 * 0.8)=0.83 • ¿Cuál es el “lift” de la regla negada: si un cliente compra soda entonces no compra jugo? • p(soda y no jugo)/(p(soda) * p(no jugo))= 0.2/(0.6 * 0.2)=1.66 Transacciones Minería de datos Dr. Francisco J. Mata
Ejercicio Calcular apoyo, confianza y “lift” para reglas si A y B entonces C, si A y C entonces B, si B y C entonces A, y si A entonces B Minería de datos Dr. Francisco J. Mata
Respuesta Minería de datos Dr. Francisco J. Mata
Pasos básicos para obtener reglas de asociacíón Minería de datos Dr. Francisco J. Mata
Seleccionar conjunto adecuado de ítemes • Debe considerarse necesidades del negocio • Nivel de detalle debe ser adecuado Minería de datos Dr. Francisco J. Mata
Seleccionar conjunto adecuado de ítemes Minería de datos Dr. Francisco J. Mata
Seleccionar conjunto adecuado de ítemes Minería de datos Dr. Francisco J. Mata
Seleccionar conjunto adecuado de ítemes • Taxonomías de productos son de utilidad • Análisis de asociación produce mejores resultados cuando los productos aparecen aproximadamente en el mismo número de transacciones (reglas no están dominadas por los productos más comunes) • Productos raros pueden ser subidos en la taxonomía para que aparezcan más frecuentemente Minería de datos Dr. Francisco J. Mata
Ítemes virtuales • Ítemes virtuales no aparecen en la taxonomía • Pueden ser agregados para identificar • Localización • Tiempo (día, mes) • Almacenes nuevos vrs. viejos • Marcas Minería de datos Dr. Francisco J. Mata
Ítemes virtuales • Deben ser escogidos cuidadosamente para evitar reglas redundantes Minería de datos Dr. Francisco J. Mata
Ítemes virtuales • Si reglas redundates aparecen entonces utilice elementos generalizados Minería de datos Dr. Francisco J. Mata
Cálculo de probabilidades Minería de datos Dr. Francisco J. Mata
Determinar reglas Minería de datos Dr. Francisco J. Mata
Determinar reglas • Entre más “accionable” sea la regla mejor • En la práctica las reglas más accionables tienen un ítem como resultado • Mejor: Si pañales desechables y jueves entonces cerveza • Peor: Si jueves entonces pañales desechables y cerveza Minería de datos Dr. Francisco J. Mata
Determinar reglas • Cuando el “lift” para una regla es menor que 1, negar el resultado produce una mejor regla Minería de datos Dr. Francisco J. Mata
El problema de reglas con muchos ítemes • Generar reglas de asociación requiere múltiples pasos: • Generar matriz de co-ocurrencias para un ítem • Generar matriz de co-ocurrencia para dos ítemes (sirve para generar reglas con dos productos) • Generar matriz de co-ocurrencia para tres ítemes (sirve para generar reglas con tres productos) • Se puede continuar hasta el número total de ítemes Cada paso incrementa exponencialmente el tiempo Minería de datos Dr. Francisco J. Mata
El problema de muchos ítemes Número de combinaciones para 100 ítemes Fórmula binomial ¡Un supermercado puede tener entre 10,000 y 30,000 productos! Minería de datos Dr. Francisco J. Mata
El problema de muchas transacciones • El número de transacciones por lo general es muy grande • En el transcurso de un año una cadena de supermecados de tamaño mediano puede generar millones de transacciones Minería de datos Dr. Francisco J. Mata
Superación de limitaciones prácticas • Soluciónes: • Utilizar “prunning” considerando un apoyo mínimo (mínimo número de transacciones conteniendo la combinación) • Si existe 1 millón de transacciones y se utiliza unapoyo mínimo del 1% entonces sólo las reglas apoyadas por 10,000 transacciones serán consideradas • Apoyo mínimo tiene un efecto de cascada • Si utilizamos el apoyo mínimo de 1% y la regla es si A, B y C entonces D para que la combinación A, B, C y D aparezca por lo menos un 1% todos los elementos en la combinación deben aparecer por lo menos 1% y todas las combinaciones de dos y tres elementos deben aparecer por lo menos un 1% Minería de datos Dr. Francisco J. Mata
Superación de limitaciones prácticas • Solución: • Limitar el número de ítemes en una regla • Uso de taxonomías para reducir el número de ítemes Minería de datos Dr. Francisco J. Mata
Algoritmo apriori • Mejora el rendimiento utilizando conocimiento a priori • Utiliza “prunning” • Todos los subconjuntos de un conjunto frecuente de elementos deben ser frecuentes • apoyo (I) < min_apoyo entonces apoyo (I unión {a}) < min_apoyo para todo elemento a Minería de datos Dr. Francisco J. Mata
Algoritmo apriori • Pasos: • Sea L-1 el conjunto de k-1 elementos que satisfacen el criterio de apoyo mínimo • Join para k elementos: añadir un ítem diferente a cada uno de los elementos en L-1 • Prune para k: eliminar todos los conjuntos de L con k ítemes que no satisfacen el criterio de apoyo mínimo Minería de datos Dr. Francisco J. Mata
Ejemplo algoritmo apriori Apoyo 2 o 2/9=22% Minería de datos Dr. Francisco J. Mata
Ejemplo algoritmo apriori Apoyo 2 o 2/9=22% Minería de datos Dr. Francisco J. Mata
Fortalezas del análisis de canasta de supermercado • Resultados se pueden entender claramente • De gran utilidad para minería indirecta • Computacionalmente simple aunque con crecimiento exponencial en tiempo Minería de datos Dr. Francisco J. Mata
Debilidades del análisis de canasta de supermecado • Complejidad crece exponencialmente conforme crece el tamaño del problema • Difícil determinar los elementos apropiados • Elementos raros pueden producir problemas Minería de datos Dr. Francisco J. Mata
Cuando aplicar análisis de asociación • Problemas de minería indirecta que consisten en elementos bien definidos los cuales se agrupan de maneras interesantes • Estos problemas ocurren usualmente en el comercio, donde transacciones de punto de venta son las bases del análisis Minería de datos Dr. Francisco J. Mata
Cuando aplicar análisis de asociación • Se puede aplicar también en problemas de minería directa • Comparar ventas en almacenes nuevos y viejos • El algoritmo se puede modificar para considerar reglas que contienen un producto en particular (comprender sus patrones de venta) Minería de datos Dr. Francisco J. Mata