740 likes | 953 Views
ART. Un método alternativo para la construcción de árboles de decisión. Fernando Berzal fberzal@decsai.ugr.es. Introducción. Aprendizaje en Inteligencia Artificial Programas/sistemas autónomos. Sistemas de ayuda a la decisión. Resultado del aprendizaje MODELO
E N D
ART Un método alternativo para la construcción de árboles de decisión Fernando Berzalfberzal@decsai.ugr.es
Introducción Aprendizaje en Inteligencia Artificial • Programas/sistemas autónomos. • Sistemas de ayuda a la decisión. Resultado del aprendizaje MODELO • Funciones: descripción y/o predicción. • Construcción: manual o automática. Introducción El modelo ART Hipótesis candidatas Atributos continuos Conclusiones
Introducción Objetivo Conseguir modelos de clasificación simples, inteligibles y robustos de una forma eficiente y escalable. Introducción El modelo ART Hipótesis candidatas Atributos continuos Conclusiones
Introducción Inducción de árboles de decisión + Extracción de reglas de asociación = ART [Association Rule Trees] Los desarrollos más provechosos han surgido siempre donde se encontraron dos formas de pensar diferentes. Heisenberg Introducción El modelo ART Hipótesis candidatas Atributos continuos Conclusiones
Introducción Árboles de decisión Representación del conocimiento: Árbol • Nodo internos Preguntas • Nodos hoja Decisiones • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones
Introducción > Árboles de decisión Construcción de árboles Algoritmos TDIDT [Top-Down Induction on Decision Trees] Estrategia “divide y vencerás” para la construcción recursiva del árbol de decisión de forma descendente. • Reglas de división • Reglas de parada • Reglas de poda • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones
Introducción > Árboles de decisión Reglas de división Criterios heurísticos para evaluar la bondad de una partición p.ej. Medidas de impureza Ganancia de información (ID3) • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones
Introducción > Árboles de decisión Reglas de división Criterio de proporción de ganancia (C4.5) Índice de diversidad de Gini (CART) • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones
Introducción > Árboles de decisión Reglas de división Otros criterios • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones
Introducción > Árboles de decisión Reglas de división Alternativas de formulación más simple • MAXDIF • Índice Generalizado de Gini • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones
Introducción > Árboles de decisión Reglas de división • Pese a su sencillez, MAXDIF y el Índice Generalizado de Gini obtienen resultados satisfactorios en la práctica. • Las distintas reglas de división propuestas mejoran marginalmente la precisión de los árboles de decisión y lo hacen sólo en situaciones concretas. Berzal, Cubero, Cuenca & Martín-Bautista “On the quest for easy-to-understand splitting rules” Data & Knowledge Engineering, 2002 • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones
Introducción Inducción de reglas IDEA Emplear reglas como bloque de construcción de clasificadores Una regla (del tipo IF-THEN) divide el dominio del problema en aquellos casos que satisfacen la regla y aquéllos que no • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones
Introducción > Inducción de reglas Ejemplos Metodología STAR Aprendizaje incremental de expresiones lógicas en forma normal disyuntiva para describir conceptos Listas de decisión Lista ordenada de reglas if ... then ... else if ... else ... Estrategia “separa y vencerás” • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones
Introducción Reglas de asociación Item • En bases de datos transaccionales: Artículo involucrado en una transacción. • En bases de datos relacionales: Par (atributo, valor) k-itemset Conjunto de k items Soporte de un itemset (support) soporte(I) = P(I) • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones
Introducción Reglas de asociación Regla de asociación X Y • Soporte de una regla de asociación soporte(XY) = soporte(XUY) = P(XUY) • Confianza de una regla de asociación confianza(XY) = soporte(XUY) / soporte(X) = P(Y|X) • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones
Introducción > Reglas de asociación Clasificadores asociativos • Modelos de clasificación parcial vg: Bayardo • Modelos de clasificación “asociativos” vg: CBA (Liu et al.) • Clasificadores bayesianos vg: LB (Meretakis et al.) • Patrones emergentes vg: CAEP (Dong et al.) • Árboles de reglas vg: Wang et al. • Reglas generales con excepciones vg: Liu et al. • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones
Índice general • Introducción • El modelo de clasificación ART • Construcción de hipótesis candidatas • Manejo de atributos continuos • Conclusiones
El modelo ART • Presentación • Construcción del clasificador ART • Ejemplo • Uso del clasificador ART • Propiedades del clasificador ART • Resultados experimentales Introducción El modelo ART Hipótesis candidatas Atributos continuos Conclusiones
El modelo ART Presentación IDEA Aprovechar la eficiencia de los algoritmos de extracción de reglas de asociación para construir un modelo de clasificación en forma de árbol de decisión. ART = Association Rule Tree CLAVE Reglas de asociación + Ramas “else” Híbrido árbol de decisión – lista de decisión • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones
El modelo ART Un caso real: SPLICE • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones
K=1 Extracción de reglas con K items en su antecedente Sí ¿existen reglas adecuadas? ¿ K <= MaxSize ? K=K+1 No Sí No Ramificación del árbol con las reglas seleccionadas y procesamiento recursivo de la rama “else” del árbol Creación de un nodo hoja etiquetado con la clase más frecuente El modelo ART Construcción • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones
K=1 Extracción Selección Seguir? K++ Ramificación Hoja El modelo ART Construcción • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones Extracción de reglas: Hipótesis candidatas • MinSuppUmbral de soporte mínimo • MinConfUmbral de confianza mínima • Umbral fijo • Selección automática
K=1 Extracción Selección Seguir? K++ Ramificación Hoja El modelo ART Construcción • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones Selección de reglas: • Reglas agrupadas por conjuntos de atributos. • Criterio de preferencia.
El modelo ART Ejemplo Conjunto de datos • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones
El modelo ART Ejemplo Nivel 1 K = 1 • NIVEL 1 - Extracción de reglas de asociación • Umbral de soporte mínimo = 20% • Selección automática del umbral de confianza • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones S1: if (Y=0) then C=0 with confidence 75% if (Y=1) then C=1 with confidence 75% S2: if (Z=0) then C=0 with confidence 75% if (Z=1) then C=1 with confidence 75%
El modelo ART Ejemplo Nivel 1 K = 2 • NIVEL 1 - Extracción de reglas de asociación • Umbral de soporte mínimo = 20% • Selección automática del umbral de confianza • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones S1: if (X=0 and Y=0) then C=0 (100%) if (X=0 and Y=1) then C=1 (100%) S2: if (X=1 and Z=0) then C=0 (100%) if (X=1 and Z=1) then C=1 (100%) S3: if (Y=0 and Z=0) then C=0 (100%) if (Y=1 and Z=1) then C=1 (100%)
El modelo ART Ejemplo Nivel 1 NIVEL 1 Selección del mejor conjunto de reglas p.ej. S1 • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones S1: if (X=0 and Y=0) then C=0 (100%) if (X=0 and Y=1) then C=1 (100%) X=0 and Y=0: C=0 (2) X=0 and Y=1: C=1 (2) else ...
El modelo ART Ejemplo Nivel 1 Nivel 2 • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones
El modelo ART Ejemplo Nivel 2 NIVEL 2 Extracción de reglas • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones S1: if (Z=0) then C=0 with confidence 100% if (Z=1) then C=1 with confidence 100% RESULTADO X=0 and Y=0: C=0 (2) X=0 and Y=1: C=1 (2) else Z=0: C=0 (2) Z=1: C=1 (2)
El modelo ART Ejemplo ART vs. TDIDT ART TDIDT • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones
El modelo ART Uso del clasificador • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones Berzal, Cubero, Sánchez & Serrano “ART: A hybrid classification model” Machine Learning
El modelo ART Uso del clasificador • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones
El modelo ART Uso del clasificador Conversión del árbol en reglas • Conjunto de reglas • Lista de decisión • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones
El modelo ART Propiedades • Estrategia de búsqueda Algoritmo greedy “separa y vencerás” • Robustez del clasificador Ruido y claves primarias • Complejidad del árbol • Profundidad • Factor de ramificación 1/MinSupp • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones
El modelo ART Resultados experimentales • Implementación • Java 2 SDK (Sun Microsystems) • AspectJ • Experimentación • 10-CV & Tests estadísticos • JDBC (InterBase 6) • Windows NT 4.0 Workstation • Conjuntos de datos UCI Machine Learning Repository http://www.ics.uci.edu/~mlearn/MLRepository.html • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones
El modelo ART > Resultados experimentales Precisión del clasificador • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones
El modelo ART > Resultados experimentales Complejidad • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones
El modelo ART > Resultados experimentales Tiempo de entrenamiento • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones
El modelo ART > Resultados experimentales Operaciones de E/S • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones
El modelo ART > Resultados experimentales Operaciones de E/S • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones
El modelo ART > Resultados experimentales Operaciones de E/S • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones
El modelo ART Comentarios finales Modelos de clasificación obtenidos • Precisión aceptable • Complejidad reducida • Interacciones entre atributos Método de construcción de clasificadores • Algoritmo eficiente • Método escalable • Selección automática de parámetros • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones
Índice general • Introducción • El modelo de clasificación ART • Construcción de hipótesis candidatas • Manejo de atributos continuos • Conclusiones
Hipótesis candidatas • Extracción de reglas de asociación • El algoritmo TBAR • TBAR en ART • Evaluación de las reglas obtenidas • Medidas disponibles • Resultados experimentales Introducción El modelo ART Hipótesis candidatas Atributos continuos Conclusiones
K=1 Extracción de reglas con K items en su antecedente Sí ¿existen reglas adecuadas? ¿ K <= MaxSize ? K=K+1 No Sí No Ramificación del árbol con las reglas seleccionadas y procesamiento recursivo de la rama “else” del árbol Creación de un nodo hoja etiquetado con la clase más frecuente Hipótesis candidatas Extracción de reglas • Introducción • El modelo ART • Hipótesis candidatas Extracción Evaluación • Atributos continuos • Conclusiones
Hipótesis candidatas > Extracción de reglas Reglas de asociación Extracción de reglas de asociación Umbrales mínimos • MinSupport • MinConfidence Estrategia “divide y vencerás” • Encontrar todos los itemsets frecuentes. • Generar las reglas de asociación que se derivan de los itemsets frecuentes. • Introducción • El modelo ART • Hipótesis candidatas Extracción Evaluación • Atributos continuos • Conclusiones
Hipótesis candidatas > Extracción de reglas Reglas de asociación Obtención de los itemsets frecuentes Lk Algoritmos de la familia Apriori • Generación de candidatos Ck a partir de Lk-1 x Lk-1 • Recorrido secuencial de la base de datos para obtener Lk a partir de Ck • Introducción • El modelo ART • Hipótesis candidatas Extracción Evaluación • Atributos continuos • Conclusiones
Hipótesis candidatas > Extracción de reglas TBAR Algoritmo de la familia Apriori IDEA Árbol de itemsets [Tree-Based Association Rule mining] Berzal, Cubero, Marín & Serrano “TBAR: An efficient method for association rule mining in relational databases” Data & Knowledge Engineering, 2001 • Introducción • El modelo ART • Hipótesis candidatas Extracción Evaluación • Atributos continuos • Conclusiones
Hipótesis candidatas > Extracción de reglas TBAR: Árbol de itemsets • Introducción • El modelo ART • Hipótesis candidatas Extracción Evaluación • Atributos continuos • Conclusiones
Hipótesis candidatas > Extracción de reglas TBAR vs. Apriori • Introducción • El modelo ART • Hipótesis candidatas Extracción Evaluación • Atributos continuos • Conclusiones vg: CENSUS