1 / 73

ART

ART. Un método alternativo para la construcción de árboles de decisión. Fernando Berzal fberzal@decsai.ugr.es. Introducción. Aprendizaje en Inteligencia Artificial Programas/sistemas autónomos. Sistemas de ayuda a la decisión. Resultado del aprendizaje MODELO

gustav
Download Presentation

ART

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ART Un método alternativo para la construcción de árboles de decisión Fernando Berzalfberzal@decsai.ugr.es

  2. Introducción Aprendizaje en Inteligencia Artificial • Programas/sistemas autónomos. • Sistemas de ayuda a la decisión. Resultado del aprendizaje MODELO • Funciones: descripción y/o predicción. • Construcción: manual o automática. Introducción El modelo ART Hipótesis candidatas Atributos continuos Conclusiones

  3. Introducción Objetivo Conseguir modelos de clasificación simples, inteligibles y robustos de una forma eficiente y escalable. Introducción El modelo ART Hipótesis candidatas Atributos continuos Conclusiones

  4. Introducción Inducción de árboles de decisión + Extracción de reglas de asociación = ART [Association Rule Trees] Los desarrollos más provechosos han surgido siempre donde se encontraron dos formas de pensar diferentes. Heisenberg Introducción El modelo ART Hipótesis candidatas Atributos continuos Conclusiones

  5. Introducción Árboles de decisión Representación del conocimiento: Árbol • Nodo internos  Preguntas • Nodos hoja  Decisiones • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones

  6. Introducción > Árboles de decisión Construcción de árboles Algoritmos TDIDT [Top-Down Induction on Decision Trees] Estrategia “divide y vencerás” para la construcción recursiva del árbol de decisión de forma descendente. • Reglas de división • Reglas de parada • Reglas de poda • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones

  7. Introducción > Árboles de decisión Reglas de división Criterios heurísticos para evaluar la bondad de una partición p.ej. Medidas de impureza Ganancia de información (ID3) • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones

  8. Introducción > Árboles de decisión Reglas de división Criterio de proporción de ganancia (C4.5) Índice de diversidad de Gini (CART) • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones

  9. Introducción > Árboles de decisión Reglas de división Otros criterios • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones

  10. Introducción > Árboles de decisión Reglas de división Alternativas de formulación más simple • MAXDIF • Índice Generalizado de Gini • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones

  11. Introducción > Árboles de decisión Reglas de división • Pese a su sencillez, MAXDIF y el Índice Generalizado de Gini obtienen resultados satisfactorios en la práctica. • Las distintas reglas de división propuestas mejoran marginalmente la precisión de los árboles de decisión y lo hacen sólo en situaciones concretas. Berzal, Cubero, Cuenca & Martín-Bautista “On the quest for easy-to-understand splitting rules” Data & Knowledge Engineering, 2002 • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones

  12. Introducción Inducción de reglas IDEA Emplear reglas como bloque de construcción de clasificadores Una regla (del tipo IF-THEN) divide el dominio del problema en aquellos casos que satisfacen la regla y aquéllos que no • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones

  13. Introducción > Inducción de reglas Ejemplos Metodología STAR Aprendizaje incremental de expresiones lógicas en forma normal disyuntiva para describir conceptos Listas de decisión Lista ordenada de reglas if ... then ... else if ... else ... Estrategia “separa y vencerás” • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones

  14. Introducción Reglas de asociación Item • En bases de datos transaccionales: Artículo involucrado en una transacción. • En bases de datos relacionales: Par (atributo, valor) k-itemset Conjunto de k items Soporte de un itemset (support) soporte(I) = P(I) • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones

  15. Introducción Reglas de asociación Regla de asociación X  Y • Soporte de una regla de asociación soporte(XY) = soporte(XUY) = P(XUY) • Confianza de una regla de asociación confianza(XY) = soporte(XUY) / soporte(X) = P(Y|X)   • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones

  16. Introducción > Reglas de asociación Clasificadores asociativos • Modelos de clasificación parcial vg: Bayardo • Modelos de clasificación “asociativos” vg: CBA (Liu et al.) • Clasificadores bayesianos vg: LB (Meretakis et al.) • Patrones emergentes vg: CAEP (Dong et al.) • Árboles de reglas vg: Wang et al. • Reglas generales con excepciones vg: Liu et al. • Introducción Árboles • Reglas • Asociación • El modelo ART • Hipótesis candidatas • Atributos continuos • Conclusiones

  17. Índice general • Introducción • El modelo de clasificación ART • Construcción de hipótesis candidatas • Manejo de atributos continuos • Conclusiones

  18. El modelo ART • Presentación • Construcción del clasificador ART • Ejemplo • Uso del clasificador ART • Propiedades del clasificador ART • Resultados experimentales Introducción El modelo ART Hipótesis candidatas Atributos continuos Conclusiones

  19. El modelo ART Presentación IDEA Aprovechar la eficiencia de los algoritmos de extracción de reglas de asociación para construir un modelo de clasificación en forma de árbol de decisión. ART = Association Rule Tree CLAVE Reglas de asociación + Ramas “else” Híbrido árbol de decisión – lista de decisión • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones

  20. El modelo ART Un caso real: SPLICE • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones

  21. K=1 Extracción de reglas con K items en su antecedente Sí ¿existen reglas adecuadas? ¿ K <= MaxSize ? K=K+1 No Sí No Ramificación del árbol con las reglas seleccionadas y procesamiento recursivo de la rama “else” del árbol Creación de un nodo hoja etiquetado con la clase más frecuente El modelo ART Construcción • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones

  22. K=1 Extracción Selección Seguir? K++ Ramificación Hoja El modelo ART Construcción • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones Extracción de reglas: Hipótesis candidatas • MinSuppUmbral de soporte mínimo • MinConfUmbral de confianza mínima • Umbral fijo • Selección automática

  23. K=1 Extracción Selección Seguir? K++ Ramificación Hoja El modelo ART Construcción • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones Selección de reglas: • Reglas agrupadas por conjuntos de atributos. • Criterio de preferencia.

  24. El modelo ART Ejemplo Conjunto de datos • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones

  25. El modelo ART Ejemplo Nivel 1 K = 1 • NIVEL 1 - Extracción de reglas de asociación • Umbral de soporte mínimo = 20% • Selección automática del umbral de confianza • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones S1: if (Y=0) then C=0 with confidence 75% if (Y=1) then C=1 with confidence 75% S2: if (Z=0) then C=0 with confidence 75% if (Z=1) then C=1 with confidence 75%

  26. El modelo ART Ejemplo Nivel 1 K = 2 • NIVEL 1 - Extracción de reglas de asociación • Umbral de soporte mínimo = 20% • Selección automática del umbral de confianza • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones S1: if (X=0 and Y=0) then C=0 (100%) if (X=0 and Y=1) then C=1 (100%) S2: if (X=1 and Z=0) then C=0 (100%) if (X=1 and Z=1) then C=1 (100%) S3: if (Y=0 and Z=0) then C=0 (100%) if (Y=1 and Z=1) then C=1 (100%)

  27. El modelo ART Ejemplo Nivel 1 NIVEL 1 Selección del mejor conjunto de reglas p.ej. S1 • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones S1: if (X=0 and Y=0) then C=0 (100%) if (X=0 and Y=1) then C=1 (100%) X=0 and Y=0: C=0 (2) X=0 and Y=1: C=1 (2) else ...

  28. El modelo ART Ejemplo Nivel 1  Nivel 2 • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones

  29. El modelo ART Ejemplo Nivel 2 NIVEL 2 Extracción de reglas • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones S1: if (Z=0) then C=0 with confidence 100% if (Z=1) then C=1 with confidence 100% RESULTADO X=0 and Y=0: C=0 (2) X=0 and Y=1: C=1 (2) else Z=0: C=0 (2) Z=1: C=1 (2)

  30. El modelo ART Ejemplo ART vs. TDIDT ART TDIDT • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones

  31. El modelo ART Uso del clasificador • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones Berzal, Cubero, Sánchez & Serrano “ART: A hybrid classification model” Machine Learning

  32. El modelo ART Uso del clasificador • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones

  33. El modelo ART Uso del clasificador Conversión del árbol en reglas • Conjunto de reglas • Lista de decisión • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones

  34. El modelo ART Propiedades • Estrategia de búsqueda Algoritmo greedy “separa y vencerás” • Robustez del clasificador Ruido y claves primarias • Complejidad del árbol • Profundidad • Factor de ramificación 1/MinSupp • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones

  35. El modelo ART Resultados experimentales • Implementación • Java 2 SDK (Sun Microsystems) • AspectJ • Experimentación • 10-CV & Tests estadísticos • JDBC (InterBase 6) • Windows NT 4.0 Workstation • Conjuntos de datos UCI Machine Learning Repository http://www.ics.uci.edu/~mlearn/MLRepository.html • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones

  36. El modelo ART > Resultados experimentales Precisión del clasificador • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones

  37. El modelo ART > Resultados experimentales Complejidad • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones

  38. El modelo ART > Resultados experimentales Tiempo de entrenamiento • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones

  39. El modelo ART > Resultados experimentales Operaciones de E/S • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones

  40. El modelo ART > Resultados experimentales Operaciones de E/S • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones

  41. El modelo ART > Resultados experimentales Operaciones de E/S • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones

  42. El modelo ART Comentarios finales Modelos de clasificación obtenidos • Precisión aceptable • Complejidad reducida • Interacciones entre atributos Método de construcción de clasificadores • Algoritmo eficiente • Método escalable • Selección automática de parámetros • Introducción • El modelo ART Presentación Construcción Ejemplo Uso Propiedades Resultados • Hipótesis candidatas • Atributos continuos • Conclusiones

  43. Índice general • Introducción • El modelo de clasificación ART • Construcción de hipótesis candidatas • Manejo de atributos continuos • Conclusiones

  44. Hipótesis candidatas • Extracción de reglas de asociación • El algoritmo TBAR • TBAR en ART • Evaluación de las reglas obtenidas • Medidas disponibles • Resultados experimentales Introducción El modelo ART Hipótesis candidatas Atributos continuos Conclusiones

  45. K=1 Extracción de reglas con K items en su antecedente Sí ¿existen reglas adecuadas? ¿ K <= MaxSize ? K=K+1 No Sí No Ramificación del árbol con las reglas seleccionadas y procesamiento recursivo de la rama “else” del árbol Creación de un nodo hoja etiquetado con la clase más frecuente Hipótesis candidatas Extracción de reglas • Introducción • El modelo ART • Hipótesis candidatas Extracción Evaluación • Atributos continuos • Conclusiones

  46. Hipótesis candidatas > Extracción de reglas Reglas de asociación Extracción de reglas de asociación Umbrales mínimos • MinSupport • MinConfidence Estrategia “divide y vencerás” • Encontrar todos los itemsets frecuentes. • Generar las reglas de asociación que se derivan de los itemsets frecuentes. • Introducción • El modelo ART • Hipótesis candidatas Extracción Evaluación • Atributos continuos • Conclusiones

  47. Hipótesis candidatas > Extracción de reglas Reglas de asociación Obtención de los itemsets frecuentes Lk Algoritmos de la familia Apriori • Generación de candidatos Ck a partir de Lk-1 x Lk-1 • Recorrido secuencial de la base de datos para obtener Lk a partir de Ck • Introducción • El modelo ART • Hipótesis candidatas Extracción Evaluación • Atributos continuos • Conclusiones

  48. Hipótesis candidatas > Extracción de reglas TBAR Algoritmo de la familia Apriori IDEA Árbol de itemsets [Tree-Based Association Rule mining] Berzal, Cubero, Marín & Serrano “TBAR: An efficient method for association rule mining in relational databases” Data & Knowledge Engineering, 2001 • Introducción • El modelo ART • Hipótesis candidatas Extracción Evaluación • Atributos continuos • Conclusiones

  49. Hipótesis candidatas > Extracción de reglas TBAR: Árbol de itemsets • Introducción • El modelo ART • Hipótesis candidatas Extracción Evaluación • Atributos continuos • Conclusiones

  50. Hipótesis candidatas > Extracción de reglas TBAR vs. Apriori • Introducción • El modelo ART • Hipótesis candidatas Extracción Evaluación • Atributos continuos • Conclusiones vg: CENSUS

More Related