200 likes | 338 Views
Aprendizaje Incremental de Reglas en Secuencias de Datos de Alta Velocidad (Data Streams). Francisco J. Ferrer Troyano José C. Riquelme Santos Jesús S. Aguilar Ruiz Departamento de Lenguajes y Sistemas Informáticos Universidad de Sevilla. Contenido. Marco de Trabajo (2) Estado del Arte (2)
E N D
Aprendizaje Incremental de Reglasen Secuencias de Datosde Alta Velocidad (Data Streams) Francisco J. Ferrer Troyano José C. Riquelme Santos Jesús S. Aguilar Ruiz Departamento de Lenguajes y Sistemas Informáticos Universidad de Sevilla
Contenido • Marco de Trabajo (2) • Estado del Arte (2) • FACIL • Propuesta (7) • Validación / Experimentos (3) • Conclusiones y Trabajo Futuro (3)
Marco de Trabajo 1/2 REPOSITORIO PREPROCESADO Integración Filtrado Reducción Transformación Data Streams Bases de Datos vs. bloque de ejemplos secuencia de ejemplos NO PREPROCESADO BASE de CONOCIMIENTO • Variación de la función objetivo • Sistemas On-Line / Real-Time Modelo en todo momento • Los ejemplos se reciben a alta velocidad • Modelos Aproximados (cada ejemplo es procesado a lo sumo una vez) • Secuencia potencialmente infinita • Los ejemplos NO pueden cargarse en memoria
Marco de Trabajo 2/2 Aprendizaje Incremental en Data Streams • Aprendizaje en episodios sucesivos: Mt = f(Et, Mt-1, Vt-1) • Influencia del orden de llegada de los ejemplos • Variación de la función objetivo (concept drift) • Necesidad de “suficientes” ejemplos para predicciones/clasificar
Estado del arte 1/2 [Dom01, Bab02, Agra03, Yu04] Cota Máxima para: • El tiempo de aprendizaje por ejemplo • La memoria necesaria en cada ciclo de aprendizaje • El error en las predicciones, función de los anteriores Enfoques basados en árboles de decisión: Alta sensibilidad al sobre-ajuste Se ignora la complejidad del modelo Cambios F. Obj. Severas Modif. Modelo ¿TIEMPO? • Métodos basados en los límites de Hoeffding: Domingos & Hulten’sCVFDT Atributos simbólicos Gama & Rodrigues’sUFFT(Naïve-Bayes) Atributos Numéricos • Métodos basados en ensamblaje de modelos: Street & Kim’sSEA árboles Kolter & Maloof’sDWM(Weighted Majority) árboles Wang, Yu et al. Múltiples clasificadores (C4.5, RIPPER, etc)
Estado del arte 2/2 Técnicas de Clasificación y Modelado Sin Modelo en Memoria Parte del Modelo en Memoria Todo el Modelo en Memoria Incremental Batch Temporal Incremental Todos los ejemplos Parte de los ejemplos Sin ejemplos en Todos los ejemplos Parte de los ejemplos Todos los ejemplos Parte de los ejemplos Sin ejemplos en en memoria en memoria memoria en memoria en memoria en memoria en memoria memoria ID4, STAGGER, FLORA2-4, LAIR, k-NN IB2 FAVORIT AQ15c, CN2, C4.5 AQ-PM, DARLING GEM, ID5, ITI WINNOW, AQ11 HILLARY, GEM-PM AQ-PM FACIL
FACIL – Modelo de conocimiento 1/7 AQ11-PM & FACIL: Hiperrectángulos (intervalos cerrados) + ETQ asociada Reglas en AQ11-PM: • Todas consistentes/puras • Todas almacenan ejemplos positivos extremos (vértices/aristas/caras) Reglas en FACIL: • Las reglas pueden ser inconsistentes/impuras • Reglas de la misma etiqueta pueden solapar • No todas almacenan ejemplos fronterizos: • Cercanos a otros de distinta etiqueta positivos y negativos • No necesariamente extremos (“enemigos más cercanos”)
FACIL – Modelo de conocimiento 2/7 Menor coste computacional: Menos reglas rápida actualización Reglas impuras menos revisiones Mayor precisión en la clasificación: En las fronteras vecino más cercano En el interior reglas de decisión Modelo basado en reglas Espacio a modelar Modelado mediante FACIL
FACIL – Actualización del modelo 3/7 1) Visitar cada regla R con la misma etiqueta que el nuevo ejemplo e: • Calcular la distancia d(R,e) Y Actualizar la regla “más cercana” (Rc) • Si d=0 R cubre a e FIN: Actualizar R 2) Visitar cada regla R’ de distinta etiqueta: • Si d(R’,e)=0 R’ cubre a e FIN: Actualizar R’ • Sino: Comprobar si R’ y Rc solapan: SI HAY SOLAPE FIN:Nueva Regla Específica 3) Actualizar la más cercana (Rc) describir a e
FACIL – Métrica de regla “más cercana” 4/7 B1=10 Regla B2=5 A2=10 (25-10) + (10-5) X A1=25 Estimación de la nueva región descrita ≠ area, ≠ volumen Favorecer las reglas con menor crecimiento en el menor número de atributos
FACIL – Generalización Moderada 5/7 Max. Crec. = 15% en cada dimensión R3 descartada
FACIL – Actualización de reglas y ejemplos 6/7 Actualización en PARALELO con cada nuevo ejemplo Cada vez que una regla es visitada se comprueba su validez Las reglas Y/O los ejemplos obsoletos son eliminados Si una regla cubre a un ejemplo positivo PUEDE incorporarlo Si una regla cubre a un ejemplo negativo LO INCORPORA Si pureza < umbral Se elimina y se generan nuevas reglas
FACIL – Clasificación Multiestrategia 7/7 Inducción Distancia Votación Caso 1: existe al menos una regla R que describe al nuevo ejemplo: Caso 2: NO existe ninguna regla que describe al nuevo ejemplo: • Si R no posee ejemplos asociados etiqueta asociada a R • Si R posee ejemplos asociados 1-NN • Si existen varias reglas con ejemplos asociados k-NN • Buscar la regla R’ de mínimo crecimiento sin ejemplos ni intersección • Si R’ no existe NN con los ejemplos de la regla de mínimo crecimiento Deducción y Distancia
Experimentos – UCI 1/4 12.76 8.25 15.76 3.78 6.85 PA = Precisión (%, 10-folds CV) NR = Nº medio de reglas ER = Nº medio de ejemplos/regla MG = Máximo crecimiento (%)
Experimentos – Hiperplano rotante 2/4 12.48 10.6 >3500 ejemplos / segundo >2500 ejemplos / segundo >180 ejemplos / segundo >650 ejemplos / segundo 50000 ejemplos - 5% ruido en la clase Magnitud Cambio = ±0.1 en 40% atributos cada 103 ejemplos PA = Precisión NR = Nº medio de reglas NA = Nº de atributos TA = Tiempo de aprendizaje (s)
Experimentos – Reglas Hiperrectangulares 2/4 12.48 10.6 50000 ejemplos - 5% ruido en la clase Mag. Camb. = ±0.1 en 40% atributos cada 103 ejemplos PA = Precisión NR = Nº medio de reglas NA = Nº de atributos TA = Tiempo de aprendizaje (s)
Conclusiones – VENTAJAS DEL MODELO 1/3 Reglas Impuras + Enemigos Cercanos: Aumento de... La pendiente de la curva de aprendizaje La independencia al orden de llegada de los ejemplos La velocidad de adaptación a los cambios reales en la función objetivo
Conclusiones – VENTAJAS DEL MODELO 2/3 Reglas Impuras + Enemigos Cercanos: Reducción de... La sensibilidad al sobreajuste sólo se modelan regiones de fuerte evidencia El coste computacional ante cambios virtuales modelo no jerárquico partes independientes La memoria necesaria en cada ciclo de aprendizaje actualización del modelo con cada nuevo ejemplo
Trabajo Futuro 3/3 Sensibilidad a la variación de la influencia de los atributos Eliminación / Recuperación de atributos IRU Adaptación de la medida de crecimiento: Reajuste de pesos (at) mejorar la selección de candidatas Reordenación (at) según su influencia acelerar la actualización Procesamiento de streams con atributos simbólicos: Evaluación de medidas de crecimiento alternativas Integración Exploración Visual VETIS
Aprendizaje Incremental de Reglasen Secuencias de Datosde Alta Velocidad (Data Streams) Francisco J. Ferrer Troyano José C. Riquelme Santos Jesús S. Aguilar Ruiz Departamento de Lenguajes y Sistemas Informáticos Universidad de Sevilla