360 likes | 587 Views
Algoritmo Robusto de Aprendizaje para el Modelo Mezcla de Expertos. Expositor: Romina Torres Comisión: Dr. Héctor Allende (Guía) Dr. Horst von Brand (Correferente) Dr. Max Chacón (Externo). Agenda. Introducción Modelo Mezcla de Expertos Algoritmos de Aprendizaje
E N D
Algoritmo Robusto de Aprendizaje para el Modelo Mezcla de Expertos Expositor: Romina Torres Comisión: Dr.Héctor Allende (Guía) Dr. Horst von Brand (Correferente) Dr. Max Chacón (Externo)
Agenda • Introducción • Modelo Mezcla de Expertos • Algoritmos de Aprendizaje • MLE basado en el gradiente • MLE basado en el algoritmo EM • Algoritmo Robusto de Aprendizaje • Especificación Algoritmo EM • Teoría de Estimación robusta de parámetros • M-estimadores • Algoritmos Robustos de Aprendizaje • RMLE • REM • Experimentos y Resultados • Conclusiones y Extensiones Romina Torres
Introducción(1/3) • Modelos matemáticos con raíces en el entendimiento del cerebro. • Función con parámetros ajustables • Aprender de ejemplos • Aplicadas cuando no existe una solución determinística • Algoritmos de Aprendizaje: • Cambiar los pesos en la dirección en que la diferencia entre la salida calculada y deseada es mínima Romina Torres
Introducción(2/3) • Interferencia • SI BP es usado para entrenar una única red multicapa para realizar diferentes subtareas en diferentes ocasiones • Pobre generalización, lento aprendizaje • Conocimiento a priori • Conjunto de entrenamiento naturalmente dividido en subconjuntos que corresponden a distintas subtareas • El cerebro es una colección de módulos neuronales especializados funcionalmente: • Existe una correspondencia entre las propiedades estructurales de un módulo y las funciones capaz de realizar. • Diferentes regiones del cerebro compiten por la habilidad de realizar un conjunto de tareas (competencia sesgada). Romina Torres
Introducción (3/3) • Los expertos son locales debido a que: • sus pesos están desacoplados • Asignados a regiones locales del espacio de entrada • Red de agregación decide estocásticamente acerca de cuál o cuáles expertos son seleccionados c/v • Modelo de Mezclas Finitas • Modelo Mezcla de expertos (ME) (Jacobs 1990): • Red agregación aprende a asignar casos a uno o varios expertos • Si la salida es incorrecta los cambios a los pesos son locales sólo a esos expertos y la red de agregación Reducción de interferencia Romina Torres
… … … Modelo Mezcla de Expertos Romina Torres
… … … Redes Expertas y Red de Agregación • Redes expertas: • Compiten por aprender el modelo subyacente de los patrones de entrada • Especialización versus Pérdida de generalidad • Red de Agregación • Media la competencia • Determina que mezcla de expertos presenta la topología más adecuada según la naturaleza del patrón y el rendimiento relativo de los expertos Romina Torres
Algoritmos de Aprendizaje • Aprendizaje Modelo ME • Problema de estimación de parámetros del modelo estadístico subyacente • Estimadores de Máxima Verosimilitud • Función complicada no lineal en los parámetros • Problema de encontrar los parámetros que maximizan la verosimilitud • Técnicas de optimización numérica • Algoritmos de Aprendizaje para Modelo ME • ML basado en el gradiente • ML basado en Máxima Expectación Romina Torres
Máxima Verosimilitud • Conjunto de Entrenamiento i.i.d. • Probabilidad Total para conjunto de vectores de entrada es dado por la función de verosimilitud Romina Torres
Gradiente Descendente • Red de agregación • Red Experta • Modelo de Probabilidad Romina Torres
Algoritmo de Máxima Expectación (EM) • Dempster, Laird, Rubin [DLR] [1976] • EM es un enfoque iterativo para estimar la máxima verosimilitud • EM basado en la idea de resolver una sucesión de problemas simplificados que son obtenidos por aumentar las variables observadas originalmente con un conjunto de variables adicionales escondidas o perdidas • La incompletitud de los datos puede ser no natural o evidente • Cada iteración está compuesta de dos pasos • Paso M que maximiza la función de verosimilitud que es redefinida en cada iteración del paso E Romina Torres
Especificación Algoritmo EM (1/2) • Datos incompletos • Modelo de Probabilidad que enlaza ambos conjuntos • El logaritmo de la densidad define la verosimilitud de los datos completos • Variable aleatoria • La verosimilitud original es referida como verosimilitud de los datos incompletos • Distribución Marginal es la verosimilitud original • Función de las v.a. perdidas no se puede trabajar directamente * Romina Torres
Especificación Algoritmo EM (2/2) • Algoritmo iterativo de dos pasos • Paso E • Paso M • Una iteración del EM aumenta monóticamente • Algoritmo EM Generalizado • Paso M no siempre puede ser obtenido analíticamente • Satisface la condición de convergencia (si existe el límite superior) Romina Torres
Satisface * Un Algoritmo EM para el modelo ME(1/2) • Estructura modular de la arquitectura • Distribución del conjunto de datos completos • Paso E • Paso M Romina Torres
Un Algoritmo EM para el modelo ME(2/2) • Actualización Matrices de covarianzas • Actualización Pesos redes expertas Resuelto explícitamente si las redes expertas son lineales • Actualización Pesos red de agregación Romina Torres
Estimación Robusta de Parámetros • Teoría de Estimación robusta [Huber,1964] • Modelo ME sensible a datos atípicos • Pequeñas desviaciones no deberían afectar fuertemente los métodos de estimación • La robustez ayuda a evaluar y mejorar la estabilidad de las técnicas de estimación cuando los datos se desvían del supuesto distribucional. • Hampel argumenta que la ocurrencia de datos atípicos son la regla no la excepción • Provocados por una fuente de desviación del modelo subyacente que actúa ocasionalmente pero que tiene gran influencia • Se desea evitar el riesgo de rechazar datos necesarios, pero limitando a la vez la influencia de los datos atípicos en la obtención de los estimadores ML. Romina Torres
M-estimadores [Huber 1964] • M-estimadores son una generalización del MLE • Un M-Estimador es el estadístico que minimiza la función de costo • Función real derivable en • O la solución de la ecuación de estimación de primer orden Romina Torres
M-estimador Romina Torres
Actualización de Parámetros Algoritmo Robusto basado en el Gradiente • Nueva función de Verosimilitud Romina Torres
Algoritmo Robusto de Máxima Expectación(1/2) • Paso de Expectación • Paso de Maximización Romina Torres
Algoritmo Robusto de Máxima Expectación(2/2) • Actualización de los parámetros Romina Torres
Hipótesis • Modelo ME • (M1) Cuando una única red intenta modelar tareas de distinta naturaleza se produce el efecto interferencia destructiva. • Algoritmo de Aprendizaje • Algoritmo EM toma ventaja de la modularidad del sistema. • Robustez • (R1) Algoritmos Robustos de Aprendizaje mejoran significativamente el rendimiento sobre el conjunto de prueba. • (R2) Expertos que no modelan la tendencia subyacente de los datos son “podados”. Romina Torres
Conjuntos de Datos • Boston Original (Boston Housing Data) • N= 506 muestras, 13 entradas, 1 salida. • Valor promedio de una casa en miles de dólares en un vecindario de Boston • Presencia de valores anómalos y datos alejados de la mayoría del conjunto • Ordenamiento por vecindario • Building2 (PROBEN1) • Problema de predicción del consumo de energía en un edificio • N= 4208 datos, 6 atributos reales son codificados en 13 entradas para el modelo • 3 Salidas: Energía eléctrica, agua caliente y agua fría. Romina Torres
Boston, Número de Expertos(1/2) Romina Torres
Building2, Número de Expertos (2/2) Romina Torres
LM GDM GD GDM Elección Número de Neuronas escondidas Romina Torres
Resultados(1/2) Romina Torres
Resultados(2/2) Romina Torres
Conclusiones • Modelo ME con algoritmo EM y REM: • Razón de convergencia • Toma ventaja de la modularidad del problema • Modelo ME con Algoritmos Robustos: • Presenta mejores resultados que modelos de un único modelo • Presenta mayor capacidad de generalización • Reducción del número de expertos de la mezcla • Mejoras sustanciales en el rendimiento frente a conjuntos de datos contaminados • Mejoras significativas según test de Prechelt Romina Torres
Trabajos Futuros • Extensión del Algoritmo REM y RMLE • Estudio de Convergencia • Estudio de eficiencia y eficacia • Mejora en Diseño de Experimentos y Metodología de Comparación • Extensión del Algoritmo REM • Modelos de Mezcla • Mezcla de expertos Jerárquicos (HME) • Modelo Jerárquico adaptivo. • Diferentes Arquitecturas para la red de agregación • SOM Romina Torres
Análisis de Algoritmos • MLE: NT(K+1)(m+1) • RMLE: NT(K+1)(m+1) + NT + m • EM: 2NTK + 2NTm + Km • REM: 3NTK + 2NTm + Km + K+ NT + m Romina Torres