290 likes | 692 Views
REDES NEURONALES. ¿Qué son las Redes Neuronales? . Modelos simplificados del sistema nervioso central Están formadas por un elevado número de elementos simples de computación interconectados que trabajan en paralelo. Modelo Neurona Artificial. Modelo matemático (1943) Mc Culloch-Pitts
E N D
¿Qué son las Redes Neuronales? • Modelos simplificados del sistema nervioso central • Están formadas por un elevado número de elementos simples de computación interconectados que trabajan en paralelo
Modelo matemático (1943) Mc Culloch-Pitts Operación: Suma Ponderada de las Entradas Si la suma supera un umbral, se activa la salida En caso contrario, se inhibe Modelo matemático: Los pesos wij representan la sinapsis que une la neurona j (fuente) con la i (destino) Modelo Simple Neurona Artificial
1943 Mc Culloch-Pitts (Primeros Modelos matemáticos) 1949 D. Hebb. Aprendizaje neuronal 1956 Rochester. Primeras simulaciones de redes neuronales 50’-60’ Rosenblatt introduce el Perceptrón 1969 Minsky y Papert publican un libro estudiando los problemas del Perceptrón. COMIENZO DE LA DÉCADA OSCURA 1970 Widrow. Primera aplicación redes neuronales (ADALINE y MADALINE) Regla de Aprendizaje Widrow-Hoff (Mínimos Cuadrados) 1974 Werbos publica el algoritmo de Retropropagación, aunque no se utiliza hasta 1985 (PDP) 1982 Hopfield analiza el comportamiento de la red mediante teoría de Lyapunov Breve Historia de las Redes Neuronales
La red puede aproximar cualquier función no lineal continua Son unidades de procesamiento paralelo y distribuido Permite generalizar y adaptarse en tiempo real Puede trabajar con conceptos cuantitativos y cualitativos simultáneamente. Pueden modelar sistemas multivariables Aplicación de las Redes Neuronales al Control
Arquitectura de las Redes Neuronales • Funciones continuas utilizadas: • Función Escalón • Función Umbral • Función Rampa • Función Sigmoidal • Neurona • Elemento básico • Formada por: • Sumador Ponderado • Función de Activación continua
Arquitectura de Red • En general, las neuronas tienen más de una entrada...
Arquitectura de red • O más de una salida ...
Arquitectura de Red • O más de una capa....
Arquitectura de Red • Capa de Entrada: Capa sensorial • Capa Oculta: Procesamiento de Datos • Capa de Salida: Respuesta al entorno
Entrenamiento = Ajuste de los pesos Entrenamiento supervisado (99% de las aplicaciones neuronales) Entrenamiento no supervisado (el resto) Según el flujo de datos: Redes Unidireccionales (de entrada salida) Redes Recurrentes (donde realimentación de la salida a la entrada) Entrenamiento de Redes
Funcionamiento de las Redes • Aprendizaje Ajuste de pesos • Ejecución Aplicación
Perceptrón • Propuesto por Rosenblatt (1961) • F(n) es una función umbral (o escalón) • Permite clasificar vectores dividiendo el espacio de entrada en dos regiones • Sólo puede resolver problemas de separación LINEAL (OR-Exclusivo)
Reglas de Aprendizaje • La señal ri es función de (wi,x, di) • El incremento de los pesos será: Dwi(t) = ri [wi(t), x(t), di(t)] x(t) • Luego: wi(t+1) = wi(t) + Dwi(t)
Regla del Perceptrón: ri = dik-yik Regla de Hebb Reglas de Aprendizaje Sólo puede Clasificar VECTORES DE ENTRADA LINEALMENTE SEPARABLES
Solución al Problema Or-Exclusivo • ¡Utilizar Redes con dos capas!. • La Capa de Entrada Dos Perceptrones • Capa de Salida Perceptron adicional • Problema: ENTRENAMIENTO
(1959) Widrow Función de Activación LINEAL Sistema de ec. Lineales solución si los vectores x son LINEALMENTE INDEPENDIENTES Función de COSTE: E(w) minimiza la suma de los cuadrados de los errores. Método de entrenamiento DESCENSO POR EL GRADIENTE Adaline (Adaptive Linear Neuron)
Basada en el DESCENSO DE GRADIENTE Si los cambios se hacen individualmente para cada patrón de entrada: Factor de Aprendizaje Regla de Widrow-Hoff
Generalización de la regla de Widrow-Hoff para funciones de Activación Continuas Diferenciables Función de Coste: Aplicando descenso de gradiente (BATCH): En identificación/control los pesos se va actualizando al presentar nuevas entradas, x: Regla de Aprendizaje Delta
Perceptron Multicapa • Solución a problemas de clasificación de vectores no separables linealmente • Al utilizar funciones de activación no lineales, es posible modelar sistemas no lineales • Problema:Entrenamiento • 1974 Paul Werbos • 1986 Grupo PDP populariza el algoritmo
Algoritmo de Retropropagación • Red Multicapa.Función de Activación Diferenciable
Error Cuadrático: Ajuste de pesos: Relación neuronas 4 y 8 w84 n8 y8 E Aplicando Regla de la Cadena: Definiendo error equivalt.: d8(x) = (d8-y8)F'8(n8(x)) Ajuste Pesos Capa Salida: w84t+1 = w84t + d8y w74t+1 = w74t + d7y4 w64t+1 = w64t + d6y4 w85t+1 = w85t + d8y5 w75t+1 = w75t + d7y5 w65t+1 = w65t + d6y5 Algoritmo de Retropropagación
Capa Oculta. Conexión neuronas 1 y 4. representa la relación entre y4 y E. Calculando el primer término: Error Equivalente: d4=(d6w64+d7w74+d8w84)F'4(n4) Algoritmo Retropropagación (2)
Algoritmo Retropropagación (3) • Agrupando: • La variación del peso w41 vendrá dada por: w41t+1 = w41t + d4y1
Aspectos a considerar: Pesos Iniciales. Aleatorios y pequeños Constante de Aprendizaje Función Cuadrática Número de Patrones Tipo de Patrones Número de Capas Número de Neuronas Ocultas Variantes: Término de momento Otras reglas de Actualización basadas en el método de Newton (calculando la matriz Hessiana) Algoritmo Retropropagación (4) w(t) = -E(t)+w(t-1)