390 likes | 562 Views
Algoritmo de Retropropagación. Conclusiones de Retropropagación. 1. Si la neurona j es un nodo de salida es igual al producto de la derivada y la señal de error . Ambas están asociadas a la neurona j. Conclusiones de Retropropagación.
E N D
Conclusiones de Retropropagación • 1. Si la neurona j es un nodo de salida es igual al producto de la derivada y la señal de error . Ambas están asociadas a la neurona j.
Conclusiones de Retropropagación • 2. Si la neurona j es un nodo escondido, • es igual al producto de la derivada asociada • y la suma pesada de las • calculada para las neuronas de la siguiente capa escondida o de salida que se conectan a la neurona j.
Conclusiones de Retropropagación • La corrección aplicada a está definida por la regla delta: • y:
Conclusiones • Cuando el nodo j es de salida: • Cuando el nodo j es escondido:
Logística • Ya que
Logística • Entonces • y • para una neurona de salida
Logística • Análogamente • y, para una neurona escondida:
Logística • Nótese que es máxima en 0.5 y mínima en o (de (1)). • Para una logística, entonces, los pesos sinápticos se cambian más para aquellas neuronas en donde las señales de la función están en los rangos medios.
Tangente Hiperbólica • Para la capa de salida
Tangente Hiperbólica • Para una capa escondida:
Momento • El algoritmo de RP “aproxima” la trayectoria en el espacio de los pesos por el método de gradiente máximo. • A una pequeña corresponden pequeños cambios en la trayectoria del descenso y éstos son más suaves. Si es grande los cambios pueden ser inestables (oscilatorios).
Momento • Una forma de incrementar y evitar inestabilidad consiste en modificar la regla delta, de esta manera: • En donde es la constante de momento. Controla el lazo de retroalimentación que se ilustra en la siguiente figura. En ésta es el operador de retardo unitario.
Momento • Si re-escribimos (2) como una serie de tiempo con un índice t, en donde t va desde el instante 0 hasta el tiempo actual n, tenemos:
Momento • Ya que • y • vemos que
Momento • y podemos escribir, entonces
Momento • Comentarios: • El ajuste actual representa la suma de una serie de tiempo ponderada exponen-cialmente. Para que converja: • Cuando tiene el mismo signo en iteraciones consecutivas, crece en magnitud y se ajusta en cantidades grandes.
Momento • Cuando tiene signos diferentes en iteraciones consecutivas, la suma • disminuye de tamaño y se ajusta en pequeñas cantidades. • El momento acelera el descenso en direcciones de bajada constantes • El momento estabiliza el proceso en direcciones que cambian de sentido
Heurísticos • pequeño es más lento pero permite convergen-cia más profunda • entonces produces una conver-gencia más rápida. • implica que para garantizar convergencia
Heurísticos • Tamaño del conjunto de prueba • N = tamaño de conjunto de entrenamiento • W = número de pesos en la red • (razón de entrenamiento) • W>>1
Heurísticos • Ejemplo: • W=150 • ropt=0.07 • 93% de los datos (140) se usan para entrenamiento • 7% de los datos (10) se usan para prueba
Heurísticos • Función de Activación • Una red RP puede aprender más rápidamente si la sigmoide es antisimétrica: • por ejemplo
Heurísticos • Valores adecuados para a y b (determinados experimentalmente) son: • a=1.7159 • b=2/3 • Por lo tanto: • a) • b)
Heurísticos • Es decir, en el origen, la pendiente (la ganancia activa) es cercana a la unidad • c) La segunda derivada de es máxima en v=1.
Heurísticos • Los valores objetivo deben ser elegidos en el rango de la función de activación • La respuesta deseada en la capa L debe de ser desplazada del valor límite. • Por ejemplo:
Heurísticos • El valor medio (sobre el conjunto de entrenamiento) debe ser 0 o pequeño comparado con • Los valores no debe estar correlacionados • Las variables deben escalarse de manera que sus covarianzas sean aproximadamente iguales. • Esto garantiza que las ws se aprendan a las mismas velocidades aproximadamente.
Heurísticos • Las variables deben ser equi-espaciadas en el intervalo de observación • Si esto no es posible, es conveniente usar un spline natural para completar los datos faltantes
Heurísticos (Inicialización) • Consideremos una RPR con tanh como función de activación. Si el umbral es 0 : • Sea • y
Heurísticos • Si las entradas no están correlacionadas • Tomemos las de una distribución uniforme con
Heurísticos • Entonces la media y la varianza de son: • y
Heurísticos • en done m es el número de conexiones sinápticas a una neurona. • Es decir, queremos inicializar de manera que • esté en la transición de la parte lineal y saturada de su función de activación tanh. Para tanh, como se especificó antes, esto se logra (a=1.7159; b=0.6667) haciendo que en • y
Heurísticos • Es decir, deseamos una distribución de la cual las • se tomen con y igual al recíproco del número de conexiones sinápticas