160 likes | 171 Views
Backpropagation. Семинар 3. Общая схема обучени я. 1. prepare batch. 2. forward pass. softmax. non-linear activation. 4. update weights. 3. backward pass. Computational graph. x. *. w 0. *-1. exp. +1. +. w 1. Example 1. Sigmoid. The Chain Rule. x. *. w 0. *-1. exp. +1. +.
E N D
Backpropagation Семинар 3
Общая схема обучения 1. prepare batch 2. forward pass softmax non-linear activation ... 4. update weights 3. backward pass
Computational graph x * w0 *-1 exp +1 + w1
Example1. Sigmoid The Chain Rule x * w0 *-1 exp +1 + w1
Example 1. Sigmoid The Chain Rule x * w0 *-1 exp +1 + w1
Staged computation x * w0 + w1
Gradient checking • Проверка корректности производной: • Если – вектор:
Patterns x * + *3 y max z
Patterns x * + *3 y max z
Example 2. Матрицы ? - +
Example 2. Матрицы • Если Z = XY, то зная dZ имеем: • далее dx = df / dx • dY= XTdZ • dX = dZYT • Dimensionanalysis • X и dX должны иметь одинаковую размерность • Неплохое объяснение • http://cs231n.stanford.edu/vecDerivs.pdf
Example 3. Simple NN + + L ? ?
На практике backpropдля softmaxи cross-entropy loss обычно считают вместе • В таком случае получается очень простая формула для градиента
Что посмотреть? • Course notes стэнфордского курса по данной теме: • http://cs231n.github.io/optimization-2/ • http://cs231n.github.io/neural-networks-3/ • Классная видео-визуализация с объяснениями:https://www.youtube.com/watch?v=Ilg3gGewQ5U • Еще одна неплохая визуализация:https://google-developers.appspot.com/machine-learning/crash-course/backprop-scroll/