1 / 24

Inteligencja Obliczeniowa Perceptrony wielowarstwowe i wsteczna propagacja błędów.

Inteligencja Obliczeniowa Perceptrony wielowarstwowe i wsteczna propagacja błędów. Wykład 10 Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: W Duch. Perceptron jednowarstwowy. Uczenie się perceptronów Nieliniowa reguła delta Adatron. Co było. Perceptrony wielowarstwowe.

kevork
Download Presentation

Inteligencja Obliczeniowa Perceptrony wielowarstwowe i wsteczna propagacja błędów.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Inteligencja ObliczeniowaPerceptrony wielowarstwowe i wsteczna propagacja błędów. Wykład 10 Włodzisław Duch Katedra Informatyki Stosowanej UMK Google: W Duch

  2. Perceptron jednowarstwowy. Uczenie się perceptronów Nieliniowa reguła delta Adatron Co było

  3. Perceptrony wielowarstwowe. Algorytm wstecznej propagacji błędów (BP) Metody minimalizacji Ulepszenia BP Co będzie Problem: perceptrony radzą sobie tylko z problemami, które są liniowo separowalne, nie można więc rozwiązać prostego zagadnienia typu XOR, a więc prawie żadnego zagadnienia w wysokowymiarowych przypadkach.

  4. 0.5 +1 -2 +1 1 +1 +1 +1 XOR – rozwiązanie najprostsze. Najprostsze rozwiązanie, ale jak to uczyć? Co można zrobić? Najpierw utworzyć jakąś reprezentację wewnętrzną za pomocą perceptronów, ale jaką? • Założyć reprezentację wewnętrzną a priori - zgadywaną dla każdego problemu niezależnie. • Zastosować konkurencyjne uczenie się bez nadzoru; użyteczne elementy same się uaktywnią, chociaż nie ma na to gwarancji. • Uczyć odpowiedniej reprezentacji wewnętrznej dla danej klasy problemów – trzeba znaleźć efektywny algorytm uczenia.

  5. XOR z warstwą ukrytą rozwiązuje XOR

  6. Warstwa ukryta i granice decyzji

  7. Sieć MLP 2-4-1.

  8. MLP = Multilayer Perceptron. Perceptron 3-warstwowy z warstwą wejściową, ukrytą i wyjściową - oznaczenia.

  9. MLP - oznaczenia Liczba warstw M=3 Xi(l)-całkowity sygnał dochodzący do elementu i należącego do warstwy l oi(l)- sygnał wychodzący z elementu inależącego do warstwy l Wij(l)- wagi łączące element inależący do warstwy l-1oraz element jz warstwy l Xj(l) = SiWij(l)oi(l-1)aktywacja neuronu j w warstwie l. oj(l) = s(Xj(l))sygnał wysyłany z tego neuronu Fi(X;W) = oi(M)funkcja realizowana przez MLP

  10. Algorytm wstecznej propagacji błędów (1974, 1986) Miara błędu dla wzorca p i Nowyjść BP-1 Gradientowa reguła minimalizacji błędu równoważna jest regule delta. Obliczenia gradientu dla warstwy zewnętrznej:

  11. Funkcja błędu w 2D Problem 1D bez warstwy ukrytej.

  12. Błąd „lokalny” dla warstwy M Zmiana wag w warstwie wyjściowej: Wagi łączące neuron j i neuron k w warstwie M-1: Gradient: BP-2

  13. Ponieważ to gradient: a zmiana wag: Struktura wzoru dla kolejnych warstw jest taka sama. BP-3

  14. Funkcja realizowana przez sieć: Inicjalizacja: przypadkowe małe wartości wag. Propagacja sygnałów od wejścia do wyjścia. Propagacja korekcji błędów wstecz: rekursywne obliczanie DWij. BP- podsumowanie

  15. Sigmoidy Logistyczna funkcja aktywacji: Próg q, nachylenie T Pochodna ma max dla o=0.5: Błąd wyjściowego elementu:

  16. XOR – dynamika uczenia

  17. Funkcja błędu w 2D z PCA Patrząc w kierunku największej wariancji wag możemy zrobić projekcję funkcji błędu – dla XOR jest ona dość skomplikowana. Przeskalowanie kierunku c2 pokazuje więcej szczegółów.

  18. Własności MLP MLP jest uniwersalnym aproksymatorem: • 1 warstwa – f. ciągłe • 2 warstwy – f. nieciągłe (dowód via tw. Stone’a- Weierstrassa) Szybkość zbieżności z sigmoidami: O(1/n); z wielomianami O(1/n1/d) W niektórych problemach inne funkcje dają szybsza zbieżność. Parametry sieci: architektura, liczba warstw, liczba neuronów. Końcowa warstwa: perceptron. Neurony ukryte: transformacja nieliniowa do przestrzeni odwzorowań, tworząca nowe cechy za pomocą nieliniowych kombinacji.

  19. Przykłady zbieżności dla XOR Architektura 2-2-2, rozmyte klastry XOR. W p-ni wyjściowej w warstwie ukrytej

  20. Uczenie MLP Parametry uczenia: • szybkość uczenia • bezwładność Pozwala usunąć szybkie oscylacje, zmienia efektywną stałą uczenia: dla małych zmian wag. • sposób prezentacji danych Losowa prezentacja – element stochastyczny, uczenie on-line. Ustalona kolejność. Poprawki po całej epoce – po kilku prezentacjach też warto.

  21. Problemy i ulepszenia. • Niewłaściwie dobrana architektura sieci. • Minima lokalne i plateau, wąskie „rynny”. • Wpływ nowych wzorców na już nauczone – zapominanie. • Szybkość uczenia – zagadnienie jest NP-trudne. • Schematy adaptacji dla stałej uczenia: zwiększaćh o a=const dla malejącego błędu, zmniejszać o -hb dla rosnącego błędu. Duże kroki na powierzchni gładkiej, drobne kroki na skomplikowanej. Lokalne stałe uczenia się, różne dla różnych węzłów - kosztowne.

  22. Ulepszenia MLP • Szybsze procedury minimalizacji błędu. • Modyfikacje schematu wstecznej propagacji. • Unikanie minimów lokalnych – różne możliwości. • Funkcje kosztu, niekoniecznie MSE. • Inicjalizacja parametrów, lepszy start. • Regularyzacja i zwiększenie zdolność do generalizacji sieci - wybór modelu o odpowiedniej złożoności. • Sieci konstruktywistyczne/ontogeniczne, dostosowujące złożonośc do danych. • Funkcje transferu, nie tylko sigmoidy.

  23. Perceptrony wielowarstwowe: ulepszenia, algorytmy konstruktywistyczne. Sieci Hopfielda Sieci Hebbowskie i modele mózgu Samoorganizacja Perceptrony wielowarstwowe Co dalej?

  24. Koniec wykładu 10 Dobranoc …

More Related