280 likes | 494 Views
Inteligencja Obliczeniowa Sieci RBF. Wykład 13 Włodzisław Duch Uniwersytet Mikołaja Kopernika Google: W. Duch. Algorytmy konstruktywistyczne Przykłady zastosowań sieci MLP. Co było. Teoria aproksymacji Funkcje radialne Sieci RBF. Co będzie. Filozofia RBF.
E N D
Inteligencja ObliczeniowaSieci RBF. Wykład 13 Włodzisław Duch Uniwersytet Mikołaja Kopernika Google: W. Duch
Algorytmy konstruktywistyczne Przykłady zastosowań sieci MLP Co było
Teoria aproksymacji Funkcje radialne Sieci RBF Co będzie
Filozofia RBF MLP - dyskryminacja, LDA, aproksymacja stochastyczna. RBF = Radial Basis Functions (1988) - inne podejście. Uczenie jako problem aproksymacji, najlepszego dopasowania (rekonstrukcji) hiperpowierzchni do danych treningowych. • Twierdzenie (Cover 1965): Jeśli przekształcić wzorce X={X(i)}, i=1..p, nieliniową funkcją na wektory F(X(i))={h(X(i))k}, k=1..M, M>pwzorce prawdopodobnie staną się liniowo separowalne:tj. istnieje płaszczyzna WT F(X(i))0 dla X(i)C1, WT F(X(i))<0 dla X(i)C2
Separowalność wielomianowa Jeśli wziąć funkcjewielomianowe: to zamiast sep. liniowej mamy sep. wielomianową. Functional Link Networks (Pao), SVM i Kernel Methods: optymalizacja nieliniowego przekształcenia.
Functional link networks Pao (1989) - sieci połączeń funkcjonalnych. Model tensorowy: do zmiennych wejściowych należy dodać ich iloczyny, to rozwiązuje nieliniowo sep. problemy. Separacja kwadratowa Problem: za dużo parametrów. Realizacja: sieć perceptronów z dodatkowymi wejściami lub sieć z jedną warstwą ukrytą realizująca nieliniowe mapowanie.
Uczenie jako problem aproksymacji Dla N punktów znajdź funkcję spełniającą: Postać funkcji RBF: Funkcja błędu z członem regularyzacyjnym:
Funkcja RBF Człon regularyzacjny: uwzględnia dodatkowe warunki, takie jak pożądana gładkość funkcji. Postać funkcji RBF: Funkcja błędu z członem regularyzacyjnym:
Rozwiązanie RBF Jeden węzeł sieci na jeden wektor treningowy, bez regularyzacji. Dla wąskich f. Gaussowskich hij =dij, wagi Wi =Yi, idealne rozwiązanie, ale zła generalizacja. H - macierz interpolacji. Radialne f. bazowe: H dodatnio określona (Light 1992). Większe dyspersje, mniej funkcji - lepsza generalizacja.
Interpretacja geometryczna Jeśli prawdziwa aproksymowana funkcja f(x) leży w przestrzeni rozpiętej przez wektory bazowe (x) to możliwe jest rozwiązanie bez błędu, w przeciwnym razie aproksymowana jest projekcja ortogonalna (błąd jest ortogonalny do p-ni bazowej).
Regularyzacja RBF Człon regularyzacjny uwzględnia dodatkowe warunki, takie jak pożądana gładkość funkcji. Jeśli człon regularyzacyjny jest niezmienniczy translacyjnie i rotacyjnie to funkcja aproksymująca musi mieć postać radialną. Dowód: teoria aproksymacji zaszumionych danych, teoria f. Greena, teoria estymacji z Gaussowskimi jądrami.
Rozwiązanie z regularyzacją Regularyzacja w teorii aproksymacji źle uwarunkowanych problemów: Tikhonov 1963. Stabilizacja przez dodatkowe warunki, operator P. Minimalizacja funkcji błędu z członem regularyzacyjnym daje równanie Eulera-Lagrange’a dla funkcjonału kosztu E(F) Dla operatorów P w postaci różniczkowej:
Wpływ regularyzacji Duża liczba f. bazowych o małej dyspersji bez regularyzacji i po regularyzacji (Ossowski 1996)
Funkcje radialne RadialnaInverse multiquadraticMultiquadraticGaussThin splines (cienkiej płytki) Przykłady: lokalne i nie
Funkcja Gaussa Jedyna lokalna i separowalna f. radialna
Sieci RBF Jedna warstwa ukryta, parametry nieliniowe funkcji transferu + wagi łączące z warstwą wyjściową. Sieci GRBF - mniejsza liczba węzłów niż danych. Sieci HRBF - pełna macierz obrotów i skalowania Q: Q różne dla różnych centrów
Uczenie sieci RBF Parametry nieliniowe funkcji transferu: centra, dyspersje; + wagi. Inicjalizacja początkowych centrów: klasteryzacja lub samoorganizacja. Inicjalizacja dyspersji: średnie odległości od wektorów z innych klas. Uczenie - metody gradientowe, podobnie jak w BP. Metoda probabilistyczna: jeśli rozkład równomierny, p. przynależności X do klastra o centrum Di i zakładamy diagonalne dyspersje to:
Inicjalizacja RBF 1 • Algorytm inicjalizacji centrów przez klasteryzację: • Wybierz w przypadkowy sposób punkt początkowy, nie należący dootoczenia już ustalonych centrów. • Utwórz zbiór wszystkich punktów z danej klasy leżących bliżej niżpunkty z innej klasy. • Przyjmij położenie centrum Di jako średnią dla punktów znalezionego zbioru • Powtarzaj dwa ostatnie kroki aż do zbieżności Inne metody klasteryzacji: dendrogramy, łączenie histogramów.
Inicjalizacja RBF 2 Algorytm inicjalizacji centrów przez samoorganizację: • Wybierz w przypadkowy sposób punkt początkowy, nie należący do otoczenia już ustalonych centrów. • Utwórz zbiór wszystkich punktów z danej klasy leżących bliżej niż punkty z innej klasy. • Zmieniaj położenie centrum Dipo prezentacji każdego wektoratreningowego: Stała uczenia hkzanika w miarę wzrostu k, np. (T - stała l. epok) Przesuwanie centrów w jakimś promieniu - samoorganizacja.
Uczenie - obroty i usuwanie. Pełna macierz transformacji Q: za dużo parametrów dla danych o dużej l. cech; diagonalna - ustawienia wzdłuż osi. Obroty f. zlokalizowanych - przydatne; wystarczy Qii0 i Qii+1 0, realizuje dowolne obroty. Inna metoda: iloczyn Gauss * (s(WX+b)-s(WX+b’)) Uproszczenie: kąt obrotu ustalony po inicjalizacji
Konstruktywny RBF. GAL (Growing and Learning), GrRBF (Growing Radial Basis Function), FEN (Function Estimation Networks), RAN (Resource Allocation Networks) Klasyfikatory Gaussowskie, sieci probabilistyczne ... Dwa kryteria wzrostu: duży błąd e + brak centrum w okolicy, które ma szanse po modyfikacji ten błąd zmniejszyć.
RCE Reduced Coulomb Energy model (Bachman, Cooper .. 1987) Funkcje typu twardej sfery o zmiennym promieniu pokrywające całą przestrzeń. Początkowo ri jak największe, w czasie uczenia są zmniejszane do połowy odległości z centrum odmiennej klasy i dostawiane są nowe sfery. Niejednoznaczne obszary - kolor ciemnoczerwony.
Porównanie MLP-RBF RBF Lokalne efekty, stabilność kilka rodzajów parametrów łatwa inicjalizacja tworzą nowe klasy możliwe uczenie bez nadzoru czasami nie wie uczenie łatwe bo 1 warstwa MLP Nielokalne, wymagają douczania jeden rodzaj parametrów trudna inicjalizacja trudna interpretacja ustalone klasy uczenie tylko pod nadzorem zawsze wie BP dość skomplikowane dla wielu warstw
Sieci Hopfielda Sieci Hebbowskie i modele mózgu Samoorganizacja Co dalej?
Koniec wykładu 13 Dobranoc !