460 likes | 663 Views
Politechnika Krakowska im. Tadeusza Kościuszki Wydział Fizyki Technicznej i Modelowania Komputerowego. Piotr Mizera. Praca magisterska. Kraków 2005. Jakość hetero-asocjacyjnego odtwarzania w pamięci MWAM uczonej metodą ewolucyjną. Promotor: dr Barbara Borowik. Zawartość pracy.
E N D
Politechnika Krakowska im. Tadeusza Kościuszki Wydział Fizyki Technicznej i Modelowania Komputerowego Piotr Mizera Praca magisterska Kraków 2005
Jakość hetero-asocjacyjnego odtwarzania w pamięci MWAM uczonej metodą ewolucyjną Promotor: dr Barbara Borowik
Zawartość pracy • Charakterystyka neuronowych pamięci skojarzeniowych • Ewolucyjne metody obliczeniowe • Multi-Winner Associative Memory • Jakość procesu odtwarzania w pamięci MWAM
Wprowadzenie • Cel pracy Dokonanie eksperymentalnej analizy porównawczej jakości procesu hetero-asocjacyjnego odtwarzania wzorców w pamięci MWAM uczonych oryginalną metodą analityczną i metodą ewolucyjną. Badania będą dotyczyć głównie pojemności pamięci i własności odtwarzania zapamiętanych kontekstowo danych. • Zakres Napisanie programu w języku C++ zapamiętującego i odtwarzającego wzorce w pamięci MWAM, w której połączenia wagowe byłyby uczone: oryginalną metodą analityczną i metodą ewolucyjną.
Wprowadzenie (c.d.1) • Zastosowany sprzęt i oprogramowanie: (i) Komputer PC z procesorem Pentium 4 2,6 GHz i pamięcią RAM 512 MB. (ii)Środowiskiem programistycznym, w którym edytowano i kompilowano kod źródłowy programów był Microsoft Visual Studio 6.0 (C++). (iii) Do zilustrowania wykresów – zastosowany został MS Excel.
Charakterystyka neuronowych pamięci skojarzeniowych • Pamięci asocjacyjnesieci neuronowych mają za zadanie asocjacyjnie zapamiętać pewną liczbę wzorców wejściowych jako ślady pamięciowe sieci, umożliwić ich poprawne odtworzenie, zwłaszcza kiedy na wejście tej sieci podana jest ich zaszumiona lub częściowo uszkodzona postać. • Proces hetero-asocjacyjnego odtwarzaniapolega na asocjacyjnym dopasowaniuwzorca wejściowego do zapamiętanego wcześniej śladu pamięciowego i odwzorowaniu go do śladu pamięciowego, stowarzyszonego z nim. • Jakość odtwarzania zależna jest od odporności sieci nabłędy wejściowe, tzn. umiejętności poprawnego rozpoznania i odtworzenia wzorca wejściowego, mimo jego uszkodzenia.
Charakterystyka neuronowych pamięci skojarzeniowych (c.d. 1) • Pamięci asocjacyjne pracują jako odwzorowania autoasocjacyjne, heteroasocjacyjne lub many-to-many. • Pamięć autoasocjacyjna – w tym przypadku macierz wag sieci przechowuje wzorce wejściowe tj. wzorzec wyjściowy jest taki sam jak wzorzec wejściowy. Pamięć asocjacyjna we wy
Charakterystyka neuronowych pamięci skojarzeniowych (c.d. 2) • Pamięć heteroasocjacyjna – w tego typu pamięci połączenia wagowe sieci przechowują wzajemne relacje pomiędzy każdym z wzorców wejściowych a wzorcem do niego stowarzyszonym. Pamięć asocjacyjna wy we
Charakterystyka neuronowych pamięci skojarzeniowych (c.d. 3) • Pojemność pamięci jest to maksymalna liczba wzorców jaką pamięć potrafi zapamiętać i prawidłowo odtworzyć. • Zalecane własności pamięci asocjacyjnych, to: - umiejętność przechowywania i odtwarzania wzorców analogowych, - duża pojemność pamięci, - odporność na zniekształcenia wzorców wejściowych, - tolerowanie zniszczonych połączeń wagowych i neuronów.
Charakterystyka neuronowych pamięci skojarzeniowych (c.d. 4) • Z teorii układów dynamicznych wynika, że układ spełniający równanie: ( ) z zadanym warunkiem początkowym posiada dokładnie jedno rozwiązaniespełniające ten warunek. • Dla sieci asocjacyjnej rozwiązaniem tego równania jesttrajektoria opisująca ewolucję stanów sieci w czasie. • Trajektoria w przypadku układu dynamicznego jakim jest sieć neuronowa - to sekwencjajejstanówgenerowana przez sieć podczas jej ewolucji w czasie.
Charakterystyka neuronowych pamięci skojarzeniowych (c.d. 5) • Wymiar przestrzeni stanu - to liczba neuronów sieci, w której wektor wejściowyjeststanem początkowym, natomiast wektor końcowy trajektorii nazywany jestatraktorem. • Ewolucja sieci w czasie powoduje, że stan sieci dąży do jednego ze swoich atraktorów. Jeżeli atraktor ten jest punktowy i odpowiada jednemu z zapamiętanych wcześniej wzorców to nazywa się go śladempamięciowym, w przeciwnym przypadku atarktorem fałszywym (obcym).
Ewolucyjne metody obliczeniowe • Algorytmy ewolucyjnesą to metody, które swoje działanie opierają na mechanizmach doboru naturalnego oraz prawach dziedziczenia. • Powstały one jako próba naśladowania naturalnych procesów zachodzących w świecie organizmów żywych. • Algorytmy te wykorzystują ewolucyjną zasadę przeżycia osobników najlepiej przystosowanychoraz losową wymianę materiału genetycznego między nimi.
Ewolucyjne metody obliczeniowe (c.d. 1) • Do najbardziej znanych (klasycznych) metod ewolucyjnych należą: - algorytmy genetyczne (ang. genetic algorithms), - strategie ewolucyjne (ang. evolution strategies), - programowanie ewolucyjne (ang. evolutionary programming) - programowanie genetyczne (ang. genetic programming). • Istnieje również wiele systemów hybrydowych, posiadających różne cechy powyższych paradygmatów
Ewolucyjne metody obliczeniowe (c.d. 2) Schemat blokowy programu ewolucyjnego zastosowanego do uczenia pamięci MWAM Start Inicjacjapoczątkowej populacji osobników wag pamięci MWAM Ocena przystosowania Warunek zakończenia TAK NIE Wyprowadzenie najlepszego zbioru wag Selekcja Krzyżowanie Mutacja Koniec
Ewolucyjne metody obliczeniowe (c.d. 3) • Metoda selekcji osobników 1) Turniejowa:Każdą populację dzielimy na grupy dwuosobowe (osobniki: pierwszy <-> ostatni, drugi <-> przedostatni). W każdej parze wybieramy osobnika o wyższej (przy maksymalizacji) wartości funkcji przystosowania. 2) Metodą kołaruletki:Selekcji osobników do nowej populacji dokonuje się poprzezlosowy ich wybór (można wykorzystać tutaj funkcję języka C++ generującą pseudolosowe prawdopodobieństwa).
Ewolucyjne metody obliczeniowe (c.d. 4) • Zastosowane operatory krzyżowania 1)Krzyżowanie arytmetyczne:Liniowa kombinacja dwóch wektorów. x1’ = a • x1 + (1-a) • x2 x2’ = a • x2 + (1-a) • x1 a є [0,1] 2) Krzyżowanie heurystyczne:Tworzy jednego (lub żadnego potomka), w zależności od wartości funkcji przystosowania. FP(x2) ≥ FP(x1) maksymalizacja FP(x2)≤FP(x1) minimalizacja x3 = r • (x2 – x1) + x2 r є [0,1]
Ewolucyjne metody obliczeniowe (c.d. 5) • Zastosowany operator mutacji Mutowany jest każdy gen osobnika z prawdopodobieństwem Pm. if(rand() ≤ 0.5) xk’ = m; else xk’ = -m; Gdzie: m є [0,g]
Multi-Winner Associative Memory Struktura pamięci asocjacyjnej o wielu zwycięzcach
Multi-Winner Associative Memory (c.d. 1) • Kroki oryginalnego algorytmu analitycznego: 1) Proces zapamiętywania. a) Procedura konkurencji Wynik działania: Rozproszona reprezentacja wzorców wejściowych. b) Procedura uczenia sieci. Wynik działania: Optymalne macierze wartości wagowych WIxJxPxQ i VPxQxIxJ. 2) Proces odtwarzania.
Multi-Winner Associative Memory(c.d. 2) Przykład reprezentacji rozproszonej Litera A:Litera B: Gdzie: W - Optymalna macierz wartości wagowych od warstwy dolnej do warstwy górnej W W
Multi-Winner Associative Memory (c.d. 3) Przykład odtwarzania hetero - asocjacyjnego Gdzie: W, V - Optymalne macierze wartości wagowych połączeń sieci MWAM Warstwa wejściowo - wyjściowa Warstwa reprezentacji rozproszonej Warstwa wejściowo - wyjściowa W V
Jakość procesu odtwarzania w pamięci MWAM • Parametry symulacji Architektura pamięci: - Rozmiar warstwy wejściowo – wyjściowej (IxJ): 11x11 - Rozmiar warstwy reprezentacji rozproszonej (PxQ): 8x8 Parametry programu ewolucyjnego: - Liczebność populacji: 20 - Prawdopodobieństwo krzyżowania: 0.75 - Prawdopodobieństwo mutacji: 0.015
Jakość procesu odtwarzania w pamięci MWAM(c.d.1) • Porównanie zbieżności metody analitycznej i ewolucyjnej Błąd kwadratowy dla procesu uczenia połączeń wagowych wiodących do warstwy reprezentacji rozproszonej (W): Błąd kwadratowy dla procesu uczenia połączeń wagowych wiodących do warstwy wejściowo – wyjściowej (V):
Jakość procesu odtwarzania w pamięci MWAM(c.d.2) Zbieżność błędu kwadratowego w procesie uczenia połączeń wagowych (W) wiodących do warstwy górnej: a) oryginalna analityczna metoda uczenia
Jakość procesu odtwarzania w pamięci MWAM (c.d.3) b) ewolucyjna metoda uczenia
Jakość procesu odtwarzania w pamięci MWAM (c.d.4) Zbieżność błędu kwadratowego w procesie uczenia połączeń wagowych (V) wiodących do warstwy dolnej: a) oryginalna analityczna metoda uczenia
Jakość procesu odtwarzania w pamięci MWAM (c.d.5) b) ewolucyjna metoda uczenia
Jakość procesu odtwarzania w pamięci MWAM (c.d.6) • Do porównania jakości procesu odtwarzania w sieci MWAM i oszacowania jej pojemności w zależności od metody uczenia wykorzystano: 1)Współczynnik korelacji:
Jakość procesu odtwarzania w pamięci MWAM (c.d.7) 2)Wartość średniego współczynnika korelacji: 3) Średnia liczba wzorców poprawnie odtworzonych w stosunku do liczby wszystkich wzorców: 4) Szerokość zakresu dziedziny, w której poszukiwano optymalnych zbiorów wag:
Jakość procesu odtwarzania w pamięci MWAM(c.d.8) • Odporność pamięci MWAM na błędy wejściowe 1) Zaszumienie wzorca wejściowego a) szum 5%: b) szum 10%: c) szum 20 % d) szum 30%: e) szum 40 %: f) szum 50 %:
Jakość procesu odtwarzania w pamięci MWAM (c.d.9) Zależność średniego współczynnika korelacji od stopnia zaszumienia wzorców wejściowych i liczby przechowywanych w sieci MWAM śladów pamięciowych, po zastosowaniu oryginalnej analitycznej metody uczenia:
Jakość procesu odtwarzania w pamięci MWAM (c.d.10) Zależność średniego współczynnika korelacji od stopnia zaszumienia wzorców wejściowych i liczby przechowywanych w sieci MWAM śladów pamięciowych, po zastosowaniu ewolucyjnej metody uczenia (dla brzegu g dziedziny wag D=<-g,g> równego 0.2 ):
Jakość procesu odtwarzania w pamięci MWAM (c.d.11) Zależność średniego współczynnika korelacji od stopnia zaszumienia wzorców wejściowych i szerokości zakresu dziedziny wag D (D=<-g,g>), po zastosowaniu ewolucyjnej metody uczenia i zapamiętaniu w niej 15 śladów pamięciowych:
Jakość procesu odtwarzania w pamięci MWAM (c.d.12) Zależność średniej liczby wzorców poprawnie odtworzonych od stopnia zaszumienia wzorców wejściowych i liczby przechowywanych w sieci MWAM śladów pamięciowych, po zastosowaniu oryginalnej analitycznej metody uczenia:
Jakość procesu odtwarzania w pamięci MWAM (c.d.13) Zależność średniej liczby wzorców poprawnie odtworzonych od stopnia zaszumienia wzorców wejściowych i liczby przechowywanych w sieci MWAM śladów pamięciowych po zastosowaniu ewolucyjnej metody uczenia (dla brzegu g dziedziny wag równego g=0.2 ):
Jakość procesu odtwarzania w pamięci MWAM (c.d.14) Zależność średniej liczby wzorców poprawnie odtworzonych od stopnia zaszumienia wzorców wejściowych i szerokości zakresu dziedziny wag D=<-g,g> po zastosowaniu ewolucyjnej metody uczenia i zapamiętaniu w niej 15 śladów pamięciowych:
Jakość procesu odtwarzania w pamięci MWAM (c.d.15) Pojemność pamięci Otrzymane rezultaty pokazały, że o pojemności pamięci MWAM decyduje metoda uczenia połączeń wagowych oraz rozmiary obu warstw tej sieci. Do określenia pojemności wykorzystany został średni współczynnik korelacji i średnia liczba wzorców poprawnie odtworzonych.
Jakość procesu odtwarzania w pamięci MWAM (c.d.16) Zależność średniego współczynnika korelacji od liczby przechowywanych w sieci MWAM śladów pamięciowych oraz zastosowanej metody uczenia tej sieci (dla zakresu dziedziny wag równego: [-0.2,+0.2] dla ewolucyjnej metody uczenia).
Jakość procesu odtwarzania w pamięci MWAM (c.d.17) Zależność średniej liczby wzorców poprawnie odtworzonych od liczby przechowywanych w sieci MWAM śladów pamięciowych oraz zastosowanej metody uczenia tej sieci (dla zakresu dziedziny wag równego: [-0.2,+0.2] dla ewolucyjnej metody uczenia).
Jakość procesu odtwarzania w pamięci MWAM (c.d.18) Podsumowanie • Zaimplementowana przeze mnie metoda ewolucyjna (wykorzystana w procedurze uczenia połączeń wagowych) nie poprawiła parametrów jakościowych heteroasocjacyjnego odtwarzania pamięci MWAM. 2) Dla każdej grupy testów pamięć uczona oryginalnym algorytmem analitycznym odznaczała się lepszymi własnościami, tzn.: - szybciej zbiegała do optymalnego zbioru wag; - uzyskane „rozwiązanie” optymalne było dokładniejsze;
Jakość procesu odtwarzania w pamięci MWAM (c.d.19) - stopień odporności na: zaszumienie i uszkodzenie wzorca wejściowego, uszkodzenie połączeń wagowych od warstwy dolnej do warstwy górnej i zniszczenie neuronów warstwy reprezentacji rozproszonej - był wyższy. 3) Czas potrzebny na znalezienie optymalnego zbioru wagdla algorytmu ewolucyjnego jest nieporównywalnie większy od czasu potrzebnego na uzyskanie zbieżności przez algorytm analityczny. 4) Program ewolucyjny, który zaprojektowałem nie pozwala osiągnąć większej pojemności pamięciodtej uzyskanej za pomocą oryginalnego algorytmu analitycznego.
Jakość procesu odtwarzania w pamięci MWAM (c.d.20) Moim zdaniem pamięci asocjacyjne sieci neuronowych uczone metodami ewolucyjnymi bardziej ukazują swoją „biologiczną naturę”, z której się wywodzą. Tak zaimplementowane systemy pamięciowe mogąewoluować w „naturalny” sposób, co daje im przewagę nad systemami zbudowanymi w oparciu o algorytmy analityczne. Nie zawsze jednak udaje się uzyskać lepsze „parametry” dla sieci uczonej algorytmem ewolucyjnym, ponieważ algorytmy analityczne są ściśle dopasowane do struktury i funkcjonalności sieci, ale dzięki temu są mało elastyczne i posiadają ograniczony zakres zastosowań.
Bibliografia [1] Arabas J.: Algorytmy ewolucyjne: przegląd tematyki. AI-METCH 2000 – Methods of Artificial Intelligence In Mechanics and MechanicalEngineering [2] Borowik B.: Pamięci asocjacyjne. MIKOM, Warszawa 2002 [3] Davey N., Hunt S.P., Adams R.G.: High CapacityRecurrent Associative Memories. Neurocomputing, 2004 [4] Goldberg D. E.: Algorytmy genetyczne i ich zastosowania. WNT, Warszawa 1995 [5] Huang J., Hagiwara M.: A Multi Winner Associative Memory. IEICE Trans. Inf. & Syst., Vol. E82-D, No.7 July 1999
Bibliografia (c.d. 1) [6] Hertz, J., Krogh, A., Palmer, R.G.: Wstęp do teorii obliczeń neuronowych, WNT, Warszawa, 1993 [7] Kosko, B.: Bi-directional associative memories, IEEE Transactions on Systems, Man, and Cybernetics, vol. 18, no.1, pp.49-60, Jan./Feb., 1988 [8] Michalewicz Z., Hinterding R., Michalewicz M.: Evolutionary Algorithms. Chapter 2 [in:] Pedrycz W. (ed.), Fuzzy Evolutionary Computation, Kluwer, 1997 [9] Michalewicz Z., Schoenauer M.: Evolutionary Algorithms for Constrained Parameter Optimization Problems. Evolutionary Computation, Vol.4, No.1,1996, pp.1-32
Bibliografia (c.d. 2) [10] Osowski S.: Sieci neuronowe – w ujęciu algorytmicznym. WNT, Warszawa 1996 [11] Rutkowska D., Piliński M., Rutkowski L.: Sieci neuronowe, algorytmy genetyczne i systemy rozmyte. PWN, Warszawa 1997 [12] Wierzchoń S.T.: Sztuczne systemy immunologiczne. Teoria i zastosowania. Wyd. Exit, Warszawa, 2001
KONIEC Dziękuję za uwagę