230 likes | 400 Views
Inteligencja Obliczeniowa Feature Space Mapping. Wykład 20 Włodzisław Duch Uniwersytet Mikołaja Kopernika. Neuro-fuzzy Feature Space Mapping - motywacje Funkcje transferu. Co było. Systematyka f. transferu Uczenie FSM FSM jako heurystyka Indukcja reguł za pomocą MLP. Co będzie.
E N D
Inteligencja ObliczeniowaFeature Space Mapping. Wykład 20 Włodzisław Duch Uniwersytet Mikołaja Kopernika
Neuro-fuzzy Feature Space Mapping - motywacje Funkcje transferu Co było
Systematyka f. transferu Uczenie FSM FSM jako heurystyka Indukcja reguł za pomocą MLP. Co będzie
Funkcje aktywacji Funkcja transferu f(I(X)) jest złożeniem wektorowej funkcji aktywacji I(X) i skalarnej funkcji wyjściowej neuronu o(I). 1. Aktywacja fan-in, czyli iloczyn skalarny W.X, daje hiperpłaszczyzny. 2. Funkcje odległości - służą za aktywację np. f. Gaussa, ograniczone 3. Mieszane f. aktywacji - najciekawsze kontury
FT z mieszaną aktywnością Funkcje o aktywacji mieszanej: Funkcje stożkowe: między Gaussem a hiperpłaszczyzną Funkcje Lorentzowskie: Sieci optymalizujące kolejne funkcje: konstruktywne - np. korelacji kaskadowej.
FSM - f. trójkątna Symetryczna: położenie, szerokość. Niesymetryczna: położenie, dwie szerokości.
FSM - sieć Inicjalizacja: początkowy krajobraz i relacje topograficzne łącznego prawdop. p(X,Y). Dostrajanie: lokalne uczenie parametrów węzłów by min. błąd opisu. Funkcja FSM dla klasyfikacji: Wiele modułów sieci FSM + decyzje logiczne
FSM - inicjalizacja Algorytm konstruktywistyczny, dobra wstępna inicjalizacja przyspiesza zbieżność. Parametry dla f. zlokalizowanych: położenia, rozmycia. Analiza skupień, np. metoda k-średnich. n(k) - l wektorów w k-tym klastrze. xi(k) - wektory z k-tego klastra. Rozmycia dla funkcji zlokalizowanych Inicjalizacja za pomocą dendrogramów lub histogramów.
Inicjalizacja - denrogramy Stopniowe zmniejszanie rozdzielczości. Wyznacz macierz odległości pomiędzy elementami na podstawie: najbliższych obiektów należącymi do tych skupisk; najdalszych obiektów należących do tych skupisk; średniej z odległości pomiędzy wszystkimi parami obiektów należących do analizowanych skupisk (UPGMA); wariantów UPGMA: odległość między centrami skupisk; odległości ważone przez liczbę elementów.
Inicjalizacja - histogramy Zacznij od analizy w każdym wymiarze osobno. Dla każdego z wymiarów utwórz histogram. Wygładź histogram zakładając zamiast x liczbę Gaussowską lub trójkątną. Analizuj maksima histogramu; utwórz drzewo decyzji. Oblicz odległości między liści; połącz przylegające do siebie. Efekt: wektory w liściach definiują skupienia; po inicjalizacji węzły sieci pokrywają te skupienia.
FSM - uczenie 1. Wybierz funkcje transferu - dla reguł prostokątne, dla klasyfikacji Gaussowskie lub bicentralne. Wybór najlepszej funkcji - pierwsze testy. 2. Inicjalizacja: utwórz kilku węzłów opisujących rozkład wektorów danych z grubsza; zwykle nieźle działa. Dopuszcza się obroty „na sztywno”, tj. funkcje odległości z macierzą obrotu w kierunku najdłuższej osi klastra, dopasowując prostą. 3. Czytaj dane treningowe w losowej kolejności; oceń podobieństwo (stopień przynależności) do istniejących węzłów; dodaj nowy węzeł lub zmodyfikuj istniejące.
Parametry węzłów Do wyliczenia aktywacji potrzebne jest: • Położenie centrum węzła D • Rozmycie s (dla f. niesymetrycznych dwa). Dodatkowe parametry potrzebne w trakcie uczenia: • masa m - l. wektorów klasyfikowanych przez dany węzeł • czas powstania tn, - numer epoki, w której węzeł powstał • klasa, którą węzeł reprezentuje Uczenie: • epoka - prezentowanie ciągu treningowego i adaptacja parametrów • sprawdź jakość działania, jeśli lepsza niż wymagana to: • usuń węzły zbędne i o małej masie • doucz sieć bez dodawania węzłów.
Kiedy poprawiać? Czy X podobny do istniejącego węzła? 1. Sprawdź odległość od istniejących węzłów: równoważne Jeśli S1(X)=1, czyli najbliższy węzeł jest z właściwej klasy, to popraw parametry tego węzła; jeśli nie to: 2. Poszukaj najbliższego węzła z tej samej klasy co Xi Jeśli węzeł ten jest bliżej niż graniczna wartość i wzbudza się dostatecznie silnie to go modyfikuj; jeśli nie to dostaw nowy węzeł.
Optymalizacja węzłów Nowy węzeł ma początkowe parametry: Adaptacja starych węzłów: m=m+1 (m=0 na początku epoki) L, G, K - stałe; próbuje się też zmniejszać rozmycia by uniknąć nakładania się węzłów, zmieniać kąty obrotu itd.
Ocena algorytmu uczenia FSM Wady: Algorytm ad hoc, tak jak Kohonena - z teoretycznego punktu widzenia można sformułować lepsze; Niestabilność sieci: powtarzanie uczenia prowadzi do różnych sieci dających zbliżone wyniki - zastosowanie komitetu sieci zwiększa stabilność. Zalety: algorytm konstruktywistyczny, większość parametrów jest ustalona, nie trzeba ingerować w proces uczenia; dowolne funkcje nieseparowalne, również nieróżniczkowalne; pozwala na interpretację logiczną; działa z wartościami brakującymi.
FSM - reguły 1. Stosuj funkcje prostokątne dla reguł ostrych. 2. Stosuj funkcje trójkątne, trapezoidalne, Gaussowskie i bicentralne dla reguł rozmytych. 3. Powiększaj rozmycia starając się wyeliminować daną cechę. 4. Ustal optymalną liczbę węzłów za pomocą kroswalidacji: FSM może zawsze się nauczyć danych w 100%.
FSM - dopełnianie wzorców 1. Ustal wartość znanych czynników, zwłaszcza tych najbardziej specyficznych (X1, .. Xk); weź i=k+1 i rozpocznij szukanie wartości pierwszego nieznanego czynnika Xi. Obliczaj wartość funkcji FSM zakładając, że pozostałe nieznane czynniki (Xi+1, .. XN) są nieistotne, tj. opuść je przy obliczaniu wartości funkcji (funkcje separowalne!). 2. Zanotuj kolejne wartości V(i,ji)=Xi , ji =1..Ni, dla których funkcja FSM(X1 ... Xi) ma lokalne maximum i FSM(X1 ... Xi) > e. Jeśli nie ma takiej wartości Xi przyjmij i = i-1 (krok wstecz).Jeśli i=k to zakończ szukanie. 3. Rozpocznij pętlę po ji =1..Ni, ustalając Xi =V(i,ji). Jeśli i<N przyjmij i=i+1 i przejdź do 2. 4. Jeśli i=N poszukiwania zakończyły się sukcesem. Zapamiętaj nowy fakt, czyli (X1, .. XN) i ich klasę. W ten sposób znajdziemy kombinację wszystkich cech, która daje lokalne maksimum dla wszystkich zmiennych.
2 Spirale Problem w 2-D. 98 punktów należących do jednej i 98 punktów do drugiej spirali. MLP bardzo trudno jest nauczyć 2 spiral. Gaussy z obrotami. Gaussy bez obrotów. 52 węzły
Pirymidyny Przewidzieć aktywność biologiczną klasy związków chemicznych. Wspólny szablon: R3, R4, R5to miejsca podstawień grup chemicznych o 9 cechach: nazwa związku, polarność, dawca wiązania wodorowego, biorca wiązania wodorowego, dawca pi, biorca pi, polaryzowalność, efekt sigma. W sumie 27 cech; porównywanie aktywności par - 54 cechy. Brak podstawienia - wartości brakujące. 2788 danych, 5xCV Współczynnik Spearmana: d - odległość w rankingu par, n- liczba par. Golem (ILP) 0.68 LDA 0.65 CART 0.50 węzłów FSM (G) 0.770.02 (86) FSM (P) 0.770.03 (41)
FSM jako heurystyka Jakościowo: rośnie, stałe, maleje. Prawo Ohma V=I×R; Kirhoffa V=V1+V2. (I-,V-,R0), (I+,V+,R0)ale nie (I+,V-,R0). 5 praw: 3 Ohma + Kirhoffa + dodawanie R. Wszystkie prawa A=B+C, A-1=B -1+C -1, A=B*C, mają taką samą reprezentację geometryczną! Pytanie: Jeśli R2wzrośnie, R1i Vtstałe, co z prądem i spadkami napięcia V1, V2 ? Ok. 500 iteracji (w naturze 10 ms/iterację), iteracja to 100 aktualizacji.
Heurystyka 1 Funkcja FSM dla całości (5 praw spełnionych jednocześnie): Pytanie: Jeśli R2wzrośnie, R1i V stałe, co z I, V1, V2 ? Znaleźć kombinację by F(V=0, R, I,V1, V2, R1=0, R2=+) >0 Sprawdzić czy zmienna X może przyjąć wartość +, 0, - Nie może jeśli F(V=0, R, I,V1, V2, R1=0, R2=+) =0 Jest 111 kombinacji na 2187 (ok. 5%) Możliwe zastosowania: Rozumowanie w oparciu o reguły; miękka optymalizacja - nie wszystkie warunki spełnione dokładnie => małe |FSM(X)|
Koniec wykładu 20 Dobranoc !