280 likes | 433 Views
Generowanie ciągów uczących w oparciu o metryczne własności przestrzeni wzorców w sieciach MLP. Cezary Dendek prof. nzw. dr hab. Jacek Mańdziuk. Agenda. Intuicje dotyczące uporządkowania wzorców uczących. Agenda. Intuicje dotyczące uporządkowania wzorców uczących
E N D
Generowanie ciągów uczących w oparciu o metryczne własności przestrzeni wzorców w sieciach MLP Cezary Dendek prof. nzw. dr hab. Jacek Mańdziuk
Agenda • Intuicje dotyczące uporządkowania wzorców uczących
Agenda • Intuicje dotyczące uporządkowania wzorców uczących • Reguła tworzenia ciągów uczących
Agenda • Intuicje dotyczące uporządkowania wzorców uczących • Reguła tworzenia ciągów uczących • Przykłady uporządkowań
Agenda • Intuicje dotyczące uporządkowania wzorców uczących • Reguła tworzenia ciągów uczących • Przykłady uporządkowań • Wyniki
Agenda • Intuicje dotyczące uporządkowania wzorców uczących • Reguła tworzenia ciągów uczących • Przykłady uporządkowań • Wyniki • Dalsze prace
Intuicje • Uporządkowanie losowe • Bardzo łatwe do osiągnięcia,pokazało swoją skuteczność • Związek z metodami Monte Carlo(jednostajny rozkład próbek w przestrzeni) • Nie przekazuje dodatkowej (często znanej) informacji o przestrzeni wzorców
Intuicje • Propozycja: uporządkowanie Distant-First • Hipoteza:Uwzględnienie w uczeniu odległych od siebie wzorców (w sensie metryki specyficznej dla przestrzeni) może poprawić generalizację • Uporządkowanie takie przenosi informację o topologii przestrzeni
Reguła tworzenia ciągów uczących • n elementowa sekwencja ucząca {S} indeksowana {1, … n} spełniająca (w przybliżeniu) własność Dla każdego indeksu n>k>1 Średnia odległość w zbiorze{S1...Sk}≥Średnia odległość w zbiorze{Sk+1...Sn } • Przybliżone spełnianie własności – nierówność spełniana z dużym p-stwem(problem w domenie statystycznej)
Metryka przestrzeni wzorców • Metryki (zależne od problemu) zdefiniowane na • przestrzeniwejściowej wzorca (dX) • przestrzeni wyjściowej(dY) są normalizowane poprzez E(dX) oraz E(dY) • Metryka zdefiniowana na przestrzeni wzorców łączy metryki obu podprzestrzeni
Algorytmy porządkowania zbioru Sortowanie odległości (DS) • dla każdego wzorca oblicz sumę odległości od innych elementów • posortuj elementy zgodnie z obliczoną wartością
Algorytmy porządkowania zbioru Sortowanie odległości z usuwaniem wzorców (DSR) • dla każdego pozostałego do uporządkowania wzorca oblicz sumę odległości od pozostałych elementów • wybierz element o największej wartości sumy i przenieś go na początek sekwencji • jeśli pozostały jakieś elementy 1
Przykłady uporządkowania • Tendencja koncentracji jednego z końców na geometrycznym centrum przestrzeni
Przykłady uporządkowania • Tendencja koncentracji na ekstremach gęstości p-stwa
Przykłady uporządkowania • Przykład wieloklastrowy
Przykłady uporządkowania • Porządek sekwencjiw problemie aproksymacji funkcji • Jednostajny rozkład wzorców w X
Przykłady uporządkowania • Porządek sekwencjiw problemie aproksymacji funkcji • Niejednostajny rozkład wzorców w X
Przeplatanie sekwencji uczących • Bezpośrednie zastosowanie uporządkowanej sekwencji uczącej może byćnieefektywneze względu na złamanie ciągłościreguływ chwili łączenia sekwencji (po ostatnim elemencie) • Propozycja: losowe przeplatanie sekwencji uporządkowanej sekwencją losową, zgodnie z wybranym modelem p-stwa
Przeplatanie sekwencji uczących • Zaproponowany model p-stwa • p – p-stwo początkowe • η – współczynnik redukcji p-stwa • t – numer epoki
Wyniki • Problem testowy: rozpoznawanie izolowanych odręcznie pisanych cyfr • Architektura sieci i parametry procesu: • MLP • Warstwa ukryta zawierająca 30 neuronów • 600 epok uczących alg. propagacji wstecznej
Wyniki • Testowane sekwencje • DS oraz jego odwrotność • DSR oraz jego odwrotność • Hipoteza zerowa • Parametry procesu • p = 1.0 • η wybrane tak, aby P600 = 0.03 • Każda populacja o liczności 100 (wagi inicjowane losowo)
Wyniki. • Hipoteza zerowa • „przedstawiony algorytm nie poprawia skuteczności uczenia” • reprezentowana przez procesy: • z jedną losową sekwencją uczącą • z dwiema różnymi sekwencjami z przeplotem
Wyniki • Istotna różnica wrozkładzie RMSE w populacjach otrzymywanychw procesach • z przeplotem2 sekwencji losowych • z przeplotem sekwencji uporządkowanej sekwencją losową • z 1 sekwencją losową • średnie RMSE wyższe w procesach z sekwencjami losowymi • średnie RMSE najwyższe w procesach z 1 sekwencją losową • Najefektywniejsze klasyfikatory uzyskane w wyniku uczenia sekwencjami uporządkowanymi z przeplotem
Wyniki • Względna różnicaRMSE dla procesu z sekwencją losową i sekwencją uporządkowaną przeplataną losową • Strona dodatnia wykresu: proces z sekwencją uporządkowaną
Dalsze prace • Wyjaśnienie zaobserwowanego zjawiskaHipotezy: • Większa zdolność do opuszczania lokalnych minimów (ograniczenie efektu znoszenia się zmian) • W czasie pełnej prezentacji ciągu uczącego sieć „przeszukuje” większy fragment przestrzeni wag
Dalsze prace • Problemy do rozwiązania: • usunięcie nieciągłości reguły przy sklejaniu sekwencjidroga: ekstrakcja najważniejszych własności z bieżącego modelu • zmniejszenie kosztu porządkowania sekwencjidroga: lokalizacja (w sensie elementów sekwencji) procesu porządkowania. Porządkowanie w trakcie uczenia
Dalsze prace • Generalna własność:średnia odległość kolejnych 2 elementów ciągu uporządkowanego wyższa od średniej odległości w zbiorze wzorców • Jej lokalne spełnienie w trakcie uczenia • Adaptacja do bieżącego elementu • Adaptacja do bieżącego stanu sieci
Dziękuję za uwagę Pytania? Wnioski? Pomysły?