1 / 23

Optymalizacja miary efektywności/kryterium jakości

Dodatek 2 do Wykładu 8. Optymalizacja miary efektywności/kryterium jakości. Optymalizacja miary efektywności/kryterium jakości. Przypomnienie z metod poszukiwania optimum. Rozważamy funkcjona ł :.

vilina
Download Presentation

Optymalizacja miary efektywności/kryterium jakości

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Dodatek 2 do Wykładu 8 Optymalizacja miary efektywności/kryterium jakości

  2. Optymalizacja miary efektywności/kryterium jakości Przypomnienie z metod poszukiwania optimum Rozważamy funkcjonał: Poznaliśmy możliwe podejścia do określania właściwości funkcjonałów jako miar efektywności działania sieci neuronowych związane z ich ekstremami (optimami) Omówimy wybrane metody poszukiwania tych optimów, czyli w przypadku sieci neuronowych – poszukiwaniu wartości wag i progów, które minimalizują błąd działania sieci neuronowej w procesie jej uczenia

  3. 1. proces poszukiwania rozpoczynamy w pewnym punkcie gdzie, wektor określa kierunek poszukiwania, a dodatni skalar określa długość kroku wykonywanego w kierunku Przypomnienie z metod poszukiwania optimum Dla znalezienia minimum funkcjonału będziemy korzystali z metod iteracyjnych Postępowanie w metodach iteracyjnych można streścić w następujących punktach: 2. poruszamy się od punktu do punktu zgodnie z ogólną formułą  lub

  4. 1. metody poszukiwania bezpośredniego – do poszukiwania optimum wykorzystuje się tylko znajomość wartości funkcjonału w określonych punktach 2. metody pierwszego rzędu (gradientowe) – do poszukiwania optimum wykorzystuje się znajomość wartości pierwszych pochodnych funkcjonału w określonych punktach (wartości gradientu) 3. metody drugiego rzędu – do poszukiwania optimum wykorzystuje się oprócz znajomości wartości pierwszych pochodnych funkcjonału w określonych punktach (wartości gradientu), również wartości drugich pochodnych (wartości hessianu) tego funkcjonału w tych punktach Przypomnienie z metod poszukiwania optimum Ogólny podział metod poszukiwania optimum:

  5. Przypomnienie z metod poszukiwania optimum Metoda gradientowa – najszybszego spadku Wykorzystując () w zbliżaniu się do punktu optimum (minimum), chcielibyśmy Korzystając z rozwinięcia funkcjonału w szereg Taylor’a w otoczeniu punktu bieżącego dla wystarczająco małego otoczenia tego punktu możemy napisać  Załóżmy, że posiadamy oszacowanie gradientu funkcjonału w punkcie bieżącym

  6. Przypomnienie z metod poszukiwania optimum Jeżeli ma zachodzić to ma mocy musi zachodzić a to implikuje  bo

  7. Przypomnienie z metod poszukiwania optimum Kierunek spadku Dowolny wektor spełniający warunek () nazywamy jest kierunkiem spadku – wartość funkcjonału zmniejszy się jeżeli wykonany zostanie wystarczająco mały krok w tym kierunku

  8. W jaki sposób określić wyznaczający, przy znanym gradiencie długość kroku przemieszczenia - w sieciach neuronowych, ten współczynnik nazywany jest współczynnikiem szybkości uczenia? Przypomnienie z metod poszukiwania optimum Kierunek najszybszego spadku Przemieszczając się od punktu do punktu w kierunkach najszybszego spadku postępujemy według metody najszybszego spadku

  9. 1. wykonać krok o takiej długości, aby w kierunku wskazanym przez gradient w punkcie osiągnąć optimum (minimum) funkcjonału - minimalizacja w kierunku 2. wybrać stałą wartość wykonywać kolejne kroki przemieszczenia z tą samą wartością lub określić regułę zmian wartości w zależności od numeru kroku stosować w kolejnych krokach zmienną, ale uprzednio określoną wartość Przypomnienie z metod poszukiwania optimum Długość kroku w kierunku gradientu

  10. Współczynnik szybkości uczenia Przypomnienie z metod poszukiwania optimum Przykład 1: Punkt początkowy Wartość gradientu w punkcie początkowym

  11. Przypomnienie z metod poszukiwania optimum Przemieszczenie do punktu Przemieszczenie do punktu itd. Kryterium zatrzymania – dla uczenia sieci neuronowych – odległość bieżącej wartości funkcjonału od wartości minimalnej - zera

  12. Przypomnienie z metod poszukiwania optimum Ilustracja graficzna: Przemieszczenia ortogonalne do linii stałej wartości funkcjonału

  13. Współczynnik szybkości uczenia Przypomnienie z metod poszukiwania optimum Przykład 2: Punkt początkowy Wartość gradientu w punkcie początkowym

  14. Przypomnienie z metod poszukiwania optimum Przemieszczenie do punktu Przemieszczenie do punktu itd.

  15. Przypomnienie z metod poszukiwania optimum Ilustracja graficzna:

  16. Współczynnik szybkości uczenia Przypomnienie z metod poszukiwania optimum Przykład 1: (wpływ wartości współczynnika szybkości uczenia na przebieg minimalizacji Trajektoria poszukiwania minimum ma oscylacyjny charakter – zbyt duża wartość współczynnika szybkości uczenia może prowadzić do niestabilności procesu minimalizacji – niestabilności procesu uczenia

  17. Przypomnienie z metod poszukiwania optimum Stabilność procesu minimalizacji Załóżmy, że miara efektywności działania sieci neuronowej jest formą kwadratową Zatem gradient miary efektywności działania s.s.n. dany jest Podstawiając wyrażenie na gradient do formuły przemieszczania się w punktu do punktu w metodzie najszybszego spadku i przyjmując stałą wartość współczynnika szybkości uczenia, otrzymamy Liniowy dyskretny system dynamiczny

  18. Przypomnienie z metod poszukiwania optimum Stabilność procesu minimalizacji Liniowy dyskretny system dynamiczny będzie stabilny, wtedy i tylko wtedy, gdy wszystkie wartości własne jego macierzy stanu są co do modułu mniejsze od jedności Macierz stanu Hessian formy kwadratowej Niech i będą wartościami i wektorami własnymi hessianu formy kwadratowej Zachodzi zatem:

  19. Przypomnienie z metod poszukiwania optimum Policzmy zatem wektory własne hessianu są również wektorami własnymi macierzy stanu a wartości własne macierzy stanu wynoszą Warunek stabilności metody najszybszego spadku Jeżeli założyć, że forma kwadratowa ma silne minimum, to wszystkie wartości własne hessianu są dodatnie i wówczas warunek stabilności

  20. Przypomnienie z metod poszukiwania optimum Ostatecznie lub Największy stabilny współczynnik szybkości uczenia jest odwrotnie proporcjonalny do największej krzywizny formy kwadratowej Krzywizna określa jak szybko zmienia się gradient – jeżeli gradient zmienia się szybko, zbyt długi krok w kierunku ostatnio wyznaczonego gradientu może przemieścić poszukiwania do punktu w którym gradient ma wartość większą co do modułu od ostatnio wyznaczonego ale przeciwny znak, a to prowadzi do powiększania długości kroku z iteracji na iterację, czyli niestabilności algorytmu

  21. Przypomnienie z metod poszukiwania optimum Przykład 2: Punkt początkowy Dla rozważanej formy kwadratowej

  22. Przypomnienie z metod poszukiwania optimum

  23. Przypomnienie z metod poszukiwania optimum

More Related