320 likes | 540 Views
Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN. Beata Pawlukiewicz Seminarium Fizyki Wysokich Energii Warszawa 05.10.2007. Plan seminarium: Eksperymenty SMC i COMPASS Detekcja procesów fuzji fotonowo-gluonowej
E N D
Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN Beata Pawlukiewicz Seminarium Fizyki Wysokich Energii Warszawa 05.10.2007 • Plan seminarium: • Eksperymenty SMC i COMPASS • Detekcja procesów fuzji fotonowo-gluonowej • Wyniki analiz SMC/COMPASS, w których użyto sieci neuronowych • Sieci neuronowe • Budowa sieci • Trening sieci • Przykład klasyfikacji w doświadczeniach SMC i COMPASS • Przykład aproksymacji w doświadczeniu COMPASS
slajdy z prezentacji G. Brony, 08.06.07 B. Pawlukiewicz
z Monte-Carlo B. Pawlukiewicz
z Monte-Carlo G/G w kanale mezonów powabnych slajdy z prezentacji G. Brony, 08.06.07 B. Pawlukiewicz
Wyniki otrzymane przy użyciu sieci neuronowych SMC, high pT (Q2>1 GeV2), 1993-1996 Phys.Rev.D70:012002,2004 COMPASS w kanale mezonów powabnych, 2000-2004 praca doktorska G. Brona B. Pawlukiewicz
Sieci neuronowe – co to jest? B. Pawlukiewicz
w1 w2 S w3 NEURON http://www.mindcreators.com/NeuronBasics.htm Sztucznesiecineuronowe • Uproszczony model mózgu - zespół powiązanych ze sobą komórek równolegle przetwarzających informacje • Neuron: • oblicza sumę ważoną sygnałów wejściowych • zwraca odpowiedź w postaci pojedynczego sygnału • przesyła odpowiedź do kolejnych elementów • Neurony tworzą warstwy B. Pawlukiewicz
nieliniowy liczby funkcja aktywacji E Q2 y f(S) wektor wejściowy Pojedynczy neuron liniowy wektor wag 1 w1 x1 w0 x2 w2 y S wn xn odpowiedź neuronu pobudzenie neuronu B. Pawlukiewicz
f() Nieliniowe funkcje aktywacji • dyskretne (signum, skok jednostkowy...) • ciągłe: każda funkcja ograniczona, monotoniczna, niewielomianowa • sigmoidalna (prosta postać pochodnej!) B. Pawlukiewicz
x1 w0 w1 w2 x2 y S wn xn f() Neuron dyskretny • pobudzenie neuronu • odpowiedź sieci y = • (n-1)-wymiarowa hiperpłaszczyzna • dzieli przestrzeń na dwie podprzestrzenie B. Pawlukiewicz
W0 1 Znaczenie dodatkowej wagineuron dyskretny x1 w1 . y S w2 x2 x2 . . . . . c=0 . . c=1.5 . . . . . x1 . . . . . B. Pawlukiewicz
1 1 1 w10 x1 w11 f(S) S wji w1n f(S) S f(S) y S f(S) S f(S) S xn f(S) S warstwa wyjściowa warstwy ukryte warstwa wejściowa Wielowarstwowa sieć neuronów nieliniowych MLP (multi-layer perceptron) B. Pawlukiewicz
Dowolny podział przestrzeni przy użyciu neuronów dyskretnych http://nc25.troja.mff.cuni.cz/~soustruznik/talks.html B. Pawlukiewicz
Trening sieci neuronowej • z nauczycielem – znamy pożądaną odpowiedź sieci dla danych wejściowych (np. z symulacji Monte Carlo) • cel uczenia: otrzymanie prawidłowych odpowiedzi dla zbioru, który nie był wykorzystywany w procesie uczenia (GENERALIZACJA) • metoda: minimalizacja różnicy pomiędzy oczekiwanymi a otrzymanymi odpowiedziami sieci za pomocą iteracyjnego procesu adaptacji wag B. Pawlukiewicz
Trening sieci z nauczycielem.Pierwsze kroki. • przygotowanie danych wejściowych • ustalona architektura sieci • losowanie początkowych wag w B. Pawlukiewicz
Przygotowanie danych wejściowych f’() • podział wektorów wejściowych i pożądanych odpowiedzi na podzbiory: uczący i testowy • przygotowanie danych: • przeskalowanie do takiego zakresu, żeby wypadkowe pobudzenie neuronu pokrywało się z zakresem, w którym pochodna funkcji aktywacji jest istotnie różna od zera • eliminacja zbędnych zmiennych • wygładzenie rozkładów szybkozmiennych B. Pawlukiewicz
Trening sieci z nauczycielem algorytm rozbudowy miara błędu sieci: poprawa architektury tak Q spełnia „STOP”? tak nie KONIEC nie poprawa wag B. Pawlukiewicz
Warunek zatrzymania uczenia błąd sieci zbiór testowy zbiór uczący liczba iteracji • wagi stają się stabilne • błąd sieci dla zbioru uczącego przestaje maleć • błąd sieci dla zbioru testowego zaczyna rosnąć • w dobrych warunkach statystycznych => oba błędy przestają maleć en.wikipedia.org B. Pawlukiewicz
Minimalizacja funkcji błędu • szukamy takiego wektora w, dla którego Q(w) osiąga globalne minimum • używamy metod gradientowych • zmiana j-tej wagi w kroku (i+1) proporcjonalna do składowej gradientu: błąd j-tego neuronu z warstwy wyjściowej: a błąd neuronu z warstwy ukrytej? B. Pawlukiewicz
1 1 1 x1 f(S) suma po wszystkich wyjściach neuronu ukrytego f(S) f(S) y f(S) f(S) xn f(S) idea: błąd propaguje się od warstwy ostatniej do pierwszej wystarczy wiedza o gradiencie dla warstwy późniejszej Algorytm wstecznej propagacji błędu błądm-tegoneuronu warstwy ukrytej: B. Pawlukiewicz
Przykładowa powierzchnia błędu prezentacja R. Suleja, seminarium IPJ, 2005 B. Pawlukiewicz
Szukanie minimum globalnego funkcji błędu – rożne algorytmy gradientowe prezentacja R. Suleja, seminarium IPJ, 2005 B. Pawlukiewicz
Wady i zalety sieci neuronowej Zalety: • pozwala rozwiązywać problemy bez znajomości analitycznej zależności między danymi wejściowymi a oczekiwanymi wyjściami • skuteczna w rozwiązywaniu problemów nieseparowalnych • zdolność generalizacji • różnorodność zastosowań: • rozpoznawanie pisma, mowy, analizy finansowe rynku... Wady: • brak dowodów zbiegania do globalnego minimum metodami gradientowymi • kłopotliwe dla niedoświadczonego użytkownika, jeśli sam ustala algorytm, parametry algorytmu oraz architekturę sieci • niebezpieczeństwo przetrenowania lub niedouczenia sieci B. Pawlukiewicz
Sieci użyte w analizie problemów fizycznych sieci ze względu na funkcję aktywacji liniowe nieliniowe dyskretne ciągłe sieci nieliniowe ze względu na architekturę http://www.ire.pw.edu.pl/~rsulej/NetMaker/ jednokierunkowe rekurencyjne wielowarstwowe jednowarstwowe uczenie ze względu na rodzaj uczenia z nauczycielem bez nauczyciela z krytykiem B. Pawlukiewicz
Zadanie klasyfikacji typowe zadanie klasyfikacji: odseparowanie sygnału od tła • zadanie realizuje sieć: • dwie warstwy ukryte + wyjściowa • sigmoidalna fakt neuronu wyjściowego jakość nauki określają dwa współczynniki: trafność (purityr) i sprawność (efficiencyh) B. Pawlukiewicz
Selekcja przypadków PGFpara hadronów z dużym pT, dane SMC krzywa ciągła – sygnał krzywe przerywane - tło praca doktorska K. Kowalik, IPJ B. Pawlukiewicz
Selekcja przypadków PGFpara hadronów z dużym pT, dane SMC Phys.Rev.D70:012002,2004 B. Pawlukiewicz
Selekcja przypadków PGFpara hadronów z dużym pT, dane COMPASS-owe Meas. Sci. Technol., Vol. 18 (2007) B. Pawlukiewicz
aproksymacja nieznanej zależności między zmiennymi wejściowymi a pożądanymi odpowiedziami • zadanie realizuje sieć: • dwie warstwy ukryte + wyjściowa • liniowa fakt neuronu wyjściowego Zadanie aproksymacji jakość aproksymacji określa współczynnik korelacji: B. Pawlukiewicz
Zadanie aproksymacji allkanał mezonów powabnych, COMPASS RNN = 0.82 DIS 2006, COMPASS, G. Mallot B. Pawlukiewicz
Podsumowanie • sieci zostały użyte do zadań detekcji sygnału i estymacji nieznanej funkcji • użyto sieci typu MLP trenowanych z nauczycielem • w obu zastosowaniach wyniki sieci okazały się nieznacznie • lepsze od wyników otrzymanych metodami tradycyjnymi • analiza danych COMPASS-a z użyciem sieci (m.in. separacja PGF w kanale D0 od tła) w toku. B. Pawlukiewicz
Serdecznie dziękuję R. Sulejowi i prof. B. Badełek za pomoc w przygotowaniu tego seminarium B. Pawlukiewicz