Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN

Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN Beata Pawlukiewicz Seminarium Fizyki Wysokich Energii Warszawa 05.10.2007 • Plan seminarium: • Eksperymenty SMC i COMPASS • Detekcja procesów fuzji fotonowo-gluonowej • Wyniki analiz SMC/COMPASS, w których użyto sieci neuronowych • Sieci neuronowe • Budowa sieci • Trening sieci • Przykład klasyfikacji w doświadczeniach SMC i COMPASS • Przykład aproksymacji w doświadczeniu COMPASS

slajdy z prezentacji G. Brony, 08.06.07 B. Pawlukiewicz

z Monte-Carlo B. Pawlukiewicz

z Monte-Carlo G/G w kanale mezonów powabnych slajdy z prezentacji G. Brony, 08.06.07 B. Pawlukiewicz

Wyniki otrzymane przy użyciu sieci neuronowych SMC, high pT (Q2>1 GeV2), 1993-1996 Phys.Rev.D70:012002,2004 COMPASS w kanale mezonów powabnych, 2000-2004 praca doktorska G. Brona B. Pawlukiewicz

Sieci neuronowe – co to jest? B. Pawlukiewicz

w1 w2 S w3 NEURON http://www.mindcreators.com/NeuronBasics.htm Sztucznesiecineuronowe • Uproszczony model mózgu - zespół powiązanych ze sobą komórek równolegle przetwarzających informacje • Neuron: • oblicza sumę ważoną sygnałów wejściowych • zwraca odpowiedź w postaci pojedynczego sygnału • przesyła odpowiedź do kolejnych elementów • Neurony tworzą warstwy B. Pawlukiewicz

nieliniowy liczby funkcja aktywacji E Q2   y f(S) wektor wejściowy Pojedynczy neuron liniowy wektor wag 1 w1 x1 w0 x2 w2 y S wn xn odpowiedź neuronu pobudzenie neuronu B. Pawlukiewicz

f()  Nieliniowe funkcje aktywacji • dyskretne (signum, skok jednostkowy...) • ciągłe: każda funkcja ograniczona, monotoniczna, niewielomianowa • sigmoidalna (prosta postać pochodnej!) B. Pawlukiewicz

x1 w0 w1 w2 x2 y S wn xn f()  Neuron dyskretny • pobudzenie neuronu • odpowiedź sieci y = • (n-1)-wymiarowa hiperpłaszczyzna • dzieli przestrzeń na dwie podprzestrzenie B. Pawlukiewicz

W0 1 Znaczenie dodatkowej wagineuron dyskretny x1 w1 . y S w2 x2 x2 . . . . . c=0 . . c=1.5 . . . . . x1 . . . . . B. Pawlukiewicz

1 1 1 w10 x1 w11 f(S) S wji w1n f(S) S f(S) y S f(S) S f(S) S xn f(S) S warstwa wyjściowa warstwy ukryte warstwa wejściowa Wielowarstwowa sieć neuronów nieliniowych MLP (multi-layer perceptron) B. Pawlukiewicz

Dowolny podział przestrzeni przy użyciu neuronów dyskretnych http://nc25.troja.mff.cuni.cz/~soustruznik/talks.html B. Pawlukiewicz

Trening sieci neuronowej • z nauczycielem – znamy pożądaną odpowiedź sieci dla danych wejściowych (np. z symulacji Monte Carlo) • cel uczenia: otrzymanie prawidłowych odpowiedzi dla zbioru, który nie był wykorzystywany w procesie uczenia (GENERALIZACJA) • metoda: minimalizacja różnicy pomiędzy oczekiwanymi a otrzymanymi odpowiedziami sieci za pomocą iteracyjnego procesu adaptacji wag B. Pawlukiewicz

Trening sieci z nauczycielem.Pierwsze kroki. • przygotowanie danych wejściowych • ustalona architektura sieci • losowanie początkowych wag w B. Pawlukiewicz

Przygotowanie danych wejściowych f’()  • podział wektorów wejściowych i pożądanych odpowiedzi na podzbiory: uczący i testowy • przygotowanie danych: • przeskalowanie do takiego zakresu, żeby wypadkowe pobudzenie neuronu pokrywało się z zakresem, w którym pochodna funkcji aktywacji jest istotnie różna od zera • eliminacja zbędnych zmiennych • wygładzenie rozkładów szybkozmiennych B. Pawlukiewicz

Trening sieci z nauczycielem algorytm rozbudowy miara błędu sieci: poprawa architektury tak Q spełnia „STOP”? tak nie KONIEC nie poprawa wag B. Pawlukiewicz

Warunek zatrzymania uczenia błąd sieci zbiór testowy zbiór uczący liczba iteracji • wagi stają się stabilne • błąd sieci dla zbioru uczącego przestaje maleć • błąd sieci dla zbioru testowego zaczyna rosnąć • w dobrych warunkach statystycznych => oba błędy przestają maleć en.wikipedia.org B. Pawlukiewicz

Minimalizacja funkcji błędu • szukamy takiego wektora w, dla którego Q(w) osiąga globalne minimum • używamy metod gradientowych • zmiana j-tej wagi w kroku (i+1) proporcjonalna do składowej gradientu: błąd j-tego neuronu z warstwy wyjściowej: a błąd neuronu z warstwy ukrytej? B. Pawlukiewicz

1 1 1 x1 f(S) suma po wszystkich wyjściach neuronu ukrytego f(S) f(S) y f(S) f(S) xn f(S) idea: błąd propaguje się od warstwy ostatniej do pierwszej wystarczy wiedza o gradiencie dla warstwy późniejszej Algorytm wstecznej propagacji błędu błądm-tegoneuronu warstwy ukrytej: B. Pawlukiewicz

Przykładowa powierzchnia błędu prezentacja R. Suleja, seminarium IPJ, 2005 B. Pawlukiewicz

Szukanie minimum globalnego funkcji błędu – rożne algorytmy gradientowe prezentacja R. Suleja, seminarium IPJ, 2005 B. Pawlukiewicz

Wady i zalety sieci neuronowej Zalety: • pozwala rozwiązywać problemy bez znajomości analitycznej zależności między danymi wejściowymi a oczekiwanymi wyjściami • skuteczna w rozwiązywaniu problemów nieseparowalnych • zdolność generalizacji • różnorodność zastosowań: • rozpoznawanie pisma, mowy, analizy finansowe rynku... Wady: • brak dowodów zbiegania do globalnego minimum metodami gradientowymi • kłopotliwe dla niedoświadczonego użytkownika, jeśli sam ustala algorytm, parametry algorytmu oraz architekturę sieci • niebezpieczeństwo przetrenowania lub niedouczenia sieci B. Pawlukiewicz

Sieci użyte w analizie problemów fizycznych sieci ze względu na funkcję aktywacji liniowe nieliniowe dyskretne ciągłe sieci nieliniowe ze względu na architekturę http://www.ire.pw.edu.pl/~rsulej/NetMaker/ jednokierunkowe rekurencyjne wielowarstwowe jednowarstwowe uczenie ze względu na rodzaj uczenia z nauczycielem bez nauczyciela z krytykiem B. Pawlukiewicz

Zadanie klasyfikacji typowe zadanie klasyfikacji: odseparowanie sygnału od tła • zadanie realizuje sieć: • dwie warstwy ukryte + wyjściowa • sigmoidalna fakt neuronu wyjściowego jakość nauki określają dwa współczynniki: trafność (purityr) i sprawność (efficiencyh) B. Pawlukiewicz

Selekcja przypadków PGFpara hadronów z dużym pT, dane SMC krzywa ciągła – sygnał krzywe przerywane - tło praca doktorska K. Kowalik, IPJ B. Pawlukiewicz

Selekcja przypadków PGFpara hadronów z dużym pT, dane SMC Phys.Rev.D70:012002,2004 B. Pawlukiewicz

Selekcja przypadków PGFpara hadronów z dużym pT, dane COMPASS-owe Meas. Sci. Technol., Vol. 18 (2007) B. Pawlukiewicz

aproksymacja nieznanej zależności między zmiennymi wejściowymi a pożądanymi odpowiedziami • zadanie realizuje sieć: • dwie warstwy ukryte + wyjściowa • liniowa fakt neuronu wyjściowego Zadanie aproksymacji jakość aproksymacji określa współczynnik korelacji: B. Pawlukiewicz

Zadanie aproksymacji allkanał mezonów powabnych, COMPASS RNN = 0.82 DIS 2006, COMPASS, G. Mallot B. Pawlukiewicz

Podsumowanie • sieci zostały użyte do zadań detekcji sygnału i estymacji nieznanej funkcji • użyto sieci typu MLP trenowanych z nauczycielem • w obu zastosowaniach wyniki sieci okazały się nieznacznie • lepsze od wyników otrzymanych metodami tradycyjnymi • analiza danych COMPASS-a z użyciem sieci (m.in. separacja PGF w kanale D0 od tła) w toku. B. Pawlukiewicz

Serdecznie dziękuję R. Sulejowi i prof. B. Badełek za pomoc w przygotowaniu tego seminarium  B. Pawlukiewicz

Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN

Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN

Presentation Transcript

SIECI NEURONOWE

Aktualny stan ekologicznej sieci obszarów Natura 2000 w województwie pomorskim

Klonowanie

Teilchenphysik: Stand und Perspektiven

Next Generation GoldenGate (12c) vs. Streams for Physics Data

Bezpieczeństwo sieci i odtwarzanie po awarii

Due to the importance of these developments an RD 51collaboration was formed a CERN

Scientific Computing at LEP

The LCG Software and the ROOT Framework

LHC Computing Grid Project – LCG Ian Bird – LCG Deployment Manager IT Department, CERN

UCZEŃ MAX VON LAUE W POZNANIU

PC Farms at CERN

ALICE Offline Tutorial

Wydział Informatyki PS

Co łączy te rzeczy?

formalnie: Zastosowanie sieci neuronowych do wspomagania decyzji biznesowych

V. Chohan CERN

The running CERN axion helioscope CAST

experiment NA58

Ewaluacja sieci Regionalnych O ś rodków EFS – I Faza badania

Urządzenia Lokalnych Sieci Komputerowych

Preliminary Results of (n,f) Measurements at CERN n_TOF with FIC0 and FIC1 Detectors