1 / 27

Jak znaleźć igłę w stogu siana

Jak znaleźć igłę w stogu siana. Rola obliczeń komputerowych w eksperymentach fizyki wysokich energii Krzysztof Korcyl na bazie wykładu Piotr a Golonk i CERN EN/ICE-SCD. Użytkowanie i kopiowanie dozwolone na warunkach Licencji CC-BY (Creative Commons Attribution). Plan.

adanne
Download Presentation

Jak znaleźć igłę w stogu siana

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Jak znaleźć igłę w stogu siana Rolaobliczeńkomputerowychw eksperymentachfizykiwysokichenergii Krzysztof Korcyl na bazie wykładu PiotraGolonki CERN EN/ICE-SCD Użytkowanie i kopiowanie dozwolone na warunkach Licencji CC-BY(Creative Commons Attribution)

  2. Plan Co jest igłą a co stogiemsiana ... międzyteorią a doświadczeniem Seriazłożonychproblemów Zbieraniedanych Opracowywaniedanych Analizadanych Technologie Klastry, GRID

  3. Co jest stogiem siana? - LHC Genewa protony protony 4 + 4 TeV = 8 · 1012 eV

  4. Co jest stogiem siana? ... i detektory Interesujące oddziaływania proton-proton LHC Eksperyment

  5. Co jest igłą ? Większość zderzeń to zwykłe, dobrze znane oddziaływania. Te interesujące które niosą informacje o nieznanych zjawiskach są bardzo rzadkie. Typowo 1 przypadek na 100 mln! Jak „zauważyć” taki przypadek w aparaturze i zapisać go na taśmę gdy mamy tak duży strumień danych ≡ tak mało czasu na analizę „on-line”?

  6. Czego szukamy w eksperymentach? Przykład: eksperyment LHCb Łamanie CP w układzie mezonów pięknych (B) Zjawiska rzadkie ~ 10-4 – 10-8 Pozostałe eksperymenty na LHC mają swoje zestawy „igieł” • Cząstka Higgsa (ATLAS, CMS) • Supersymetria (ATLAS, CMS) • Plazma kwarkowo-gluonowa (ALICE) • ...

  7. Przykład: rekonstrukcja śladów cząstek Symulacja komputerowa danych z 1 przypadku w detektorze wewnętrznym eksperymentu ATLAS Zagadka: znajdź 4 proste ślady

  8. Przykład: rekonstrukcja śladów cząstek Rozpad cząstki Higgsa na 4 miony: H → 4μ

  9. Analiza danych: co zobaczy Fizyk: Cząstki Higgsa (?) o masie ~125 GeV Masa inwariantna 4 leptonów [GeV] Tło od innych rozpadów dających 4 miony

  10. Teoria, doświadczenie i ... komputery (?) = Doświadczenie Teoria Metody komputerowe

  11. Symulacja i prawdziwy eksperyment W efekcie modelowania otrzymujemy dane symulowane w formacie takim jakie będą napływać z elektroniki odczytu aparatury eksperymentalnej. Symulacja • Generator przypadków (teoria) • Modelowanie odpowiedzi aparatury (Geant4) Eksperyment Rekonstrukcja Analiza fizyczna

  12. Symulacja zjawisk w detektorach Slajd ze strony www eksperymentu CMS

  13. Co jest stogiem siana Przecięcia pęków wiązek: co 25 nanosekund (częstotliwość LHC: 40 MHz) Nie wszystkie “pęczki” są pełne – zderzenia: 31 MHz 10* 106 zderzeń w ciągu 1 sekundy widocznych w eksperymencie LHC-b! Dane przepływające przez eksperyment Sekunda Dzień Rok l. przypadków 107 1012 1014 Ilość danych 300 GB 30 PB 3 EB ( 3*1018 ) l. dysków (300 GB) 1 100 tys 10 mln • Dla eksperymentów ATLAS i CMS jest znacznie gorzej • ATLAS 2PB/sek ≡ 3 mln CD/s

  14. Dygresja... ile to bajtów? 1 Megabajt (1MB) zdjęcie z aparatu cyfrowego: 6 MB 1 Gigabajt (1GB) = 1000MB film na nośniku DVD: 6 GB, BluRay: 25GB 1 Terabajt (1TB) = 1000GB Największe twarde dyski: 4 TB Światowa roczna produkcja książek: 8TB Biblioteka kongresu USA: 10 TB 1 Petabajt (1PB) = 1000TB Roczne składowanie danych w LHC: 25 PB Informacja w WWW: 8PB 1 Eksabajt (1EB) = 1000 PB Roczna produkcja informacji zapisanej cyfrowo: 5 EB Wszystkie dotąd wypowiedziane słowa: 5EB Wszystkie twarde dyski w stanie Minesota, USA (5 mln mieszkańców): 1EB Przepływ cyfrowej informacji w 2002: 18 EB ( z czego 98% to telefony) Ilość danych “widzianych” przez eksperyment na LHC: 3 EB 1 Zetabajt (1ZB) = 1000 EB Roczna konsumpcja informacji w USA: 3.6 ZB (55% to gry komputerowe, 35% telewizja) Źródło: HMI Report 2009, http://hmi.ucsd.edu/howmuchinfo.php ;

  15. Co jest stogiem siana Przecięcia pęków wiązek: co 25 nanosekund (częstotliwość LHC: 40 MHz) Nie wszystkie “pęczki” są pełne – zderzenia: 31 MHz 10* 106 zderzeń w ciągu 1 sekundy widocznych w eksperymencie LHC-b! Dane przepływające przez eksperyment Sekunda Dzień Rok l. przypadków 107 1012 1014 Ilość danych 300 GB 30 PB 3 EB ( 3*1018 ) l. dysków (300 GB) 1 100 tys 10 mln • Dla eksperymentów ATLAS i CMS jest znacznie gorzej • ATLAS 2PB/sek ≡ 3 mln CD/s • Zapis wszystkich przypadków jest niemożliwy • Na każdy przypadek należy jednak „zerknąć” i zadecydować czy jest interesujący. • Do „przeglądania” przypadków służy system wyzwalania czyli filtracji przypadków ( tzw. tryger).

  16. Zbieranie danych - system wyzwalania Zadaniemsystemuwyzwalania jest przedewszystkimjaknajszybszeodrzucaniezbędnychprzypadków(a niewybieranietychinteresujących). W kolejnychstopniachfiltrowaniamamy do dyspozycjicorazwięcejczasunadokładniejsząanalizęprzypadkówzaakceptowanychidokładniejszeodrzucanie. ? NIE 1 ms TAK NIE 10 ms TAK

  17. Zbieranie danych 30 MHz 35 GB/s 2 kHz 1 MHz 2·1010przyp./rok L0 (hardware) Wstępny poziom wyzwalania HLT (algorytmy) Wyższy stopień wyzwalania 1000 procesorów → 1 ms/przypadek 1 MHz → 1μs/przypadek. W ciagu 1 μs nie można nawet zdekodowac danych Co zrobic ??? Możliwa staje się rekonstrukcja sladow w detektorze wierzcholka w rzucie rφ

  18. Farma procesorów on-line 1 MHz na wejściu → 30 GB/s 1 m Force10 E1200:1260 portów GbE Przepustowość 50 GB/s 1000 CPU 2 kHz na wyjściu Zapis 250 MB/s

  19. Igła czy stóg siana? Interesujące oddziaływania p-p LHC Eksperymenty Filtrowanie Redukcja > 105 3 Eksabajty/rok 15 Petabajtów/rok 15 Petabajtów / rok przefiltrowanych danych z czterech eksperymentow na LHC

  20. Analiza danych Analiza danych zapisanych na taśmy Przypadki przefiltrowane Niespotykane dotąd wyzwania ~25 PB danych na rok 200 tys procesorów 10 tys dysków Skoncentrowanie infrastruktury w jednym miejscu jest niesłychanie trudne (i niecelowe bo blokuje rozwój innych ośrodków). Instalacja, zasilanie, chłodzenie, obsługa systemów operacyjnych i oprogramowania Konieczny model rozproszonych obliczeń czyli zespól współpracujących ze sobą farm komputerowych. Czy można jednak stworzyć coś bardziej uniwersalnego co byłoby przydatne także dla innych dziedzin?

  21. GRID – globalny komputer • WWW– przewrót w dostępie do informacji (wynalezione w CERN). • Jednolitydostęp do informacjibezwzględunamiejscenaZiemi. • GRID – jednolitydostęp do zasobówobliczeniowych. • GRID widzianyprzezkażdegoużytkownikajakojedenwielkikomputer. • Dobra platformawspółpracydladużychprojektów. • Wspólnenarzędziaidane, dostęp do mocyobliczeniowej. • Analogia z sieciąelektryczna (także w przypadkuopłatzapobranąmocobliczeniowa) • Pierwszą udaną inicjatywą na dużą skalę były obliczenia w ramach projektu SETI (Search for Extra-TerrestrialIntelligence) • Każdy posiadacz PC mógł udostępnić moc obliczeniowa np. w nocy i uruchomić program analizujący sygnały przychodzące z kosmosu. • Dzięki projektowi zaoszczędzono wiele milionów $

  22. Ogólnoświatowa sieć GRID: WLCG WLCG: Worldwide LHC ComputingGrid największy projektem GRID 170 ośrodków obliczeniowych w 36 krajach Ok. 330 tyś procesorów (rdzeni), z czego ~30 tys w CERN, 22 tys w Polsce(!)) 220 PB miejsca na dane (30 PB w CERN, 1.2PB w Polsce(!)) Koordynatorem projektu jest CERN Fizyka cząstek jest głównym użytkownikiem (największe potrzeby)

  23. Struktura hierarchiczna (Multi Tier) Univ. B CERNTier 1 Lab. A USA UK Francja Univ. A Włochy Japonia Holandia Lab. C Univ. C Niemcy Tier 0 Korea Hiszpania Nordic Univ. D Tier 1 Tier 2 Lab. B Tier 3

  24. Struktura hierarchiczna (Multi Tier)

  25. Technologie: farmy PC PoczątkowoCERN zdecydowałzakupićkomputery w formiezwykłych PC dostępnych w sklepach. W międzyczasietechnologie RACK i BLADE osiągnęłykonkurencyjneceny. Obecniew dużychośrodkachwygrywajątechnologiespecjalistyczne RACK i BLADE Pierwsze klastry w CERNw standardowej technologii. Hala w CERN przygotowana do montażu PC w szafach RACK Serwery typu “rack”w centrum komputerowym CERN PC typu RACK i BLADE

  26. Technologie - c.d. O(10000) procesorów (rdzeni) Kilka procesorów w komputerze, kilka rdzeni w procesorze, wirtualizacja... Ultra-szybkie połączenia sieciowe 1, 10Gb Ethernet Fiber Channel Składowanie danych: taśmy np. robot: Sun StorageTek SL8500 Do 300 tys taśm, 500 GB każda Do 2048 napędów o prędkości 100MB/s System operacyjny: CERN Scientific Linux

  27. Podsumowanie Eksperymenty na LHC dostarczają ogromnej ilości danych. Przypadki których szukamy zdarzają się bardzo rzadko, ~1 na 100 mln. Jedynie dzięki komputerom udaje się zebrać, przetworzyć i analizować dane. CERN stymuluje rozwój nowych technologii informatycznych (WWW, GRID)

More Related