120 likes | 252 Views
Distribu ovaná Anal ýza ATLAS dat. Ji ří Chudoba 4.9.2008 Fyzik ální ústav AV ČR, v.v.i. Model pro ATLAS. Distribuované zpracování dat na gridu Hierarchie výpočetních center Tier0 – CERN Tier1 – 10 center pro ATLAS Tier2 – asi 30 center Tier3 – menší „příležitostná“ centra
E N D
Distribuovaná Analýza ATLAS dat Jiří Chudoba 4.9.2008 Fyzikální ústav AV ČR, v.v.i.
Model pro ATLAS • Distribuované zpracování dat na gridu • Hierarchie výpočetních center • Tier0 – CERN • Tier1 – 10 center pro ATLAS • Tier2 – asi 30 center • Tier3 – menší „příležitostná“ centra • Farma Goliáš na FZÚ – Tier2 centrum přiřazené do GridKa regionu (Tier1 v Karlsruhe) • Gridový software projektů EGEE, OSG a NorduGrid • Model detailně popsán v ATLAS Computing TDR, CERN/LHCC/2005-022 Jiri.Chudoba@cern.ch
Tier2 centrum ve FZU Podepsané WLCG MoU v roce 2008 Do roku 2008 včetně větší podíl ALICE než ATLAS. Nyní se vybírá hardware pro splnění závazků na rok 2009. Jiri.Chudoba@cern.ch
Velikosti dat v MB/případ Data v roce 2008 50,000 sec@200Hz 10 M případů/den 60 dnív 2008: 600M případů V T0: • 960 TB RAW to tape • 96 TB RAW to disk (10%) • 600 TB ESD to tape • 60 TB ESD to disk (10%) • 120 TB AOD to disk and tape • 120 TB DPD to disk and tape • 6TB TAG to disk V rámci každého oblaku kompletní soubor AOD v Tier 2 centrech (plus kopie v T1) V typickém Tier2 – 25 % AOD + DPD Ve FZU: asi 5 - 10 % AOD + DPD T0 a T1 nebudou (?) přístupná běžným uživatelům, jen pro organizované produkce Jiri.Chudoba@cern.ch
Kam s daty – space tokens Jiri.Chudoba@cern.ch
Data v typickém Tier2, rok 2008 Typické = 500 CPU a 100 TB pro ATLAS • ATLASDATADISK (60 TB) • AOD a DPD dle požadavků (nebo podílu), možno i vzorky RAW a ESD • ATLASGROUPDISK (6 TB) • pro analýzu organizovanou fyzikálními skupinami • ATLASUSERDISK (5 TB) • scratch space for users • ATLASLOCALGROUPDISK (zdroje mimo MoU) • permanentní prostor pro lokální uživatele Nyní ve FZU pro ATLAS ATLASUSERDISK – 800 GB ATLASPRODDISK – 500 GB ATLASDATADISK – 2500 GB ATLASMCDISK – 500 GB Zvětšení „space tokens“ o několik TB (dohromady) možné téměř ihned. Celkem pro ATLAS zhruba 20 TB. Jiri.Chudoba@cern.ch
Datové formáty RAW = raw data ESD = Event Summary Data detaily z rekonstrukce případů, možno z nich dělat identifikaci částic, refitování drah, rekonstrukci jetů cílová velikost 500 kB, nyní přes 600 kB. calorimeter cells = 270 kB, tracking data 200 kB – pro top případy AOD = Analysis Object Data vytvářeny pouze z ESD, určené pro analýzu nyní 200 kB/případ, plus 60 kB MC truth Jiri.Chudoba@cern.ch
DPD = Derived Physics Data DPD – podmnožina obsahu ESD a AOD s možným přidáním analyzačních dat Analyzační data – veličiny vypočítané z ESD a AOD Několik verzí DPD: D1PD, D2PD, D3PD, performance DPD Redukce velikosti dat pomocí: skimming – vynechání celých případů thinning – vynechání některých objektů slimming – vynechání části objektů • Zkušenost z „Rome produkce“ • AOD příliš velké pro analýzu • Skupiny používaly hlavně ntuply vytvořené pomocí EventView, • HighPtView, TopView Jiri.Chudoba@cern.ch
Dnešní možnosti pro analýzu Jiri.Chudoba@cern.ch
Co je k analýze zapotřebí? UI = User Interface (třeba lxplus) a členství v ATLAS VO • Návody na spouštění analýzy na Twiki stránkách • Organizují se výukové semináře • Veškeré datové přenosy přes systém DQ2 • Distribuce oficiálních dat pomocí „subscriptions“ na místa registrovaná v TiersOfATLAS (TOA) • Uživatelské datasety nyní není možné takto distribuovat (politické rozhodnutí), ale je možné je kopírovat na vlastní disk • Výstup analyzační úlohy na USERDISK, bude pravidelně promazáván • Uživatel ho může dát na LOCALGROUPDISK – permanentní prostor • skupiny si mohou ve svých Tier přidat diskový prostor • Přístup k ESD zatím není vyřešen (povolit úlohy uživatelů v T1 ?) • Spolehlivost gridových komponent není 100 %, problémy při velkých kolekcích úloh Jiri.Chudoba@cern.ch
Zdroje • ATLAS Offline software výukový seminář: • http://indico.cern.ch/conferenceDisplay.py?confId=39198 • Distributed Analysis Workshop • 25.-27.8.2008 v CERN • http://indico.cern.ch/conferenceDisplay.py?confId=38560 • Ganga výuka • https://twiki.cern.ch/twiki/bin/view/Atlas/GangaTutorial5 • Pathena výuka • http://cdsweb.cern.ch/record/1118219 • Analysis Model Forum Report, ATL-GEN-INT 2008-01 Jiri.Chudoba@cern.ch