360 likes | 448 Views
Calcolo LHC: CMS, progressi nel 2003 e prospettive. Outline PCP DC04: status 2003 Data Challenge 04: prospettive Following Data Challenges: prospettive CMS e LCG: aspettative CNAF Tier1 e LNL Tier2+: considerazioni Richieste 2004 e anticipi possibili 2003 Conclusioni.
E N D
Calcolo LHC: CMS, progressi nel 2003 e prospettive Outline PCP DC04: status 2003 Data Challenge 04: prospettive Following Data Challenges: prospettive CMS e LCG: aspettative CNAF Tier1 e LNL Tier2+: considerazioni Richieste 2004 e anticipi possibili 2003 Conclusioni
CMS (Data) Challenges: Current schedule • DC04 [Mid 03 – April 04] • June 03: generation of data (CMKIN) (pre-phase) • 15 July 03: official start of simulation (CMSIM) (Pre Challenge Production: PCP) • 31 December 03: end of PCP (including transfer of data to CERN T0) • January 04: preparation of DC04 • February 04: DC04 within LCG deployment • Mar – Apr 04: follow-up of DC04 • CTDR [Mid 03 – October 04] • End August 03: Outline ready • April 04: First complete draft ready • DC05 & P(hysics)TDR [Mid 04 – February 05 – End 05] • Jun – Dec 04?: PCP DC05 (to be defined in scope) of ~100 Mevents and analysis • Feb 05: DC05 or similar DC for analysis, with full support from LCG • End 05: PTDR ready • LCG TDR [Fall 05] • Include contributions from CMS CTDR and results from DC04/05 • DC06 [Mid 05 – Mid 06] • Ramp up of LCG distributed System for CMS (50% of a single LHC experiment)
PCP-DC04 (1/2) Coordinazione Italiana DC04: L. Barone (coord.), C. Grandi (Grid), M. Biasotto (Farms), V. Ciulli (Sw) • Scopo: • Simulare gli eventi necessari al DC04 • Usare questi eventi per gli studi preliminari del Physics TDR • Mettere a punto il software e middleware per il DC04 • Dimensione • Necessari ~50 M eventi per il DC04 (1 mese run a bassa lumi) • Richiesti dai gruppi di Fisica ~69 M eventi • Commitment italiano (approvato dalla CSN1): ~ 20 % del PCP • ~ 14 M eventi in totale, ma “solo” ~ 10 M eventi per il DC04 • Produzioni in corso • Negoziazione degli eventi da generare in Italia (quelli che ci interessano per l’analisi) • “Centro Regionale distribuito” INFN • Produzioni “Tradizionali” (Farm dedicate e controllate localmente)e “Grid” (early-LCG CMS deployment: CMS LCG0/1)
PCP-DC04 (2/2) • Italian Centers ready since Beginning-of-July 03: CMS validated “Traditional” and “Grid” (CMS LCG0/1, see below…) • Bari (Grid+Tradit.), Bologna (Grid+Tradit.), Catania (Tradit.), Firenze (Tradit.), Legnaro (Grid +Tradit.), Milano (Tradit.), Padova (Grid), Perugia (Tradit.), Pisa (Tradit.), Roma1 (Tradit.), CNAF-Tier1 (Tradit.), CNAF-EDT (Grid) • Also active in CMS (mostly Tier1s): • CERN (1.8 M events), Wisconsin (4.5 M), Spain (2.8 M), Imperial College (2.8 M), Bristol/RAL (3.2 M), USMOP (US Grid) FNAL (0.9 M), IN2P3/Lyon (1.6 M), Moscow (0.5 M), Karlsruhe (1.6) • CMS LCG0/1 (Grid) also includes (besides Ba, Bo, LNL, Pd, …): • CERN, Imperial College, LLR (Ecole Poly), Taiwan, Islamabad (@CERN), Bristol, University Iowa, Milano (EDT) • Centro regionale “virtuale” coordinato da C. Grandi • Produzione in Italia (ad oggi): • CMKIN (generatori): LNL, Bari, Pisa, CMS-LCG0/1(Grid) • CMSIM (simulazione): Tier1, LNL, Bari, Firenze, Perugia, Pisa, Roma1, CMS-LCG0/1(Grid) • OSCAR (simulazione G4, validation only): Pisa, Bologna, Padova
Ritardi (non di CMS Italia) • PRS • Definizione degli eventi da simulare utili al PTDR • CMKIN: Ritardo nella partenza (late June 03) CERN overloaded INFN help • CMSIM • Rilascio iniziale di “CMSIM 132” e bugs corrections • Oscar • Validazione e correzione di bugs • LCG • POOL (late delivery and lack of CMS person-power) • LCG-1 deployment (late delivery and opening-up to experiments) • Grid middleware: EDG & VDT (late deployment and integration) • Data movement • Definizione dei tools (SRB) e debugging/installation critical issue ! • Productions tools • Tools non abbastanza automatizzati per la gestione continua delle produzioni • Organization • Dicotomia tra l’attesa di Oscar e la produzione con CMSIM • Divergenza delle architetture e implementazione di “production Grids” (EU & US) • Mancanza di un consistente coordinamento centrale (CMS@CERN) lack of person-powerL. Barone gestisce direttamente gli assignments per l’INFN e I. Fisk per gli US
Difficolta’ • Oscar • Collaborazione col G4 Team e CMS validation • LCG • Interazione col Progetto Sviluppo comune di sw e deployment della infrastruttura • Delivery del software assenza di ritorno allo sviluppo nel “core software” di CMS • Data movement • Assenza di una strategia and lack of person power • Production tools • Assenza di una architettura scalabile all’analisi e alla Grid-enabling lack of person-power • Organization • Difficolta’ di un coordinamento distribuito autonomia dei RC e gestione di Grid • Processo decisionale farraginoso scelte estemporanee di tools e dispersione di sforzi Malgrado tutto cio’
Snapshot (Italy 20 Sept 03) End 2003 Target : 10 (14) M events fully digitized • CMKIN: 9.65 + 0.5 M events • LNL: 8.45 M (380 GB) • Bari: 0.9 M • Pisa: 0.3 M • CMS LCG0/1: 0.5 M • CMSIM: ~5.8 + 0.5 M events + running • LNL: 3.0 M (2.6 TB) + 1.5M running • T1-CNAF: 2.6 M (2.2 TB) + 1.5M running • Bari: 100k + 100k running • Firenze: 40k • Perugia: 20k running • Pisa: 60k running • Roma1: 100k running • CMS LCG0/1: 500k + 1M running • OSCAR test/validation • Pisa: 500 k • Bologna: 50 k • Padova: just started In ~80 giorni • CMKIN: ~ 40.000 jobs + run • CMSIM: ~ 25.000 jobs + run Spazio disco: ~ 7 TB + backups • I dati prodotti al CNAF sono anche su Castor • I dati prodotti a LNL sono anche su seconda copia • I dati delle Sezioni sono in backup locale (waiting T1 tapes) • I dati CMKIN sono in copia anche al CNAF (e al ~CERN) • I dati prodotti con CMS LCG0/1 sono anche sugli SE di Grid (e CERN)
CNAF Tier1: other snapshots Libero Occupazione Dischi Libero Occupato Occupato
Sites of CMS-LCG0/1 ~180 CPUs, di cui ~150 INFN (Ba, Bo, LNL, Pd)
“Grid” Jobs on CMS LCG0/1 Job submission SE Storage filling
Verso la fine del PCP (Dec 2003) • Il rate di produzione e’ ~12 M CMSIM-events/month • ~25 M now, fine simulazione 50 M ~end November • Critico, ma non tutti i siti hanno prodotto per via dei ritardi menzionati (ma i maggiori si) • OSCAR ha superato il milione di eventi (~350k con POOL) • Non ancora “validato” da tutti i PRS (fisica) • Fattore 2 in CPU time (non si fa in tempo a fare 25 M entro Dec) • Conclusione: • Proseguire con CMSIM (salvo contrordine) • Continuare i test con OSCAR (e POOL) al CERN e in “selected sites (INFN incluso) • Passare ad Oscar appena possibile e compatibile con le risorse • Digitizzazione • Inizio Ottobre decisione sulle procedure • Site-by-site rather than CMS-wide (CERN, FNAL, INFN, …T1s or equiv.) • Extra 19 M events • Dove e quando simularli e digitizzarli? (extra time and extra costs)
DC04 (Feb 04) • Data Challenge e Physics Challenge • “Data” per verificare un modello da riportare nel CTDR • “Physics” perche’ gli eventi servono gli studi (preliminari) del PTDR • Data and Processes flow (~50 M events in one month): • Ricostruzione al Tier0-CERN e flusso giornaliero >1TB/Tier1 (o streams dei soli ESD/AOD?) • Analisi e calibrazioni predefinite presso i Tier1 = “Data” Challenge (anche nei Tier2/3? = “Physics” Challenge) • Commenti: • Trasferendo solo ESD/AOD (tutti), in ogni Tier1 si hanno solo “parte” dei Raw data (quelli cola’ prodotti e conservati, su nastro?) • Se non c’e’ un catalogo “unico” non e’ possibile fare analisi inter-Tier1s, o inter-Tier2/3s (“analisi di utente”), solo “intra-Tiers” • Effetti sia sul “data” (Feb 04) che sul “Physics” Challenge (prima, durante e dopo Feb 04)
Data Challenges: towards DC05 and DC06 • Analisi dei dati prodotti per il DC04 (Ottobre 2003 – Ottobre 2004?) • Challenge continuo per Tier2, Tier3, GRID e supporto Tier1: novita’? • Piu’ volte ribadito che dal 2004 la attivita’ di analisi sarebbe cresciuta fino a diventare dominante • CMS DC05 (2004 – 2005): 10% di “Full Luminosity” • Simulazione, ricostruzione ed analisi di ~100 M eventi • Saranno piu’ complessi (demanding dal punto di vista computazionale) di quelli del DC04 • Gli eventi verranno usati per preparare il Physics Technical Design Report (PTDR) di CMS • Ancora due fasi schematizzate, ma piu’ continue nell’attivita’: • Pre Challenge Production (PCP) • Challenge vero e proprio (DC05) • Contributo Italiano • Partecipazione di tutte le sedi CMS Italia (con precisi commitments) • Contribuire con circa 20 M eventi durante il PCP (simulazione/digitizzazione) • Partecipare all’analisi del DC05 • CMS DC06 (2005 – 2006): 20% di “Full Luminosity” • Preparazione al commissioning… e agli “acquisti” massicci di HW
CMS e LCG • LCG per CMS • Commitment di CMS su LCG: importante per il coordinamento, lo sviluppo e l’infrastruttura • Da POOL al deployment di LCG-1 • Ruolo importante degli RTAGs • CMS LCG0/1 testbed: essenziale per CMS e per LCG stesso (INFN leading) • Difficolta’ nella gestione (PEB) e nel ritorno di man-power (non tutto puo’ essere “common”): maggior trasferimento alle attivita’ degli esperimenti • LCG per CMS in Italia • LNL e Tier1, per ora • Migrare progressivamente CMS LCG0/1 a LCG-1 “ufficiale” • Richiede test di LCG-1 (e LCG-1.x) • Mantenere CMS LCGn testbed per verifica e preparazione • Integrazione con INFN-Grid “production testbed” su siti “selezionati” LCG e’ critico per i Data/Physics Challenges di CMS: o funziona in tempo o CMS dovra’ trovare soluzioni alternative (gia’ esistenti o da sviluppare in proprio)
CNAF e LNL per CMS Italia • Il Tier1 ci sara’ ! (per mille buoni motivi…) • Non abbiamo quello che ci servirebbe (e che avevamo chiesto) • 4 TB di disco a fronte di 11 (July) – 30 (Sept) TB richiesti • <2 TB di nastro a fronte di 40 TB richiesti • ~ 140 CPU equiv a fronte di 210 CPU equiv richieste • Ma un ringraziamento al personale per la preziosa collaborazione e disponibilita’, che ha permesso di sopperire fino ad ora… • LNL c’e’ ! Averne altri…, attuali Tier2? • LNL ha le risorse che avevamo chiesto, ma deve crescere per mantenere lo stesso livello di competitivita’ • Specialmente ora che si va verso l’analisi, diventa un riferimento di modello per gli altri Tier2 e per i Tier3 • Le sperimentazioni sono fattibili solo a LNL (dedicato a CMS) • Nuovo hardware • Tools di analisi e produzione • Farm ibride e loro configurazione
Milestones 2004: specifiche (1/2) • Partecipazione di almeno tre sedi al DC04 [Marzo] • Importare in Italia (Tier1-CNAF) tutti gli eventi ricostruiti al T0 • Distribuire gli streams selezionati su almeno tre sedi (~ 6 streams, ~ 20 M eventi, ~ 5TB di AOD) • La selezione riguarda l’analisi di almeno 4 canali di segnale e relativi fondi, ai quali vanno aggiunti gli studi di calibrazione • Deliverable: contributo italiano al report DC04, in funzione del C-TDR e della “preparazione” del P-TDR. Risultati dell'analisi dei canali assegnati all'Italia (almeno 3 stream e 4 canali di segnale) • Integrazione del sistema di calcolo CMS Italia in LCG [Giugno] • Il Tier1, meta’ dei Tier2 (LNL, Ba, Bo, Pd, Pi, Rm1) e un terzo dei Tier3 (Ct, Fi, Mi, Na, Pg, To) hanno il software di LCG installato e hanno la capacita’ di lavorare nell’environment di LCG • Comporta la installazione dei pacchetti software provenienti da LCG AA e da LCG GDA (da Pool a RLS etc.) • Completamento analisi utilizzando infrastruttura LCG e ulteriori produzioni per circa 2 M di eventi • Deliverable: CMS Italia e’ integrata in LCG per piu’ della meta’ delle risorse
Milestones 2004: specifiche (2/2) • Partecipazione al C-TDR [Ottobre] • Include la definizione della partecipazione italiana al C-TDR in termini di: • Risorse e sedi (possibilmente tutte) • Man-power • Finanziamenti e piano di interventi • Deliverable: drafts del C-TDR col contributo italiano • Partecipazione al PCP DC05 di almeno il Tier1 e i Tier2 [Dicembre] • Il Tier1 e’ il CNAF e i Tier2 sono: LNL, Ba, Bo, Pd, Pi, Rm1 • Produzione di ~ 20 M di eventi per lo studio del P-TDR, o equivalenti (lo studio potrebbe richiedere fast-MC o speciali programmi) • Contributo alla definizione del LCG-TDR • Deliverable: produzione degli eventi necessari alla validazione dei tools di fast-simulation e allo studio dei P-TDR (~20 M eventi sul Tier1 + i Tier2/3)
Richieste 2004 (e possibili anticipi 2003) • Serve piu’ spazio disco: lo storage non e’ condivisibile. • Nei Tier2 e Tier3 per analisi e simulazioni (attivita’ dominante da ORA) • Nel Tier1 per le simulazioni, Data Challenges e archivio (nastro, sottovalutato) • CMS diventa in questa fase di DC04 molto simile ad un Esperimento “running” • Elementi delle richieste 2004: (Inventario: 220 k€ + 160k€ s.j.) • Si tiene conto di LCG su LNL e delle richieste al Tier1: no doppio conteggio, ma dipendenza nelle richieste. • Investimenti in dischi: 26 TB nei Tier2+Tier3 (5 LNL)(anticipabili ‘03) • Poche CPU (rimpiazzi): 29 box dual CPU (15 LNL)(anticipabili ’03) • Sub judice consistente (sincronizzazione attivita’ CMS e CSN1): 8 TB e 38 box dual CPU • Contributo CORE Computing Common Fund (penultimo anno MoU) • Persone con responsabilita’ (che necessitano di ME aggiuntive) • Ba (Lucia S.), Bo (Claudio G. & Paolo C.), Fi (Vitaliano C.), LNL (Massimo B.), Pd (Ugo G.), Pi (Giuseppe B.), Roma1 (Luciano B.), e molti altri…fortunatamente
Conclusioni • CMS Calcolo Italia partecipa ai Data Challenges con: • Contributo sostanziale (miglior rate e tempi di risposta in CMS) • Coordinamento e ruoli definiti • Il Modello di calcolo permette: • L’uso degli strumenti Grid appena disponibili • L’utilizzo delle risorse (umane e non) con buona efficienza • L’adozione di LCG appena disponibile • La condivisione delle risorse, purche’ pianificata • Necessari altri investimenti: • Nello spazio disco nei Tier2/3 • Sulle risorse di calcolo del Tier1 (nastri inclusi) • Nella potenza di calcolo e storage per il DC05 • Nel migliorare l’uso delle CPU (duty cycle) attraverso sia tools di produzione migliori (personale!) che tools di Grid • Nel coordinamento inter- e intra- Esperimenti/Progetti
Richieste 2004 (incluso s.j.) (2/2) S.j. alla definizione dei commitments al DC05 e analisi PTDR: Aprile 04
Investimenti/anno (kEuro) Tier1 CNAF CMS Tier2 e Tier3 di CMS Italia (#6+6) Totale CMS Italia 2005 740 675 1415 2006 750 725 1475 2007 870 870 1740 2008 1100 1100 2200 Totale 06-08 2720 2695 5415 Stime a lungo termine CMS Calcolo + ~ 1500 kEuro in 3 anni (06-08) sul Tier0 al CERN
CMS Model: a remind • Scope and roles of the Tiers • Tier0: Central recording and “first” treatment of data • Tier1s: Computing support for the CMS Collaboration and the Analysis Groups • Tier2s: Analysis support and specific (identified) problems task-forces • Tier3s: Analysis dedicated and focused issues on particular tasks • Lower level Tiers: Local agreed activities and personal (users’) tasks • Scope and roles of the Regional Centers (RCs) in the “Grid” • Local RCs: User Interfaces and personal DBs • Distributed RCs: Ad-hoc resources for particular tasks and test services • Dedicated RCs: Analysis-dedicated resources and common (CMS) DBs • Common RCs: Grid Services (both common and CMS-specific) and DBs repositories • Dynamically de-localized commitments and resources • Mostly person-power- & knowledge-based on specific problems • Both for computing and Physics skills • Re-allocation of tasks within a: • Virtual Organization (Grid VOs) • Country Organization (INFN coordination, hierarchy of Centers) • Analysis Organization (CMS coordination, hierarchy of Roles) • We believe that LCG will deploy this Model, • Provided that CMS (and other experiments) largely invest on the Project • Commonalities are only tried when possible (and necessary): diversity within the Project is necessary • Grid components are validated (and requested) by the experiments • The “Cerncentric” view is abandoned (or at least mitigated)
“Distributed” Models Grid Tier Tier Tier Tier Tier Tier Tier Tier Tier Tier
“Distributed” Models Distributed Computing Tier Tier Tier Tier Tier Tier Tier Tier Tier Tier
“Distributed” Models Monarc Tier0 Tier1 Tier1 Tier1 Tier2 Tier2 Tier2 Tier2 Tier2 Tier3 Tier3 Tier3 Tier3
“Distributed” Models Monarc - Grid Tier0 Tier1 Tier1 Tier1 Tier2 Tier2 Tier2 Tier2 Tier2 Tier3 Tier3 Tier3 Tier3 LCG ?!
“Distributed” Models LCG Now? Tier0 LCG & CMS Tier1 Tier1 Tier1 Tier2 Tier2 Tier2 Tier2 Tier2 Tier2 Tier3 Tier3 Tier3 Tier3 Common resources CMS resources Other resources