170 likes | 276 Views
STATO DEL TIER 1 & FARM di Sezione. Alessia Tricomi per M. D’Amato, N. De Filippis, L. Silvestris, S. Costa, A. Tricomi, V. Ciulli, N. Magini, C. Marchettini, L. Servoli, L. Fanò, S. Gennai. Sezione di BARI. Risorse HW: Stato attuale
E N D
STATO DEL TIER 1 & FARM di Sezione Alessia Tricomi per M. D’Amato, N. De Filippis, L. Silvestris, S. Costa, A. Tricomi, V. Ciulli, N. Magini, C. Marchettini, L. Servoli, L. Fanò, S. Gennai
Sezione di BARI • Risorse HW: • Stato attuale • CPU: 18 GHz - PIII 4 da 800MHz e 5 da 1.200 MHz Dual Proc. con RedHat 6.2 (tra cui un disk server SCSI con RH 7.2 ) • Disco: 2 TB • A breve (finanziamenti 2003) • CPU: 12 GHz • Partecipazione produzione ufficiale • 50K eventi HZZe+e-µ+µ- (mH: 130,150,200,300,500) (tutta la catena); • 150K eventi eg02_BigJets(solo .fz) • Eventuali problemi HW o SW riscontrati e commenti • Problemi di installazione e configurazione RedHat sul nuovo hardware (controller SCSI, ecc. ) • Persona di contatto e risorse umane: • M. D’Amato, N. De Filippis TISB - Firenze 16/01/03
Sezione di Catania • Risorse HW: • Stato attuale • CPU: 3.5 GHz - 2 PIII da 866MHz Dual Proc (RedHat 6.1.1) • Disco: 1.3 TB (DiskServer RedHat 7.2) • A breve (finanziamenti 2002 e 2003) • CPU: 38 GHz - 8 PIV Xeon da 2.4 GHz Dual Proc • Disco: 0.2 TB • Partecipazione produzione ufficiale • 60Keg02_BigJets (solo fz) • Altre produzioni fatte in casa: • 150kbbH->mm (diverse mA e tanb); 100kbbZ->mm Pythia+CMSJET • 600kbtH+->tb Herwig+CMSJET 150kttbb COMPHEP+CMSJET • 87MSUSY ISAJET+PYTHIA, 63Mtt, Z+jet, W+jet, QCD PYTHIA CMSJET • Eventuali problemi HW o SW riscontrati e commenti • Problemi iniziali per l’installazione del disk-server • In produzione al 100% da ottobre a causa del trasferimento • Persona di contatto e risorse umane: • S. Costa, A. Tricomi TISB - Firenze 16/01/03
Sezione di Firenze • Risorse HW: • Stato attuale: • CPU: 82.8 GHz - CMS: 6 PIV 2.4 GHz Dual Proc + Sezione: 15 PIII 1 GHz e 5 PIV 2.4 GHz Dual Proc • su tutti i nodi e’ installata la RH 7.3 CERN • nel 2002 solo 30GHz di Sezione • Disco: 1.6 TB • A breve: nessun finanziamento per il 2003, ma abbiamo ancora un fondo di 10000 Euro per eventuali “emergenze” • Partecipazione produzione ufficiale • 11.5k eventi Bs J/f, 44keg02_BigJets (solo fz) • Altre produzioni fatte in casa: • 10kBpp, 1.6kWH mnbb (full chain) • Problemi HW e SW: • Licenza Objectivity per RH7 • Potenza rete elettrica insufficiente • Persona di contatto e risorse umane: • V. Ciulli, N. Magini, C. Marchettini + (a breve) art. 15 TISB - Firenze 16/01/03
Sezione di Perugia • Risorse HW: • Stato attuale (finanziamenti CMS + altri fondi 2002) • CPU: 35.2 GHz - 16 PIII da 1GHz + 8 PVI da 2.4 GHz • Disco: 2.4 Tb - 1.0 Tb + 1.4 Tb • A breve (finanziamenti 2003): nulla • Partecipazione produzione ufficiale • 177.5k eventi eg02_BigJets (solo fz) • Altre produzioni fatte in casa (tutte senza pile-up): • 70k eventi t->3 m e t-> m g; 15k eventi Higgs con vari stati finali; 1k eventi gb -> Hb (full chain) • 10k eventi gb ->Hb; 40k eventi ttH; 138k eventi fondorisonante (ttZ, ttbb, tt jet jet); 2.400k eventi di fondo non risonante QCD (fino a CMSJET) • Eventuali problemi HW o SW riscontrati e commenti: • Difficoltà iniziali nel setup della farm per il sistema operativo RH 6.1 poco compatibile con il nuovo hardware. • Lo script autoinstallante CASPUR metteva il Perl in una posizione non corretta (risolto da L.Fano’ e T. Wildisch). • Persone di contatto: L. Servoli, L. Fanò TISB - Firenze 16/01/03
Sezione di Pisa • Risorse HW: • Stato attuale • CPU: 24 GHz - 12 PIII da 1 GHz Dual Proc (4 “in manutenzione”) • Disco: 1.2 TB • A breve (finanziamenti 2003) • Disco: 12K€per compare 1 TB di disco ma sembrano scomparsi • Partecipazione produzione ufficiale • 90K eventi eg02_BigJets (solo Fz) • 16KWH-> muoni e bb e 5k WH-> elettroni e tau tau (full chain a bassa luminosità) • Circa 40K di eventi con muoni per Torino (solo Fz) • Eventuali problemi HW o SW riscontrati e commenti • Si rompevano i dischi (IBM) quasi ogni giorno e siamo stati impossibilitati a lavorare per diverse settimane, fino alla sostituzione con dei maxtor. • Dopo il trasferimento del centro di calcolo la farm è parzialmente funzionante e non e’ chiaro quando potrà tornare su al 100% • Persona di contatto e risorse umane: • Simone Gennai (attualmente al 30%, prima al 50%) TISB - Firenze 16/01/03
TIER 1 • Risorse HW: • Stato attuale • CPU: • CMS “standard”: 16 GHz - 8 PIII da 1GHz Dual Proc • Stress test: 80 GHz • DATATAG: 10 GHz – 5 PIII da 1 GHz Dual Proc • DISCO: • CMS “standard”: 2 Tb – estensibili a 5 su richiesta • Stress test: 2Tb • Nastro: sono disponibili circa 18 Tb su nastro da dividere tra i vari esperimenti, ma al momento non abbiamo fatto richieste • A breve • A metà febbraio riunione dei Comitati tecnico e di gestione per stabilire l’allocazione delle risorse per almeno la prima parte del 2003 • Partecipazione al pre-challenge del DC04 TISB - Firenze 16/01/03
TIER 1 • Attività • Partecipazione produzione ufficiale: • 130k (+50k non utilizzabili) eventi eg02_BigJets full chain con mc_runjob • Stress test: dal 29 Novembre al 20 Dicembre: • 268.5k eventi eg02_BigJets solo fz • Analisi: • Test beam: disponibili tutti i dati dei test beam al PSI e a X5 • Sistema di monitoring delle risorse accessibile via web https://tier1.cnaf.infn.it/monitor/ solo con certificato INFN-CA • Problemi HW e SW e commenti: • Nessun particolare problema HW eccetto che al momento il numero di processori assegnatoci è stato limitato a quelli più vecchi per via della necessità di utilizzare la RH 6.1 TISB - Firenze 16/01/03
TIER1: monitoring CPU status – CMS cluster PBS Server – CMS cluster Job sottomessi Job running TISB - Firenze 16/01/03
TIER1: monitoring % User %Free %Syst % Nice TISB - Firenze 16/01/03
TIER 1 • Problemi HW e SW e commenti: • Produzione ufficiale: oltre 50k eventi da buttare a causa di una errata assegnazione dei run numbers e successivamente di un baco in uno degli script di python • Stress test: upgrade della versione del software di datagrid (da EDG1.3 a EDG1.4), e una serie di altri problemi che hanno rallentato, reso difficile la sottomissione di jobs. • Analisi: • problema con il riempimento della /home che ha bloccato anche la produzione ufficiale • Tutti coloro che hanno account e vogliono utilizzare il Tier1 per l’analisi NON devono scrivere ntuple sulla /home ma sul disk-server /CMS1/testbeam e preventivamente, prima di iniziare l’analisi, è opportuno contattarmi per concordare l’utilizzo almeno fino a quando saremo in produzione ufficiale • Ho richiesto comunque che venga messa una quota sulle home directories e appena possibile una macchina che possa servire da gw per l’analisi • Lentezza del trasferimento CERN-CNAF TISB - Firenze 16/01/03
Riassumendo … • Tutte le farm (a parte al momento Pisa a causa del trasferimento) sono operative al 100% • Installazione farm da scratch: • Tutte le farm hanno avuto difficoltà nella fase di installazione a causa dell’incompatibilità tra nuovo HW e la RH 6.1 • I tempi di installazione a seconda dei casi sono stati dell’ordine di alcuni giorni fino a settimane • L’installazione al CNAF tramite LFCG e gli RPM preparati da Andrea, una volta messo a punto il sistema, è stata molto rapida (in mezza giornata tre macchine sono state completamente installate da scratch), tuttavia l’utilizzo di processori più nuovi è stato scartato sempre per evitare problemi con la RH 6 • E’ prevedibile che, per il nuovo HW, con la RH 7.3 tutto dovrebbe essere molto più rapido • Sarebbe auspicabile avere una lista di HW supportato con facilità di riferimento per tutte le sezioni TISB - Firenze 16/01/03
Riassumendo … • Partecipazione produzione: • Tutte le farm “Tracker” hanno partecipato alla produzione ufficiale almeno fino alla fase fz • Quasi tutte le farm e il TIER1 sono al momento coinvolte nella produzione eg02_BigJets • Un risultato interessante per il TIER1 è la partecipazione alla produzione ufficiale con la full chain tramite mc_runjob • Partecipazione DC04 • Da discutere… * Per Firenze sono state sommate solo le CPU effettivamente in possesso di CMS (è ragionevole considerare la possibilità di utilizzo di circa il 30% della farm di sezione) TISB - Firenze 16/01/03
DC04: due fasi P. Capiluppi Gr1 Perugia • Pre-Challenge (2003) (Must be successful) • Large scale simulation and digitization • Will prepare the samples for the challenge • Will prepare the samples for the Physics TDR work to get fully underway • Progressive shakedown of tools and centers • All centers taking part in challenge should participate to pre-challenge • The Physics TDR and the Challenge depend on successful completion • Ensure a solid baseline is available, worry less about being on the cutting edge • Challenge (2004) (Must be able to fail) • Reconstruction at “T0”(CERN) • Distribution to “T1s” • Subsequent distribution to “T2s” • Assign “streams” and “pre-configured analyses” to people at T1s and T2s • Some will be able to work entirely within one center • Others will require analysis of data at multiple-centers • GRID tools tested for data movement and job migration Introduce GRID tools As available and tested Make full use of LCG-1 GRID. Test the functionality they deliver TISB - Firenze 16/01/03
DC04: setting the scale P. Capiluppi Gr1 Perugia • Aim is 1 month of “running” at 25 Hz, 20 hours per day • 50 Million reconstructed events • (passing L1 Trigger and mostly passing HLT, but some background samples also required) • Simulation (GEANT4!) • 100TB • 300 kSI95.Months • 1GHz P3 is 50 SI95 • Working assumption that most farms will be at 50SI95/CPU in late 2003 • Six months running for 1000 CPUS (Worldwide) • (Actually aim for more CPU’s to get production time down) • Digitization • 75TB • 15 kSI95.Months • 175MB/s Pileup bandwidth (if allow two months for digitization) • Reconstruction at T0-CERN • 25TB • 23 kSI95 for 1 month (460 CPU @ 50SI95/CPU) • Analysis at T1-T2s • Design a set of tasks such that offsite requirement during challenge is about twice that of the “T0” Pre-Challenge Challenge TISB - Firenze 16/01/03
CMS Italia e il DC04 P. Capiluppi Gr1 Perugia • Partecipare al Challenge : contribuire per ~ 20% • Possibilmente tutte le risorse parteciperanno al pre-challenge • Coordinare la partecipazione attraverso LCG • Il Tier1/INFN deve essere “fully functional” • ~70 CPU boxes e ~20 TB • Le risorse conferite in LCG cresceranno in funzione del successo • Inizialmente Legnaro (gia’ “dinamico”) e il Tier1 gia’ “committed” • A seguire le altre risorse • Definire i commitment delle Sedi Italiane • Ruoli in funzione delle competenze del personale • Definire la meteodologia • Definire il “data flow” • E le “analisi pre-confezionate” • Aumento delle risorse di un fattore 3 per il DC05 (2004-05) • Conclusioni di Paolo:commitment per partecipare al DC04 • Ufficialmente oggi in LCG-1 per CMS: Tier1 e Legnaro • Partecipazione al pre-DC04 di tutti i Tier2/3 • Partecipazione al DC04 di Tier selezionati (interesse) TISB - Firenze 16/01/03
Conclusioni • Tutte le farm hanno mostrato di essere operative • Ci sono alcune macchine obsolete, ma un po’ tutte le farm si stanno attrezzando con nuovi PVI • Dovremmo capire quale può essere il nostro ruolo nel DC04 TISB - Firenze 16/01/03