400 likes | 531 Views
Stato del Tier-2 di Catania. Roberto Barbera (roberto.barbera@ct.infn.it) Università di Catania e INFN Incontro con i referee di INFN Grid Catania, 08.09.2008. Sommario. Stato del Tier-2: Logistica e servizi; Consumi elettrici; Prestazioni in termini di disponibilità ed affidabilità;
E N D
Stato del Tier-2 di Catania Roberto Barbera (roberto.barbera@ct.infn.it)Università di Catania e INFNIncontro con i referee di INFN GridCatania, 08.09.2008
Sommario Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 2 • Stato del Tier-2: • Logistica e servizi; • Consumi elettrici; • Prestazioni in termini di disponibilità ed affidabilità; • Analisi dei problemi e loro soluzioni; • Nuovo sistema di monitoraggio e statistiche di utilizzo; • Confronto tra accounting locale e HLRMon; • Stato acquisti con fondi s.j. 2008; • Richieste su fondi s.j. 2009; • Impianto fotovoltaico; • Personale afferente al Tier-2; • Conclusioni.
Catania Computing Room (1/2) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 3 3D Model of Catania Data Center Area # 2 80 kW UPS/PDU Full Area: ~200 m2 Area # 1 10 racks / 40 kW UPS/PDU Area # 2 13 racks Area # 2 80 kW Air Cond. with ~110 kW external chiller External 350 kVA Diesel power generator
Catania Computing Room (2/2) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 4 Area # 2 Area # 1 Security system Fire estinguisher system Area # 2
Catania Local Area Network Area #2 RACK RACK SAN RACK SE SE 4948 RACK RACK 1 Gbps 4507 4 Gbps Area #1 10 Gbps GARR Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 5
“Panoptes” LAN Monitoring(basato su Nagios, NTOP, ecc.) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 6 Autori: R. Catania, E. Giorgio, G. Passaro, G. Ricciardi, G. Sava Esempio di sinergia Grid-Centro di Calcolo
Consumi elettrici di Catania (INFN + COMETA) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 7 • Il consumo annuale è pari a ~115 k€; • Esso è imputabile per il 60% all’INFN e per il 40% a COMETA
Ordine di spegnimento del Direttore Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 8
CPU e kSI2K per VO a Catania Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 9 Sito di produzione INFN Grid Catania Sito TriGrid di INFN Catania
Risorse pledged per il 2009 Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 10 297 1638 Da fine Maggio 2009 Catania ha ~18% dei kSI2K totali ~135 kSI2K hanno più di 4 anni !
Profilo d’età delle CPU Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 11 Nessuna delle CPU di Catania è più giovane di 2 anni d’età!
Statistiche dei job di ALICE (1/2)(prese da MonaLisa: 1/10/08-4/9/09) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 12 84.6% La frazione di job running a Catania è proporzionale alla frazione di kSI2K.
Statistiche dei job di ALICE (2/2)(prese da MonaLisa: 1/10/08-4/9/09) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 13 9.4% 21.5%
Availability del T-2 di Catania Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 14 “DIP4” DIP1 DIP2 SLA
Reliability del T-2 di Catania Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 15 “DIP4” DIP1 DIP2 DIP3 SLA
DIP1 – Problemi all’SE (1/3) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 16 • L’SE ALICE::Catania::DPM viene commissionato alla fine di Febbraio 2008; • Dopo circa un mese di utilizzo:
DIP1 – Problemi all’SE (2/3) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 17 • All’inizio di Settembre 2008 l’SE contiene il 44.2% di tutta la produzione relativa a PDC08 ma si riempie completamente e diventa inutilizzabile per successive produzioni (il numero di job a Catania diminuisce); • A metà Novembre 2008, dopo l’approvazione da parte del Consiglio Direttivo dello sblocco del s.j. 2007, viene indetta la gara per acquistare dello storage aggiuntivo; • A Dicembre 2008 uno dei disk server dello storage si guasta e diminuisce l’availability del Tier-2 (il GRIS di sito comincia “a fare i capricci”);
DIP1 – Problemi all’SE (2/3) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 18 • A Gennaio 2009 viene consegnato lo storage aggiuntivo ma i driver giusti non sono disponibili per SL3 e passano alcune settimane per poterli avere e far partire l’operazione di “estendere” la partizione GPFS; • Lo storage viene ricommissionato solo a fine Gennaio 2009 ma si riesce comunque ad avere il 5.3% di tutta la produzione PDC09 (che, in assoluto, è comunque 3 volte più grossa di PDC08); • Meno file sull’SE di Catania comportano quindi anche meno job di analisi sul CE; • Da allora, comunque, sorgono i problemi relativi all’interfaccia software tra DPM e xrootd, comuni anche agli altri grossi siti con molti accessi concorrenti.
DIP2 – Problemi al CE Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 19 • A fine Febbraio 2009 si decide, per omogeneizzare il LRMS del Tier-2 e di COMETA, di fare l’upgrade di LSF alla versione 7.0.3; • Ciò ci ha fatto “incappare” nel bug 47245; • Dopo innumerevoli test (con l’availability del T-2 che andava giù!) viene trovato un workaround “semi-automatico” che permette al CE di tornare a funzionare; il bug è stato ufficialmente chiuso solo il 19 Agosto 2009!!
DIP3 – Riconfigurazione delle policy di scheduling (1/2) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 20 • Dopo lo spegnimento di parte delle macchine, fatto a fine Maggio 2009, e le “critiche” ricevute nell’incontro del 12 Giugno 2009, viene decisa una nuova politica di allocazione delle risorse; • Prima (uso della pre-emption per i job di ALICE e di OPS): • La pre-emption libera immediatamente la CPU ma non la memoria e questo può portare a crash della macchina se il job sospeso ne occupava una grossa frazione; • Inoltre, gli utenti possono stancarsi di vedere i loro job sospesi, cancellarli, e non voler più usare il Tier-2 di Catania.
DIP3 – Riconfigurazione delle policy di scheduling (2/2) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 21 • Dopo (assegnazione fissa di core a code relative a VO): • Un certo numero di cores sono stati assegnati in modo fisso ai job di ALICE mentre il resto è condiviso tra i job delle altre VO; • In tal modo quando un job viene eseguito sul WN trova tutta la memoria libera.
“DIP4” – Problema all’impianto di raffreddamento dell’area #1 Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 22 • Lunedì 3 Agosto 2009, alle 16.30 circa, l’intasamento di un filtro dell’impianto di condizionamento dell’area #1, unito al cedimento di una guarnizione di teflon, causa una grossa fuoriuscita d’acqua in sala macchine da un tubo ad alta pressione; • Il sistema di controllo di APC manda l’allarme immediatamente ma, quando il personale interviene (~20’ dopo l’allarme), ci sono già parecchie centinaia di litri d’acqua per terra; si procede quindi all’arresto di emergenza dell’erogazione di energia elettrica; • La sala macchine viene accuratamente asciugata ma l’incidente comporta un fermo imprevisto di 3 giorni. Alla riaccensione, nessun danno viene registrato all’infrastruttura.
Nuovo sito di monitoraggio del T-2 di Catania(http://grid.ct.infn.it/t2-monitoring) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 23
Statistiche di utilizzo (1/3)(monitor locale di LSF – ultimi 12 mesi) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 24 Il Tier-2 di Catania è il sito di INFN Grid che supporta in assoluto più VO.
Statistiche di utilizzo (2/3)(monitor locale di LSF – ultimi 12 mesi) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 25 • 114 anni di CPU in 1 anno; • ~30% di efficienza; • In linea con EGEE.
Statistiche di utilizzo (3/3)(monitor locale di LSF – ultimi 12 mesi) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 26 È in corso un confronto tra i dati del monitoring locale e quelli pubblicati da HLRMon. Si vedano le successive tre slide.
Analisi dei dati pubblicati da HLRMon (1/3) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 27 • Il calcolo dei grafici di WCT e CPT di HLRMon sono basati sul valore della variabile SI00Mean: • SI00Mean ≡ “GlueHostApplicationSoftwareRunTimeEnvironment: SI00MeanPerCPU“ • Osservazione #1: a rigore, SI00Mean andrebbe pubblicato per coda (cioè per CE) mentre invece è attualmente ammesso un valore unico per tutto il sito; ciò può inficiare i dati di accounting anche sensibilmente; • Tenendo conto delle macchine accese/spente e, quindi, dei core (192) e dei kSI2K (297) disponibili per ALICE, il valore di SI00Mean per il Tier-2 di Catania è, ad oggi, 1547; • Erroneamente, sul BDII era pubblicato il valore 2000 che è stato corretto; • Osservazione #2: gli attuali valori di fondo scala di HLRMon non tengono conto di assegnazioni statiche di core a VO, come avviene sul Tier-2 di Catania, e quindi sono misleading.
Analisi dei dati pubblicati da HLRMon (2/3)(grafici aggiornati al 7/9/09) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 28 kSI2K-day CPT per VO/day Last 30 days
Analisi dei dati pubblicati da HLRMon (3/3)(grafici aggiornati al 7/9/09) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 29 kSI2K-day CPT per VO/month Last year
Sito TriGrid_Catania (1/2) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 30 • Nel 2008 il sito TriGrid_Catania ha egregiamente contribuito alle produzioni di ALICE:
Sito TriGrid_Catania (2/2) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 31 • Per ragioni legate all’esecuzioni delle altre applicazioni del progetto TriGrid VL, la versione di gLite installata sul sito TriGrid_Catania è stata congelata e, ad un certo momento, una modifica di AliEn lo ha reso inutilizzabile; • Da una certa versione, AliEn non supporta più il GRIS ma solo il BDII; in AliEn 2.17, rilasciata durante l’estate, S. Bagnasco ha generalizzato gli script allo scopo di consentire un supporto ai siti che usano ancora il GRIS; • Adesso che il progetto TriGrid VL è terminato, il sito è sotto riconfigurazione per entrare a far parte di nuovo del Tier-2 di ALICE e si stat testando la patch della versione 2.17.
Stato acquisti fatti con fondi s.j. 2008 Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 32 • Con i 96 k€ (IVA inclusa) del fondo s.j. 2008 sono stati acquistati: • N. 1 IBM DS4700 con 96 TB di spazio disco; • N. 2 server di front-end per GPFS IBM x3655; • N. 2 switch FC per SAN; • N. 1 switch CISCO 4948 10GE; • L’hardware è stato tutto consegnato a fine Luglio 2009: • Lo storage è già in fase di installazione con GPFS+SToRM+ xrootd; • Lunedì 14 Settembre il CISCO 4948 verrà collegato a 10 Gb/s al CISCO 4507 che funge da “border router”; • Maggiori dettagli saranno forniti durante la visita di oggi pomeriggio.
Richieste su fondi s.j. 2009 Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 33 • Sul fondo s.j. 2009 si richiedono a Catania 110 k€ per l’acquisto del seguente hardware: • 135 kSI2K di potenza di calcolo (17.5 k€); • 58 TB di storage (52.2 €); • 1 UPS Symmetra PX 48 kW (40 k€); • L’acquisto dell’UPS si è reso necessario per potenziare l’area #1 della sala macchine e procedere ad un improcrastinabile riordino dell’hardware al fine di migliorare le performance di accesso ai dati: • Maggiori dettagli saranno forniti durante la visita di oggi pomeriggio.
Impianto fotovoltaico (1/3) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 34 • L’idea è quella di coprire il tetto del Dipartimento di Fisica e Astronomia con un campo fotovoltaico totalmente integrato:
Impianto fotovoltaico (2/3) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 35 • Superficie occupabile: ~2200 m2; • Angolo di azimut rispetto al Sud: 26°; • Valore di occupazione della superficie: 8.5 m2 per kWp; • Potenza installata minima: 190 kWp • Perdite dovute agli ombreggiamenti: <6%; • Producibilità minima: 1435 kWh/(kWp·anno) ossia poco più di 270 MWh/anno; • Costo “chiavi in mano” stimato: 1 M€, oltre IVA. Calcoli effettuati con “Sole advanced 2.0” ed i dati di irraggiamento e le temperature medie mensili UNI10349.
Impianto fotovoltaico (3/3) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 36 • È stato ultimato il progetto preliminare di massima; • È stato definito un possibile capitolato d’appalto e sono stati informati sia la GE che gli Uffici competenti dell’AC dell’INFN; • È stata richiesta all’Università di Catania la concessione di utilizzo per 25 anni del tetto del Dipartimento di Fisica e Astronomia; giusto ieri è giunta comunicazione ufficiosa dell’OK da parte dell’Ufficio Tecnico di UniCT.
Personale afferente al Tier-2(non è ivi compreso il gruppo di ricerca) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 37 • Personale permanente: • Giuseppe Andronico (Tecnologo, responsabile del Centro di Calcolo, 30%). • Roberto Barbera (P.A., responsabile del T-2, 50%); • Patrizia Belluomo (CTER del Centro di Calcolo, 20%) • Giuseppe Platania (CTER del Centro di Calcolo, 50%); • Carlo Rocca (CTER del Centro di Calcolo, 20%); • Giuseppe Sava (CTER del Centro di Calcolo, 20%); • Personale a contratto: • Salvatore Monforte (Art.23 fino al 31.12.2009, stabilizzando, 50%); • Rosanna Catania (Art.2222 di COMETA dal 1/9/2009 fino al 30/6/2010, 100%); • Elisa Ingrà (Borsista INFN fino al 31.10.2009, 50%); • Gianluca Passaro (Art.2222 di COMETA dal 1/9/2009 fino al 30/6/2010, 100%); • Alberto Pulvirenti (Ass. Ric., 30%); • Andrea Cortellese (Borsista INFN da 11/2009 per 2 anni, 20%); • Fabrizio Pistagna (Borsista INFN da 11/2009 per 2 anni, 20%); • Riccardo Rotondo (Borsista INFN da 11/2009 per 2 anni, 20%)
Conclusioni (1/2) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 38 • Il Tier-2 di Catania è il sito di INFN Grid che supporta più VO; • Tra queste, ALICE non è quella che ha il modello di calcolo più semplice e scalabile (es.: una VObox per cluster!); • Le “prestazioni” del Tier-2 di Catania sono proporzionali alle risorse di calcolo in esso disponibili ed al loro grado di obsolescenza; • Le cause di alcuni problemi di affidabilità e disponibilità avuti nel corso del 2009 sono state individuate ed analizzate: in molti casi non sono riconducibili a problemi locali ma piuttosto a deficienze del middleware; soluzioni efficaci sono state trovate in tutti i casi nei più brevi tempi possibili; • Le statistiche di utilizzo basate sul sistema di monitoring ed accounting locale sono in contrasto con quanto pubblicato da HLRMon: alcune cause sono state individuate ed è in corso un’analisi puntuale delle discrepanze;
Conclusioni (2/2) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 39 • Gli acquisti fatti con i fondi del s.j. 2008 sono stati effettuati e l’hardware è in fase avanzata di commissioning; • Le richieste sui fondi s.j. 2009 sono in linea sia con le necessità dell’Esperimento che con quelle della sede locale; un Tier-2 non può considerarsi a costo zero “sine die”; • Il personale permanente afferente al Tier-2 andrebbe potenziato; è urgente l’assegnazione a Catania di almeno un’unità di personale con contratto a tempo indeterminato (attualmente si può contare sul 50% di un Art. 23 “stabilizzabile”); • L’impianto fotovoltaico è stato definito ma, quando verrà realizzato, non rappresenterebbe la panacea in quanto potrà coprire poco meno dei costi attuali legati ai consumi elettrici; • Senza un apporto finanziario esplicito e costante da parte dell’INFN, il Tier-2 di Catania è da considerarsi “a crescita zero” • (a meno degli sviluppi tecnologici riguardanti l’aumento di potenza di calcolo delle CPU a parità di potenza elettrica consumata).
Thank you very much! Any Questions ? Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 40