1 / 40

Stato del Tier-2 di Catania

Stato del Tier-2 di Catania. Roberto Barbera (roberto.barbera@ct.infn.it) Università di Catania e INFN Incontro con i referee di INFN Grid Catania, 08.09.2008. Sommario. Stato del Tier-2: Logistica e servizi; Consumi elettrici; Prestazioni in termini di disponibilità ed affidabilità;

masako
Download Presentation

Stato del Tier-2 di Catania

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Stato del Tier-2 di Catania Roberto Barbera (roberto.barbera@ct.infn.it)Università di Catania e INFNIncontro con i referee di INFN GridCatania, 08.09.2008

  2. Sommario Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 2 • Stato del Tier-2: • Logistica e servizi; • Consumi elettrici; • Prestazioni in termini di disponibilità ed affidabilità; • Analisi dei problemi e loro soluzioni; • Nuovo sistema di monitoraggio e statistiche di utilizzo; • Confronto tra accounting locale e HLRMon; • Stato acquisti con fondi s.j. 2008; • Richieste su fondi s.j. 2009; • Impianto fotovoltaico; • Personale afferente al Tier-2; • Conclusioni.

  3. Catania Computing Room (1/2) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 3 3D Model of Catania Data Center Area # 2 80 kW UPS/PDU Full Area: ~200 m2 Area # 1 10 racks / 40 kW UPS/PDU Area # 2 13 racks Area # 2 80 kW Air Cond. with ~110 kW external chiller External 350 kVA Diesel power generator

  4. Catania Computing Room (2/2) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 4 Area # 2 Area # 1 Security system Fire estinguisher system Area # 2

  5. Catania Local Area Network Area #2 RACK RACK SAN RACK SE SE 4948 RACK RACK 1 Gbps 4507 4 Gbps Area #1 10 Gbps GARR Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 5

  6. “Panoptes” LAN Monitoring(basato su Nagios, NTOP, ecc.) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 6 Autori: R. Catania, E. Giorgio, G. Passaro, G. Ricciardi, G. Sava Esempio di sinergia Grid-Centro di Calcolo

  7. Consumi elettrici di Catania (INFN + COMETA) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 7 • Il consumo annuale è pari a ~115 k€; • Esso è imputabile per il 60% all’INFN e per il 40% a COMETA

  8. Ordine di spegnimento del Direttore Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 8

  9. CPU e kSI2K per VO a Catania Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 9 Sito di produzione INFN Grid Catania Sito TriGrid di INFN Catania

  10. Risorse pledged per il 2009 Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 10 297 1638 Da fine Maggio 2009 Catania ha ~18% dei kSI2K totali ~135 kSI2K hanno più di 4 anni !

  11. Profilo d’età delle CPU Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 11 Nessuna delle CPU di Catania è più giovane di 2 anni d’età!

  12. Statistiche dei job di ALICE (1/2)(prese da MonaLisa: 1/10/08-4/9/09) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 12 84.6% La frazione di job running a Catania è proporzionale alla frazione di kSI2K.

  13. Statistiche dei job di ALICE (2/2)(prese da MonaLisa: 1/10/08-4/9/09) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 13 9.4% 21.5%

  14. Availability del T-2 di Catania Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 14 “DIP4” DIP1 DIP2 SLA

  15. Reliability del T-2 di Catania Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 15 “DIP4” DIP1 DIP2 DIP3 SLA

  16. DIP1 – Problemi all’SE (1/3) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 16 • L’SE ALICE::Catania::DPM viene commissionato alla fine di Febbraio 2008; • Dopo circa un mese di utilizzo:

  17. DIP1 – Problemi all’SE (2/3) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 17 • All’inizio di Settembre 2008 l’SE contiene il 44.2% di tutta la produzione relativa a PDC08 ma si riempie completamente e diventa inutilizzabile per successive produzioni (il numero di job a Catania diminuisce); • A metà Novembre 2008, dopo l’approvazione da parte del Consiglio Direttivo dello sblocco del s.j. 2007, viene indetta la gara per acquistare dello storage aggiuntivo; • A Dicembre 2008 uno dei disk server dello storage si guasta e diminuisce l’availability del Tier-2 (il GRIS di sito comincia “a fare i capricci”);

  18. DIP1 – Problemi all’SE (2/3) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 18 • A Gennaio 2009 viene consegnato lo storage aggiuntivo ma i driver giusti non sono disponibili per SL3 e passano alcune settimane per poterli avere e far partire l’operazione di “estendere” la partizione GPFS; • Lo storage viene ricommissionato solo a fine Gennaio 2009 ma si riesce comunque ad avere il 5.3% di tutta la produzione PDC09 (che, in assoluto, è comunque 3 volte più grossa di PDC08); • Meno file sull’SE di Catania comportano quindi anche meno job di analisi sul CE; • Da allora, comunque, sorgono i problemi relativi all’interfaccia software tra DPM e xrootd, comuni anche agli altri grossi siti con molti accessi concorrenti.

  19. DIP2 – Problemi al CE Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 19 • A fine Febbraio 2009 si decide, per omogeneizzare il LRMS del Tier-2 e di COMETA, di fare l’upgrade di LSF alla versione 7.0.3; • Ciò ci ha fatto “incappare” nel bug 47245; • Dopo innumerevoli test (con l’availability del T-2 che andava giù!) viene trovato un workaround “semi-automatico” che permette al CE di tornare a funzionare; il bug è stato ufficialmente chiuso solo il 19 Agosto 2009!!

  20. DIP3 – Riconfigurazione delle policy di scheduling (1/2) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 20 • Dopo lo spegnimento di parte delle macchine, fatto a fine Maggio 2009, e le “critiche” ricevute nell’incontro del 12 Giugno 2009, viene decisa una nuova politica di allocazione delle risorse; • Prima (uso della pre-emption per i job di ALICE e di OPS): • La pre-emption libera immediatamente la CPU ma non la memoria e questo può portare a crash della macchina se il job sospeso ne occupava una grossa frazione; • Inoltre, gli utenti possono stancarsi di vedere i loro job sospesi, cancellarli, e non voler più usare il Tier-2 di Catania.

  21. DIP3 – Riconfigurazione delle policy di scheduling (2/2) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 21 • Dopo (assegnazione fissa di core a code relative a VO): • Un certo numero di cores sono stati assegnati in modo fisso ai job di ALICE mentre il resto è condiviso tra i job delle altre VO; • In tal modo quando un job viene eseguito sul WN trova tutta la memoria libera.

  22. “DIP4” – Problema all’impianto di raffreddamento dell’area #1 Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 22 • Lunedì 3 Agosto 2009, alle 16.30 circa, l’intasamento di un filtro dell’impianto di condizionamento dell’area #1, unito al cedimento di una guarnizione di teflon, causa una grossa fuoriuscita d’acqua in sala macchine da un tubo ad alta pressione; • Il sistema di controllo di APC manda l’allarme immediatamente ma, quando il personale interviene (~20’ dopo l’allarme), ci sono già parecchie centinaia di litri d’acqua per terra; si procede quindi all’arresto di emergenza dell’erogazione di energia elettrica; • La sala macchine viene accuratamente asciugata ma l’incidente comporta un fermo imprevisto di 3 giorni. Alla riaccensione, nessun danno viene registrato all’infrastruttura.

  23. Nuovo sito di monitoraggio del T-2 di Catania(http://grid.ct.infn.it/t2-monitoring) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 23

  24. Statistiche di utilizzo (1/3)(monitor locale di LSF – ultimi 12 mesi) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 24 Il Tier-2 di Catania è il sito di INFN Grid che supporta in assoluto più VO.

  25. Statistiche di utilizzo (2/3)(monitor locale di LSF – ultimi 12 mesi) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 25 • 114 anni di CPU in 1 anno; • ~30% di efficienza; • In linea con EGEE.

  26. Statistiche di utilizzo (3/3)(monitor locale di LSF – ultimi 12 mesi) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 26 È in corso un confronto tra i dati del monitoring locale e quelli pubblicati da HLRMon. Si vedano le successive tre slide.

  27. Analisi dei dati pubblicati da HLRMon (1/3) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 27 • Il calcolo dei grafici di WCT e CPT di HLRMon sono basati sul valore della variabile SI00Mean: • SI00Mean ≡ “GlueHostApplicationSoftwareRunTimeEnvironment: SI00MeanPerCPU“ • Osservazione #1: a rigore, SI00Mean andrebbe pubblicato per coda (cioè per CE) mentre invece è attualmente ammesso un valore unico per tutto il sito; ciò può inficiare i dati di accounting anche sensibilmente; • Tenendo conto delle macchine accese/spente e, quindi, dei core (192) e dei kSI2K (297) disponibili per ALICE, il valore di SI00Mean per il Tier-2 di Catania è, ad oggi, 1547; • Erroneamente, sul BDII era pubblicato il valore 2000 che è stato corretto; • Osservazione #2: gli attuali valori di fondo scala di HLRMon non tengono conto di assegnazioni statiche di core a VO, come avviene sul Tier-2 di Catania, e quindi sono misleading.

  28. Analisi dei dati pubblicati da HLRMon (2/3)(grafici aggiornati al 7/9/09) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 28 kSI2K-day CPT per VO/day Last 30 days

  29. Analisi dei dati pubblicati da HLRMon (3/3)(grafici aggiornati al 7/9/09) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 29 kSI2K-day CPT per VO/month Last year

  30. Sito TriGrid_Catania (1/2) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 30 • Nel 2008 il sito TriGrid_Catania ha egregiamente contribuito alle produzioni di ALICE:

  31. Sito TriGrid_Catania (2/2) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 31 • Per ragioni legate all’esecuzioni delle altre applicazioni del progetto TriGrid VL, la versione di gLite installata sul sito TriGrid_Catania è stata congelata e, ad un certo momento, una modifica di AliEn lo ha reso inutilizzabile; • Da una certa versione, AliEn non supporta più il GRIS ma solo il BDII; in AliEn 2.17, rilasciata durante l’estate, S. Bagnasco ha generalizzato gli script allo scopo di consentire un supporto ai siti che usano ancora il GRIS; • Adesso che il progetto TriGrid VL è terminato, il sito è sotto riconfigurazione per entrare a far parte di nuovo del Tier-2 di ALICE e si stat testando la patch della versione 2.17.

  32. Stato acquisti fatti con fondi s.j. 2008 Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 32 • Con i 96 k€ (IVA inclusa) del fondo s.j. 2008 sono stati acquistati: • N. 1 IBM DS4700 con 96 TB di spazio disco; • N. 2 server di front-end per GPFS IBM x3655; • N. 2 switch FC per SAN; • N. 1 switch CISCO 4948 10GE; • L’hardware è stato tutto consegnato a fine Luglio 2009: • Lo storage è già in fase di installazione con GPFS+SToRM+ xrootd; • Lunedì 14 Settembre il CISCO 4948 verrà collegato a 10 Gb/s al CISCO 4507 che funge da “border router”; • Maggiori dettagli saranno forniti durante la visita di oggi pomeriggio.

  33. Richieste su fondi s.j. 2009 Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 33 • Sul fondo s.j. 2009 si richiedono a Catania 110 k€ per l’acquisto del seguente hardware: • 135 kSI2K di potenza di calcolo (17.5 k€); • 58 TB di storage (52.2 €); • 1 UPS Symmetra PX 48 kW (40 k€); • L’acquisto dell’UPS si è reso necessario per potenziare l’area #1 della sala macchine e procedere ad un improcrastinabile riordino dell’hardware al fine di migliorare le performance di accesso ai dati: • Maggiori dettagli saranno forniti durante la visita di oggi pomeriggio.

  34. Impianto fotovoltaico (1/3) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 34 • L’idea è quella di coprire il tetto del Dipartimento di Fisica e Astronomia con un campo fotovoltaico totalmente integrato:

  35. Impianto fotovoltaico (2/3) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 35 • Superficie occupabile: ~2200 m2; • Angolo di azimut rispetto al Sud: 26°; • Valore di occupazione della superficie: 8.5 m2 per kWp; • Potenza installata minima: 190 kWp • Perdite dovute agli ombreggiamenti: <6%; • Producibilità minima: 1435 kWh/(kWp·anno) ossia poco più di 270 MWh/anno; • Costo “chiavi in mano” stimato: 1 M€, oltre IVA. Calcoli effettuati con “Sole advanced 2.0” ed i dati di irraggiamento e le temperature medie mensili UNI10349.

  36. Impianto fotovoltaico (3/3) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 36 • È stato ultimato il progetto preliminare di massima; • È stato definito un possibile capitolato d’appalto e sono stati informati sia la GE che gli Uffici competenti dell’AC dell’INFN; • È stata richiesta all’Università di Catania la concessione di utilizzo per 25 anni del tetto del Dipartimento di Fisica e Astronomia; giusto ieri è giunta comunicazione ufficiosa dell’OK da parte dell’Ufficio Tecnico di UniCT.

  37. Personale afferente al Tier-2(non è ivi compreso il gruppo di ricerca) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 37 • Personale permanente: • Giuseppe Andronico (Tecnologo, responsabile del Centro di Calcolo, 30%). • Roberto Barbera (P.A., responsabile del T-2, 50%); • Patrizia Belluomo (CTER del Centro di Calcolo, 20%) • Giuseppe Platania (CTER del Centro di Calcolo, 50%); • Carlo Rocca (CTER del Centro di Calcolo, 20%); • Giuseppe Sava (CTER del Centro di Calcolo, 20%); • Personale a contratto: • Salvatore Monforte (Art.23 fino al 31.12.2009, stabilizzando, 50%); • Rosanna Catania (Art.2222 di COMETA dal 1/9/2009 fino al 30/6/2010, 100%); • Elisa Ingrà (Borsista INFN fino al 31.10.2009, 50%); • Gianluca Passaro (Art.2222 di COMETA dal 1/9/2009 fino al 30/6/2010, 100%); • Alberto Pulvirenti (Ass. Ric., 30%); • Andrea Cortellese (Borsista INFN da 11/2009 per 2 anni, 20%); • Fabrizio Pistagna (Borsista INFN da 11/2009 per 2 anni, 20%); • Riccardo Rotondo (Borsista INFN da 11/2009 per 2 anni, 20%)

  38. Conclusioni (1/2) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 38 • Il Tier-2 di Catania è il sito di INFN Grid che supporta più VO; • Tra queste, ALICE non è quella che ha il modello di calcolo più semplice e scalabile (es.: una VObox per cluster!); • Le “prestazioni” del Tier-2 di Catania sono proporzionali alle risorse di calcolo in esso disponibili ed al loro grado di obsolescenza; • Le cause di alcuni problemi di affidabilità e disponibilità avuti nel corso del 2009 sono state individuate ed analizzate: in molti casi non sono riconducibili a problemi locali ma piuttosto a deficienze del middleware; soluzioni efficaci sono state trovate in tutti i casi nei più brevi tempi possibili; • Le statistiche di utilizzo basate sul sistema di monitoring ed accounting locale sono in contrasto con quanto pubblicato da HLRMon: alcune cause sono state individuate ed è in corso un’analisi puntuale delle discrepanze;

  39. Conclusioni (2/2) Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 39 • Gli acquisti fatti con i fondi del s.j. 2008 sono stati effettuati e l’hardware è in fase avanzata di commissioning; • Le richieste sui fondi s.j. 2009 sono in linea sia con le necessità dell’Esperimento che con quelle della sede locale; un Tier-2 non può considerarsi a costo zero “sine die”; • Il personale permanente afferente al Tier-2 andrebbe potenziato; è urgente l’assegnazione a Catania di almeno un’unità di personale con contratto a tempo indeterminato (attualmente si può contare sul 50% di un Art. 23 “stabilizzabile”); • L’impianto fotovoltaico è stato definito ma, quando verrà realizzato, non rappresenterebbe la panacea in quanto potrà coprire poco meno dei costi attuali legati ai consumi elettrici; • Senza un apporto finanziario esplicito e costante da parte dell’INFN, il Tier-2 di Catania è da considerarsi “a crescita zero” • (a meno degli sviluppi tecnologici riguardanti l’aumento di potenza di calcolo delle CPU a parità di potenza elettrica consumata).

  40. Thank you very much! Any Questions ? Catania, Incontro con i referee di INFN Grid, 08.09.2009 - 40

More Related