140 likes | 236 Views
Stato della Farm di Trieste. CSN 1 17 settembre 2002 Benigno Gobbo INFN Sezione di Trieste Benigno.Gobbo@cern.ch. 19 New clients: Abit VP6 Dual PIII 1000 Mhz 2 x 40 GB ATA Disks 512 MB RAM. 3com 4900 3com 3900. SCSI disk server Sun Blade 1000 Dual SparcIII 750 MHz
E N D
Stato della Farm di Trieste CSN 1 17 settembre 2002 Benigno Gobbo INFN Sezione di Trieste Benigno.Gobbo@cern.ch CSN 1
19 New clients: Abit VP6 Dual PIII 1000 Mhz 2 x 40 GB ATA Disks 512 MB RAM 3com 4900 3com 3900 SCSI disk server Sun Blade 1000 Dual SparcIII 750 MHz 18 GB SCSI FC disk 8 x 73 GB SCSI RAID5 Kvm switch www.ts.infn.it/acid/ acid@ts.infn.it CRD-5440 Server SGE, DHCP, BB, … Asus CUR-DLS Dual PIII 800 MHz 2 x 30 GB ATA Disks 512 MB RAM GA620 G gigabit 11 Old clients: MSI 694D Pro Dual PIII 800 Mhz 2 x 20 GB ATA Disks 512 MB RAM Hardware Tape Library STK L40 20 slot 2 x IBM Ultrium Tape/disk server Dell PowerEdge 4400 Dual Xeon 1 GHz 2 x 36 GB SCSI RAID1 6 x 73 GB SCSI RAID0 EIDE disk server Intel L440 GX+ Dual PIII 700 MHz 2 x 15 GB ATA disks 14 x 75 GB ATA disks 6 x 80 GB ATA disks GA620 G gigabit EIDE disk server Intel STL2 Dual PIII 866 MHz 2 x 20 GB ATA disks 20 x 80 GB ATA disks GA620 G gigabit CSN 1
Hardware (cont.) • Problemi, rotture, etc… • ACID01 (server SunGrid, DHCP, BigBrother, …) • Problemi con motherboard (CUR-DLS) che legge male la temperatura della seconda CPU. Risolto aumentando la ventilazione. • ACID02 • Problemi con scheda di rete Intel PRO/100 S. • ACID03 (disk server) • Problemi su diversi dischi IBM DTLA-307075 (è un problema noto, ora…). • Client Vecchi (ACID06, 07, 09, 10, 12, 13) • Problemi con le ventole delle CPU. • ACID05 • Rottura alimentatore. • ACID13 • Rottura disco ( ri-installazione del sistema). • ACID17 (disk server) • Rottura di una 3ware Escalade 6800. • ACID36 • Rottura dell’alimentatore e della scheda video (probabilmente correlate). CSN 1
Software installato • Management della farm • R. Birsa (Solaris), BG (Linux) • Componenti free software • RedHat Linux 7.2 (kernel 2.4.9, glibc 2.2.4) oppure 7.3 (kernel 2.4.18, glibc 2.2.5). • A parte la Sun che ovviamente monta Solaris • Queuing system: Sun Grid Engine EE 5.3p1 • System/Network monitor: Big Brother 1.9 • CERN software • CERNLib, ANAPHE, ROOT, CASTOR, DATE • COMPASS software • COMGeant (simulazione), Coral (ricostruzione ed ad analisi) • Tools locali (parallelizzazione dei processi, accesso a DB remoto) • Componenti commerciali • Backup: CA Arcserve 7 • 1 licenza Linux server, 3 licenze Linux client, 1 licenza Unix client • ODBMS: Objectivity 6.1.3 • CERN Contract CSN 1
Software installato (cont.) • Mirroring/Update • Giornaliero di: • Distribuzione RedHat 7.2 e 7.3 • Software/DataBase di COMPASS • COMGeant • CORAL • DataBase delle calibrazioni • Database di geometria, mappe ed allineamenti • Periodico dei patch su sistema od applicativi • Non si usano auto-update tools • ASIS • Non viene usato • Sono installati solo i package che servono esplicitamente (CERNLib, CASTOR, …), localmente su ogni nodo, usando RPM. CSN 1
Tools sviluppati ed attività in corso • Spar: tool per la parallelizzazione della procedura di analisi di MC via SunGrid (V.Duic) • Input: l’utente specifica eseguibili e file di configurazione come se si trattasse di un unico job di generazione/produzione/analisi • spar provvede alla suddivisione in job paralleli alterando opportunamente i file di opzioni (il grado di parallelizzazione viene specificato dall’utente). • Output: spar alla fine raggruppa opportunamente i file di output • Supporta fino all’intero ciclo di processamento: generatori COMGeant CORAL, con possibilità di escludere alcuni passi • Può partire da passi intermedi (es. CORAL su output di COMGeant) • Una prima versione di spar è gia in utilizzo. • Parallelizzazione dell’analisi sui DST e raw data (V.Duic) • Concettualmente è analogo al tool precedente • Si basa sull’analogo tool in uso al CERN per la produzione (VD, M.Lamanna). CSN 1
Tools sviluppati ed attività in corso (cont.) • Copia delle federazioni Objectivity di COMPASS (V.Duic) • Solo DST ed alcuni “raw data”. • Trasferimento (va ftp su wacdr) di: • Federazione • Database di header (di run ed eventi) • Database di eventi (essenzialmente DST) • Come test sono stati trasferiti i DST relativi al 2001 • I DST dei dati con polarizzazione trasversa del 2002 sono importati man mano che vengono prodotti al CERN • Test di processatura di raw event e DST • Produzione MC per test sistema e sviluppo software (A.Martin) • Per trasverso. 1M eventi su tutto range x e in diversi bin di x • Generazione eventi DIS con Lepto: singolo job per campione (è rapido) • COMGeant: parallelizzato da spar su 10 e 20 nodi/generazione • 1.4 s/evento, 5k eventi/CPU/generatore, 2 ore siu 10 CPU, zebra file 0.34 GB • CORAL: parallelizzato da spar su 10 e 20 nodi/generazione • Output ROOT tree (1MB per 5k eventi), somma dei singoli file fatta automaticamente da spar • Ottimizzazione della ricostruzione del RICH1 (P.Schiavon) • Run su file binari pre-prodotti al CERN per sviluppo ed ottimizzazione della ricostruzione degli anelli del RICH. CSN 1
Attività prossima futura • Il run ci ha tenuto molto occupati. A questo si aggiunge l’impegno sull’offline generale di COMPASS • Responsabilità: Coral (BG), CCF e gestione dati (M.Lamanna), software RICH1 (P.Schiavon). Attività: gestione dati e produzione DST (P.Pagano, V.Duic) • Ottimizzazione della Farm per l’analisi dei dati • Test di accesso diretto alle federazioni CERN via WAN (da ottobre) • Verifica protezioni, sicurezza, etc. • Produzione selettiva di DST da DST con Coral • Richiede modifiche del codice • GUI per i tool di parallelizzazione • In test • Miglioramento dei tools di gestione e controllo della farm • Più sono automatizzati meno lavoro c’è per me (credo…) CSN 1
Attività prossima futura (cont.) • Verifica della possibilità di utilizzo di HSM • Studio della possibilità di porting di CASTOR (ostico…) • HSM commerciali (poca roba per Linux: DiskXtender,…) • NOTA: dall’esperienza di analisi sui dati 2002 capiremo se ed eventualmente quanto storage aggiuntivo ci serve. È importante capire se si può puntare verso un HSM che potrebbe avere costi sensibilmente minori dell’allargamento dello spazio disco. • Adattamento e test del software per il nuovo DBMS • Studio sistematico della prestazioni del RICH1 • Analisi dei dati (già iniziata): misura di h1 da asimmetria dei “leading π” in DIS su bersaglio con polarizzazione trasversa CSN 1
Analisi dati trasverso 2002 • È una misura complessa: l’asimmetria prevista è di pochi % con un apparato del tutto nuovo • DST • Organizzati in due periodi corrispondenti a circa 270 run (più di mezzo miliardo di eventi) 26 TB di “raw data”, 2 TB di dati DST • Inoltre è stato deciso di acquisire ulteriori dati per il trasverso in questi ultimi giorni di run: due periodi da cui ci aspettiamo almeno 100 run aggiuntivi. • La produzione dei primi due periodi è stata iniziata al CERN a fine agosto • Il primo periodo è in avanzato stato di processato e trasferimento a Trieste • La produzione del secondo periodo è stata appena iniziata • Analisi • Studi di stabilità su tutti gli eventi (2 TB) in collaborazione con Torino in base alle risorse hardware disponibili • Calcolo asimmetria all’inizio solo su eventi con Q2>1 GeV2 (20%). Software già testato sulla farm (P.Pagano) • Studio di effetti sistematici dovuti ad accettanza e fondo • Richiede Produzione massiccia di MC • Produzione iniziale 107 eventi DIS nel range di interesse • 1TB di eventi simulati (20 CPU per 8 giorni) • Processatura: ogni analisi richiede lo stesso ordine di tempo della produzione CSN 1
Hardware, desiderata 2003 • Inventariabile • Rimpiazzo RAID controller SCSI CRD-5440 con analogo Infotrend Sentinel 150 ( 3.5 k€ ) • CMD si è orientata su mercato militare. Non c’è modo di mettere l’oggetto in manutenzione • Sostituzione ACID01 con server “di qualità” (con RAID…) ( 5.6 k€ ) • Fa servizi importanti: master SGE, server DHCP, master e display BigBrother,… • È vecchio e usa dischi ATA non in RAID. • Upgrade della Tape Library a 40 slot (5.0 + IVA k€ ) • 20 slot (= 2 TB). NOTA: prezzo farm con 20 slot 67 MITL • Inventariabile (seconda priorità) • Inizio upgrade dei client vecchi (5/30 da fare a fine 2003) (28.0 k€ ) • Consumo • Varie ( 3.0 k€ ) • Tape Ultrium ( 10.0 k€ ) • Manutenzioni • Switch 3com 3900 (07/2002-12/2003) ( 0.7 k€ , possibilmente anticipati al 2002) • Switch 3com 4900 (01/2003-12/2003) (0.6 k€ ) • Gruppo di continuità (50%: 0.6 k€ ) CSN 1