1 / 14

Stato della Farm di Trieste

Stato della Farm di Trieste. CSN 1 17 settembre 2002 Benigno Gobbo INFN Sezione di Trieste Benigno.Gobbo@cern.ch. 19 New clients: Abit VP6 Dual PIII 1000 Mhz 2 x 40 GB ATA Disks 512 MB RAM. 3com 4900 3com 3900. SCSI disk server Sun Blade 1000 Dual SparcIII 750 MHz

etenia
Download Presentation

Stato della Farm di Trieste

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Stato della Farm di Trieste CSN 1 17 settembre 2002 Benigno Gobbo INFN Sezione di Trieste Benigno.Gobbo@cern.ch CSN 1

  2. 19 New clients: Abit VP6 Dual PIII 1000 Mhz 2 x 40 GB ATA Disks 512 MB RAM 3com 4900 3com 3900 SCSI disk server Sun Blade 1000 Dual SparcIII 750 MHz 18 GB SCSI FC disk 8 x 73 GB SCSI RAID5 Kvm switch www.ts.infn.it/acid/ acid@ts.infn.it CRD-5440 Server SGE, DHCP, BB, … Asus CUR-DLS Dual PIII 800 MHz 2 x 30 GB ATA Disks 512 MB RAM GA620 G gigabit 11 Old clients: MSI 694D Pro Dual PIII 800 Mhz 2 x 20 GB ATA Disks 512 MB RAM Hardware Tape Library STK L40 20 slot 2 x IBM Ultrium Tape/disk server Dell PowerEdge 4400 Dual Xeon 1 GHz 2 x 36 GB SCSI RAID1 6 x 73 GB SCSI RAID0 EIDE disk server Intel L440 GX+ Dual PIII 700 MHz 2 x 15 GB ATA disks 14 x 75 GB ATA disks 6 x 80 GB ATA disks GA620 G gigabit EIDE disk server Intel STL2 Dual PIII 866 MHz 2 x 20 GB ATA disks 20 x 80 GB ATA disks GA620 G gigabit CSN 1

  3. Hardware (cont.) • Problemi, rotture, etc… • ACID01 (server SunGrid, DHCP, BigBrother, …) • Problemi con motherboard (CUR-DLS) che legge male la temperatura della seconda CPU. Risolto aumentando la ventilazione. • ACID02 • Problemi con scheda di rete Intel PRO/100 S. • ACID03 (disk server) • Problemi su diversi dischi IBM DTLA-307075 (è un problema noto, ora…). • Client Vecchi (ACID06, 07, 09, 10, 12, 13) • Problemi con le ventole delle CPU. • ACID05 • Rottura alimentatore. • ACID13 • Rottura disco ( ri-installazione del sistema). • ACID17 (disk server) • Rottura di una 3ware Escalade 6800. • ACID36 • Rottura dell’alimentatore e della scheda video (probabilmente correlate). CSN 1

  4. Software installato • Management della farm • R. Birsa (Solaris), BG (Linux) • Componenti free software • RedHat Linux 7.2 (kernel 2.4.9, glibc 2.2.4) oppure 7.3 (kernel 2.4.18, glibc 2.2.5). • A parte la Sun che ovviamente monta Solaris • Queuing system: Sun Grid Engine EE 5.3p1 • System/Network monitor: Big Brother 1.9 • CERN software • CERNLib, ANAPHE, ROOT, CASTOR, DATE • COMPASS software • COMGeant (simulazione), Coral (ricostruzione ed ad analisi) • Tools locali (parallelizzazione dei processi, accesso a DB remoto) • Componenti commerciali • Backup: CA Arcserve 7 • 1 licenza Linux server, 3 licenze Linux client, 1 licenza Unix client • ODBMS: Objectivity 6.1.3 • CERN Contract CSN 1

  5. Software installato (cont.) CSN 1

  6. Software installato (cont.) CSN 1

  7. Software installato (cont.) CSN 1

  8. Software installato (cont.) • Mirroring/Update • Giornaliero di: • Distribuzione RedHat 7.2 e 7.3 • Software/DataBase di COMPASS • COMGeant • CORAL • DataBase delle calibrazioni • Database di geometria, mappe ed allineamenti • Periodico dei patch su sistema od applicativi • Non si usano auto-update tools • ASIS • Non viene usato • Sono installati solo i package che servono esplicitamente (CERNLib, CASTOR, …), localmente su ogni nodo, usando RPM. CSN 1

  9. Tools sviluppati ed attività in corso • Spar: tool per la parallelizzazione della procedura di analisi di MC via SunGrid (V.Duic) • Input: l’utente specifica eseguibili e file di configurazione come se si trattasse di un unico job di generazione/produzione/analisi • spar provvede alla suddivisione in job paralleli alterando opportunamente i file di opzioni (il grado di parallelizzazione viene specificato dall’utente). • Output: spar alla fine raggruppa opportunamente i file di output • Supporta fino all’intero ciclo di processamento: generatori COMGeant  CORAL, con possibilità di escludere alcuni passi • Può partire da passi intermedi (es. CORAL su output di COMGeant) • Una prima versione di spar è gia in utilizzo. • Parallelizzazione dell’analisi sui DST e raw data (V.Duic) • Concettualmente è analogo al tool precedente • Si basa sull’analogo tool in uso al CERN per la produzione (VD, M.Lamanna). CSN 1

  10. Tools sviluppati ed attività in corso (cont.) • Copia delle federazioni Objectivity di COMPASS (V.Duic) • Solo DST ed alcuni “raw data”. • Trasferimento (va ftp su wacdr) di: • Federazione • Database di header (di run ed eventi) • Database di eventi (essenzialmente DST) • Come test sono stati trasferiti i DST relativi al 2001 • I DST dei dati con polarizzazione trasversa del 2002 sono importati man mano che vengono prodotti al CERN • Test di processatura di raw event e DST • Produzione MC per test sistema e sviluppo software (A.Martin) • Per trasverso. 1M eventi su tutto range x e in diversi bin di x • Generazione eventi DIS con Lepto: singolo job per campione (è rapido) • COMGeant: parallelizzato da spar su 10 e 20 nodi/generazione • 1.4 s/evento, 5k eventi/CPU/generatore, 2 ore siu 10 CPU, zebra file 0.34 GB • CORAL: parallelizzato da spar su 10 e 20 nodi/generazione • Output ROOT tree (1MB per 5k eventi), somma dei singoli file fatta automaticamente da spar • Ottimizzazione della ricostruzione del RICH1 (P.Schiavon) • Run su file binari pre-prodotti al CERN per sviluppo ed ottimizzazione della ricostruzione degli anelli del RICH. CSN 1

  11. Attività prossima futura • Il run ci ha tenuto molto occupati. A questo si aggiunge l’impegno sull’offline generale di COMPASS • Responsabilità: Coral (BG), CCF e gestione dati (M.Lamanna), software RICH1 (P.Schiavon). Attività: gestione dati e produzione DST (P.Pagano, V.Duic) • Ottimizzazione della Farm per l’analisi dei dati • Test di accesso diretto alle federazioni CERN via WAN (da ottobre) • Verifica protezioni, sicurezza, etc. • Produzione selettiva di DST da DST con Coral • Richiede modifiche del codice • GUI per i tool di parallelizzazione • In test • Miglioramento dei tools di gestione e controllo della farm • Più sono automatizzati meno lavoro c’è per me (credo…) CSN 1

  12. Attività prossima futura (cont.) • Verifica della possibilità di utilizzo di HSM • Studio della possibilità di porting di CASTOR (ostico…) • HSM commerciali (poca roba per Linux: DiskXtender,…) • NOTA: dall’esperienza di analisi sui dati 2002 capiremo se ed eventualmente quanto storage aggiuntivo ci serve. È importante capire se si può puntare verso un HSM che potrebbe avere costi sensibilmente minori dell’allargamento dello spazio disco. • Adattamento e test del software per il nuovo DBMS • Studio sistematico della prestazioni del RICH1 • Analisi dei dati (già iniziata): misura di h1 da asimmetria dei “leading π” in DIS su bersaglio con polarizzazione trasversa CSN 1

  13. Analisi dati trasverso 2002 • È una misura complessa: l’asimmetria prevista è di pochi % con un apparato del tutto nuovo • DST • Organizzati in due periodi corrispondenti a circa 270 run (più di mezzo miliardo di eventi) 26 TB di “raw data”, 2 TB di dati DST • Inoltre è stato deciso di acquisire ulteriori dati per il trasverso in questi ultimi giorni di run: due periodi da cui ci aspettiamo almeno 100 run aggiuntivi. • La produzione dei primi due periodi è stata iniziata al CERN a fine agosto • Il primo periodo è in avanzato stato di processato e trasferimento a Trieste • La produzione del secondo periodo è stata appena iniziata • Analisi • Studi di stabilità su tutti gli eventi (2 TB) in collaborazione con Torino in base alle risorse hardware disponibili • Calcolo asimmetria all’inizio solo su eventi con Q2>1 GeV2 (20%). Software già testato sulla farm (P.Pagano) • Studio di effetti sistematici dovuti ad accettanza e fondo • Richiede Produzione massiccia di MC • Produzione iniziale 107 eventi DIS nel range di interesse • 1TB di eventi simulati (20 CPU per 8 giorni) • Processatura: ogni analisi richiede lo stesso ordine di tempo della produzione CSN 1

  14. Hardware, desiderata 2003 • Inventariabile • Rimpiazzo RAID controller SCSI CRD-5440 con analogo Infotrend Sentinel 150 ( 3.5 k€ ) • CMD si è orientata su mercato militare. Non c’è modo di mettere l’oggetto in manutenzione • Sostituzione ACID01 con server “di qualità” (con RAID…) ( 5.6 k€ ) • Fa servizi importanti: master SGE, server DHCP, master e display BigBrother,… • È vecchio e usa dischi ATA non in RAID. • Upgrade della Tape Library a 40 slot (5.0 + IVA k€ ) • 20 slot (= 2 TB). NOTA: prezzo farm con 20 slot 67 MITL • Inventariabile (seconda priorità) • Inizio upgrade dei client vecchi (5/30 da fare a fine 2003) (28.0 k€ ) • Consumo • Varie ( 3.0 k€ ) • Tape Ultrium ( 10.0 k€ ) • Manutenzioni • Switch 3com 3900 (07/2002-12/2003) ( 0.7 k€ , possibilmente anticipati al 2002) • Switch 3com 4900 (01/2003-12/2003) (0.6 k€ ) • Gruppo di continuità (50%: 0.6 k€ ) CSN 1

More Related