210 likes | 369 Views
Condor. III Workshop sul Calcolo INFN F. Semeria INFN Bologna Cagliari 25-05-2004. Introduzione. Utilizzo di Condor nel mondo Statistiche del pool INFN Nuove funzionalit à Conclusioni. Diffusione di Condor. Micron Technology : 9 Pool, 4254 CPU. Risparmiati milioni di $. LIGO
E N D
Condor III Workshop sul Calcolo INFN F. Semeria INFN Bologna Cagliari 25-05-2004
Introduzione • Utilizzo di Condor nel mondo • Statistiche del pool INFN • Nuove funzionalità • Conclusioni
Diffusione di Condor • Micron Technology : 9 Pool, 4254 CPU. Risparmiati milioni di $. • LIGO • CDF: CAF (CDF Analysis Farm). 350 macchine, centinaia di utenti (50 sempre attivi) • BNL: sostituisce LSF con Condor (problemi di costi…). Farm di 1145 pc. 5000 cpu nel 2007. • eMinerals mini grid: 930 pc Windows sparsi in 30 computer room nel campus UCL. Utilizzato il 95% del tempo di CPU.
Environment from the Molecular Level A NERC eScience testbed project …AND THERE IS: WE USE WHAT’S ALREADY THERE:930 win2K PC’s (1GHz P3, 256/512Mb Ram, 1Gbit e-net.) clustered in 30 student cluster rooms across every department on the UCL campus, with the potential to scale up to ~3000 PC’s.These machines waste 95% of their CPU cycles 24/7: A MASSIVE UNTAPPED RESOURCE- A COUP FOR eMINERALS! This is where Condor enters the scene. THE ONLY AVAILABLE OF-THE-SHELF RESOURCE MANAGEMENT AND JOB BROKER FOR WINDOWS: Install Condor on our clusters, and we harness 95% of the power of 930+ machines 24 hours a day, without spending any money.
Ogni anno vengono utilizzati l’ equivalente di circa 80 anni di CPU.
Condor + HawkEye • HawkEye è un sistema di Resource Monitoring che può essere usato con Condor. • Permette di aggiungere attributi dinamici definiti dall’utente ai machine classads. • Da usare per query e scheduling. • Molti plugin disponibili: • Spazio disco,memoria usata,processi in esecuzione,errori di rete,utenti…
Central Manager • I demoni possono girare su qualsiasi porta • COLLECTOR_HOST = condor.cs.wisc.edu:9019 • NEGOTIATOR_HOST=condor.cs.wisc.edu:9020 • Utile da usare in caso di firewall.
Recupero connessioni interrotte (release 6.7.x) • Per i job Vanilla e Java si può ristabilire la connessione tra submitting ed executing machines • Mettere nel job submit file • JobLeaseDuration = <N secondi>
High Availability • Condor permette una submit machine “hot spare”: • Se la sub. mach. è down per > N minuti, una seconda macchina può prendere il suo posto
Master SchedD Daemon Failover Machine A Machine B Refresh Lock Refresh Lock Obtain Lock Check Lock Master SchedD Active Active (hot spare)
Computing on Demand (COD) • Pensato per calcoli brevi ma intensi. • Un utente può sospendere i condor job ed eseguire immediatamente un cod-job. • Quando il cod-job termina i condor job riprendono l’esecuzione. • Un utente deve essere autorizzato (e autenticato) a usare COD.
I/O remoto per Vanilla Job • I job Vanilla non richiedono un file system uniforme • I file di input/output vengono trasferiti automanticamente tra la submitting machine e la executing machine.
BBS (Bologna Batch System) • Batch system basato su Condor Vanilla • Si possono creare code batchcon diverse velocità e timeout di esecuzione. • I bbs-job hanno maggiori priorità degli altri condor job. • Non richiede nè la ricompilazione del programma nè un file system uniforme. • In fase di test per Alice-Bologna. 19 macchine biprocessori disponibili.
Condor RPM • Si può installare Condor tramite file rpm • Installazione e upgrade semplificati!
Conclusioni • La diffusione di Condor è in rapida crescita in tutto il mondo, sia accademico che commerciale. • Nuove features e nuove applicazioni nelle nuove release: (COD, hot-spare, HawkEye, BBS, etc) • 80 anni di CPU all’ anno recuperati, ma molti di più vengono sprecati. • Il costo per evitare lo spreco è inferiore al valore del bene sprecato.