1 / 11

Site GRIF et GRIF-IPNO

Site GRIF et GRIF-IPNO. GRIF : Grille pour la Recherche en Ile de France – grif.fr Christophe DIARRA 26/03/2010. Quelques extraits de slides de Frédéric Schaer (IRFU) et de Andrea Sartirana (LLR). LPNHE. GRIF - EGEE - LCG. 6 laboratoires. 3 universités et une école.

daire
Download Presentation

Site GRIF et GRIF-IPNO

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Site GRIF et GRIF-IPNO GRIF : Grille pour la Recherche en Ile de France – grif.fr Christophe DIARRA 26/03/2010 Quelques extraits de slides de Frédéric Schaer (IRFU) et de Andrea Sartirana (LLR)

  2. LPNHE GRIF - EGEE - LCG 6 laboratoires 3 universités et une école 1 partenaire hébergé ~30 personnes  8,2 TEP Opérations  1,5 TEP Management  0,4 TEP Physiciens  5,4 TEP EGEE3 dont 2 SA1 -------------------------------------------------------------- 15,5 TEP dont 10,2 TEP Opérations Une équipe soudée

  3. LPNHE GRIF - EGEE - LCG Ressources fin 2009 6 laboratoires 350 cores, 254 TB 580 cores, 450 TB 1750 cores, 105 TB 395 cores, 40 TB 250 cores, 43 TB 112 cores, 7TB • ~ 3500 cores (>5000 cores en Mars 2010) • ~ 1PB (>1PB en Mars 2010) • 16 VOs : ALICE, ATLAS, • OPN 10 GB/s entre les sites • VLAN GRIF 4GB/s vers Lyon • Services répondants, config commune (Quattor), mutualisation services, ressources humanes

  4. GRIF - EGEE - LCG

  5. GRIF - EGEE - LCG Le Site IPNO • VO supportés : ipno, agata, ALICE, ops, dteam, formation, grif, apc, llr, lal, irfu, lpnhe, psud • ~30 utilisateurs inscrits dans la VO ipno • 2 CEs (deux clusters) avec support de MPI • ipnls2001  plus de 400 cores (+240 bientôt) • ipngrid12: cluster avec IB, défiés aux parallèles MPI  160 cores • 1 SE DPM+xrootd: ipnsedpm • 3 disk servers (+8 autres bientôt) • ~60 TB bruts (+~240TB bientôt) • 1 WMS : ipngrid28 • 2 UIs : ipngrid02 et ipngrid01 (ipngrille) • 1UI gsissh : grid11 (pour ceux qui n’ont pas de UIs) et pour le login-intersites

  6. GRIF - EGEE - LCG Le Site IPNO : disques NFS • Disques partagés via NFS et accessibles sur le UI et les CE/WNs. • /nfs1 • /nfs1/scratch : zone de scratch • /ipn/radio, /ipn/theo, /ipn/agata2 • Utilisables en lecture directement dans les jobs, mais nécessite de gérer manuellement les droits avec chmod  nombreuses sources d’erreurs  préférer l’utilisation du SE • Sur le UI, commandes clientes du système de batch • qstat, etc… (voir documentation fournie) • Bientôt un wiki disponible sur machine virtuelle : ipngridwiki

  7. GRIF - EGEE - LCG Le Site IPNO : les queues batch • CE ipnls2001 : • ipno : pour les jobs longs <= 10 jours de CPU time. Supporte aussi les jobs MPI en TCP sur ethernet 1Gb/s • omp : pour les jobs parrallèles SMP utilisants OpenMPI  toutes les CPUs du WN réservés au job • CE ipngrid12 : • ipno : queue avec 64 cores Hapertown • ipnofast : queue avec 96 cores Nehalem • Temps CPU max autorisé • ipno, ipnofast, omp: 10 jours • sdj : 10 min  à utiliser en phase de test. Les jobs soumis sur cette queue s’exécutent immédiatement même si toutes les CPUs sont occupées.

  8. GRIF - EGEE - LCG Le Site IPNO : les queues batch (suite) • Queue sdj • Les jobs qui utilisent cette queue ne doivent pas être trop gourmands en mémoire. Ne pas dépasser 1GB de RAM. • En effet ces jobs peuvent se retrouver à tourner sur un WN déjà plein (toutes les CPUS déjà occupées). • Pour utiliser la queue sdj, mettre dans le .jdl • ShortDeadlineJob=true; • Requirements = RegExp("ipnls2001.in2p3.fr.*sdj$",other.GlueCEUniqueID); • ou Requirements = ( other.GlueCEUniqueId == "ipnls2001.in2p3.fr:2119/jobmanager-pbs-sdj"); •  On peut remplacer ipnls2001 par ipngrid12 • ou Requirements = RegExp("ipn.*\.fr.*sdj$",other.GlueCEUniqueID);

  9. GRIF - EGEE - LCG Le Site IPNO : les WMS • Plusieurs WMS sont configurés pour la VO ipno • Liste donnée par lcg-infosites –vo vo.ipno.in2p3.fr wms • Le LB est grid09.lal.in2p3.fr (nom contenu dans le job ID) • Le WMS utilisé est choisi au hasard parmi une liste. En cas d’échec, il y a « fail-over » sur le WMS suivant • En cas de problème avec un/des WMS, utiliser glite-wms-job-list-match –a jod.jdl plusieurs fois pour repérer un WMS qui répond vite. Puis forcer la soumission via ce WMS avec l’option ‘-e’. Exemple: • glite-wms-job-submit -a -e https://ipngrid28.in2p3.fr:7443/glite_wms_wmproxy_server job.jdl

  10. GRIF - EGEE - LCG Le Site IPNO : financement

  11. GRIF - EGEE - LCG Le Site IPNO : en cas de problème • Contacts : • Christophe DIARRA diarra@ipno.in2p3.fr • Phi-Phong NGUYEN phiphong@ipno.in2p3.fr • Ou mieuxgrid.support@ipno.in2p3.fr ou grid.admin@ipno.in2p3.fr • S’il n’y a pas de réponse (en cas d’absence), contacter grid.admin@grif.fr • En dernier recours, créer un ticket GGUS : http://www.ggus.org

More Related