1 / 19

Les sites de calcul EGEE en France

Les sites de calcul EGEE en France. David Bouvet Tutorial CGG 07-10/11/2006. Plan. Sites français Site grille Site de calcul infrastructure aspects fonctionnels ex. préoccupations majeures quelques éléments de solutions (retour d’exp. IN2P3-CC) Conclusions Liens utiles.

Download Presentation

Les sites de calcul EGEE en France

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Les sites de calcul EGEE en France David Bouvet Tutorial CGG 07-10/11/2006

  2. Plan • Sites français • Site grille • Site de calcul • infrastructure • aspects fonctionnels • ex. • préoccupations majeures • quelques éléments de solutions (retour d’exp. IN2P3-CC) • Conclusions • Liens utiles 2

  3. Sites français • ROC Français: IN2P3-CC • IN2P3-CC Lyon (Centre de Calcul de l'IN2P3) • IN2P3-LPC Clermont (Laboratoire de Physique Corpusculaire) • IN2P3-CPPM Marseille (Centre de Physique des Particules de Marseille) • GRIF Ile de France (Grille de Recherche d’Ile de France)Site distribué sur les sites : DAPNIA (CEA/Saclay), IPNO (IN2P3, Orsay), LAL (IN2P3, Orsay), LLR (Ecole Polytechnique, Palaiseau) et LPNHE (IN2P3, Paris 6) • CGG Massy (Compagnie Générale de Géophysique) • IPSL/IPGP Paris (Institut Pierre Simon Laplace/Institut de Physique du Globe de Paris) • IN2P3-LAPP Annecy (Laboratoire d'Annecy-Le-Vieux de Physique des Particules) • IN2P3-SUBATECH Nantes (Laboratoire de physique SUBAtomique et des TECHnologies associées) • IN2P3-IRESStrasbourg (Institut de Recherches Subatomiques) • AUVERGRID Clermont (site pour une grille régionale) • IN2P3-LPSC Grenoble (Laboratoire de Physique Subatomique et de Cosmologie) 3

  4. Déployer un site grille… c’est mettre le doigt dans l’engrenage de la production [P. Girard 2005] 4

  5. Grille de calcul : Mutualisation des centres de ressources Gestion de communautés via le concept de “Virtual Organization” Minimisation du temps de latence des utilisateurs Site grille : un autre niveau de mutualisation des ressources • Centre de calcul : • Supercalculateur / Fermes de calcul • ensemble de “Worker Nodes” • machines hétérogènes (Hardware, OS) • Grande capacité de stockage (disques, bandes) • Gestion de communauté d’utilisateurs via les comptes (groupes et utilisateurs) • Gestion experte de la production 5

  6. VO VO VO VO Resource Broker(s) Batch System … France … Italie Ferme1 Ferme2 RC RC RC RC RC RC WN WN WN WN WN WN RC RC RC RC RC RC WN WN WN WN WN WN Système de partage de fichiers Catalogue de fichiers Stockage Stockage Site grille : un autre niveau de mutualisation des ressources • Centre de calcul : • Grille de calcul : 6

  7. VO Resource Broker Computing Element France … Italie Storage Element RC RC RC RC RC RC RC RC RC RC RC RC Catalogue de fichiers Stockage RB LFC UI BDII VOMS FTS Site de calcul :infrastructure • Centre de ressources / Site (SA1) • fournit à la grille • des ressources de calcul • des ressources de stockage • éventuellement des services/VO 7

  8. Proxy VOMS VO SE RB CE local users VO1_User ACL1 ACL2 VO1_User ACL3 VO2_User ACL Grid-mapfile Site de calcul :aspects fonctionnels • Gestion des membres d’une VO • sur les noeuds de grille, “Mapping” des membres de la VO vers la notion d’utilisateurs des systèmes d’exploitation • génération d’un “grid-mapfile” sur certains services de la grille • configuration faite par le site sur le noeud pour mapper le “proxy” vers le compte fonction des • gestion de “pool” de comptes: egeode001, egeode002… • les différents groupes et rôles se traduisent par un mapping sur des pools/comptes différents • tous les pools de la VO partage le même groupe 8

  9. VO1 Système d’information (BDII) VO2 RB1 RC1 LFC LFC RB2 VO3 RC2 RC3 Site CC-IN2P3 Site de calcul :aspects fonctionnels • Publication d’information sur la grille • chaque site publie • Une description des ressources/services qu’il fournit par VO • L’état actuel de ses ressources (CPU libres, espace de stockage...) • Sur les RC, ce qu’une VO a installé (“Tags” des Software Managers) 9

  10. VO Box VO LHC Système d’information de la grille VO Box VO LHC V OBox VO LHC MonBox 4 Sites VOMS 4 VOs VO Box VO LHC FTS 4 VOs LHC LFC Local 4 VOs LHC LFC Central Biomed Site BDII Gridftp SRM Gridftp Computing Element Computing Element Storage Element Storage Element Storage Element BQS XFS HPSS DCACHE WN WN WN WN WN WN WN WN Anastasie Calcul Stockage Site de calcul (ex.) :IN2P3-CC 10

  11. Site de calcul :préoccupations majeures • Services de grille critiques • indisponibilité des services de VO (VOMS, LFC, FTS, …) • impossibilité pour la VO d’utiliser la grille • indisponibilité du système d’information du site (site BDII) • disparition des services critiques du système d’information globale • Sécurité • traçabilité de l’utilisation des nœuds grilles • trou de sécurité introduit par le M/W • Gestion des données des VO • indisponibilité/perte des données applicatives (Storage Element) • indisponibilité/perte des données de service spécifiques aux VO : • BD des membres d’une VO ou des catalogues de fichiers d’une VO • Tags des VO enregistrés sur les CE (indiquant les softwares installés sur le site par la VO) • software des VO installés sur les espaces partagés • Mises à jour du Middleware/Changements de configuration • dysfonctionnement dû à de mauvaises configurations, des nouveaux bugs, etc. • ex. : mauvaise publication d’un CE créant un « trou noir » sur la grille (7000 Jobs d’Atlas en 1 nuit en mai pour IN2P3-CC) • rupture de services • perturbation/rupture de la production locale 11

  12. Site de calcul (ex. IN2P3-CC) :quelques éléments de solution (1) • Disposer d’une infrastructure de test/validation • pour éprouver le M/W, son installation, mieux le comprendre et donc le maîtriser avant de le mettre en production • utilisation de la technologie des machines virtuelles (5 serveurs VMWare avec 4 machines virtuelles) • économique • gain de temps grâce au clonage d’images de référence • adaptée aux installations répétées • évite l’intervention des administrateurs systèmes pour des réinstallation à répétition • permet de disposer de services de grille hors production nécessaires aux tests d’autres noeuds. 12

  13. Site de calcul (ex. IN2P3-CC) :quelques éléments de solution (2) • Utiliser l’expertise locale et déléguer aux experts la part qui leur incombe • toutes nos BD sont en charge de l’équipe « Bases de Données » • l’installation du système et la gestion réseau des nœuds grille sont assurées par l’équipe « Systèmes et Réseaux » • une grande partie des problèmes de sécurité est couverte par les experts en sécurité du CCIN2P3 • l’environnement des nœuds de grille est cohérent avec les autres machines du parc • on dispose des outils de surveillance matériel et systèmes pour les nœuds de la grille • le stockage/transfert de données est géré par l’équipe « Stockage » • le suivi des jobs « grille » est assuré par l’équipe « Production » • une partie du support aux utilisateurs grille est pris en charge par le « Support aux utilisateurs » 13

  14. Site de calcul (ex. IN2P3-CC) :quelques éléments de solution (3) • Communiquer des alias plutôt que des noms de machines pour les nœuds de la grille • quand le M/W le permet (pb avec les CE) • quand le nom d’un nœud entre dans la configuration d’autres nœuds de grille • changement transparent de machine lors de panne ou de mise à jour de l’intergiciel • L’utilisation d’une machine de rechange permet des mises à jour sans arrêt de service (BDII, CE) • le nœud de remplacement fraîchement mis à jour peut être largement testé avant son entrée en production • dans le cas d’un CE, on peut faire tourner 2 CE simultanément sans avoir à drainer le gestionnaire de jobs • mise en production du nouveau CE • fermeture de l’ancien CE (il n’accepte plus de nouveaux jobs) • sortie de l’ancien CE lorsque tous ses jobs sont finis 14

  15. CE CE WN WN WN WN WN WN WN WN WN WN WN WN WN WN WN WN AFS GLITE3.0.4 GLITE3.0.0 Site de calcul (ex. IN2P3-CC) :quelques éléments de solution (4) • L’installation partagée des WN/UI sur AFS • faire l’installation pour l’ensemble de la ferme sans altérer l’installation de chaque WN • pour éviter de sortir les WN de production le temps de la mise à jour • mise à jour de tous les WN en une fois • durée: un drainage de la ferme (24 à 48h selon les jobs en machine) • mise à jour par N lots de WN • durée: N x drainage des lots de WN (24 à 48h selon les jobs en machine) • de faire coexister différentes version de l’intergiciel • pour les WN, mise en œuvre au niveau du CE d’un mécanisme de sélection de la version du M/W à utiliser pour un job • changer de version à la volée par (re)configuration du CE 15

  16. Site de calcul (ex. IN2P3-CC) : quelques éléments de solution (5) • Utilisation de système de « backup » pour les données contingentes • la plupart des logs des noeuds de grille est dupliquée sur une machine distante grâce au service « syslog ». Ils sont conservés 3 mois (durée définie par le projet) • les Tags des VO (sur les CE) sont sauvés régulièrement sur cette machine • les softwares de VO sont déposés sur des volumes sauvegardés d’AFS • S’armer pour une surveillance active • NAGIOS (CA, CRL, site BDII, etc.) • LEMON (en cours de test) • outils « maison » • ex. : surveillance de l’évolution du ratio entre le total des jobs de la grille et les jobs grille locaux. Permet de détecter des changements anormaux de fréquentation du site. • Communiquer rapidement lors de la détection de problème • pour s’économiser le traitement de tickets d’incident • pour sortir de production si besoin est • Collaborer avec d’autres sites pour répliquer les services critiques 16

  17. Conclusions • Déployer et gérer un site grille de production fait appel à plusieurs rôles • administration Réseaux et Systèmes, administration et exploitation de fermes de calcul, administration et exploitation de serveurs de stockages, support aux utilisateurs et aux VO, administration de base de données, expert « grille » • Comprendre le middleware et son installation pour • l’adapter à son infrastructure • être réactif mais aussi proactif « Etre proactif, c’est faire des footings dès septembre pour perdre les kilos qu’on prendra aux fêtes de fin d’année. » [P. Girard, 2006] • prévoir les pannes, les évolutions possibles, et s’affranchir tant que possible de dépendances externes • collaborer avec d’autres sites pour garantir la pérennité des services critiques • La stabilité du middleware s’est grandement améliorée • l’effet « production » contribue à cette stabilité • la multiplication d’utilisateurs et de sites est la meilleure garantie d’une stabilité vite retrouvée • la mise en place d’une infrastructure opérationnelle • elle repose encore sur une logique de « best effort » et de savoir-faire • manque d’outils d’administrations (administrer n’est pas configurer) • manque de documentation mais aussi trop d’information (mails, wikis, sites web, …) • devrait s’améliorer avec le nouveau middleware, l’utilisation de standard, et la pression mise par les sites 17

  18. Liens utiles • COD operators • rotation sur les ROC pour fournir une équipe d’opérateurs de surveillance (CIC On Duty) • User support : GGUS • https://gus.fzk.de/pages/home.php • Outils de monitoring • CIC portal • https://cic.in2p3.fr • point d’entrée sur les autres outils • vue intégrée des autres outils à l’usage des COD opérateurs • Service Availability Monitoring (SAM) • https://lcg-sam.cern.ch:8443/sam/sam.py • Grid Operations Centre Core Database (GOCDB) • https://goc.grid-support.ac.uk/gridsite/gocdb2 • GIIS monitor (Gstat) • http://goc.grid.sinica.edu.tw/gstat • GOC monitoring tools • http://goc.grid-support.ac.uk/gridsite/monitoring/ • GOC job monitor • http://gridportal.hep.ph.ic.ac.uk/rtm/ • Accounting • http://goc.grid-support.ac.uk/gridsite/accounting/index.html 18

  19. Merci 19

More Related