350 likes | 533 Views
Grid-Computing et gestion massive de données. Les travaux du projet DataGrid. Yves Denneulin Laboratoire ID, Grenoble Jean-François Méhaut Laboratoire GRIMAAG, Pointe-à-Pitre et Schoelcher. The Beginning of DataGRID. The DataGRID project evolved from the conjunction of
E N D
Grid-Computing et gestion massive de données Les travaux du projet DataGrid Yves Denneulin Laboratoire ID, Grenoble Jean-François Méhaut Laboratoire GRIMAAG, Pointe-à-Pitre et Schoelcher
The Beginning of DataGRID • The DataGRID project evolved from the conjunction of • the search for a practical solution to building the computing system for CERN’s next accelerator – the Large Hadron Collider (LHC) • and the appearance of Ian Foster and Carl Kesselman’s book – The GRID – Blueprint for a New Computing Infrastructure
Considérations techniques… • Applications à gros volumes de données • Enormes besoins de calcul • Utilisateurs répartis sur les différents continents
The Large Hadron Collider Project 4 detectors CERN CMS ATLAS Capacité de stockage – Raw recording rate 0.1 – 1 GBytes/sec Accumulating at 5-8 PetaBytes/year 10 PetaBytes of disk Puissance de calcul – 200,000 of today’s fastest PCs LHCb
Utilisateurs du CERN Europe: 267 institutes, 4603 usersElsewhere: 208 institutes, 1632 users
Observation de la terre • Satellite data • ENVISAT for Ozone Monitoring • Etc.
Biology Applications • Grid-aware bio-informatic platform • Large Scale Comparative Sequence Analysis • Medical imaging • Etc.
DataGrid: objectifs • Partager de grandes quantités de données en utilisant les réseaux actuellement disponibles • Construire une architecture logicielle utilisable • Tester sur des applications réelles • Physique des hautes énergies • Biol-sciences • Observation et étude de la terre
The Data Grid Project - Summary • European dimension • EC funding 3 years, ~10M Euro • Closely coupled to several national initiatives • Multi-science • Technology leverage – • Globus, Condor, HEP farming • Rapid deployment of working prototypes - production quality • Collaboration with other European and US projects • Status – • Started 1 January 2001 • Open – • Open-source and communication • Global GRID Forum • Industry and Research Forum
DataGRID Partners (1) • Managing partners • UK PPARC Italy INFN • France CNRS Holland NIKHEF • Italy ESA/ESRIN • CERN proj.mgt. - Fabrizio Gagliardi • Industry • IBM (UK), Communications & Systems (F), • Datamat (I)
DataGRID Partners (2) • Associate partners University of Heidelberg, CEA/DAPNIA (F), IFAE Barcelona, CNR (I), CESNET (CZ), KNMI (NL), SARA (NL), SZTAKI (HU) Finland- Helsinki Institute of Physics & CSC, Swedish Natural Science Research Council (Parallelldatorcentrum–KTH, Karolinska Institute), Istituto Trentino di Cultura, Zuse Institut Berlin,
Application Toolkits Condor-G MPICH-G2 Grid Services MDS GridFTP GRAM Grid Fabric Condor PBS SUN Internet Linux Applications DataGrid Work Packages WP8-10 WP1& 8-10 sw WP2,3,5,(7) WP4,7
Local Services Condor MPI TCP UDP LSF Easy NQE AIX Irix Solaris Architecture Globus Applications High-level Services and Tools GlobusView Testbed Status DUROC MPI MPI-IO CC++ Nimrod/G globusrun Core Services Nexus GRAM Metacomputing Directory Service Globus Security Interface Heartbeat Monitor Gloperf GASS
Construction du testbed DataGrid • Basé sur Globus • Utilise et étend les services Globus standards • Processus d’intégration, validation et déploiement • Architectures en couches à 2 niveaux • Niveau Fabric : composants pour le middleware seulement, non accessibles par les applications • Niveau « Grid » : composants du middleware Grid Services MDS GridFTP GRAM Grid Fabric Condor PBS SUN Internet Linux
Installation du testbed • Installation automatisée et gestion des nœuds • Serveur de configuration et d’installation (local à chaque site) • Séquence d’installation • Boot + DHCP • Montage (par NFS) d’un filesystem root distant • Installation à partir de ce FS
(>40) Dubna Lund Moscow Estec KNMI RAL Berlin IPSL Prague Paris Brno CERN Lyon Santander Milano Grenoble PD-LNL Torino Madrid Marseille BO-CNAF HEP sites Pisa Lisboa Barcelona ESRIN ESA sites Roma Valencia Catania Testbed Sites Francois.Etienne@in2p3.fr - Antonia.Ghiselli@cnaf.infn.it
Groupe middleware • 5 work packages • Gestion de la charge de travail • Gestion des données • Monitoring de la grille • Stockage massif des données • Gestion de la structure
Gestion de la charge de travail • Contexte de la grille • Charge de travail non prévisible • Chaotique • Un grand nombre d’utilisateurs indépendants • Thème d’étude • Ordonnancement distribué • Allocation de ressources • Eléments de solution • Disponibilité des données, charge CPU, réseaux • Co-allocation
Solutions mises en oeuvre • Allocation des ressources (CERN) • Gestionnaires de batchs • Scripts de jobs • Système d’informations • Gestion de configuration (CERN) • Stocke toutes les informations de configuration (au sens « système» du terme) • Tout est exprimé en XML • Configuration automatique des machines
Ordonnanceur de grilles • Responsable des choix de placement et d’exploitation des ressources (INFN, Italie) • Deux éléments clés : • Resource broker : choisit un élément (nœud de stockage, de calcul, réseau pour communiquer, etc.) répondant à une requête • Job submission service : exécute (soumission, annulation, surveillance) les décisions prises par le resource broker
Ordonnanceur de grilles (2) • Communication par le biais de : • Job Description Language (JDL) décrit les jobs • Même langage pour la description des besoins (clients) et des ressources (serveur) • Langage ClassAds (issue du projet Condor) • Services d’enregistrement (logging) et bookkeeping (persistance) des jobs et de leur status • Resource Broker • Développement interne à DataGrid • Fonctionne en distribué • Un resource broker par site • Coopération entre les brokers
Gestion des données • Granularité • Unité de partage: fichiers • Bientôt : collection de fichiers • Dispositif de réplication • Améliorer l’efficacité des accès • Transparent pour les utilisateurs • Types de fichiers • Physiques • Logiques (un ou plusieurs fichiers physiques,…) • Métadonnées • Statistiques d’accès, monitoring,…
Réplication des fichiers • Deux types de fichiers • Fichier maître (original) créé par le propriétaire • Fichier réplicat (copies) créés par le middleware • Gestionnaire de réplicats et catalogue de réplicats • Service de consistence des réplicats • Répercuter les mises-à-jour sur les réplicats • Mécanisme de synchronisation • Destruction du maître et des réplicats
Système de Gestion des Replicats • Décide de la politique de replication des ensembles de fichiers • Utilise : • Catalogue des replicats • Transfert de fichiers des GSE pour performances • Inclut un module d’optimisation pour minimiser les mouvements de données • Estimation des coûts de duplication, bande passante • Prévue pour la prochaine version, l’outil actuellement utilisée pour cela est manuel : GDMP
Catalogue des réplicats (UK) • Fonctionnement • Fait la correspondance entre un nom logique et un (ou un ensemble) de fichiers physiques • Gère également des métadonnées (taille, heure de modification, propriétaire, …) • S’appuie sur un annuaire LDAP • SQL • Composant d’interface avec des SGDR
Système de gestion du stockage • Gestion du stockage (CERN, RAL/UK) • Interface entre les services grid et les systèmes de stockage sous-jacent • Utilisation des outils globus • GSI pour authentification • Globus-url-copy • GridFTP • Monitoring • En cours de développement
GridFTP • Universal high-performance file transfer • Extends the FTP protocol with: • Single sign-on (GSI, GSSAPI, RFC2228) • Parallel streams for speed-up • Striped access (ftp from multiple sites to be faster) • Clients: gsincftp, globus-url-copy.
Service de stockage (CERN) • Fonctionnement • Gère les GSE (Grid Storage Element) : tout composant permettant de stocker des données • Produit : GDMP (Grid Data Mirroring Package) • Développement spécifique à Datagrid • Mirroring automatique entre GSE • Existence d’un catalogue local pouvant être recopié • Commandes : • Put_local, get_local : mise de fichiers dans la base locale • Publish_catalog, get_catalog : exportation, importation de base locale • Replicate_get, replicate_put : push/pull de fichiers vers/de un hôte distant
Service commun d’interfaçage • Fonctionnement: • Permet de communiquer avec n’importe quel composant de niveau structure • Exemples : • Soumission de jobs • Utilise les composants globus : • Gatekeeper • Job manager
Autres services • Authentification et accounting (CERN) • Utilisation complète du GSI • Quelques mécanismes d’automatisation ont été ajoutés • Outil de configuration LDAP • Regénération périodique des listes d’autorisation • Outils visuels de manipulation d’arborescence • Index des services • Découverte automatique des services fournis par la grille • Pas encore développé, fera partie du prochain testbed
Autres services (2) • Information et monitoring • Gère toute la connaissance de l’architecture distribuée • Gestion répartie • 3 implantations coexistent • MDS de Globus • Ftree • R-GMA implantation du GMA (Grid Monitoring Architecture) proposé par le Global Grid Forum
Conclusion • Expérience en vraie grandeur d’une infrastructure pour le stockage distribué de grandes quantités de données • Ça marche! • Plateforme de test avec plus de 30 sites • Tout n’est pas fini mais des expériences tournent • RPM d’installation/intégration disponible • Supporte RH 6.2 seulement • Validation par le CERN