360 likes | 456 Views
DataGRAAL. DataGRAAL DataGRid pour Animation et Applications à Large échelle. Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA. Préambule. Pourquoi s’interesser aux données ?. Croissance des capacité de stockage > croissance des processeurs Nécessité d’adapter les supports.
E N D
DataGRAAL DataGRAALDataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA
Préambule Pourquoi s’interesser aux données ? • Croissance des capacité de stockage > croissance des processeurs • Nécessité d’adapter les supports Moore’s Law vs. storage improvements vs. optical improvements. Graph from Scientific American (Jan-2001) by Cleo Vilett, source Vined Khoslan, Kleiner, Caufield and Perkins. ACI DataGraal – 10/01/03
Plan • Partenaires • Problèmatique • Objectifs • Complémentarité • Axes de recherches • Echéancier ACI DataGraal – 10/01/03
Partenaires • Communauté bases de données : • PRISM – SMIS (INRIA – Univ. Versailles St Quentin) • LIRMM (Univ. Montpellier) • LSR-IMAG (Grenoble) • LISI – (INSA Lyon) • Communauté système : • PARIS (IRISA) • LRI - Equipe Cluster (Université Paris 11) • REMAP (LIP - ENS Lyon) • LIP6 (Université Paris 6) • Apache ID – IMAG • HP Labs • Applications : • CERS • IN2P3 ACI DataGraal – 10/01/03
Problématique Contexte Caractéristiques des nœuds : Grands sites de calcul, Clusters • <1000 • Stables • Identification • individuelle • Confiance Les Grilles de calcul ou « GRID » 2 types de grands systèmes distribués Les systèmes distribués à grande échelle • ~100 000 • Volatiles • Pas d’ident • individuelle • Pas de • confiance PC Les systèmes de Calcul Global Les systèmes Pair à Pair ACI DataGraal – 10/01/03
Problématique Pas de d’état global Impact de la très grande échelle • Nombre de ressources • Dynamicité • panne, déconnexion, charge • Eloignement • asynchronisme • Hétérogénéité • des architectures, des systèmes • Comportement malveillant ACI DataGraal – 10/01/03
Problématique Les Grilles • Plates-formes • Globus, NetSolve (Univ. Tennessee), Ninf (Univ. Tsukuba), DIET (ENS-Lyon/INRIA) • Stockage • GridFTP(Argonne), OceanStore (Univ. Berkeley), IBP (Univ. Tennessee) ACI DataGraal – 10/01/03
Problématique Les systèmes Pair-à-Pair • Lié à des applications • Napster, Kazaa, Edonkey, FreeNet… • Plates-formes de routages (DHT) • Chord (MIT), CAN, Pastry (Rice), Tapestry (Berkeley)... • Stockage de données • Non modifiables : PAST (Rice), CFS (MIT) • Modifiables : FarSite (Microsoft), Ivy (MIT) • Distribution de codes • XtremWeb (LRI) • Plate-forme générique • JXTA (Sun) ACI DataGraal – 10/01/03
Problématique Problèmes ouverts dans la gestion des données • Qualité de service dans l’accès aux données • Efficacité des accès • Disponibilité • Tolérance aux fautes • Hétérogénéité des sources • Persistance • Modèles de partage • Ecritures multiples • Protocoles de cohérence ACI DataGraal – 10/01/03
Objectifs DataGraal : Les objectifs • Gestion des données à très large échelle=> exploratoire • Multi-communautaire : Profiter/confronter les expériences des BD, système, applications=> animation • Identification de thématiques/concepts communs • Maquettes d’expérimentation ACI DataGraal – 10/01/03
Objectifs DataGraal : les applications • Stockage : • Grande quantité • Dispersion des données • Hétérogénéité ACI DataGraal – 10/01/03
Complémentarité Coopération entre communautés • Communauté système • Issus des expérience des systèmes répartis et pair-a-pair • Protocole de localisation • Placement, déploiement • Protocole de cohérence • Détection et gestion des fautes • Communauté bases de données • Gestion de grandes quantités de données • Hétérogénéité • Mobilité • Médiation • traditionnellement, architecture faiblement distribué ACI DataGraal – 10/01/03
Complémentarité Coopération (2) • Applications • physique des particules • physique des plasmas • simulation de grands systèmes physiques • Idée de la coopération : • faire se rencontrer des communautés différentes • contexte : stockage distribué de grandes quantités de données ACI DataGraal – 10/01/03
Complémentarité Atouts des partenaires • PRiSM/INRIA • langage de requêtes, fouille de données • exploitation de grandes quantités de données • LSR • Eclatement d ’un SGBD en un ensemble de services (persistance, duplication, …) • Connaissance approfondie des architectures de SGBD • LISI • Systèmes d’information à large échelle • LIRMM • médiation, exploitation de résultats venant de nombreuses sources BD ACI DataGraal – 10/01/03
Complémentarité Atouts des partenaires (2) • IRISA / PARIS • Maîtrise des mémoires partagées • Partage de mémoire pair-è-pair • Expérimentations avec JXTA • LRI • Calcul haute performance sur P2P • Tolérance aux fautes • LIP6 • Modèle de cohérence hiérarchiques • Gestion des fautes dans environnement asynchrone • Systèmes multi-agents • LIP Remap • Environnement de type grille • Traitement de grande masses de données • Redistribution dynamique des données et tolérance aux pertes Système ACI DataGraal – 10/01/03
Complémentarité Atouts des partenaires (3) • HP labs • environnement de grappe virtuelle • forte volatilité • Laboratoire ID • expérience architecture grande grappes • administration, gestion • déploiement efficace d ’applications sur un grand nombre de nœuds Infrastructures ACI DataGraal – 10/01/03
Complémentarité Atouts des partenaires (4) • IN2P3 • expérience dans la gestion de grandes quantités de données • élément central de Datagrid • CESR • fusion de plusieurs grandes bases en une seule • requêtes hétérogènes à traiter, stockage réparti • CEA • expériences grandeur nature • modélisation du climat, de la terre • forte complexité des données • grand nombre de sites Applications ACI DataGraal – 10/01/03
Complémentarité Atout du projet • Complémentarité • expériences diverses • vaste domaine de compétences • domaine des bases de données • système distribué • expériences acquises • applications (CEA, IN2P3, CESR) • système grande échelle ACI DataGraal – 10/01/03
Axes Identification des tâches (provisoire) • Tâche 1 : Besoins applicatifs (Tâche transversale) • Moteurs : CEA / CESR / IN2P3 • Tâche 2 : Déploiement de données • Moteurs : LRI / LIP / LIP6 / LISI • Tâche 3 : Accès efficace aux données • Moteurs : PRISM, LIRMM, LIP • Tâche 4 : Partage de données • Moteurs : IRISA / LIP / LIP6 / PRISM • Tâche 5 : Modèle de cohérence • Moteurs : IRISA/ LIP6 / PRISM • Tâche 6 : Tolérance aux fautes • Moteurs : LIP6 / LRI / • Tâche 7 : Apport des approches multi-agents • Moteurs : LIP6 / IRISA ACI DataGraal – 10/01/03
Axes Tâche 1 : Besoin applicatif • CEA , CESR , IN2P3 • « Retour » d’expérience de DataGrid Capacité de stockage – 5-8 PetaOctect / année 10 PetaOctect de disque Puissance de calcul – 200 000 PC rapides • Répartition du volume ? Grain. • Quelles disponibilités, persistance ? • Mode de partage ? ACI DataGraal – 10/01/03
Axes Tâche 2 : Déploiement • LRI : • XtremWeb • LISI : • Technique de cache Web • LIP6 : • Algorithmes de placement de données / observation • LIP : • DIET+IBP - Redistribution, Placement ACI DataGraal – 10/01/03
Axes Tâche 2 : déploiement (2) • Constat : Placement de données très statique • Exploration 1 : vers plus de dynamicité • Nécessité de contrôler l’environnement • Ressources disponibles • Détection de fautes en environnement asynchrone (pb algorithmique) • Transport d’information de contrôle à large échelle (filtrage, propagation épidemique) • Accumulation de données pertinentes (vision partielle) • Prise de décision • Problème de validité des informations • Exploration 2 : Lien avec le placement des tâches ACI DataGraal – 10/01/03
Tâche 3 : Accès • PRISM : • Accès efficace en fonction du profil • LIRMM : • Adaptation dynamique des vues • LIP : • Distribution de requêtes • Co-ordonnancement ACI DataGraal – 10/01/03
Axes Tâche 4 : Partage • PRISM : • Mode de partage transactionnelle • IRISA / LIP6 / LISI • Partage à grain fin (page / objet) • LIP • Gestion de versions de données immutables ACI DataGraal – 10/01/03
Axes Tâche 4 : partage (2) • Versionning vs. données modifiable • Limite du partage en lecture dans P2P • Approche de partage « volontaire » limitée • Le partage avec de nombreux écrivains • Augmenter la complexité - Quelles applications ? • Des tendances récentes : • Partage (en lecture) forcé (ex. Edonkey) • Partage avec une nombre réduit d’écrivains (Ivy …) ACI DataGraal – 10/01/03
Axes Tâche 5 : Cohérence • Modèle de cohérence sur mémoire partagée répartie (IRISA / LIP6 / LISI) • LISI • DosMos • IRISA • Cohérence au relachement • Cohérence multi-thread (DSM-PM2) • LIP6 • Modèle hiérarchique (CLRC) ACI DataGraal – 10/01/03
Axes Tâche 5 : Cohérence (2) • Avenir des mémoires partagées réparties ? • Application à large échelle • Travail coopératif, couplage de code • Hétérogénéité • Tolérance aux fautes ACI DataGraal – 10/01/03
Axes Tâche 6 : Tolérance aux fautes • PRISM : • Redondance dynamique • LIP6 : • Détection de fautes hiérarchique (RTT-FD) • Réplication dynamique (DARX) • LRI : • Journalisation de messages + mémoire de canal MPICH-V • LIP : • Code redondant • Reconstruction dynamique ACI DataGraal – 10/01/03
Axes Tâche 6 : Tolérance aux fautes (2) • Gestion de l’incertitude des informations • vers un système « indulgent » ? • Choisir la bonne stratégies (types de réplication, point de reprise, journalisation) en fonction de plusieurs critères : • Applicatif (type de fautes, nombre de fautes, temps de recouvrement) • Environnemental : surcoût, charge des machine et du réseau, MTBF …. ACI DataGraal – 10/01/03
Axes Tâche 7 : Approche multi-agent • LIP6 : • Plate-forme DARX : http://www-src.lip6.fr/darx • Fiabilité des agents, réplication • Dynamicité • IRISA/LIP6 • Service de partage de mémoire sur DARX ACI DataGraal – 10/01/03
Axes Tâche 7 : Approche multi-agent (2) • Un agent est une entité physique ou virtuelle : • capable d’agir sur elle-même et sur son environnement, • capable de percevoir son environnement, mais ne dispose que d’une représentation partielle de cet environnement (et parfois aucune), • peut communiquer avec d’autres agents, • poursuit un objectif individuel, • qui possède des compétences et peut offrir des services, • … • Propriétés d’un agent = autonomie, proactivité, adaptabilité, sociabilité, mobilité, … • Agent une alternative pour le large échelle ? ACI DataGraal – 10/01/03
Axes Support d’expérimentation • Plate-forme GDX : GriD eXplorer • F. Cappello, O. Richard , P. Sens • 1000 noeuds • Objectif : Emulation d’internet • Nombre de sites, Éloignement • Différent type d’expériences : réseau, calcul, système • Intégré dans projet GRID 5000 ACI DataGraal – 10/01/03
Axes GDX INRIA VTHD CEA IMAG LRI ACI DataGraal – 10/01/03
Organisation Organisation • Réunions régulières • Plénières (2 par an) • Par tâche (~5 par an) • Site Web : datagraal.lip6.fr • Suivi des réunions (transparents) • Lien vers les projets du domaine • Mailing list : datagraal@imag.fr ACI DataGraal – 10/01/03
Organisation Déroulement • Première réunion plénière (15/11/02 - IMAG) • Présentation des travaux des différentes équipes • Transparents disponibles sur le site • Réunion d’avancement (4/12/02 – Aussois) • Ebauche des groupes de travail • Séminaire de deux jours (30-31/01/03) • séminaire technique • définition de topiques de travail + responsables • Rencontres trimestrielles • une rencontre = un topique ACI DataGraal – 10/01/03
Organisation Déroulement • Fin de l ’action • Ecriture d ’un document commun • Ecole DGRID sur la gestion de données à grande échelle • Bretagne (Port aux Rocs) ACI DataGraal – 10/01/03