1 / 36

DataGRAAL DataGRid pour Animation et Applications à Large échelle

DataGRAAL. DataGRAAL DataGRid pour Animation et Applications à Large échelle. Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA. Préambule. Pourquoi s’interesser aux données ?. Croissance des capacité de stockage > croissance des processeurs Nécessité d’adapter les supports.

Download Presentation

DataGRAAL DataGRid pour Animation et Applications à Large échelle

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DataGRAAL DataGRAALDataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

  2. Préambule Pourquoi s’interesser aux données ? • Croissance des capacité de stockage > croissance des processeurs • Nécessité d’adapter les supports Moore’s Law vs. storage improvements vs. optical improvements. Graph from Scientific American (Jan-2001) by Cleo Vilett, source Vined Khoslan, Kleiner, Caufield and Perkins. ACI DataGraal – 10/01/03

  3. Plan • Partenaires • Problèmatique • Objectifs • Complémentarité • Axes de recherches • Echéancier ACI DataGraal – 10/01/03

  4. Partenaires • Communauté bases de données : • PRISM – SMIS (INRIA – Univ. Versailles St Quentin) • LIRMM (Univ. Montpellier) • LSR-IMAG (Grenoble) • LISI – (INSA Lyon) • Communauté système : • PARIS (IRISA) • LRI - Equipe Cluster (Université Paris 11) • REMAP (LIP - ENS Lyon) • LIP6 (Université Paris 6) • Apache ID – IMAG • HP Labs • Applications : • CERS • IN2P3 ACI DataGraal – 10/01/03

  5. Problématique Contexte Caractéristiques des nœuds : Grands sites de calcul, Clusters • <1000 • Stables • Identification • individuelle • Confiance Les Grilles de calcul ou « GRID » 2 types de grands systèmes distribués Les systèmes distribués à grande échelle • ~100 000 • Volatiles • Pas d’ident • individuelle • Pas de • confiance PC Les systèmes de Calcul Global Les systèmes Pair à Pair ACI DataGraal – 10/01/03

  6. Problématique Pas de d’état global Impact de la très grande échelle • Nombre de ressources • Dynamicité • panne, déconnexion, charge • Eloignement • asynchronisme • Hétérogénéité • des architectures, des systèmes • Comportement malveillant ACI DataGraal – 10/01/03

  7. Problématique Les Grilles • Plates-formes • Globus, NetSolve (Univ. Tennessee), Ninf (Univ. Tsukuba), DIET (ENS-Lyon/INRIA) • Stockage • GridFTP(Argonne), OceanStore (Univ. Berkeley), IBP (Univ. Tennessee) ACI DataGraal – 10/01/03

  8. Problématique Les systèmes Pair-à-Pair • Lié à des applications • Napster, Kazaa, Edonkey, FreeNet… • Plates-formes de routages (DHT) • Chord (MIT), CAN, Pastry (Rice), Tapestry (Berkeley)... • Stockage de données • Non modifiables : PAST (Rice), CFS (MIT) • Modifiables : FarSite (Microsoft), Ivy (MIT) • Distribution de codes • XtremWeb (LRI) • Plate-forme générique • JXTA (Sun) ACI DataGraal – 10/01/03

  9. Problématique Problèmes ouverts dans la gestion des données • Qualité de service dans l’accès aux données • Efficacité des accès • Disponibilité • Tolérance aux fautes • Hétérogénéité des sources • Persistance • Modèles de partage • Ecritures multiples • Protocoles de cohérence ACI DataGraal – 10/01/03

  10. Objectifs DataGraal : Les objectifs • Gestion des données à très large échelle=> exploratoire • Multi-communautaire : Profiter/confronter les expériences des BD, système, applications=> animation • Identification de thématiques/concepts communs • Maquettes d’expérimentation ACI DataGraal – 10/01/03

  11. Objectifs DataGraal : les applications • Stockage : • Grande quantité • Dispersion des données • Hétérogénéité ACI DataGraal – 10/01/03

  12. Complémentarité Coopération entre communautés • Communauté système • Issus des expérience des systèmes répartis et pair-a-pair • Protocole de localisation • Placement, déploiement • Protocole de cohérence • Détection et gestion des fautes • Communauté bases de données • Gestion de grandes quantités de données • Hétérogénéité • Mobilité • Médiation • traditionnellement, architecture faiblement distribué ACI DataGraal – 10/01/03

  13. Complémentarité Coopération (2) • Applications • physique des particules • physique des plasmas • simulation de grands systèmes physiques • Idée de la coopération : • faire se rencontrer des communautés différentes • contexte : stockage distribué de grandes quantités de données ACI DataGraal – 10/01/03

  14. Complémentarité Atouts des partenaires • PRiSM/INRIA • langage de requêtes, fouille de données • exploitation de grandes quantités de données • LSR • Eclatement d ’un SGBD en un ensemble de services (persistance, duplication, …) • Connaissance approfondie des architectures de SGBD • LISI • Systèmes d’information à large échelle • LIRMM • médiation, exploitation de résultats venant de nombreuses sources BD ACI DataGraal – 10/01/03

  15. Complémentarité Atouts des partenaires (2) • IRISA / PARIS • Maîtrise des mémoires partagées • Partage de mémoire pair-è-pair • Expérimentations avec JXTA • LRI • Calcul haute performance sur P2P • Tolérance aux fautes • LIP6 • Modèle de cohérence hiérarchiques • Gestion des fautes dans environnement asynchrone • Systèmes multi-agents • LIP Remap • Environnement de type grille • Traitement de grande masses de données • Redistribution dynamique des données et tolérance aux pertes Système ACI DataGraal – 10/01/03

  16. Complémentarité Atouts des partenaires (3) • HP labs • environnement de grappe virtuelle • forte volatilité • Laboratoire ID • expérience architecture grande grappes • administration, gestion • déploiement efficace d ’applications sur un grand nombre de nœuds Infrastructures ACI DataGraal – 10/01/03

  17. Complémentarité Atouts des partenaires (4) • IN2P3 • expérience dans la gestion de grandes quantités de données • élément central de Datagrid • CESR • fusion de plusieurs grandes bases en une seule • requêtes hétérogènes à traiter, stockage réparti • CEA • expériences grandeur nature • modélisation du climat, de la terre • forte complexité des données • grand nombre de sites Applications ACI DataGraal – 10/01/03

  18. Complémentarité Atout du projet • Complémentarité • expériences diverses • vaste domaine de compétences • domaine des bases de données • système distribué • expériences acquises • applications (CEA, IN2P3, CESR) • système grande échelle ACI DataGraal – 10/01/03

  19. Axes Identification des tâches (provisoire) • Tâche 1 : Besoins applicatifs (Tâche transversale) • Moteurs : CEA / CESR / IN2P3 • Tâche 2 : Déploiement de données • Moteurs : LRI / LIP / LIP6 / LISI • Tâche 3 : Accès efficace aux données • Moteurs : PRISM, LIRMM, LIP • Tâche 4 : Partage de données • Moteurs : IRISA / LIP / LIP6 / PRISM • Tâche 5 : Modèle de cohérence • Moteurs : IRISA/ LIP6 / PRISM • Tâche 6 : Tolérance aux fautes • Moteurs : LIP6 / LRI / • Tâche 7 : Apport des approches multi-agents • Moteurs : LIP6 / IRISA ACI DataGraal – 10/01/03

  20. Axes Tâche 1 : Besoin applicatif • CEA , CESR , IN2P3 • « Retour » d’expérience de DataGrid Capacité de stockage – 5-8 PetaOctect / année 10 PetaOctect de disque Puissance de calcul – 200 000 PC rapides • Répartition du volume ? Grain. • Quelles disponibilités, persistance ? • Mode de partage ? ACI DataGraal – 10/01/03

  21. Axes Tâche 2 : Déploiement • LRI : • XtremWeb • LISI : • Technique de cache Web • LIP6 : • Algorithmes de placement de données / observation • LIP : • DIET+IBP - Redistribution, Placement ACI DataGraal – 10/01/03

  22. Axes Tâche 2 : déploiement (2) • Constat : Placement de données très statique • Exploration 1 : vers plus de dynamicité • Nécessité de contrôler l’environnement • Ressources disponibles • Détection de fautes en environnement asynchrone (pb algorithmique) • Transport d’information de contrôle à large échelle (filtrage, propagation épidemique) • Accumulation de données pertinentes (vision partielle) • Prise de décision • Problème de validité des informations • Exploration 2 : Lien avec le placement des tâches ACI DataGraal – 10/01/03

  23. Tâche 3 : Accès • PRISM : • Accès efficace en fonction du profil • LIRMM : • Adaptation dynamique des vues • LIP : • Distribution de requêtes • Co-ordonnancement ACI DataGraal – 10/01/03

  24. Axes Tâche 4 : Partage • PRISM : • Mode de partage transactionnelle • IRISA / LIP6 / LISI • Partage à grain fin (page / objet) • LIP • Gestion de versions de données immutables ACI DataGraal – 10/01/03

  25. Axes Tâche 4 : partage (2) • Versionning vs. données modifiable • Limite du partage en lecture dans P2P • Approche de partage « volontaire » limitée • Le partage avec de nombreux écrivains • Augmenter la complexité - Quelles applications ? • Des tendances récentes : • Partage (en lecture) forcé (ex. Edonkey) • Partage avec une nombre réduit d’écrivains (Ivy …) ACI DataGraal – 10/01/03

  26. Axes Tâche 5 : Cohérence • Modèle de cohérence sur mémoire partagée répartie (IRISA / LIP6 / LISI) • LISI • DosMos • IRISA • Cohérence au relachement • Cohérence multi-thread (DSM-PM2) • LIP6 • Modèle hiérarchique (CLRC) ACI DataGraal – 10/01/03

  27. Axes Tâche 5 : Cohérence (2) • Avenir des mémoires partagées réparties ? • Application à large échelle • Travail coopératif, couplage de code • Hétérogénéité • Tolérance aux fautes ACI DataGraal – 10/01/03

  28. Axes Tâche 6 : Tolérance aux fautes • PRISM : • Redondance dynamique • LIP6 : • Détection de fautes hiérarchique (RTT-FD) • Réplication dynamique (DARX) • LRI : • Journalisation de messages + mémoire de canal MPICH-V • LIP : • Code redondant • Reconstruction dynamique ACI DataGraal – 10/01/03

  29. Axes Tâche 6 : Tolérance aux fautes (2) • Gestion de l’incertitude des informations • vers un système « indulgent » ? • Choisir la bonne stratégies (types de réplication, point de reprise, journalisation) en fonction de plusieurs critères : • Applicatif (type de fautes, nombre de fautes, temps de recouvrement) • Environnemental : surcoût, charge des machine et du réseau, MTBF …. ACI DataGraal – 10/01/03

  30. Axes Tâche 7 : Approche multi-agent • LIP6 : • Plate-forme DARX : http://www-src.lip6.fr/darx • Fiabilité des agents, réplication • Dynamicité • IRISA/LIP6 • Service de partage de mémoire sur DARX ACI DataGraal – 10/01/03

  31. Axes Tâche 7 : Approche multi-agent (2) • Un agent est une entité physique ou virtuelle : • capable d’agir sur elle-même et sur son environnement, • capable de percevoir son environnement, mais ne dispose que d’une représentation partielle de cet environnement (et parfois aucune), • peut communiquer avec d’autres agents, • poursuit un objectif individuel, • qui possède des compétences et peut offrir des services, • … • Propriétés d’un agent = autonomie, proactivité, adaptabilité, sociabilité, mobilité, … • Agent une alternative pour le large échelle ? ACI DataGraal – 10/01/03

  32. Axes Support d’expérimentation • Plate-forme GDX : GriD eXplorer • F. Cappello, O. Richard , P. Sens • 1000 noeuds • Objectif : Emulation d’internet • Nombre de sites, Éloignement • Différent type d’expériences : réseau, calcul, système • Intégré dans projet GRID 5000 ACI DataGraal – 10/01/03

  33. Axes GDX INRIA VTHD CEA IMAG LRI ACI DataGraal – 10/01/03

  34. Organisation Organisation • Réunions régulières • Plénières (2 par an) • Par tâche (~5 par an) • Site Web : datagraal.lip6.fr • Suivi des réunions (transparents) • Lien vers les projets du domaine • Mailing list : datagraal@imag.fr ACI DataGraal – 10/01/03

  35. Organisation Déroulement • Première réunion plénière (15/11/02 - IMAG) • Présentation des travaux des différentes équipes • Transparents disponibles sur le site • Réunion d’avancement (4/12/02 – Aussois) • Ebauche des groupes de travail • Séminaire de deux jours (30-31/01/03) • séminaire technique • définition de topiques de travail + responsables • Rencontres trimestrielles • une rencontre = un topique ACI DataGraal – 10/01/03

  36. Organisation Déroulement • Fin de l ’action • Ecriture d ’un document commun • Ecole DGRID sur la gestion de données à grande échelle • Bretagne (Port aux Rocs) ACI DataGraal – 10/01/03

More Related