220 likes | 289 Views
Détection de défaillances et algorithmes répartis pour les GRIDs. Marin BERTIER. Thèmes SRC Laboratoire d'Informatique de Paris 6 Université Pierre & Marie Curie. Introduction. Contexte. Développement des GRIDs Grand nombre de sites Organisé hiérarchique Niveau local cluster
E N D
Détection de défaillances et algorithmes répartis pour les GRIDs Marin BERTIER Thèmes SRC Laboratoire d'Informatique de Paris 6 Université Pierre & Marie Curie
Introduction Contexte • Développement des GRIDs • Grand nombre de sites • Organisé hiérarchique • Niveau local cluster • Niveau Global Inter-cluster • Dissymétrie des communications • cluster: Fiables et rapides • Inter-cluster: …
Introduction Détection de défaillances • Impossibilité de résoudre le consensus dans un système asynchrone [FLP85] • Caractéristiques : • Fournissent une liste non fiable des processus suspectés d’être défaillants • Complétude : Un processus défaillant doit être considéré comme défaillant par les autres • Justesse : Un processus correct ne doit pas être considéré défaillant • Modèle partiellement synchrone (GTS)
Introduction Techniques de détection • Applicatif (refus de services) • Pinging • Heatbeat p q p up D p up Détecteur sur q p down p q D p up p up Détecteur sur q p down
Introduction Qualité de service • Métriques • Temps de détection • Temps entre deux erreurs (TMR) • Durée des erreurs (TM) DF TM TMR Processus p up
Détecteurs de défaillances • Fonctionnement « hearbeat » • Défaillances: • crash / ‘recovery’ • perte de messages • Adaptable : • Estimations dynamiques • Intervalle d’émission • Permet le transport d’information
Organisation Hiérarchique Organisation • Organisation hiérarchique • Communication • IP-Multicast au niveau local • UDP au niveau global cluster 1 cluster 2 cluster 3
Organisation Hiérarchique Niveaux Hiérarchiques • Visions: • Niveau Local : • Liste des sites du cluster • Niveau global : • Liste des clusters • Qualité de service différentes
Organisation Hiérarchique Comportement cluster 2 S1.5 cluster 1 S2.1 S1.1 S1.5 S1.4 S1.5 S1.2 S1.2 S3.5 S1.5 S1.4 S1.3 LENT S1.5 cluster 3
Organisation Hiérarchique Avantages / Désavantages • Avantages: • Nombre de messages (n: nb sites, k: nb groupes) • Système plat: n * (n -1) • Hiérarchique: n2 / k + k2 – k – 1 • Si n > k2 un leader gère moins de messages • Partitionnement des informations • Mise en place de mécanisme • Élection de leader
Organisation Hiérarchique Election de leader • Sur le principe de : • Liste triée de leaders non suspectés (Trusted_Process) • Leader : 1er de Trusted_Process • Objectifs : • Temps de recouvrement court • Avoir au moins un leader
Architecture • Emission de message « I-am-alive » • Estimation de base • Compromis entre le temps de détection et le nombre de fausses détection • Fournit : • Liste de sites suspects • Informations sur la détection • Adaptation de l’intervalle d’émission Application 1 Application 2 Liste de suspects QoS 1 Liste de suspects QoS 2 Couche d’adaptation 1 Couche d’adaptation 2 i 2 i 1 Liste de sites suspects Intervalle d’émission Marge de détection QoS observée Couche de base Blackboard
Architecture • Spécifique à l’application • Adapte la QoS • Différents algorithmes • Adaptation de l’interface • Pop ou Push • Permet différentes vision du système Application 1 Application 2 Liste de suspects QoS 1 Liste de suspects QoS 2 Couche d’adaptation 1 Couche d’adaptation 2 i 2 i 1 Liste de sites suspects Intervalle d’émission Marge de détection QoS observée Couche de base Blackboard
Architecture • Représente l’utilisateur des détecteurs de défaillance : • Service de nommage • Fournir le besoin en QoS local • Utilise la liste des sites suspects Application 1 Application 2 Liste de suspects QoS 1 Liste de suspects QoS 2 Couche d’adaptation 1 Couche d’adaptation 2 i 2 i 1 Liste de sites suspects Intervalle d’émission Marge de détection QoS observée Couche de base Blackboard
Architecture Couche de baseFonctionnement i hi-1 hi hi+1 hi+2 Processus p Processus q Ai to Freshness points: i-1 i i+1 i+2 FD de q
Architecture Couche de baseEstimation de la date d’arrivée • Calcul de la date butoir • Timeout (k+1)= date théorique (EAk+1) + marge dynamique (k+1) • Date théorique : estimation de Chen • Marge dynamique (algorithme de jacobson)
Architecture Adaptation du délai d’émission • Motivation : • Besoins variables des applications • Etat du réseau • Négocier entre récepteurs et l’émetteur
Performances couche de base Performance • Adaptation : • Court terme (Marge) • Moyen terme (Estimation date) • Conclusion • Bon compromis entre temps de détection et le nombre de fausses détections
Performances couche d’adaptation Plateforme de test • Utilisation de « dummynet » (simulateur reseau) • Introduction de délai de propagation • Variation du délai de propagation • Introduction de perte de messages Group 1 Paris Délai : 50ms +/- 10ms Perte de messages : 1.2% Délai : 10ms +/- 4ms Perte de messages : 0.5% Group 2 San Francisco Group 3 Toulouse Délai : 150ms +/- 25ms Perte de messages : 3%
Organisation à plat Leader en hiérarchique Non leader en hiérarchique Performances couche d’adaptation Organisation • Conditions: • i = 700ms
Conclusion • Service de détection de défaillances: • Scalable • Partagé • Adaptable • Fournissant une QoS locale