510 likes | 565 Views
Agenda. Introduction Qu’est ce qu’un cluster distribué ? Mise en œuvre Considérations de stockage Considérations de réseaux Type de quorum Questions & Réponses. Construire les contrats de service. Réduire la perception de l'indisponibilité pour les utilisateurs
E N D
Agenda • Introduction • Qu’est ce qu’un cluster distribué ? • Mise en œuvre • Considérations de stockage • Considérations de réseaux • Type de quorum • Questions & Réponses
Construire les contrats de service • Réduire la perception de l'indisponibilité pour les utilisateurs • Dialogue entre des responsables infrastructures et les clients internes • Démarche application par application • Quelle est la Qualité de Service attendue par les utilisateurs ? • Combien d'utilisateurs utilisent-ils cette application ? • Est-il possible de chiffrer la perte d'une heure d'interruption de service ? • Quels sont les risques à couvrir en priorité ? • Quelle est la fréquence des pannes? • Quelles sont les ressources déjà en place et quel est le budget d'investissement disponible ?
Recovery Point/Time Objectives RPO : Point de redémarrage Jours Heures Minutes Transactions Désastre Corruption des données Erreurs humaines Perte de serveurs Opérations de maintenance Pannes du stockage 99.9% 99.99% 99.999% 99.9999% 8.75h/an 52min/an 5.2min/an 32sec/an Causes des interruptions de service Coûts JoursHeures Minutes SecondesInstantané RTO : Temps de redémarrage
Robustesse matérielle Objectif : NON STOP • Agir sur les risques, en amont • Construire un ensemble cohérent • Disposer de ressources garanties avec une capacité de montée en charge • Isoler les applications entre-elles • Éliminer les Single Point Of Failure • Données, application, frontaux, clients • Redondance des composants • Connectivités Power, LAN et SAN • Serveurs redondants • Baie de stockage (contrôleurs, RAID …) • Garantir la production et la stabilité
t2 t0 T1 Sauvegarde et restauration • Le principal enjeu est la restauration • Qualité et rapidité de la restauration • Protection multiple des données, protection des copies • Capacité de reprise sur erreur humaine • Utilisation des sauvegardes pour alimenterd’autres plateformes (assurance qualité) • Selon les besoins, technologies complémentaires • Snapshot (basé sur VSS) • System Center Data Protection Manager • Tierce partie : éditeur ou constructeur • Snapshot • Snapclone (copie complète) • Orchestration via VSS (Volume Shadow copy Services) tape lib t
Bénéfices du service de Cluster • Disponibilité • Surveille l’état des applications ou/et services • Permet aux applications ou/et services de basculer automatiquement et de redémarrer à froid (le contenu de la mémoire n’est pas préservé) • Équilibrage de charge statique • Evolutivité • Possibilité d’ajouter du matériel:Disque, CPU • Possibilité d’ajouter jusqu’à 16 serveurs • Administration • Permet d’administrer les nœuds comme une seule entité • Permet de mettre les ressources sur un autre nœud pour des raisons de maintenance
Services clusterisables Les plus courants Hyper-V SQL Server Exchange Server Serveur de fichiers Serveur d’impression Tierces parties Différents rôles, ex : base de données Les autres MSMQ DTC DHCP DFS-Namespace NFS iSNS WINS Les génériques Application Générique Script Générique Service Générique
Clustering aujourd’hui Client PCs Server A Server B SQL Server SQL Server Heartbeat SQL Server Cluster management Disk cabinet A Disk cabinet B
Topologie Cluster PCs clients Réseau Public Réseau Privé Nœuds cluster FC avec chemin redondant Disques partagés
Site A Simple Cluster LocalSimplifions l’exemple précédent Cluster traditionnel 2 nœuds Connecté à une baie de stockage partagée Même site physique Maisque se passe-t-ildans le casd’unecatastrophe ? Comme par exemple un feu…
Site B Cluster Géographiquement Dispersé Séparons les nœuds Les applications basculent automatiquement sur un autre site physique Nœud sur un site physique distant Site A Replication des données
Qu’est ce qu’un cluster distribué ? • Un cluster géographiquement dispersé ou cluster distribué est un cluster dont les nœuds qui le composent sont localisés sur différents sites physiques • Principaux scénarios d’implémentations : • Donner un accès local aux utilisateurs dispersés sur une grande zone géographique • Permet une continuité d’activité en cas de problèmes électriques ou de catastrophes naturelles par exemple
Différencespar rapport à un Cluster simple • Le GéoCluster se différencie par les points suivants : • Multiple baies de stockage • Indépendantes sur chaque site • Les nœuds accèdent classiquement au stockage local sur leur site • Réplication des données entre les sites Site B Site A Les changements effectués sur le site A sont répliqués sur le site B Replica
Avantages du cluster distribué • Basculement automatique • Réduit le temps d’indisponibilité • Moins complexe • Réduit la charge administrative associée • Synchronisation automatique des changements cluster et des applications • Plus facile de garder consistant par rapport à de simples serveurs (« non-clusterisés») • Supprime le facteur d’erreur humaine
Considérations StockageTopologie Site B Site A Mécanismes de réplication des données Replica Changements effectués sur le Site A et répliqués sur le Site B Mode Lecture/Ecriture Mode Lecture
Considérations Stockage • Requiert un système de réplication de données • Matériel (niveau bloc) • Logiciel (niveau système de fichiers) • Application
Considérations Stockage • Type de réplication synchrone ou asynchrone • Synchrone : si une application fait une opération sur un nœud d’un site, cette dernière ne sera pas complète tant que le changement n’est pas rejoué sur l’autre site. • Asynchrone : si les données sont modifiées sur un site, ce changement sera éventuellement reproduit sur l’autre site.
Réplication des donnéesSynchrone • L’hôte reçoit la réponse du stockage comme quoi l'opération d‘écriture est complète une fois qu'elle a été propagée sur l'ensemble des stockages Replication WriteRequest SecondaryStorage WriteComplete PrimaryStorage Acknowledgement
Réplication des donnéesAsynchrone • L’hôte reçoit la réponse du stockage comme quoi l'opération d‘écriture est complète une fois qu'elle a été propagée sur le premier stockage. Replication WriteRequest SecondaryStorage WriteComplete PrimaryStorage
IP Address Resources* Network Name Resource Disk Resource Custom Resource Resource(s) liée(s) au stockage Groupe est l’Unité de bascule Resource Group Défini l’ordre de démarrage Workload Resource (example File Server) Assure la communication entre le nœud et le stockage local et vérifie son état Assure la communication entre le nœud et le stockage local et vérifie son état Assure que l'application est en ligne une fois la réplication terminée
Validation cluster Avec un système de réplication • Les tests “Stockage” de l’outil de validation cluster sont désignés pour vérifier que le stockage est partagé • Les tests ne vont pas s’exécuter et vont afficher un avertissement sur le fait qu’aucun stockage partagé n’a été détecté • Il n’est pas nécessaire de passer les tests « Stockage » sur les clusters distribués pour être supportés Validation Guide and Policy: http://go.microsoft.com/fwlink/?LinkID=119949
Site B Considérations RéseauxTopologie • Les nœuds d’un même cluster peuvent se trouver sur des sous-réseaux différents • Communications inter-nœuds possibles au travers des routeurs • Plus besoin de connecter les nœuds via des VLANs! Réseau public WAN Site A 20.20.20.1 10.10.10.1 30.30.30.1 40.40.40.1 WAN Réseau Séparé
Adresse IP Ressource A Adresse IP Ressource B Ressource Nom Réseau Nouveau modèle de Dépendances • Nouveaux Objets pour filtrer les dépendances • Le Nom Réseau reste en ligne si la ressource adresse IP A ou B est en ligne • Auparavant, les deux ressources A et B devaient être en ligne pour que le nom réseau soit accessible par les utilisateurs • Cela permet la redondance des ressources et un impact réduit pour les applications et services clusterisés OU
IP Address Resources A IP Address Resources B Network Name Resource Disk Resource Workload Resource (example, File Server) Dépendances des ressources OR Comes online on site A Comes online on site B
Considérations DNS • Il y a des conséquences lorsque les nœuds sont sur des sous réseaux différents • La réplication DNS peut impacter le temps de reconnexion des clients DNS Server 2 DNS Server 1 DNS Replication Record Created Record Updated Record Obtained Record Updated 10.10.10.111 20.20.20.222 FS = 20.20.20.222 FS = 10.10.10.111 Site A Site B
Solution 1 : VLAN Etendre un VLAN reste une option pour minimiser le temps de reconnexion client DNS Server 2 DNS Server 1 10.10.10.111 10.10.10.111 VLAN FS = 10.10.10.111 Site A Site B
Solution 2 : Basculement site local de préférence Basculement local pour les temps d'arrêt planifiés et cross-basculement de site pour PRA DNS Server 2 DNS Server 1 10.10.10.111 Ajout de noeuds FS = 10.10.10.111 Site A Site B
Solution 3 : Configurer les paramètres DNS • RegisterAllProvidersIP • Contrôle quelles adresses IP dépendantes sont enregistrées • HostRecordTTL • Contrôle la durée de vie de la ressource nom réseau • Exchange recommande une valeur de 5 minutes • Configurable via la ligne de commande : • Cluster res “Cluster Name” /priv
Paramétrer la pulsation • Les communications inter-noeuds sont configurables dans Windows server 2008 • Cluster.exe /prop • SameSubnetDelay • Fréquence d’envoi de la pulsation, défaut : 1 seconde • CrossSubnetDelay • Fréquence d’envoi de la pulsation lorsque les nœuds sont sur des sous réseaux différents, défaut : 1 seconde • SameSubnetThreshold • Nombre de pulsation manquée avant de considérer qu’une interface est tombée, défaut : 5 pulsations • CrossSubnetThreshold • Nombre de pulsation manquée avant de considérer qu’une interface est tombée lorsque les nœuds sont sur des sous réseaux différents, défaut : 5 pulsations
Considerations RéseauxRésumé • Quel sont les attentes/besoins métiers concernant le temps de bascule? • Reprise d’activité : • Les nœuds peuvent se trouver sur des sous réseaux différents pour plus de flexibilité • Haute disponibilité et reprise d’activité : • L’utilisation de VLAN peut être une solution pour réduire au minimum le temps d’indisponibilité • Quel est l’impact pour les clients lors de la bascule sur un autre site ? • Bascule locale avant bascule sur un autre site ?
Considérations Quorum • Lorsque les nœuds perdent la communication entre eux, il est nécessaire d’avoir un mécanisme d’arbitrage qui détermine quels sont les nœuds qui restent en ligne et ceux qui ne sont plus membres du cluster. • Différents modèles de quorum : • Majorité de nœuds et un disque • Disque témoin • Majorité de nœuds • Majorité de nœuds et un partage
Evolution des modèles de Quorum Disque témoin unique Majorité de nœuds et un disque témoin Majorité de nœuds Majorité de nœuds et un partage témoin • Nouveaux modèles de Quorum basés sur la notion de vote • Il existe 4 types de quorums Vote Vote Vote Vote Vote
Majorité de nœuds et un disque • Modèle de quorum basé sur la majorité de nœuds et un disque • 3 voix au total, dont 2 nécessaires pour la majorité • Le cluster peut survivre à la perte de n’importequelle voix • Modèle non utilisé traditionnellement dans un cluster dispersé Vote Vote Vote Replicated Storage
Majorité de noeuds • Seuls les noeuds ont une voix • Une voix par nœud (ici, 3). Pas de voix pour le stockage partagé • Majorité de voix nécessaire pour le fonctionnement du cluster • Déployé en nombre impair de nœuds Vote Vote Vote
Site et Majorité de nœuds Est-ce que je peux communiquer avec la majorité des nœuds du cluster? Oui, donc je reste en ligne Est-ce que je peux communiquer avec la majorité des nœuds du cluster? Non, donc je me retire du cluster Cluster 5 nœuds: Majorité = 3 Site A Site B SAN SAN Perte de communication réseau entre les sites Majorité sur le site primaire
Site et Majorité de nœuds Est-ce que je peux communiquer avec la majorité des nœuds du cluster ? Oui, donc je reste en ligne Cluster 5 nœuds: Majorité = 3 Entire site is down! Site A Site B SAN SAN Majorité sur le site primaire
Site et Majorité de nœuds Est-ce que je peux communiquer avec la majorité des nœuds du cluster ? Non, donc je me retire du cluster Cluster 5 nœuds: Majorité = 3 Perte du site Demande de “forcer le quorum” manuellement Site A Site B SAN SAN Majorité sur le site primaire
Majorité de nœuds et un partage • Permet d’avoir un cluster 2 nœuds sans disque partagé • Majorité de nœuds + un partage témoin • Meilleure solution pour les Clusters Géographiques • Le partage témoin peut être hébergé sur un 3eme site • Un serveur de fichiers peut servir de témoin pour de multiples clusters • Chaque cluster doit avoir son propre partage Vote Vote Vote Le partage est sur un serveur indépendant
Majoritépartagetémoin Est-ce que je peux communiquer avec la majorité des nœuds du cluster (+FSW) ? Oui, donc je reste en ligne Site C Le partage est sur un serveur indépendant \\FSW\Cluster1 WAN Site A Site B SAN SAN Perte du site 5 Votes Cluster: Majorité = 3
Majoritépartagetémoin Est-ce que je peux communiquer avec la majorité des nœuds du cluster (+FSW) ? Non (lock impossible), donc je me retire du cluster Est-ce que je peux communiquer avec la majorité des nœuds du cluster (+FSW) ? Oui, donc je reste en ligne Site C Le partage est sur un serveur indépendant \\FSW\Cluster1 WAN Site A Site B SAN SAN Connexion réseau intersite perdue 5 Votes Cluster: Majorité = 3
Cluster distribuésur3 sites • Permet une bascule automatique en cas de perte d’un des sites principaux • Partage témoin : • Simple serveur de fichier Windows • Doit être dans la même forêt • Peut être localisé sur un 3ième site différent • Connecté à aucun stockage partagé • N’est pas un nœud du cluster • Utilisé pour accorder la voix nécessaire pour donner la majorité au site survivant • Un seul serveur de fichiers peut être utilisé pour de multiples cluster • Chaque cluster requiert son propre partage
Modèle de QuorumRésumé • Choisir le bon modèle de quorum • Majorité de nœuds et un disque • Seulement si le fournisseur le demande • Uniquement un disque • Seulement si le fournisseur le demande • Majorité de nœuds • Utiliser si limité à 2 sites • Majorité de nœuds et un partage • Meilleure solution pour la disponibilité • Recommandé pour Echange 2007 CCR
Multi-Site Clustering • Cluster Team Site : http://www.microsoft.com/windowsserver2008/en/us/failover-clustering-multisite.aspx • KB Article :Deployment Considerations for Windows Server 2008 failover cluster nodes on different, routed subnets • Webcast : TechNet Webcast: Geographically Dispersed Failover Clustering in Windows Server 2008 Enterprise • Webcast : How You Can Achieve Greater Availability with Failover Clustering Across Multiple Sites (Level 300) • Whitepaper : Multi-site Clustering • Webcast : Multi-Site Clustering in Windows Server 2008 • Blog : http://blogs.msdn.com/clustering/