800 likes | 950 Views
Mit Strategie zur dynamischen IT. Hochverfügbare IT Infrastrukturen. >> Ihr Ansprechpartner Mathias Wolf SIGMA Chemnitz GmbH Bereichsleiter Systemtechnik Am Erlenwald 13 09128 Chemnitz. 11.06.2008. zur letzten Seite. Wir über uns.
E N D
Mit Strategie zur dynamischen IT Hochverfügbare IT Infrastrukturen >>Ihr Ansprechpartner Mathias Wolf SIGMA Chemnitz GmbH Bereichsleiter Systemtechnik Am Erlenwald 13 09128 Chemnitz 11.06.2008 zur letzten Seite
Wir über uns SIGMA in Chemnitz: Gesellschaft für Systementwicklung und Datenverarbeitung mbH SIGMA in Stuttgart: Software und Consulting GmbH Gründung: Mai 1990 Mitarbeiter: 45 Jahresumsatz: ca. 6 Mio. € zurück zur 1. Seite
Geschäftsfelder unserer Sparten Service · IT-technische Innovationen· Infrastrukturlösungen und erstklassiger Support Beratung · Ganzheitliche Prozessunterstützung und –optimierung· organisatorische Managementberatung· unternehmensweite Softwarelösungen Embedded Lösungen · Hochqualifizierte Eigenentwicklungen · Individuallösungen im Soft- und Hardwarebereich SIGMA in Leonberg · Betriebswirtschaftliche Standardsoftware· Produktdatenmanagement zurück zur 1. Seite
Partner und Lösungen zurück zur 1. Seite
Inhalt Hochverfügbare IT- Infrastrukturen Katastrophenschutz Technologien zur Daten- und Hochverfügbarkeit Praxisbeispiele zurück zur 1. Seite
Infrastruktur allgemein Backupbereich (Datensicherung) Bandllaufwerke Jukebox / Plattenarchive Storagebereich (Datenspeicherung) Plattenspeicher / Flash-Speicher Serverbereich (Datenverarbeitung) Mainframe Unix / Solaris Win2003 Linux ….. Client / Netzwerkbereich (Datenvisualisierung)
Durch Ausfallzeiten der IT verursachte Kosten $ 89,500 Airline Reservation $ 90,000 Home Catalog Sales Pro Stunde ! $ 150,000 Pay per View $ 360,000 Banking $ 370,000 Telecommunications $ 2,600,000 Credit Card Sales $ 6,450,000 Brokerage 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000 6500 [1000 $] Quellen: International Data Corporation, Gartner Group und Contingency Planning Research zurück zur 1. Seite
Konsequenzen eines Ausfalles Mögliche Konsequenzen eines Ausfalls: • - Umsatzeinbußen • - Geschäftsverluste • - Kosten für Wartung- und Service - Kosten für Rollback einer Aktion • - Strafen • - Rechtliche Folgen • - Verlust von Kunden • - Imageverlust • - Verlust von Menschenleben Es gilt also, Ausfallzeiten zu minimieren ! zurück zur 1. Seite
Mögliche Gründe für Ausfallzeiten HW –SW Fehler Sabotage Infrastruktur Naturkatastrophen Quelle: Disaster Recovery Strategies, IBM Redbook SG24-6844-00, 2002 zurück zur 1. Seite
Hochverfügbarkeit- was ist das ? Ein System gilt als hochverfügbar, wenn eineAnwendung auch im Fehlerfall weiterhin verfügbar istund ohne unmittelbaren menschlichen Eingriff weitergenutzt werden kann. Anwender nimmt keine oder nur eine kurze Unterbrechung wahr. Hochverfügbarkeit (HA – High Availability) bezeichnetdie Fähigkeit eines Systems, bei Ausfall einer seiner Komponenten einen uneingeschränkten Betrieb zu gewährleisten. permanent laufende Anwendung Anwendung nur “kurz” unterbrochen Redundanz von HW Komponenten Permanenz des Services SLA Qualität Permanenz des Systems Plattform Qualität zurück zur 1. Seite
Definition Verfügbarkeit Erhöhung der Verfügbarkeit eines Systems, definiert durch IEEE als x 100 (%). Eine Hochverfügbarkeits-Konfiguration dient dazu, ungeplante Unterbrechungen (d.h. Ausfälle einzelner Betriebsmittel), sowie geplante Ausfallzeiten (z. B. HW-Wartungsfenster, Einbringen von SW-Korrekturen oder neuer SW) mit einer möglichst kurzen Unterbrechung des Produktionsbetriebes zu überstehen. Betriebsdauer – Ausfallzeit Betriebsdauer zurück zur 1. Seite
Verfügbarkeit • Gesamtverfügbarkeit eines IT-Systems ist die geschlossene Betrachtung von • Hardware • und • Software • Hochverfügbarkeit ist keine spezielle Technologie, sie ist vielmehr ein Ziel, dass für die spezielle Situation in einer Firma maßgeschneidert werden muss. Sie ist eine Kombination aus Strategien, Technologien, Training der Mitarbeiter und verschiedenen Serviceprozessen, um Unterbrechungen zu minimieren. • In der Praxis unterscheidet man zwischen geplanten und ungeplanten Unterbrechungen. zurück zur 1. Seite
geplante ungeplante Unterbrechungen Unterbrechungen Etwa 90% Etwa 10% Andere 9 % Hardware 15 % Anwendungen Bedienung 8 % 25 % Andere 3 % Hardware 8 % DB Backup 52 % Netzwerk 10 % Anwendungen 27 % Software 30 % Software 13 % Geplante / ungeplante Unterbrechung Quelle: Metagroup zurück zur 1. Seite
Verfügbarkeitsstufen Ausfallzeit / Jahr Verfügbarkeit 5 min. 99.999 % Hoch- verfügbar 52 min. 99.99 % 99.9 % 8,8 Std. Konventionell 99 % 3,7 Tage zurück zur 1. Seite
Die berühmten Neunen… • Aber: Wann gilt ein System wieder als “verfügbar”? • Power On Diagnose läuft durch ? • System Prompt/ Adminshell ist da? • Service für den Endbenutzer steht zur Verfügung ? zurück zur 1. Seite
Verfügbarkeitsmaßnahmen Failover –Lösungen (no single Point of failure) 5 Clustering Automatische Isolation von defekten Komponenten 4 AutomaticServer Restart, RekonfigurationRemote Management 3 Hot swap Mechanismen Hot plug / hot spare Lüfter, AC/DC, Platten, Tape Laufwerke, PCI boards, 2 Redundanz Lüfter, Netzteile, Steckkarten, Raid-Systeme Netzwerk- und Kontrolleranschlüsse Auswahl Komponenten Qualität im Design und in Produktion, Hardwaremanagement, Monitoring & Warnung vor Ausfällen,Fehlerkorrektur Hauptspeicher (ECC) 1 Fehlerkorrektur und Vermeidung zurück zur 1. Seite
Hochverfügbarkeit Maßnahmen • Mit heutiger Technologie kann eine Verfügbarkeit von mehr als 99.99 % nur mittels eines Clusters erreicht werden. • Maßnahmen: • HW- und SW-mäßige Redundanz aller für die Produktion notwendigen Betriebsmittel, • Softwaremäßige Überwachung der Betriebsmittel, • Automatisierte Reaktionen auf Hard- und Softwarefehler(z.B. Verlagerung der Produktion auf ein anderes System, oder Rekonfigurationen), • Bei geplanten Unterbrechungen kommandogesteuert die automatisierteAusführung der notwendigen Aktionen, sowie • Organisatorische Maßnahmen (Kompetenz der Mitarbeiter, Verbesserung der Service-Qualität, HV-Leitstand, Betriebsführungskonzept). zurück zur 1. Seite
Katastrophenschutz (KS) • Im IT-Bereich ist Katastrophenschutz diejenige Vorsorge, welche nach einer teilweisen oder vollständigen Zerstörung eines Rechenzentrums die Wiederaufnahme der Produktion und damit der geschäftskritischen Anwendungen ermöglicht. • Unter einer Katastrophe soll der Ausfall eines Rechenzentrums durch Stromausfall oder Zerstörung (Brand, Wassereinbruch, Explosion, Erdbeben, Sturm, Sabotage etc.), oder etwas spezifischer der Ausfall eines Hosts und der räumlich in der Nähe aufgestellten Speicherperipherie oder auch nur von Teilen der Speicherperipherie, die aktuelle Produktionsdaten enthält, verstanden werden. zurück zur 1. Seite
Katastrophenschutz (KS) • Katastrophen führen zu einem Abbruch des Produktionsbetriebs und erfordern die Verfügbarkeit aller Betriebsmittel, die für die Wiederaufnahme des Produktionsbetriebs erforderlich sind, auf einem Standby-RZ. • UnterStandby-RZ versteht man ein räumlich mehr oder weniger weit entferntes RZ mit einer Hardware- und Software-Ausstattung, so dass die nach den KS-Anforderungen des Kunden relevanten Anwendungen des Produktions-RZs darauf ablauffähig sind. • Auf den Systemen im Standby-RZ können im Normalbetrieb Anwendungen laufen, die im Katastrophen-Fall (mit geringerer Performance) weiterlaufen, oder (bei weniger hohen Verfügbarkeitsanforderungen) terminiert werden. zurück zur 1. Seite
Kombination von HV und KS HV = „Single failure recovery“ KS = „Site failure recovery“ Charakterisierung: HV und KS schließen sich nicht aus; sie können vielmehr hervorragend kombiniert werden.Idealzustand: Das wesentliche Merkmal von KS besteht darin, dass im Idealzustand über HV hinausgehend die für die Aufrechterhaltung des Produktionsbetriebes redundanten Betriebsmittel und Daten räumlich entfernt und damit gegenüber zerstörenden Einwirkungen am Produktionsort geschützt sind. BC-Cluster HV + räumliche Trennung = BC zurück zur 1. Seite
Kombination von HV und KS KS ohne HV: Rasche Wieder-aufnahme des Betriebs nach Ausfall eines RZs ist so wichtig, dass der Kunde dafür das Risiko von Ausfallzeiten in Kauf nimmt. HV ohne KS: Risiko einer Katastrophe wird vom Kunden in Kauf genommen. HV KS BC Business Continuity (HV und KS): Der Kunde will keine Störung seiner Geschäfts-prozesse, auch nicht im Katastrophen-Fall. zurück zur 1. Seite
Business Continuity (BC) Business Continuity: Die wichtigen Geschäftsprozesse des Kunden sollen möglichst wenig gestört werden. Die Störungen können vielfältige Gründe haben und werden üblicherweise kategorisiert nach Zerstörung eines RZs:Störungen innerhalb eines RZs: Katastrophenschutz Hochverfügbarkeit zurück zur 1. Seite
Vom Einzelsystem zum BC-Cluster Netz Netz Netz RAID RAID RAID Remote Site Local Site Einzelsystem HV-Cluster BC-Cluster (HV+KS) zurück zur 1. Seite
Konfigurationsbereiche Ziel: Verfügbarkeiten von mindestens 99.99 %. Hierzu muss man die folgenden Konfigurationsbereiche einbeziehen: Client / Netz-Bereich ….. Server-Bereich ….. Win2003 Unix / Solaris Mainframe Linux Storage-Bereich ….. Netapp HP / IBM / Storagtek EMC2 Tape zurück zur 1. Seite
Anforderungen an ein HV-Konzept • Durchführung folgender Aktionen ‒ gemäß den HV-Anforderungen des Kunden ‒ für jeden Bereich: • Etablierung eines Clusters von Systemen • Redundante Auslegung der Plattenspeicher mit Datenspiegelung, • Redundante Auslegung der Netzkomponenten inkl. der Netzanschlüsse für die Server, • Im Fehlerfall (idealerweise) automatische, bzw. bei geplanten Unterbrechungen gezielte Verlagerung von Anwendungen (inkl. ihren Umgebungen) auf ein anderes System (Standby System) • Restart der Anwendungen auf diesem System. zurück zur 1. Seite
Geplante Unterbrechungen • Beispiele • Einführung, Austausch oder Upgrade von Hardware-komponenten (inkl. Wartung) • Einführung, Austausch oder Upgrade von Software-komponenten (in System- und Anwendersoftware), und/oder die • Einführung von Software-Korrekturen (in System- und Anwendersoftware). Vorteile eines HV-Clusters • Am Standby-System kann man vor der Verlagerung einen Update/Upgrade des Betriebssystems oder der Anwendersoftware durchführen, ohne die Produktion zu stören, • Falls gewünscht, können der Software-Update bzw. Upgrade auf dem ehemaligen Produktionssystem nachgezogen und danach die Anwendungen zu einem unkritischen Zeitpunkt dahin zurückverlagert werden, und • Wenn nach der Verlagerung auf das Standby-System Probleme auftreten, kann automatisch auf das ehemalige Produktionssystem mit dem bisherigen Software-Stand zurückgeschaltet werden. zurück zur 1. Seite
Ungeplante Unterbrechungen VorteileAutomatische und rasche Ausfallerkennung ggf. automatische Übernahme der Produktion (Applikation) mit allen betroffenen Betriebsmitteln auf ein anderes System, und ggf. automatischer Restart der zur Produktion gehörenden Anwendungen an diesem SystemDie Ausfallerkennung selbst kann auf den verschiedenen Plattformen unterschiedlich realisiert sein. Beispiele • Ein Fehler in einer Hardware-Komponente wie einer CPU, einem peripheren Controller oder Gerät, oder einer Datenverbindung, • Ein Fehler im Betriebssystem oder Netz, • Ein Fehler in der Anwendung, • Ein Bedienfehler des Operators oder System Administrators, und/oder • Die Zerstörung des gesamten Rechenzentrums(“Katastrophen-Fall”). zurück zur 1. Seite
Disaster Recovery Technologien • Datensicherung mit RAID Technik • Backup-Systeme • Continuous Data Protection (CDP) • Cluster • Image • Replikation • Virtualisierung zurück zur 1. Seite
Disaster Recovery Technologien • Datensicherung mit RAID Technik • Backup-Systeme • Continuous Data Protection (CDP) • Cluster • Image • Replikation • Virtualisierung zurück zur 1. Seite
RAID Systeme • sind eine Kombination aus mehreren (austauschbaren) Festplatten. Die Bezeichnung RAID steht dabei für Redundant Array of Independent Disks. • Die RAID-Systeme sind ausfallsicher, der Ausfall eines Einzellaufwerks gefährdet weder den Gesamtbetrieb noch die Daten. Hierfür verwendet das System einen Teil der Gesamtkapazität zum Speichern der Parity-Informationen. zurück zur 1. Seite
RAID Level 0 RAID 0 fasst mehrere Laufwerke zu einem großen logischen Laufwerk zusammen. Die Daten werden im Stripping Verfahren, abhängig von der Blockgröße, auf alle Platten verteilt. Bei diesem Verfahren können zwar Kapazität und Geschwindigkeit maximal genutzt werden, allerdings ohne Redundanz. zurück zur 1. Seite
RAID Level 1 Durch Mirroring (Plattenspiegelung) werden die Daten einer oder mehrerer Platten auf die gleiche Anzahl zusätzlicher Platten übertragen. Eine höhere Lesegeschwindigkeit wird erreicht, da die Requests auf 2 Platten aufgeteilt werden können, die unabhängig voneinander arbeiten. (50 % der Kapazität werden für die Redundanz genutzt.) zurück zur 1. Seite
RAID Level 3/4 Level 3/4 speichert alle Parity-Informationen auf einer Festplatte. Die Daten werden im Stripping Verfahren auf die restlichen Platten verteilt. RAID 3 bietet eine hohe Transferrate und relativ kurze Zugriffszeiten. RAID Level 4 funktioniert wie Level 3, jedoch mit einem Stripping Faktor von einem Block und mehr, was noch bessere Zugriffsmöglichkeiten bewirkt. (10-20% der Kapazität werden für die Redundanz genutzt.) zurück zur 1. Seite
RAID Level 5 RAID Level 5 verteilt Daten und Parity-Informationen gleichmäßig, blockbereichsweise auf die Platten. Damit ist jedes Laufwerk für einen bestimmten Blockbereich Parity-Laufwerk. Dadurch werden Lesezugriffe noch schneller. zurück zur 1. Seite
RAID 0+1 Kombination aus unterschiedlichen RAID-Level zurück zur 1. Seite
RAID Level 10 Kombination aus unterschiedlichen RAID-Level zurück zur 1. Seite
Disaster Recovery Technologien • Datensicherung mit RAID Technik • Backup-Systeme • Continuous Data Protection (CDP) • Cluster • Image • Replikation • Virtualisierung zurück zur 1. Seite
Disaster Recovery Technologien • Magnetbandspeicher • sind abnehmbar und gehen Sturzfolgen immun • sind sehr preiswert • bieten ihnen die Möglichkeit, all ihre Daten an einem gesicherten Ort abzulegen • bieten fast immer Rückwärtskompatibilität • Magnetbänder sind auch heute noch das beste Medium für einfache und sichere Archivierung zurück zur 1. Seite Title > 2 > 3 > 4 > 5 > 6 > 7 > 8 > 9 > 10 > 11 > 12 > 13 > 14 > 15 > 16 > 17 > 18
Disaster Recovery Technologien • Datensicherung mit RAID Technik • Backup-Systeme • Continuous Data Protection (CDP) • Cluster • Image • Replikation • Virtualisierung zurück zur 1. Seite
Snapshot™ Technologie (NetApp) Copy pointers only No data movement A B C A B C Blocks in LUN or File Blocks on the Disk • Take snapshot 1 A B C Snap 1 zurück zur 1. Seite
Snapshot™ Technologie (NetApp) A B C Snap 1 Blocks in LUN or File Blocks on the Disk • Take snapshot 1 A A • Continue writing data • Write data anywhere B B1 B C C B1 zurück zur 1. Seite
Snapshot™ Technologie (NetApp) A B1 C A A A B B1 B C C C Snap 1 Snap 1 Blocks in LUN or File Blocks on the Disk • Take snapshot 1 A • Continue writing data B B C • Take snapshot 2 • Copy pointers only • No data movement B1 Snap 2 zurück zur 1. Seite
Snapshot™ Technologie (NetApp) A A B B1 C C Snap 1 Snap 2 Blocks in LUN or File Blocks on the Disk • Take snapshot 1 A A • Continue writing data B1 B B C2 C C • Take snapshot 2 B1 C2 • Continue writing data • Write data anywhere zurück zur 1. Seite
Snapshot™ Technologie (NetApp) A A B1 B1 C C2 Snap 2 Snap 3 Blocks in LUN or File Blocks on the Disk • Take snapshot 1 • Continue writing data A A • Take snapshot 2 B1 B B C C2 C • Continue writing data B1 C2 • Take snapshot 3 • Simplicity of model = • Best disk utilization • Fastest performance • Unlimited snapshots zurück zur 1. Seite
seit Windows XP mit ServicePack 2 Standard in Windows 2003 Vollständige Integration in Windows Explorer zurück zur 1. Seite
Einblick in einen SnapShot zurück zur 1. Seite
Disaster Recovery Technologien • Datensicherung mit RAID Technik • Backup-Systeme • Continuous Data Protection (CDP) • Cluster • Image • Replikation • Virtualisierung zurück zur 1. Seite
Servercluster • Hochverfügbarkeit & Skalierbarkeit für • File-, Mail-, Web-, Directory-Server • ERP und Datenbankanwendungen • Ausgefeilte Überwachung und Recovery • Schützt gegen jede Art von Ausfällen (System,Applikation, HW/SW-Komponenten) • Unterbrechungsfreier Datenzugriff • Einfache Handhabung: GUIs und Wizards für Installation und Betrieb • Wächst mit den Anforderungen –Erweiterbarkeit im laufenden Betrieb zurück zur 1. Seite
Clustering- diverse Grundformate und Nutzen • Failover Clusteractive/passive oder active/active Varianten • HA der Applikation durch Failover keine Dienstunterbrechung,Verfügbarkeit der Daten durch Shared disk-Array, HA der Daten durch Storage-Mirrors • Nutzen: relative kurze Wiederherstellzeit für Applikation, Dienstebereitschaft abhängig von Datenbereitstellungszeit !! shared Disk Array zurück zur 1. Seite
shared Disk Array Clustering- diverse Grundformate und Nutzen Scalable ClusterAnwendung läuft parallel im Cluster, HA durch Parallelität HA der Applikation durch Resync der Instanzen KeineDiensteunterbrechungShared Data-Lockmanagement, HA der Daten durch Storage- Mirrors Nutzen: Keine Diensteunterbrechung, da takeover statt failover, aufwändigeres Datenmanagement wegen “shared data“ zurück zur 1. Seite