1 / 80

zur letzten Seite

Mit Strategie zur dynamischen IT. Hochverfügbare IT Infrastrukturen. >> Ihr Ansprechpartner Mathias Wolf SIGMA Chemnitz GmbH Bereichsleiter Systemtechnik Am Erlenwald 13 09128 Chemnitz. 11.06.2008. zur letzten Seite. Wir über uns.

ide
Download Presentation

zur letzten Seite

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Mit Strategie zur dynamischen IT Hochverfügbare IT Infrastrukturen >>Ihr Ansprechpartner Mathias Wolf SIGMA Chemnitz GmbH Bereichsleiter Systemtechnik Am Erlenwald 13 09128 Chemnitz 11.06.2008 zur letzten Seite

  2. Wir über uns SIGMA in Chemnitz: Gesellschaft für Systementwicklung und Datenverarbeitung mbH SIGMA in Stuttgart: Software und Consulting GmbH Gründung: Mai 1990 Mitarbeiter: 45 Jahresumsatz: ca. 6 Mio. € zurück zur 1. Seite

  3. Geschäftsfelder unserer Sparten Service · IT-technische Innovationen· Infrastrukturlösungen und erstklassiger Support Beratung · Ganzheitliche Prozessunterstützung und –optimierung· organisatorische Managementberatung· unternehmensweite Softwarelösungen Embedded Lösungen · Hochqualifizierte Eigenentwicklungen · Individuallösungen im Soft- und Hardwarebereich SIGMA in Leonberg · Betriebswirtschaftliche Standardsoftware· Produktdatenmanagement zurück zur 1. Seite

  4. Partner und Lösungen zurück zur 1. Seite

  5. Inhalt Hochverfügbare IT- Infrastrukturen Katastrophenschutz Technologien zur Daten- und Hochverfügbarkeit Praxisbeispiele zurück zur 1. Seite

  6. Infrastruktur allgemein Backupbereich (Datensicherung) Bandllaufwerke Jukebox / Plattenarchive Storagebereich (Datenspeicherung) Plattenspeicher / Flash-Speicher Serverbereich (Datenverarbeitung) Mainframe Unix / Solaris Win2003 Linux ….. Client / Netzwerkbereich (Datenvisualisierung)

  7. Durch Ausfallzeiten der IT verursachte Kosten $ 89,500 Airline Reservation $ 90,000 Home Catalog Sales Pro Stunde ! $ 150,000 Pay per View $ 360,000 Banking $ 370,000 Telecommunications $ 2,600,000 Credit Card Sales $ 6,450,000 Brokerage 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000 6500 [1000 $] Quellen: International Data Corporation, Gartner Group und Contingency Planning Research zurück zur 1. Seite

  8. Konsequenzen eines Ausfalles Mögliche Konsequenzen eines Ausfalls: • - Umsatzeinbußen • - Geschäftsverluste • - Kosten für Wartung- und Service - Kosten für Rollback einer Aktion • - Strafen • - Rechtliche Folgen • - Verlust von Kunden • - Imageverlust • - Verlust von Menschenleben Es gilt also, Ausfallzeiten zu minimieren ! zurück zur 1. Seite

  9. Mögliche Gründe für Ausfallzeiten HW –SW Fehler Sabotage Infrastruktur Naturkatastrophen Quelle: Disaster Recovery Strategies, IBM Redbook SG24-6844-00, 2002 zurück zur 1. Seite

  10. Hochverfügbarkeit- was ist das ? Ein System gilt als hochverfügbar, wenn eineAnwendung auch im Fehlerfall weiterhin verfügbar istund ohne unmittelbaren menschlichen Eingriff weitergenutzt werden kann. Anwender nimmt keine oder nur eine kurze Unterbrechung wahr. Hochverfügbarkeit (HA – High Availability) bezeichnetdie Fähigkeit eines Systems, bei Ausfall einer seiner Komponenten einen uneingeschränkten Betrieb zu gewährleisten. permanent laufende Anwendung Anwendung nur “kurz” unterbrochen Redundanz von HW Komponenten Permanenz des Services SLA Qualität Permanenz des Systems Plattform Qualität zurück zur 1. Seite

  11. Definition Verfügbarkeit Erhöhung der Verfügbarkeit eines Systems, definiert durch IEEE als x 100 (%). Eine Hochverfügbarkeits-Konfiguration dient dazu, ungeplante Unterbrechungen (d.h. Ausfälle einzelner Betriebsmittel), sowie geplante Ausfallzeiten (z. B. HW-Wartungsfenster, Einbringen von SW-Korrekturen oder neuer SW) mit einer möglichst kurzen Unterbrechung des Produktionsbetriebes zu überstehen. Betriebsdauer – Ausfallzeit Betriebsdauer zurück zur 1. Seite

  12. Verfügbarkeit • Gesamtverfügbarkeit eines IT-Systems ist die geschlossene Betrachtung von • Hardware • und • Software • Hochverfügbarkeit ist keine spezielle Technologie, sie ist vielmehr ein Ziel, dass für die spezielle Situation in einer Firma maßgeschneidert werden muss. Sie ist eine Kombination aus Strategien, Technologien, Training der Mitarbeiter und verschiedenen Serviceprozessen, um Unterbrechungen zu minimieren. • In der Praxis unterscheidet man zwischen geplanten und ungeplanten Unterbrechungen. zurück zur 1. Seite

  13. geplante ungeplante Unterbrechungen Unterbrechungen Etwa 90% Etwa 10% Andere 9 % Hardware 15 % Anwendungen Bedienung 8 % 25 % Andere 3 % Hardware 8 % DB Backup 52 % Netzwerk 10 % Anwendungen 27 % Software 30 % Software 13 % Geplante / ungeplante Unterbrechung Quelle: Metagroup zurück zur 1. Seite

  14. Verfügbarkeitsstufen Ausfallzeit / Jahr Verfügbarkeit 5 min. 99.999 % Hoch- verfügbar 52 min. 99.99 % 99.9 % 8,8 Std. Konventionell 99 % 3,7 Tage zurück zur 1. Seite

  15. Die berühmten Neunen… • Aber: Wann gilt ein System wieder als “verfügbar”? • Power On Diagnose läuft durch ? • System Prompt/ Adminshell ist da? • Service für den Endbenutzer steht zur Verfügung ? zurück zur 1. Seite

  16. Verfügbarkeitsmaßnahmen Failover –Lösungen (no single Point of failure) 5 Clustering Automatische Isolation von defekten Komponenten 4 AutomaticServer Restart, RekonfigurationRemote Management 3 Hot swap Mechanismen Hot plug / hot spare Lüfter, AC/DC, Platten, Tape Laufwerke, PCI boards, 2 Redundanz Lüfter, Netzteile, Steckkarten, Raid-Systeme Netzwerk- und Kontrolleranschlüsse Auswahl Komponenten Qualität im Design und in Produktion, Hardwaremanagement, Monitoring & Warnung vor Ausfällen,Fehlerkorrektur Hauptspeicher (ECC) 1 Fehlerkorrektur und Vermeidung zurück zur 1. Seite

  17. Hochverfügbarkeit Maßnahmen • Mit heutiger Technologie kann eine Verfügbarkeit von mehr als 99.99 % nur mittels eines Clusters erreicht werden. • Maßnahmen: • HW- und SW-mäßige Redundanz aller für die Produktion notwendigen Betriebsmittel, • Softwaremäßige Überwachung der Betriebsmittel, • Automatisierte Reaktionen auf Hard- und Softwarefehler(z.B. Verlagerung der Produktion auf ein anderes System, oder Rekonfigurationen), • Bei geplanten Unterbrechungen kommandogesteuert die automatisierteAusführung der notwendigen Aktionen, sowie • Organisatorische Maßnahmen (Kompetenz der Mitarbeiter, Verbesserung der Service-Qualität, HV-Leitstand, Betriebsführungskonzept). zurück zur 1. Seite

  18. Katastrophenschutz (KS) • Im IT-Bereich ist Katastrophenschutz diejenige Vorsorge, welche nach einer teilweisen oder vollständigen Zerstörung eines Rechenzentrums die Wiederaufnahme der Produktion und damit der geschäftskritischen Anwendungen ermöglicht.  • Unter einer Katastrophe soll der Ausfall eines Rechenzentrums durch Stromausfall oder Zerstörung (Brand, Wassereinbruch, Explosion, Erdbeben, Sturm, Sabotage etc.), oder etwas spezifischer der Ausfall eines Hosts und der räumlich in der Nähe aufgestellten Speicherperipherie oder auch nur von Teilen der Speicherperipherie, die aktuelle Produktionsdaten enthält, verstanden werden. zurück zur 1. Seite

  19. Katastrophenschutz (KS) • Katastrophen führen zu einem Abbruch des Produktionsbetriebs und erfordern die Verfügbarkeit aller Betriebsmittel, die für die Wiederaufnahme des Produktionsbetriebs erforderlich sind, auf einem Standby-RZ. • UnterStandby-RZ versteht man ein räumlich mehr oder weniger weit entferntes RZ mit einer Hardware- und Software-Ausstattung, so dass die nach den KS-Anforderungen des Kunden relevanten Anwendungen des Produktions-RZs darauf ablauffähig sind. • Auf den Systemen im Standby-RZ können im Normalbetrieb Anwendungen laufen, die im Katastrophen-Fall (mit geringerer Performance) weiterlaufen, oder (bei weniger hohen Verfügbarkeitsanforderungen) terminiert werden. zurück zur 1. Seite

  20. Kombination von HV und KS HV = „Single failure recovery“ KS = „Site failure recovery“ Charakterisierung: HV und KS schließen sich nicht aus; sie können vielmehr hervorragend kombiniert werden.Idealzustand: Das wesentliche Merkmal von KS besteht darin, dass im Idealzustand über HV hinausgehend die für die Aufrechterhaltung des Produktionsbetriebes redundanten Betriebsmittel und Daten räumlich entfernt und damit gegenüber zerstörenden Einwirkungen am Produktionsort geschützt sind. BC-Cluster HV + räumliche Trennung = BC zurück zur 1. Seite

  21. Kombination von HV und KS KS ohne HV: Rasche Wieder-aufnahme des Betriebs nach Ausfall eines RZs ist so wichtig, dass der Kunde dafür das Risiko von Ausfallzeiten in Kauf nimmt. HV ohne KS: Risiko einer Katastrophe wird vom Kunden in Kauf genommen. HV KS BC Business Continuity (HV und KS): Der Kunde will keine Störung seiner Geschäfts-prozesse, auch nicht im Katastrophen-Fall. zurück zur 1. Seite

  22. Business Continuity (BC) Business Continuity: Die wichtigen Geschäftsprozesse des Kunden sollen möglichst wenig gestört werden. Die Störungen können vielfältige Gründe haben und werden üblicherweise kategorisiert nach Zerstörung eines RZs:Störungen innerhalb eines RZs: Katastrophenschutz Hochverfügbarkeit zurück zur 1. Seite

  23. Vom Einzelsystem zum BC-Cluster Netz Netz Netz RAID RAID RAID Remote Site Local Site Einzelsystem HV-Cluster BC-Cluster (HV+KS) zurück zur 1. Seite

  24. Konfigurationsbereiche Ziel: Verfügbarkeiten von mindestens 99.99 %. Hierzu muss man die folgenden Konfigurationsbereiche einbeziehen: Client / Netz-Bereich ….. Server-Bereich ….. Win2003 Unix / Solaris Mainframe Linux Storage-Bereich ….. Netapp HP / IBM / Storagtek EMC2 Tape zurück zur 1. Seite

  25. Anforderungen an ein HV-Konzept • Durchführung folgender Aktionen ‒ gemäß den HV-Anforderungen des Kunden ‒ für jeden Bereich: • Etablierung eines Clusters von Systemen • Redundante Auslegung der Plattenspeicher mit Datenspiegelung, • Redundante Auslegung der Netzkomponenten inkl. der Netzanschlüsse für die Server, • Im Fehlerfall (idealerweise) automatische, bzw. bei geplanten Unterbrechungen gezielte Verlagerung von Anwendungen (inkl. ihren Umgebungen) auf ein anderes System (Standby System) • Restart der Anwendungen auf diesem System. zurück zur 1. Seite

  26. Geplante Unterbrechungen • Beispiele • Einführung, Austausch oder Upgrade von Hardware-komponenten (inkl. Wartung) • Einführung, Austausch oder Upgrade von Software-komponenten (in System- und Anwendersoftware), und/oder die • Einführung von Software-Korrekturen (in System- und Anwendersoftware). Vorteile eines HV-Clusters • Am Standby-System kann man vor der Verlagerung einen Update/Upgrade des Betriebssystems oder der Anwendersoftware durchführen, ohne die Produktion zu stören, • Falls gewünscht, können der Software-Update bzw. Upgrade auf dem ehemaligen Produktionssystem nachgezogen und danach die Anwendungen zu einem unkritischen Zeitpunkt dahin zurückverlagert werden, und • Wenn nach der Verlagerung auf das Standby-System Probleme auftreten, kann automatisch auf das ehemalige Produktionssystem mit dem bisherigen Software-Stand zurückgeschaltet werden. zurück zur 1. Seite

  27. Ungeplante Unterbrechungen VorteileAutomatische und rasche Ausfallerkennung ggf. automatische Übernahme der Produktion (Applikation) mit allen betroffenen Betriebsmitteln auf ein anderes System, und ggf. automatischer Restart der zur Produktion gehörenden Anwendungen an diesem SystemDie Ausfallerkennung selbst kann auf den verschiedenen Plattformen unterschiedlich realisiert sein. Beispiele • Ein Fehler in einer Hardware-Komponente wie einer CPU, einem peripheren Controller oder Gerät, oder einer Datenverbindung, • Ein Fehler im Betriebssystem oder Netz, • Ein Fehler in der Anwendung, • Ein Bedienfehler des Operators oder System Administrators, und/oder • Die Zerstörung des gesamten Rechenzentrums(“Katastrophen-Fall”). zurück zur 1. Seite

  28. Disaster Recovery Technologien • Datensicherung mit RAID Technik • Backup-Systeme • Continuous Data Protection (CDP) • Cluster • Image • Replikation • Virtualisierung zurück zur 1. Seite

  29. Disaster Recovery Technologien • Datensicherung mit RAID Technik • Backup-Systeme • Continuous Data Protection (CDP) • Cluster • Image • Replikation • Virtualisierung zurück zur 1. Seite

  30. RAID Systeme • sind eine Kombination aus mehreren (austauschbaren) Festplatten. Die Bezeichnung RAID steht dabei für Redundant Array of Independent Disks. • Die RAID-Systeme sind ausfallsicher, der Ausfall eines Einzellaufwerks gefährdet weder den Gesamtbetrieb noch die Daten. Hierfür verwendet das System einen Teil der Gesamtkapazität zum Speichern der Parity-Informationen. zurück zur 1. Seite

  31. RAID Level 0 RAID 0 fasst mehrere Laufwerke zu einem großen logischen Laufwerk zusammen. Die Daten werden im Stripping Verfahren, abhängig von der Blockgröße, auf alle Platten verteilt. Bei diesem Verfahren können zwar Kapazität und Geschwindigkeit maximal genutzt werden, allerdings ohne Redundanz. zurück zur 1. Seite

  32. RAID Level 1 Durch Mirroring (Plattenspiegelung) werden die Daten einer oder mehrerer Platten auf die gleiche Anzahl zusätzlicher Platten übertragen. Eine höhere Lesegeschwindigkeit wird erreicht, da die Requests auf 2 Platten aufgeteilt werden können, die unabhängig voneinander arbeiten. (50 % der Kapazität werden für die Redundanz genutzt.) zurück zur 1. Seite

  33. RAID Level 3/4 Level 3/4 speichert alle Parity-Informationen auf einer Festplatte. Die Daten  werden im Stripping Verfahren auf die restlichen Platten verteilt. RAID 3 bietet eine hohe Transferrate und relativ kurze Zugriffszeiten. RAID Level 4 funktioniert wie Level 3, jedoch mit einem Stripping Faktor von einem Block und mehr, was noch bessere Zugriffsmöglichkeiten bewirkt. (10-20% der Kapazität werden für die Redundanz genutzt.) zurück zur 1. Seite

  34. RAID Level 5 RAID Level 5 verteilt Daten und Parity-Informationen gleichmäßig, blockbereichsweise auf die Platten. Damit ist jedes Laufwerk für einen bestimmten Blockbereich Parity-Laufwerk. Dadurch werden Lesezugriffe noch schneller. zurück zur 1. Seite

  35. RAID 0+1 Kombination aus unterschiedlichen RAID-Level zurück zur 1. Seite

  36. RAID Level 10 Kombination aus unterschiedlichen RAID-Level zurück zur 1. Seite

  37. Disaster Recovery Technologien • Datensicherung mit RAID Technik • Backup-Systeme • Continuous Data Protection (CDP) • Cluster • Image • Replikation • Virtualisierung zurück zur 1. Seite

  38. Disaster Recovery Technologien • Magnetbandspeicher • sind abnehmbar und gehen Sturzfolgen immun • sind sehr preiswert • bieten ihnen die Möglichkeit, all ihre Daten an einem gesicherten Ort abzulegen • bieten fast immer Rückwärtskompatibilität • Magnetbänder sind auch heute noch das beste Medium für einfache und sichere Archivierung zurück zur 1. Seite Title > 2 > 3 > 4 > 5 > 6 > 7 > 8 > 9 > 10 > 11 > 12 > 13 > 14 > 15 > 16 > 17 > 18

  39. Disaster Recovery Technologien • Datensicherung mit RAID Technik • Backup-Systeme • Continuous Data Protection (CDP) • Cluster • Image • Replikation • Virtualisierung zurück zur 1. Seite

  40. Snapshot™ Technologie (NetApp) Copy pointers only No data movement A B C A B C Blocks in LUN or File Blocks on the Disk • Take snapshot 1 A B C Snap 1 zurück zur 1. Seite

  41. Snapshot™ Technologie (NetApp) A B C Snap 1 Blocks in LUN or File Blocks on the Disk • Take snapshot 1 A A • Continue writing data • Write data anywhere B B1 B C C B1 zurück zur 1. Seite

  42. Snapshot™ Technologie (NetApp) A B1 C A A A B B1 B C C C Snap 1 Snap 1 Blocks in LUN or File Blocks on the Disk • Take snapshot 1 A • Continue writing data B B C • Take snapshot 2 • Copy pointers only • No data movement B1 Snap 2 zurück zur 1. Seite

  43. Snapshot™ Technologie (NetApp) A A B B1 C C Snap 1 Snap 2 Blocks in LUN or File Blocks on the Disk • Take snapshot 1 A A • Continue writing data B1 B B C2 C C • Take snapshot 2 B1 C2 • Continue writing data • Write data anywhere zurück zur 1. Seite

  44. Snapshot™ Technologie (NetApp) A A B1 B1 C C2 Snap 2 Snap 3 Blocks in LUN or File Blocks on the Disk • Take snapshot 1 • Continue writing data A A • Take snapshot 2 B1 B B C C2 C • Continue writing data B1 C2 • Take snapshot 3 • Simplicity of model = • Best disk utilization • Fastest performance • Unlimited snapshots zurück zur 1. Seite

  45. seit Windows XP mit ServicePack 2 Standard in Windows 2003 Vollständige Integration in Windows Explorer zurück zur 1. Seite

  46. Einblick in einen SnapShot zurück zur 1. Seite

  47. Disaster Recovery Technologien • Datensicherung mit RAID Technik • Backup-Systeme • Continuous Data Protection (CDP) • Cluster • Image • Replikation • Virtualisierung zurück zur 1. Seite

  48. Servercluster • Hochverfügbarkeit & Skalierbarkeit für • File-, Mail-, Web-, Directory-Server • ERP und Datenbankanwendungen • Ausgefeilte Überwachung und Recovery • Schützt gegen jede Art von Ausfällen (System,Applikation, HW/SW-Komponenten) • Unterbrechungsfreier Datenzugriff • Einfache Handhabung: GUIs und Wizards für Installation und Betrieb • Wächst mit den Anforderungen –Erweiterbarkeit im laufenden Betrieb zurück zur 1. Seite

  49. Clustering- diverse Grundformate und Nutzen • Failover Clusteractive/passive oder active/active Varianten • HA der Applikation durch Failover  keine Dienstunterbrechung,Verfügbarkeit der Daten durch Shared disk-Array, HA der Daten durch Storage-Mirrors • Nutzen: relative kurze Wiederherstellzeit für Applikation, Dienstebereitschaft abhängig von Datenbereitstellungszeit !! shared Disk Array zurück zur 1. Seite

  50. shared Disk Array Clustering- diverse Grundformate und Nutzen Scalable ClusterAnwendung läuft parallel im Cluster, HA durch Parallelität HA der Applikation durch Resync der Instanzen KeineDiensteunterbrechungShared Data-Lockmanagement, HA der Daten durch Storage- Mirrors Nutzen: Keine Diensteunterbrechung, da takeover statt failover, aufwändigeres Datenmanagement wegen “shared data“ zurück zur 1. Seite

More Related