360 likes | 385 Views
Disaster Recovery Planning. Agenda. Inleiding tot DRP Plan van aanpak Om zelf een DRP op te stellen. Bedrijfsprocessen zijn afhankelijk van IT. Stap één. Risicoanalyse Welke risico’s zijn realistisch? Brand Diefstal Stroomuitval Sysadmin met slechte bedoelingen Epidemie van personeel
E N D
Agenda • Inleiding tot DRP • Plan van aanpak • Om zelf een DRP op te stellen
Stap één • Risicoanalyse • Welke risico’s zijn realistisch? • Brand • Diefstal • Stroomuitval • Sysadmin met slechte bedoelingen • Epidemie van personeel • Maan die op de aarde valt • … • Tegen welke risico’s willen we ons beschermen?
Stap twee • Business impact assessment (BIA). This is a process that all business units go through, to identify its most critical business functions, quantify how the loss of these functions would affect the overall enterprise, and prioritize these functions for restoration if an event or risk did occur. • recovery time objectives (RTO) which are the objectives for recovering key business functions. This results in objectives for recovering IT systems • recovery point objectives (RPO) which refers to the amount of permanently lost data that the business can tolerate.
Stap drie • Business continuity is de verzamelnaam voor alle activiteiten die ervoor moeten zorgen dat: • de bedrijfskritische functies beschikbaar zijn voor klanten, leveranciers en andere stakeholders • in geval van een “onderbreking” van welke realistische aard dan ook • IT Disaster Recovery Plan: • Bepaalde IT-systemenherstellen voorzien zodat de bedrijfskritische functies zo snel mogelijk hersteld worden wanneer een incident zich voordoet
Stap vier • DR Plan: • Een gestructureerd plan om bepaalde IT-systemen te voorzien • zodat een aanvaardbaar operationeel niveau wordt bereikt • zodat bedrijfskritische functies zo snel mogelijk kunnen worden hersteld • Draaiboek, stappenplan • Logboek • Het is een “levend” document, dat nooit af is.
KISS Zo eenvoudig is het.
HET DR PLAN: de 5w-vragen (en hoe)? • Waarom maken we een plan? • Wat moet er in het plan zitten? • Wie moet we betrekken: IT en Business? • Waar gaan we ons DRP uitrollen, in welk datacenter, Cloud, … ? • Wanneer begin je met het maken van een plan? • Hoe? Dit is een vraag voor de ondersteunende dienst … IT
Waarom zou je een DR Plan maken? • Een “situatie” creëert stress en ongerustheid • Plan en documenteer op voorhand • Reality check • Zijn alle componenten in huidige IT omgeving aanwezig voor een effectief DR? • Test => PDCA • Er zullen zeer zeker dingen onbewust vergeten zijn • Zijn alle systemen en technologieën wel mission critical? Zijn ze echt nodig? • SLA’s met klanten • Sommige eisen het • Anderen verwachten het
Wie betrekken in de creatie van DR PLAN? • Business via BIA en BC • wat zijn de doelen van het DR Plan? • prioriteiten • recovery objectieven • IT • welke systemen en technologieën zijn nodig om bovenstaande doelen te realiseren?
Wat zit er in een DR PLAN • BIA + BC • Welke bedrijfsprocessen zijn kritisch? • Wat zijn de prioriteiten? • Buikgevoel • Welke situatie of risico willen we “dekken”? => maak scenario’s • RPO’s en RTO’s per bedrijfsproces per situatie • De afhankelijkheid tussen een bedrijfsproces en IT-diensten • Wat is er ALLEMAAL nodig om het volledige bedrijfsproces te herstellen? • Per situatie
Wat zit er in een DR PLAN • BIA + BC • Welke bedrijfsprocessen zijn kritisch? • Wat zijn de prioriteiten? • Buikgevoel • Welke situatie of risico willen we “dekken”? => maak scenario’s • RPO’s en RTO’s per bedrijfsproces per situatie • De afhankelijkheid tussen een bedrijfsproces en IT-diensten • Wat is er ALLEMAAL nodig om het volledige bedrijfsproces te herstellen? • Per situatie • Begin klein maar met veel ambitie => KISS
Wanneer maak je een DR PLAN? • Wanneer de situatie zich heeft voorgedaan, is het te laat. • Telkens wanneer de IT-omgeving verandert • Telkens wanneer de risico’s veranderen • Telkens wanneer de businessprocessen veranderen • Telkens na een oefening • Staat IT ooit stil? • maak een foto en begin nu • pas het plan daarna aan
Waar? • Afhankelijk van de situatie of scenario • Is er een vliegtuig neergestort? • Is er een verdieping uitgebrand? • Is er nog “een link” met de primaire site? • Kan er iets gerecupereerd worden? • Afhankelijk van je IT-infrastructuur • Heb je verschillende gebouwen op verschillende plaatsen? • Heb je die in eigen beheer? • Welke overeenkomst heb je met de verhuurder? • Kunnen er (nood-)aanpassingen gemaakt worden? Extra verkeer, container, … • Voorzie alternatieven
Template: hoe maak je nu zo een DR PLAN? • Kader: wat is het doel van dit plan? • Business continuïteit • Welke risico’s zijn realistisch en welke verschillende scenario’s? • Hoe bereiden we ons voor? • Uitgewerkte scenario’s. • Wat is de disaster en wanneer spreken we van een disaster? • Wanneer treedt het DRP in werking? • Wie beslist dit, welk management, welke teams, welke rol, welke verantwoordelijkheid, … ? • Welke bedrijfsprocessen worden hersteld/scenario? • DRP draai- + logboeken/scenario: • Recovery procedures • Lessonslearned • Resume procedures • Lessonslearned
En nu? 1/2 • Hoe begin je eraan? • Wie moet je aan boord hebben? • Management moet akkoord gaan en het nut ervan inzien. • Tip: maak het management owner en verantwoordelijk voor het DR Plan • Stel emergency management team samen • Schat situatie in en zet indien nodig DRP in werking • Bepaalt wat nodig is om terug naar de oorspronkelijke toestand te gaan • Stel disaster management team samen • Beheren van de recovery teams • Crisiscentrum oprichten • Lessonslearned uitvoeren
En nu? 2/2 • Hoe begin je eraan? • Wie moet je aan boord hebben? • Systeem- en netwerkbeheerders • De business owners en vertegenwoordigers van de gebruikers • Operations-Service Desk-ICT Support
Emergency management team • Schat situatie in en zet indien nodig DRP in werking • Bepaalt welke incidenten leiden tot disasters
Event/Incident Management • Bepaal IT baseline d.m.v. monitoring • Afwijkingen kunnen leiden tot een disaster • EM => als incident ernstig genoeg => escalatie • EM => probeer incident te verhelpen, na X uur tijd => escalatie • Escalatie Management • Event krijgt Y uur meer tijd om verholpen te worden => escalatie • Emergency mgmt. team => event is disaster => DRP (geheel of deels)
Disaster! • Recovery site • Draaiboek • Logboek • Lessonslearned • Ondertussen herstel van originele situatie
Resumption • Originele situatie is hersteld of opnieuw opgebouwd • Hopelijk na een DRP “test” situatie en als de test waarheidsgetrouw was • Productie op primaire site is suspended?! • DR procedures opgestart • Productie draaide op DR site • Productie resume • Onderschat dit niet • Aan de hand van een draai- en logboek • Persoonlijke ervaring: mensen maken hier fouten • Spaar bepaalde mensen, ze hebben al héél veel werk verricht. • Lessonslearned
Doe DRP oefening! • Hiaten, fouten en onduidelijkheden komen boven • Vergelijkbaar met brandoefening • Minstens jaarlijks • Trainen van je personeel • Fictief: op papier • Effectief: zet IT systemen op een andere locatie op • Fouten maken is niet slecht => hierdoor zijn verbeteringen mogelijk • Pas je DR Plan ook effectief aan na een oefening
Open discussie • Doen jullie dat? • Lukt dat bij jullie? • Hebben jullie suggesties? • Hebben jullie een zicht op alle bedrijfsprocessen via BPMN?
Open discussie • Doen jullie dat? • Lukt dat bij jullie? • Hebben jullie suggesties? • Hebben jullie een zicht op alle bedrijfsprocessen via BPMN? • Heb ik suggesties? • Chaos Monkey • Chaos Gorilla
Kan je meerdere productiesites gebruiken, HQ-Regional Office-Cloud? • Kan je vb. wekelijks “van productiesite” wisselen? • Kan je in real time productie op verschillende sites draaien? • Automatiseer alles • Docker • Configuration management
En wat hebben jullie hier nu aan? • Iedere organisatie is anders: business, mensen, technologie • Ieder management is anders • Leer uit je fouten => maar durf ze eerst te maken • Als je niets doet, kan je niets misdoen • Denk aan communicatie
Hoe zou ik er aan beginnen? • Ik ga morgen je datacenter in en kies er één server/router/… uit • file, mail, databank, web, esx • firewall • backup => heb je al ooit een restore geprobeerd? • Wat als die server/router/… nu opeens verdween? • Welk gevolg heeft dat op de business? Zijn die gevolgen “ernstig” genoeg? • Worden bedrijfskritische functies geïmpacteerd? => Ja, ga verder. • Hoe recover ik de functionaliteit van deze server/router/…, met een minimum aan menselijke interventie? • Lokaal • Remote • In the Cloud • Hoe test ik automatisch dat die functionaliteit “terug” is?
Hoe zouikeraanbeginnen? • Focus alleen op productieomgevingen, niet op dev-test-QA. • Kies binnen twee weken een andere server … • Kies binnen x-tijd een volledig rack … • Stop als je volledige datacenter “recoverable” is => DR Plan klaar • DRP oefening => PDCA
Hoe zouikeraanbeginnen? • Materieel • Immaterieel • Virus • Sysadmin met slechte bedoelingen • …