灾难恢复：从理论到实践

灾难恢复：从理论到实践 牛林海业务连续管理服务经理2009/10/29

业务连续管理 业务策略 Business Strategy 业务流程 Business Process 业务连续管理生命周期信息 Information 应用服务 Application Services 业务连续规划应用基础架构 Application Infrastructure 业务与办公环境连续管理核心基础架构 Core Infrastructure IT 连续管理基础架构 Infrastructure 管理和控制 Management & Control

灾难恢复建设过程 DRP开发恢复技术方案设计灾难风险评估(RA) 业务影响分析(BIA) 运行维护风险因素灾备组织结构方案选择业务关键性分析恢复时间 RTO 演练响应和决策流程业务架构恢复数据点 RPO IT现状分析方案设计技术恢复步骤培训容灾技术分析 IT应用恢复策略方案实施测试演练计划

自然灾害－火灾，水灾，恶劣天气 人为灾害－恐怖行动，恶意破坏安全破坏－电脑黑客服务中断攻击病毒攻击内部安全/欺诈电源/网络故障软件故障硬件故障应用程序故障计划内停工组织的业务所面临的风险-RA 高影响低高频率低

风险分析（RA） 数据中心风险分析的计算方法某机房主要风险指标评级

灾难风险管理策略 高可用设计冗余设计完善管理制度 • 同城 regional • 与主站点处于同一地理区域。主站点和备用站点一般距离在数十公里以内，可实现同步数据复制，但面临同一区域性灾难风险 • 异地 non-regional • 与主站点处于不同地理区域。主站点和备用站点一般距离在数百公里以上，不会同时遭受与生产中心同一区域性灾难风险 • 区域性灾难 regional disaster • 造成所在地区或有紧密联系的邻近地区的交通、电讯、能源及其它关键基础设施受到严重破坏，或大规模人口疏散的事件。 • 例如：地震、大型公共卫生事件、恐怖袭击、区域性通信网故障、区域性电网故障等 • 机房/园区级灾难 • 建筑物外部火灾、建筑物内部火灾、机房内部火灾、长时间停电等，例如机房电源系统故障、广域网故障、机房漏水、空调系统故障、存储阵列等关键设备硬件故障 • 数据中心风险 • 因人为错误、技术故障等局限于数据中心内部的风险造成信息系统中断服务，通过加强本地的技术和管理提高高可用，降低风险灾难风险管理策略 • 区域性灾难异地灾备 --造成所在地区或有紧密联系的邻近地区的交通、电讯、能源及其它关键基础设施受到严重破坏，或大规模人口疏散的事件。 --例如：地震、大型公共卫生事件、恐怖袭击、区域性通信网故障、区域性电网故障等 • 机房/园区级灾难同城灾备 -- 建筑物外部火灾、建筑物内部火灾、机房内部火灾、长时间停电等 -- 机房电源系统故障、广域网故障、机房漏水、空调系统故障、存储阵列等关键设备硬件故障 • 机房内事件 --系统单点故障、机房电源系统故障、广域网故障、机房漏水、空调系统故障、存储阵列等关键设备硬件故障、人为恶意破坏、软件逻辑错误、信息安全故障等术语来源：《GB/T 20988-2007信息安全技术信息系统灾难恢复规范》

风险对业务的影响-BIA：量化分析影响 收入：直接损失、补偿金、损失的未来收入、款项损失和投资损失指数级增长财务业绩声誉损失生产效率：雇员人数 x 受影响员工数 x 停工时间 x 需要补回的时间 = ? 生产效率/雇员直接财务损失/客户损失声誉损失：客户、竞争对手获得优势、供应商、金融市场、业务合作伙伴连续增长财务业绩：收入确认、现金流、信用等级、股票价格、违规罚款宕机造成的间接影响更加严重，无法预测几十亿美元影响（美元）上百万美元耗时分钟天

业务影响分析（BIA ） • 定量经济损失 • 定性业务影响 • 监管法律法规 BIA是在风险分析的基础上，分析业务功能依赖的重要信息系统资源、评估特定灾难场景下各种信息系统中断产生的经济损失和非财务因素影响访谈业务人员、关键用户、业务管理部门 • 识别系统功能，业务流程同IT的关系，用户数量、分布、关键时段 • 了解业务应急处理方案是否明确，可支持业务多久，以及方案的局限性识别业务、技术、管理、用户的灾难恢复需求 • 多方调研分析技术部门、业务部门、管理部门的恢复需求 • 参考系统之间依赖关系 • 参考信息整合和发展需求 • 识别系统中断对业务的影响以确定RTO • 识别数据丢失对业务的影响确定RPO 访谈IT人员(项目经理、IT主管 • 识别系统架构，系统特点 • 了解同其他系统依赖关系 • 了解系统中断时的IT应急手段等等综合分析评定 RTO、RPO、恢复资源需求

业务等级区分原则 业务等级区分原则对客户的影响对客户感知造成的影响，包括客户服务质量、客户满意度、客户忠诚度的下降。从该业务中断对客户和企业这两个方面造成的负面影响程度将业务分类为关键业务和非关键业务对企业的直接影响对公司造成的财务影响，包括对收入造成的损失，为解决问题增加的成本等方面的影响。对企业的间接影响对公司造成的非财务影响，包括对企业信誉、市场竞争力、业务开展、连带的客户诉讼等方面的影响。关键业务 • 是指由于该业务中断，将会对企业运营（包括直接和间接的影响）和客户感知造成严重或较严重影响的业务及其所依赖的业务。如缴费开机业务。非关键业务 • 是指由于该业务中断，将会对企业运营（包括直接和间接的影响）和客户感知产生一般或较小影响或基本没有影响的业务。如综合结算、合作伙伴管理等业务。

重要性 业务中断投诉营业系统联机指令系统用户透支计费采集系统不能即时回收资金帐务系统结算系统管理水平下降统计系统系统管理样例核心业务业务影响分析（Business Impact Analysis）

RTO/RPO的定义 RTO 灾难发生点回切完成备份点系统灾备中心恢复运行系统回切时间线不可用或性能降低不可用或性能降低备份周期最近的一次备份点通常不轻易启动灾难恢复计划。宣布灾难发生就意味着不再是正常的业务模式。启动灾难恢复计划意味着承担额外的费用，不便的操作，降级的服务。决策时间有时就会长达2-4小时 RPO 事件发现和通知紧急状态运作和决策临时运行状态恢复操作回切动作

等级标准依据《GB/T 20988-2007信息安全技术 信息系统灾难恢复规范》信息安全标准化技术委员会组织制定、国家标准化管理委员会审查批准发布，2007 灾难恢复策略/计划的制定需求分析策略分析等级划分

灾备中心规划策略 • 活站点(Active site) • 是支持系统需求的规模适当的办公场所，具有完整和实时信息的完全的冗余恢复站点，其与主站点在所有的技术层面上基本是一致的，系统平时处于7X24活动状态。由于在主站点和恢复站点同时处理和存储数据所以这些站点提供了最高的可用性。 • 热站点(Hot site) • 是支持系统需求的规模适当的办公场所，配置了所需的系统硬件、软件、提供支持的基础设施和支持人员。热站点通常24小时有人值守。接到应急计划启动的通知时热站点人员就可以立即开始准备系统的切换和接管。 • 温站点(Warm site) • 装备有部分设备，包含一些或全部系统硬件、软件、电信和电源。温站点被维持于随时准备接收被重新部署系统的运行状态。这种站点在接收系统和恢复人员之前需要进行准备。在很多情况下，温站点做为另一个系统或功能的正常运行设施，在应急计划启动时，遭受中断的系统临时占用了正常运行系统的设施。 • 冷站点(Cold site) • 通常具有充足的机房基础设施（电源、电信连接和环境控制）和支持IT系统基础设施。空间可能配有活动地板和其它适合IT运行的属性。站点不包含IT设备并且通常也不包含办公自动化设备如电话、传真机或复印机。使用冷站点是为了用于提供安装所需的设备和电信能力。

60%的计划无法使业务恢复到正常运行的状态 50%的计划无法解决通讯中断和网络中断的问题 67%的公司未支付任何款项用于灾难恢复测试 34%的公司不具备数据备份系统 35%的公司没有制定应对媒体的相关策略 34%的公司无法确定数据恢复的优先顺序 75%的恢复配置无法与生产配置保持同步 65%的参与调查者表示，实际的计划制订活动缺少高层管理人员的参与 75%的公司未制定重要员工的培训策略 90%的公司没有针对全体雇员的 “业务连续性计划” 没有行动的计划是做梦没有计划的行动是噩梦！ “我们有一项计划……”计划与现实之间的差距（METAGROUP - 美国） 12 2007年3月20日星期二

演练计划和测试 • 为测试演练而模拟的故障或灾难的设计 • 在系统整体测试演练之前，选择一个小系统（如某个业务量比较小的系统）作为独立的测试模块，检验恢复流程的正确性 • 开发系统整体演练的测试计划 • 召开演练前的沟通会议 • 建立测试小组，观察测试过程及提出建议 • 演练后的总结，汇报演示及修正提高工作

灾难恢复流程演示 宣布启动灾难恢复计划灾难发生数据备份业务检查状况监测应急响应与决策切换操作启动灾难恢复操作交付使用切换有代价通常不轻易启动灾难恢复计划。宣布灾难发生就意味着不再是正常的业务模式。启动灾难恢复计划意味着承担额外的费用，不便的操作，降级的服务，以及切换和回切后的数据准备.

惠普业务连续管理服务资历 惠普全球服务一流的硬件容错和数据复制技术在全球拥有5000名能够随时提供支持的专家在38个国家设有54个恢复中心提供全天候高可用性支持服务和设施监控成功进行了500多次调配和2000次测试演练基于广泛的客户体验和行业最佳实践制订的高效方法停机时间不到行业平均停机时间的1/8，平均每年节约260万美元最庞大的认证顾问队伍 - CSSIP、DRII、BCI 灵活的协作合同斯德哥尔摩市斯德哥尔摩市 Winnersh Winnersh 布里斯托尔布里斯托尔多赛尔多夫多赛尔多夫莫斯科莫斯科华沙华沙中国蒙特利尔蒙特利尔布拉格布拉格维也纳维也纳 . . Mt Mt View View 布达佩斯布达佩斯东京东京首尔首尔米兰米兰伊斯坦布尔伊斯坦布尔达拉斯达拉斯马德里马德里亚特兰大亚特兰大雅典雅典特拉维夫特拉维夫中国香中国香港港迪拜迪拜中国台湾印度墨西哥墨西哥市市卡拉卡斯卡拉卡斯马来西亚新加坡新加坡印度尼西亚圣圣保罗州保罗州悉尼墨尔本市墨尔本市奥克兰布宜诺斯布宜诺斯艾里斯艾里斯约翰内斯堡约翰内斯堡 45 2007年3月20日星期二

总结没有计划的唯一一点好处就是 ——灾难会突然降临，但在此之前，您不必为此费心劳神! 53 2007年3月20日星期二

灾难恢复： 从理论到实践