1 / 19

灾难恢复: 从理论到实践

灾难恢复: 从理论到实践. 牛林海 业务连续管理服务经理 2009/10/29. 业务连续管理. 业务策略 Business Strategy. 业务流程 Business Process. 业务连续管理. 生命 周期. 信息 Information. 应用服务 Application Services. 业务连续规划. 应用基础架构 Application Infrastructure. 业务与办公环境连续管理. 核心基础架构 Core Infrastructure. IT 连续管理. 基础架构 Infrastructure. 管理和控制

tyne
Download Presentation

灾难恢复: 从理论到实践

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 灾难恢复:从理论到实践 牛林海 业务连续管理服务经理2009/10/29

  2. 业务连续管理 业务策略 Business Strategy 业务流程 Business Process 业务连续管理 生命 周期 信息 Information 应用服务 Application Services 业务连续规划 应用基础架构 Application Infrastructure 业务与办公环境连续管理 核心基础架构 Core Infrastructure IT 连续管理 基础架构 Infrastructure 管理和控制 Management & Control

  3. 灾难恢复建设过程 DRP开发 恢复技术方案设计 灾难风险评估(RA) 业务影响分析(BIA) 运行维护 风险因素 灾备组织 结构 方案选择 业务关键性 分析 恢复时间 RTO 演练 响应和决策流程 业务架构 恢复数据点 RPO IT现状分析 方案设计 技术恢复 步骤 培训 容灾技术分析 IT应用 恢复策略 方案实施 测试演练 计划

  4. 自然灾害-火灾,水灾,恶劣天气 人为灾害-恐怖行动,恶意破坏 安全破坏-电脑黑客 服务中断攻击 病毒攻击 内部安全/欺诈 电源/网络故障 软件故障 硬件故障 应用程序故障 计划内停工 组织的业务所面临的风险-RA 高 影响 低 高 频率 低

  5. 风险分析(RA) 数据中心风险分析的计算方法 某机房主要风险指标评级

  6. 灾难风险管理策略 高可用设计 冗余设计 完善管理 制度 • 同城 regional • 与主站点处于同一地理区域。主站点和备用站点一般距离在数十公里以内,可实现同步数据复制,但面临同一区域性灾难风险 • 异地 non-regional • 与主站点处于不同地理区域。主站点和备用站点一般距离在数百公里以上,不会同时遭受与生产中心同一区域性灾难风险 • 区域性灾难 regional disaster • 造成所在地区或有紧密联系的邻近地区的交通、电讯、能源及其它关键基础设施受到严重破坏,或大规模人口疏散的事件。 • 例如:地震、大型公共卫生事件、恐怖袭击、区域性通信网故障、区域性电网故障等 • 机房/园区级灾难 • 建筑物外部火灾、建筑物内部火灾、机房内部火灾、长时间停电等,例如 机房电源系统故障、广域网故障、机房漏水、空调系统故障、存储阵列等关键设备硬件故障 • 数据中心风险 • 因人为错误、技术故障等局限于数据中心内部的风险造成信息系统中断服务,通过加强本地的技术和管理提高高可用,降低风险 灾难风险管理策略 • 区域性灾难 异地灾备 --造成所在地区或有紧密联系的邻近地区的交通、电讯、能源及其它关键基础设施受到严重破坏,或大规模人口疏散的事件。 --例如:地震、大型公共卫生事件、恐怖袭击、区域性通信网故障、区域性电网故障等 • 机房/园区级灾难 同城灾备 -- 建筑物外部火灾、建筑物内部火灾、机房内部火灾、长时间停电等 -- 机房电源系统故障、广域网故障、机房漏水、空调系统故障、存储阵列等关键设备硬件故障 • 机房内事件 --系统单点故障、机房电源系统故障、广域网故障、机房漏水、空调系统故障、存储阵列等关键设备硬件故障、人为恶意破坏、软件逻辑错误、信息安全故障等 术语来源: 《GB/T 20988-2007信息  安全技术信息系统灾难恢复规范》

  7. 风险对业务的影响-BIA:量化分析影响 收入: 直接损失、补偿金、损失的未来收入、款项损失和投资损失 指数级增长 财务业绩 声誉损失 生产效率: 雇员人数 x 受影响员工数 x 停工时间 x 需要补回的时间 = ? 生产效率/雇员 直接财务损失/客户损失 声誉损失: 客户、竞争对手获得优势、供应商、金融市场、业务合作伙伴 连续增长 财务业绩: 收入确认、现金流、信用等级、股票价格、违规罚款 宕机造成的间接影响更加严重,无法预测 几十亿美元 影响(美元) 上百万美元 耗时 分钟 天

  8. 业务影响分析(BIA ) • 定量经济损失 • 定性业务影响 • 监管法律法规 BIA是在风险分析的基础上,分析业务功能依赖的重要信息系统资源、评估特定灾难场景下各种信息系统中断产生的经济损失和非财务因素影响 访谈业务人员、关键用户、业务管理部门 • 识别系统功能,业务流程同IT的关系,用户数量、分布、关键时段 • 了解业务应急处理方案是否明确,可支持业务多久,以及方案的局限性 识别业务、技术、管理、用户的灾难恢复需求 • 多方调研分析技术部门、业务部门、管理部门的恢复需求 • 参考系统之间依赖关系 • 参考信息整合和发展需求 • 识别系统中断对业务的影响以确定RTO • 识别数据丢失对业务的影响确定RPO 访谈IT人员(项目经理、IT主管 • 识别系统架构,系统特点 • 了解同其他系统依赖关系 • 了解系统中断时的IT应急手段等等 综合分析评定 RTO、RPO、恢复资源需求

  9. 业务等级区分原则 业务等级区分原则 对客户的影响 对客户感知造成的影响,包括客户服务质量、客户满意度、客户忠诚度的下降。 从该业务中断对客户和企业这两个方面造成的负面影响程度将业务分类为关键业务和非关键业务 对企业的直接影响 对公司造成的财务影响,包括对收入造成的损失,为解决问题增加的成本等方面的影响。 对企业的间接影响 对公司造成的非财务影响,包括对企业信誉、市场竞争力、业务开展、连带的客户诉讼等方面的影响。 关键业务 • 是指由于该业务中断,将会对企业运营(包括直接和间接的影响)和客户感知造成严重或较严重影响的业务及其所依赖的业务。如缴费开机业务。 非关键业务 • 是指由于该业务中断,将会对企业运营(包括直接和间接的影响)和客户感知产生一般或较小影响或基本没有影响的业务。如综合结算、合作伙伴管理等业务。

  10. 重要性 业务中断 投诉 营业系统 联机指令系统 用户透支 计费采集系统 不能即时回收资金 帐务系统 结算系统 管理水平下降 统计系统 系统管理 样 例 核心业务 业务影响分析(Business Impact Analysis)

  11. RTO/RPO的定义 RTO 灾难发生点 回切完成 备份点 系统灾备中心 恢复运行 系统回切 时间线 不可用或性能降低 不可用或 性能降低 备份 周期 最近的一次备份点 通常不轻易启动灾难恢复计划。宣布 灾难发生就意味着不再是正常的业务 模式。启动灾难恢复计划意味着承担 额外的费用,不便的操作,降级的服 务。决策时间有时就会长达2-4小时 RPO 事件发现和通知 紧急状态运作和决策 临时运行状态 恢复操作 回切 动作

  12. 等级标准依据《GB/T 20988-2007信息 安全技术 信息系统灾难恢复规范》信息安全标准化技术委员会组织制定、国家标准化管理委员会审查批准发布,2007 灾难恢复策略/计划的制定 需求分析 策略分析 等级划分

  13. 灾备中心规划策略 • 活站点(Active site) • 是支持系统需求的规模适当的办公场所,具有完整和实时信息的完全的冗余恢复站点,其与主站点在所有的技术层面上基本是一致的,系统平时处于7X24活动状态。由于在主站点和恢复站点同时处理和存储数据所以这些站点提供了最高的可用性。 • 热站点(Hot site) • 是支持系统需求的规模适当的办公场所,配置了所需的系统硬件、软件、提供支持的基础设施和支持人员。热站点通常24小时有人值守。接到应急计划启动的通知时热站点人员就可以立即开始准备系统的切换和接管。 • 温站点(Warm site) • 装备有部分设备,包含一些或全部系统硬件、软件、电信和电源。温站点被维持于随时准备接收被重新部署系统的运行状态。这种站点在接收系统和恢复人员之前需要进行准备。在很多情况下,温站点做为另一个系统或功能的正常运行设施,在应急计划启动时,遭受中断的系统临时占用了正常运行系统的设施。 • 冷站点(Cold site) • 通常具有充足的机房基础设施(电源、电信连接和环境控制)和支持IT系统基础设施。空间可能配有活动地板和其它适合IT运行的属性。站点不包含IT设备并且通常也不包含办公自动化设备如电话、传真机或复印机。使用冷站点是为了用于提供安装所需的设备和电信能力。

  14. 60%的计划无法使业务恢复到正常运行的状态 50%的计划无法解决通讯中断和网络中断的问题 67%的公司未支付任何款项用于灾难恢复测试 34%的公司不具备数据备份系统 35%的公司没有制定应对媒体的相关策略 34%的公司无法确定数据恢复的优先顺序 75%的恢复配置无法与生产配置保持同步 65%的参与调查者表示,实际的计划制订活动缺少高层管理人员的参与 75%的公司未制定重要员工的培训策略 90%的公司没有针对全体雇员的 “业务连续性计划” 没有行动的计划是做梦没有计划的行动是噩梦! “我们有一项计划……”计划与现实之间的差距(METAGROUP - 美国) 12 2007年3月20日星期二

  15. 演练计划和测试 • 为测试演练而模拟的故障或灾难的设计 • 在系统整体测试演练之前,选择一个小系统(如某个业务量比较小的系统)作为独立的测试模块,检验恢复流程的正确性 • 开发系统整体演练的测试计划 • 召开演练前的沟通会议 • 建立测试小组,观察测试过程及提出建议 • 演练后的总结,汇报演示及修正提高工作

  16. 灾难恢复流程演示 宣布启动灾 难恢复计划 灾难发生 数据备份 业务检查 状况监测 应急响应与决策 切换操作 启动灾难恢复操作 交付使用 切换有代价 通常不轻易启动灾难恢复计划。宣布 灾难发生就意味着不再是正常的业务 模式。启动灾难恢复计划意味着承担 额外的费用,不便的操作,降级的服 务, 以及切换和回切后的数据准备.

  17. 惠普业务连续管理服务资历 惠普全球服务 一流的硬件容错和数据复制技术 在全球拥有5000名能够随时提供支持的专家 在38个国家设有54个恢复中心 提供全天候高可用性支持服务和设施监控 成功进行了500多次调配和2000次测试演练 基于广泛的客户体验和行业最佳实践制订的高效方法 停机时间不到行业平均停机时间的1/8,平均每年节约260万美元 最庞大的认证顾问队伍 - CSSIP、DRII、BCI 灵活的协作合同 斯德哥尔摩市 斯德哥尔摩市 Winnersh Winnersh 布里斯托尔 布里斯托尔 多赛尔多夫 多赛尔多夫 莫斯科 莫斯科 华沙 华沙 中国 蒙特利尔 蒙特利尔 布拉格 布拉格 维也纳 维也纳 . . Mt Mt View View 布达佩斯 布达佩斯 东京 东京 首尔 首尔 米兰 米兰 伊斯坦布尔 伊斯坦布尔 达拉斯 达拉斯 马德里 马德里 亚特兰大 亚特兰大 雅典 雅典 特拉维夫 特拉维夫 中国香 中国香港 港 迪拜 迪拜 中国台湾 印度 墨西哥 墨西哥 市 市 卡拉卡斯 卡拉卡斯 马来西亚 新加坡 新加坡 印度尼西亚 圣 圣 保罗州 保罗州 悉尼 墨尔本市 墨尔本市 奥克兰 布宜诺斯 布宜诺斯 艾里斯 艾里斯 约翰内斯堡 约翰内斯堡 45 2007年3月20日星期二

  18. 总结 没有计划的唯一一点好处就是 ——灾难会突然降临,但在此之前,您不必为此费心劳神! 53 2007年3月20日星期二

More Related