清华大学信息技术研究院清华 - 威视数据安全研究所 2014年9月

灾难恢复 从技术到管理清华大学信息技术研究院清华-威视数据安全研究所 2014年9月侯海波

内容 • 灾难恢复管理概述 • 概念、背景、价值、…… • 灾难恢复技术概览 • 高可用性、备份、复制、远程集群 • 持续数据保护、其他关键技术…… • 灾难恢复实施概述 • 管理体系要素 • 项目实施过程

一、灾难恢复管理概述 • 灾难恢复 • “将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态，并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态的活动和流程”。——《重要信息系统灾难恢复指南》，2005年4月，国信办 • 灾难恢复管理 • 利用技术、管理手段以及相关资源，确保已有的关键数据和关键业务在灾难发生后在确定的时间内可以恢复和继续运营的过程，是一项集技术和管理于一体的系统工程。

高度依赖 • 业务系统对信息技术的依赖性越来越强 • 无论是政府部门、企业还是个人 • 信息系统停机往往导致业务中断 • 信息数据已成为企业的生命源泉 • 同时，信息系统的复杂性带来更大的脆弱性 • 越来越多的漏洞

风险变大 • 调查显示 • 20%的企业平均每五年就会遇到影响公司运营的意外情况 • 越来越多的威胁 • 自然风险：地震、火灾、水灾、气象、疾病、战争、…… • 人为风险：错误操作、黑客攻击、病毒发作、员工恶做、…… • 技术风险：设备失效，软件错误，通讯中断、电力失效、…… • 最近事件 • 美国911事件、中国“非典”疫情、印度洋海啸、…… • 莫斯科大停电、伦敦地铁爆炸、……

后果严重 • 美国明尼苏达大学：如果在发生灾难后的两个星期内，无法恢复公司的业务系统，75%的公司业务将会完全停顿，43%的公司将再也无法开业 • IDC统计：美国在2000年以前的十年间发生过灾难的公司中，有55％当时倒闭，剩下的45％中，因为数据丢失，有29％也在两年之内倒闭，生存下来的仅占16％。 • Gartner Group：在经历大型灾难而导致系统停运的公司中有2/5再也没有恢复运营，剩下的公司中也有1/3在两年内破产。 • ……

最后防线 • 传统信息安全技术无法抵御大的风险和威胁 • 例如地震、洪水、战争等等 • 传统信息安全技术对付传统风险具有局限性 • 病毒、黑客攻击等造成的业务中断时间可能过长，导致需要切换 • 保险无法保证企业的生存 • 无法找回用户数据。尽管可以挽回部分损失 ——————————————————————————————— • 信息安全概念也在不断发展 • COMSEC（保密，通信保密） • INFOSEC（保护，保密性/完整性/可用性） • IA （保障，PTO*PDRR*) • ……

实施价值 • 减少风险损失 • 2000年2月7日美国8大知名网站瘫痪损失12亿美元 • ebay：1999年6月12日: 22小时故障，损失: $3M-5M + 26% 股票市值损失 • AT&T：1998年4月13日: 6-26小时故障，损失: $40M用于折扣 • 确保持续发展 • 9.11生存启示（1200/400/6%） • 满足商业需要 • 服务于全球客户的复杂性，以及消费者的高期望值 • 据介绍是否引入有效的BCM机制，已经成为一些发达国家政府机构与企业选择合作伙伴或供应商的一个必要条件 ——————————————————————————————— • 已经成为现代企业的管理战略之一 • Meta预测：在全球大公司中用于灾难恢复管理的投入从4%上升到7%

灾难恢复-未来法规遵从的要求 • 法规遵从——法律的高度的要求 • 2004年，国际“法规遵从年” • 国际，超过16000部法规 • 沙宾法案Sarbanes-Oxley Act、全美证券交易商协会行为规定（NASD 3110） • 美国健康保险便利和责任法案（HIPAA）、联邦条例21CFR第11部分 • FDA、 NYSE、 AMEX、 FERC、 …… • 国内 • 《国家信息化领导小组关于加强信息安全保障工作的意见》(中办发[2003]27号) • 《关于做好重要信息系统灾难备份工作通知》(信安通[2004]11号） • 《重要信息系统灾难恢复指南》（2005.5.26 广东南海） • ……

二、灾难恢复技术概览 • 高可用性技术 • 数据备份技术 • 数据复制技术 • 远程集群技术 • 持续数据保护技术 • 其他关键技术

系统停机原因及防护技术 软件故障 • 时间点复制 • 备份 14% 站点灾难人为过失 3% 32% • 数据仓库 • 远程备份 • 远程复制 • 系统热备 • 时间点复制 • 备份硬件或系统故障 44% 计算机病毒 7% • 高可用性技术 • 磁带备份 • 数据复制 • 时间点复制

灾难恢复技术思路-3R • 冗余性（Redundancy） • 灾难恢复实现的基础 • 可恢复性（Recoverability） • 确保冗余的内容能在灾难发生后可以使用 • 远程性（Remoteness） • 确保能够抵御灾难的影响

SAN Fabric 高可用性技术 • 设备冗余技术 • 路径冗余技术 • 系统冗余技术 • 技术特点： • 减少停机时间 • 保护内容全面 • 本地的保护措施 • 基础容灾技术 • 切换是关键

LAN NT UNIX 存储区域网数据备份技术 • Host-Based备份架构 • LAN-Based备份架构 • LAN-Free备份架构 • Server-Less备份架构 • Zero-impact备份架构 • 相关技术 • 数据恢复 • 备份策略 • 虚拟磁带库 • 压缩技术 • …… • 技术特点 • 数据剥离->离线 • 可以抵御逻辑错误 • 抵御大灾难需要 • 远程备份或传输 • 适合业务 • 对数据丢失不敏感 • 对应用停机不敏感 • 其他容灾技术的基础

数据复制技术 • 基于存储子系统数据复制 • 基于存储网络层数据复制 • 基于卷管理器数据复制 • 基于应用数据复制 • 技术特点 • 数据在线状态 • 需要配合时间点技术抵御逻辑错误 • 抵御大灾难需要 • 远程数据传输 • 适合业务 • 数据很重要 • 远程应用集群基础

远程集群技术 • 主要技术架构 • 1＋1 或 N＋1 • OS－Based 或 Application－Based • 全冗余架构实现集群 • 冗余服务器、冗余应用、冗余信号传输路径、冗余数据访问路径、…… • 切换是关键 • 应用切换 • 数据切换 • 访问地址切换保护应用的运行状态

持续数据保护技术 • “持续数据保护是一套方法，它可以捕获或跟踪数据的变化，并将其在生产数据之外独立存放，以确保数据可以恢复到过去的任意时间点。持续数据保护系统可以基于块、文件或应用实现，可以为恢复对象提供足够细的恢复粒度，实现几乎无限多的恢复时间点”——SNIA-DMF-CDP（SIG） ★数据丢失量少 ★抵御逻辑错误 ★更容易恢复 ★备份窗口小 ★主机影响小

DR技术比较

People Plan Process Product 三、灾难恢复实施概述 • 管理体系 • 建设过程 • 最佳实践 • 相关标准确定策略需求分析实施建设项目启动最佳实践维护更新建设过程编制计划可用技术测试部署管理成本决策技术决策政策目标法规遵从现状 …… 管理体系

Plan Process Product 灾难恢复管理体系模型 People

管理体系要素-流程（Process） • 日常维护和预警 • 应急响应、评估与声明 • 业务紧急接续、过渡期处理 • 重新安置及启动 • …… —————————————————————— • 按照规范和最佳实践： • 预防灾难，降低风险发生的概率 • 高效行动，降低灾难造成的损失

管理体系要素-团队（People） • 领导组 • 业务恢复操作组 • 技术功能操作组 • 外部协调和联系人员 • 设备和软件供应商联系人 • 外部协作机构 • …… ———————————————————————————— • 人是流程的执行主体和关键因素 • 合理架构、职责、人选、后备、培训、管理

管理体系要素-设施和技术（Product） • 设备 • 包括能够保证数据恢复和业务运行的信息系统基础设施 • 主机、网络、卡车、打印机、…… • 场地 • 指挥、发布、系统、办公、…… • 冷场地 / 温场地 / 热场地 / 移动场地 / 商业场地 / …… • 技术和方案 • 高可用性技术 • 数据备份与恢复技术 • 数据复制和迁移技术 • 远程集群技术 • 其他关键技术 ————————————————————————————— 技术决策要素：RTO、RPO、保护距离、 TCC、保护对象、 ……

管理体系要素-计划（Plan）（例） 简明扼要目标和范围组织和职责联络与通讯紧急响应流程恢复及重续运行流程灾后重建和回退保障条件附录

灾难恢复建设建设过程模型 确定策略实施建设风险分析和BIA 项目启动维护更新编制计划测试部署

$$$ t = 恢复时间目标(RTO) 业务成效 1 解决方案成本 $ 1 t t 时间 0 1 实践考虑

实践考虑 • 自建灾难恢复中心： • 模式1：本地站点生产，远程站点开发和测试 • 模式2：在远程站点进行磁带备份，无需运送磁带 • 模式3：在各站点间平衡应用负荷 • 模式4：在远程站点设置数据仓库并提供决策支持 • 等等…… • 服务外包 • 专业规划、能力维护、测试演练、……

专门的远程灾备中心 Tier7-接近零或是零数据丢失，远程数据镜像，并且业务环境可进行高自动化的业务接管费用 Tier6-接近零或是零数据丢失，远程数据镜像保证数据的完整性和一致性 Tier5-软件级的，两地点-两阶段提交（交易完整性） Tier4-批量/在线的数据库镜像或日志的传输，或重复的时间点拷贝可用的备份中心 Tier3-电子链接传输 Tier2-PTAM卡车运送+热备份站点时间点备份 Tier1-PTAM开车运送访问 15分钟 1-4小时 4-8小时 8-12小时 12-16小时 24小时好几天恢复需要的时间（RTO） SHARE78模型

《重要信息系统灾难恢复指南》 用户灾难恢复系统组成技术支持能力运行维护管理能力灾难恢复预案数据备份系统备用数据处理系统备用网络系统备用基础设施

谢谢欢迎交流清华-威视数据安全研究所侯海波 houhaibo@tsinghua.org.cn

清华大学信息技术研究院清华 - 威视数据安全研究所 2014年9月