300 likes | 459 Views
清华大学数据中心 无单点故障运行环境建设. 清华大学计算机与信息管理中心 戚丽 qili @cic.tsinghua.edu.cn 二○○六年五月. 提 纲. 建设需求的提出 无单点故障运行环境的建设成果 经验与体会. 清华大学数据中心的建设过程. 2001 年 5 月,成立了数据中心 职能: 整合资源,减少学校在运行环境、维护人员等方面的重复投资 集中负责系统的运行与维护,提高系统的可用性、可靠性及安全性 数据集中存放与管理 , 是数据共享与交换的集散地,利于系统的整合和信息的整合. 清华大学数据中心的建设过程. 2001 年,运行环境的基本建设
E N D
清华大学数据中心无单点故障运行环境建设 清华大学计算机与信息管理中心 戚丽 qili@cic.tsinghua.edu.cn 二○○六年五月
提 纲 • 建设需求的提出 • 无单点故障运行环境的建设成果 • 经验与体会
清华大学数据中心的建设过程 2001年5月,成立了数据中心 职能: • 整合资源,减少学校在运行环境、维护人员等方面的重复投资 • 集中负责系统的运行与维护,提高系统的可用性、可靠性及安全性 • 数据集中存放与管理,是数据共享与交换的集散地,利于系统的整合和信息的整合
清华大学数据中心的建设过程 • 2001年,运行环境的基本建设 2001年重点进行运行环境的基本建设,进行了机房改造、电源、空调的改造等工作,到年底,基本建成了一个比较专业的机房。
清华大学数据中心的建设过程 • 2002年,网络安全建设及服务器结构调整 • 2002年开始了以数据中心为核心辐射学校关键职能部门的的安全防范体系的设计和建设,2005年完成。 • 服务器结构开始三层架构的调整,2003年初步完成。2004年根据应用的情况及资金情况,在划分为三层结构的基础上,将服务器划分组,每组设置一台冷备的服务器,提高服务器的可用性。
清华大学数据中心的建设过程 • 2003年,“数据库年” 重点对数据库的结构、数据库的布局、数据备份的策略等进行研究,并根据实际情况对数据库进行调整。
清华大学数据中心的建设过程 • 2004年,存储、备份、容灾的研究和实施 存储局域网的建设,为服务器建立群组打下了基础。 • 2005年,运行服务体系的建立 进入了运行与建设并重的阶段
需求的提出 • 运行的应用系统数量不断增加 • 各部门对应用的依赖程度越来越大 • 对运行服务的要求也不断提升 -应用系统的可用性: 7×24小时的不间断服务 -数据的安全性 -运行的效率 从2004年年底开始了无单点故障的运行环境建设
目标 消除运行环节的单点故障 提高应用系统的可用性
提 纲 • 建设需求的提出 • 无单点故障运行环境的建设成果 • 经验与体会
建设内容 • 基础建设:电源、空调、机房 • 网络建设 • 服务器结构调整 • 数据库 • 存储 • 人员的配置
基础建设 • 供电系统 1)双路供电到机柜,保证采用双电源的设备有两路可用电源; 2)UPS系统有冗余设计,提高供电系统的可靠性 • 空调 要有冗余设计,保证机房温度不会受某个空调的故障而升高 • 布线 使每个机柜的电源线和预留的网线能够满足电源、网络的冗余设计。
基础建设 • 电源: 1)新增加了100KVA的UPS,和原有的80KVA的UPS形成双路供电到机柜。 2)预留出柴油发电机的接口。 • 空调: 增加了两台45kw制冷量的专业机房空调,替换了部分小空调,能够满足机房今后3年的发展。 • 机房布线: 为配合网络、电源的改造,将机房的网线重新布置,服务器位置进行了调整,使之满足网络、电源的冗余要求。
机房的线架 UPS 空调
高可靠的网络 建立全冗余、无单点故障的数据中心网络,以保证数据中心网络的高可靠性,使得任何单个交换机或单条接入校园网链路的故障都不会影响网络的连通性,更不会导致整个网络的瘫痪。
高可靠的网络 2006年2月,新旧网络切换,实现了: • 将入口防火墙(带路由功能)、服务器出口网关路由器组成一个OSPF域,实现了三层路由冗余; • 实现了服务器子网的出口网关冗余; • 实现了接入交换机的冗余; • 实现了部分重要服务器的双路网卡上连;
服务器结构调整 • 根据应用的重要程度将服务器分级。 • 根据服务器的级别,采用不同的技术手 段,设置不同的服务器冗余度,使之能 够在容许的停运时间内进行硬件切换。
服务器结构调整 • 服务器分级 根据服务器运行的应用的级别,划分服务器的级别,分别划分为A1、A2、B、C四个级别; • 服务器分组 根据运行的操作系统、软件环境分为不同的组 每个组根据服务器的级别确定建设模式 • 研究负载均衡技术,对部分服务器进行了调整。
数据库 • 数据库硬件结构要能够保证不会由于某 个环节的单点故障导致数据库的停止服务; • 数据库的布局要易于管理
数据库 • 采用ORACLE10G RAC软件 • 硬件部分采用多台服务器作为服务器群组 • 数据库将使用一个物理的数据库 • 目前已经完成部分数据的迁移工作
存储 • 数据集中存储是建立无单点故障运行环 境的基础 • 建立存储局域网 • 提高存储设备的可用性和安全性
存储 • IP SAN、FC SAN相结合 • 将存储、备份及数据容灾统一考虑,形成比较完整的数据存储、备份、容灾解决方案
FC SAN应用集中存储 SnapDrive iSCSI应用集中存储 SnapDrive NAS应用集中存储 (CIFS/NFS) 开放应用系统本地存储 OSSV OSSV FC 交换机 千兆以太网交换机 SnapVault SnapShot & SnapRestore 以太网 iSCSI FC SAN SnapMirror FAS940C(计算中心) NearStore R200(图书馆)
人员配置 • 运行工作不能够因为某个人员的缺失而影响日常的运行 • 要有合理的分工,明确的职责
人员的配置 • 角色划分 机房管理员、网络管理员、存储管理员、系统管理员、数据库管理员、应用管理员、用户服务、技术支持等多种角色 • 每个角色都有A、B角设置 • 建立合理的梯队,降低运行中的人工成本
提 纲 • 建设需求的提出 • 无单点故障运行环境的建设成果 • 经验与体会
经验和体会 • 无单点故障的运行环境是信息化发展到一定阶段的结果; • 在建设过程中可以分阶段进行,解决运行工作中急需解决的问题; • 量力而行,要综合考虑自己学校的经费、人员等各方面的因素,寻求最适合自己学校的模式; • 在进行运行环境的改造过程中,要全面规划、分步进行,做好准备工作,保证切换的成功。
谢谢大家! qili@cic.tsinghua.edu.cn