240 likes | 374 Views
公共计算平台的建设与管理. 中国科学技术大学 孟庆宇. 中国科大的公共服务实验体系. 理化科学实验中心 生命科学实验中心 信息科学实验中心 工程与材料科学中心 高性能运算中心. 总体概况. 共有 199 个 Itanium2(Madison) 峰值计算能力 11520 亿次浮点运算 一台 64CPU Cluster 四台 32CPU SMP 大型服务器( Superdome) 外存 3T. 高性能计算的需求 . 计算数学 计算化学 天文与空间物理计算与分析 计算生物学 高能物理 计算机科学的研究. 一般的建设方式.
E N D
公共计算平台的建设与管理 中国科学技术大学 孟庆宇
中国科大的公共服务实验体系 • 理化科学实验中心 • 生命科学实验中心 • 信息科学实验中心 • 工程与材料科学中心 • 高性能运算中心
总体概况 • 共有199个Itanium2(Madison) • 峰值计算能力11520亿次浮点运算 • 一台64CPU Cluster • 四台32CPU SMP大型服务器(Superdome) • 外存3T
高性能计算的需求 • 计算数学 • 计算化学 • 天文与空间物理计算与分析 • 计算生物学 • 高能物理 • 计算机科学的研究
一般的建设方式 每个学科独立建设计算中心,一般采用PC集群的方式 • 规模较小 • 平台单一 • 使用率低 • 缺乏支持
运算使用率 • 总体使用率较为低下 使用率 时间
运算资源的整合的优点 • 扩大整体的运算规模 • 使用更大型的计算机完成普通集群不能完成的大型作业,扩大应用范畴 • 协调统一调度与管理 • 软件资源的共享 • 提供技术支持
对应用的调查 • 应用软件类别 • 自主开发 • 开放代码 • 商业购买 • 并行化情况 • MPI/PVM并行程序 • OPENMP并行程序 • 多进程串行程序 • 单进程串行程序
对应用的调查 • 运行操作系统 • 开发环境 • 编程语言 • 数学库 • 调试器 • 可恢复性与计算周期
集群系统构成 • 32台HP rx2600,64个CPU用Myrinet交换机构成Beowulf Cluster • CPU是Intel Itanium2,主频1.5Ghz L3 Cache 6M
集群系统构成 • Itanium2芯片上共有4亿4千万个晶体管 • 每周期可执行4条浮点乘加指令(6发射) • 采用EPIC(显式并行指令运算)--在编译时检查相关性等,实现指令级高度并行 • 操作系统为Linux,运行MPI程序
集群系统软件 • 采用Intel Fortran V8.0和C++(C) V 8.0编译器 • 采用Intel MKL V6.0 数学库 • 用性能分析器V Tune优化程序 • 用Platform公司的LSF V6.0进行Job管理
HP Superdome系统构成 • 四台32个Itanium CPU (主频1.5G L3Cache6M) • 4个CPU用HP SX1000构成一个Cell • 8个Cell用交叉开关(Cross Bar )构成32个CPU的SMP机器
HP Superdome软件 • 操作系统为HP UX V11.23 • 既可运行Open MP 又可运行MPI程序 • 采用HP C++(C)和Fortran 编译器
HP Superdome • 用HP MLib 并行优化数学库 • 用Caliper作为工具帮助用户优化程序 • 用Glance监控系统运行 • I/O为PCI-X • 用LVM进行磁盘统一管理
MEMORY MEMORY ASIC ASIC ASIC ASIC Superdome Cell Board 8GB/s Memory Peak bandwidth /unidirection 128GB/s in 16Cell configuration I/O Chassis 64 GB Cell Board 8x PCI 2x or 4x PCI 4x PCI PCI ….. Itanium Cell Controller Itanium I/O Controller Itanium Or madison Itanium Itanium 12.8 GB/s …... 12.8GB/sSystem Peak Bandwidth/cell 204GB/s in 16Cell configuration PCI PCI 4x PCI 4x 2GB/s I/O Peak bandwidth 32GB/s in 16 I/O Chassis Configuration Crossbar
I/O Chassis I/O Chassis I/O Chassis I/O Chassis I/O Chassis I/O Chassis I/O Chassis I/O Chassis I/O Chassis I/O Chassis I/O Chassis I/O Chassis I/O Chassis I/O Chassis I/O Chassis I/O Chassis X B A R X B A R X B A R X B A R CELL 0 CELL 8 CELL 1 CELL 9 CELL 2 CELL 10 CELL 3 CELL 11 CELL 4 CELL 12 CELL 5 CELL 13 CELL 6 CELL 14 CELL 7 CELL 15 Superdome Architecture 背板64GB/s Remote Link Remote Link Remote Link Remote Link Cabinet 0 Cabinet 1
管理体系 • 中国科大超算中心管理委员会 • 宏观管理、决策机构,检查、监督高性能计算中心的建设、运行和管理,对高性能计算中心的重大问题作出决策和建议,并接受学校有关领导的指导。 • 中国科大超算中心专家委员会 • 决定高兴计算中心的发展方向,为高性能平台的建设决策提供技术支撑。 • 中国科大超算中心用户协会 • 协调用户间的资源需求,向管理委员会提出用户需求与建议。
用户在网页上提交开户申请 用户管理员 判断开户类别 非重点学科用户 重点学科用户 管理委员会 审核申请 提交重点学 用户管理员 确认负责人 用户管理员 纪录在案 系统管理员在系统上开设账户 用户管理 • 满足运算需求与教学需求 • 运算需求用户的管理 • 满足教学要求
作业管理 • 科大超级计算中心使用LSF对通常作业进行自动管理 • 采用fair share的方式使各学科间在相对可计算的一段时间内公平的使用CPU资源, • 对有特殊要求的作业逐个审批,符合要求的特大型题目可以利用限制外的更多的资源,必要的题目甚至可以使用全部的资源
资源管理 • 外部存储空间的管理 • 内存使用量 • 存储器带宽 • 网络带宽
主要应用 • 化学反应的本质及选控 • 地球圈层相互作用的环境效应 • 蛋白质网络与细胞活动 • 可再生洁净能源 • 微尺度物质电子态、自旋态的控制与应用 • 数学、天文及理论物理中的重大问题 • 力学领域中的复杂计算 • 计算机网格研究与网格计算