150 likes | 306 Views
EAST 服务器监控系统的实现. 报告人 : 彭 杨 导 师:王华忠 研究员 时 间: 2010.7.23. 内容概述. 课题背景 EPICS 的介绍 目前工作进展 下一步工作. 课题背景. 目前的采集系统存在以下问题: 缺少对采集机和服务器状态监控 例如:网络状态,服务器的硬盘空间,运行在采集机和服务器端的服务程序是否正常 … 各种程序相对对立,管理维护比较繁杂 例如:目前的采集系统故障后,故障的定位,需要 Xshell 到指定采集机和服务器,分别检查到底是哪个程序异常
E N D
EAST服务器监控系统的实现 报告人: 彭 杨 导 师:王华忠 研究员 时 间:2010.7.23
内容概述 课题背景 EPICS的介绍 目前工作进展 下一步工作
课题背景 目前的采集系统存在以下问题: • 缺少对采集机和服务器状态监控 • 例如:网络状态,服务器的硬盘空间,运行在采集机和服务器端的服务程序是否正常… • 各种程序相对对立,管理维护比较繁杂 • 例如:目前的采集系统故障后,故障的定位,需要Xshell到指定采集机和服务器,分别检查到底是哪个程序异常 • 缺少一种报警功能 • 例如:服务器的磁盘空间快满时,无法自动报警。后果很严重!! 以上任何问题出现后,都会影响EAST实验进程的运行,严重的时候导致重要数据的丢失。
EPICS的介绍 • 什么是EPICS? • 中文全称:“实验物理及工业控制系统” • 英文全称: “Experimental Physics and Industrial Control System”。 • 是上世纪90年代初由美国洛斯阿拉莫斯国家实验室(LANL)和阿贡国家实验室(ANL)等联合开发的大型控制软件系统。 • EPICS用户 许多大型科学研究工程项目都开始采用。 • 国内:中科院高能物理研究所, 同步辐射实验室 • 国外:粒子加速器,韩国KSTAR监控系统,ITER
EPICS的介绍 • EPICS软件结构 • IOC:输入输出控制器,它的核心就是一个常驻内存的分布式数据库系统,以记录的形式存在,存放往来于设备间的实时数据,通过记录的名称来访问记录的值及其属性。 • Channel Access:通道访问机制。建立在TCP/IP协议基础上的一种访问机制。为OPI和IOC提供应用接口。提供通道定位,数据读写,访问监控,连接监测和自动重接,主要为数据库提供网络透明访问服务。 • OPI:操作应用软件,主要包括用户界面/运行工具、报警管理工具、数据存档工具等,利用通道访问机制访问IOC中的运行数据库,实现监测等功能的运行工具。
EPICS通道访问协议原理图 EDM EDM Client Client EDM Channel Access IOC IOC IOC IOC
EPICS的介绍 • EPICS特点及优势 • 完全分布 采用完全分布式的体系结构,每一个发送数据的客户只需同相关的IOC建立联系,对数据进行了分流,避免了集中式数据库中数据传输的瓶颈。 • 事件驱动机制,避免系统资源的浪费。 例如通道访问协议(Channel Access)中的回叫机制(Callback)避免轮询方式监测IOC中的数据,大大降低了网络的负荷和信息传输延时。 • 高性能 记录处理速度超过6000条/秒。EPICS最大可以支持500000个Channel,基于68040CPU的IOC,其记录处理速度可超过6000条/秒 • 开源产品 由实验室合作开发,资源的获取及使用无需支付任何费用 • 多平台 Linux、Windows、VxWorks、Unix等
服务器监控系统主界面 195
pcMonitor:load .val如果大于70%就表示情况一般严重,该记录的值用黄色表示,如图1.当超过90%的就表示情况严重,需要马上处理,该记录的值用红色表示。如图2。
ALH报警监控界面 ALH的主要责任是将警报向操作者显示出来引起操作者的注意,向操作者提供了处理报警的指导;子组结构和通道遵循了层次结构的形式
程序所耗资源测试 1.测试环境 虚拟机系统:Scietfic5.4 内存:700M CPU:2.1GHz ,AMD Athlon(tm) 64 X2 Dual Core Processor 4000+, 2.测试结果 IOC端: Cpu使用率:2% Mem使用率:0.6% OPI端: Cpu使用率:0.3% Mem使用率:1.2%
下一步工作 • 继续完善服务器监控功能,提高监控系统的灵活性 • 与李实师兄合作,实现对采集机状态的监控。
致谢 在学习EPICS过程中,遇到过很多问题,非常感谢李实师兄,王枫老师对我的帮助与支持! 感谢王华忠老师等对我的指导!
Load Average是CPU的Load ,是在一段时间内CPU正在处理以及等待CPU处理的进程数之和的统计信 。 CPU利用率,顾名思义就是对于CPU的使用状况,这是对一个时间段内CPU使用状况的统计,通过这个指标可以看出在某一个时间段内CPU被占用的情况,如果被占用时间很高