110 likes | 395 Views
LSF 系统介绍. 张焕杰 中国科学技术大学网络信息中心 james@ustc.edu.cn http://202.38.64.40/~james/nms Tel: 3601897(O). 参考资料:. 参考资料: Running Jobs with Platform LSF. LSF 简介. LSF(Load Sharing Facility) 是分布资源管理的工具,用来调度、监视、分析联网计算机的负载。 目的 通过集中监控和调度,充分共享计算机的 CPU、 内存、磁盘、 License 等资源 一组安装了 LSF 软件的计算机组成一个 Cluster
E N D
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心 james@ustc.edu.cn http://202.38.64.40/~james/nms Tel: 3601897(O)
参考资料: • 参考资料: • Running Jobs with Platform LSF
LSF简介 • LSF(Load Sharing Facility)是分布资源管理的工具,用来调度、监视、分析联网计算机的负载。 • 目的 • 通过集中监控和调度,充分共享计算机的CPU、内存、磁盘、License等资源 • 一组安装了LSF软件的计算机组成一个Cluster • Cluster内的资源统一监控和调度
LSF 术语 • Cluster • 一组运行LSF软件的计算机(当然是用TCP/IP网络互连的),跟计算Cluster术语无关 • 命令 • bhosts 列出cluster中的机器 • lsid 显示cluster名字 • lsclusters 显示cluster状态和规模
LSF 术语 • Server Host • Cluster内提交和执行Job的计算机 • Client Host • Cluster内仅仅提交Job的计算机 • 在科大的Cluster中,node1-node32是ServerHost
LSF 术语 • Job • 提交给LSF 的命令 • LSF负责调度、控制、跟踪job • 命令 • bjobs 查看系统的Job • bsub 提交作业 • bhist 查看作业历史 • bkill kill一个作业
环境介绍 • 用户登录/认证 • 所有用户在202.38.64.90 上开户,用户可以通过 • telnet 202.38.64.91来登录系统 • 登录到其他节点使用 • rsh node1 • 其它机器通过NIS来获得用户的信息 • /home目录在所有机器上共享