1 / 35

中国科学院合肥分院

中国科学院合肥分院. 浪潮集群使用规范. Inspur group. 集群的软硬件配置. Inspur group. 集群物理拓扑图. 图例:. 图例:. Inspur group. 内容提要. Inspur group. 账号的申请和使用 登录、退出系统连接 属主目录使用 计算任务投放 存储空间使用 软件安装及使用规范 关机和启动 维护人员联系方式. 一:账号的申请和使用. 1. 严禁使用 集群 账号及计算、存储资源进行与账号所属项目无关的任何活动和行为,违者必究并将视影响、损失轻重予以锁闭账号 等 处理。

blithe
Download Presentation

中国科学院合肥分院

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 中国科学院合肥分院 浪潮集群使用规范 Inspur group

  2. 集群的软硬件配置 Inspur group

  3. 集群物理拓扑图 图例: 图例: Inspur group

  4. 内容提要 Inspur group • 账号的申请和使用 • 登录、退出系统连接 • 属主目录使用 • 计算任务投放 • 存储空间使用 • 软件安装及使用规范 • 关机和启动 • 维护人员联系方式

  5. 一:账号的申请和使用 1. 严禁使用集群账号及计算、存储资源进行与账号所属项目无关的任何活动和行为,违者必究并将视影响、损失轻重予以锁闭账号等处理。 2. 主机资源申请,联系系统管理员进行申请。管理员联系方式见本指南维护人员联系方式。 3. 建议避免公用账号,避免项目移交的时候数据混乱。 4. 人员发生调动时,请调动人员做好数据移交,并及时通知管理员申请权限改动。 5. 临时用户项目结束或阶段性完成时,请及时通知管理员清理/锁闭/注销临时账号及项目组成员账号。 6. 注销账号时请整理好用此账号建立的所有数据,做好移交及备份清理工作,并至少提前一天通知管理员。 7. 数据和程序(非公用程序)文件一律存放于自己的属主目录下,计算临时文件存放于工作目录下(lustre),计算临时文件不得存放于自己的属主目录下。 8. 个人账号只限个人使用,严禁将帐号和密码泄露给外单位和项目组外人员,公共组账号由管理员负责控制和使用分发。 9. 密码应定期(三个月)更换,建议8位以上并注意加强密码复杂度。 Inspur group

  6. 二:登录、退出系统连接 1. 登录方式 SSH: 缺省提供,该登录方式有一定强度的加密安全保证 软件可以使用Putty等 2. 文件上传与下载 SFTP: 缺省提供,暂不提供FTP方式 软件可以使用SecureFX、WinSCP等 3. 登录系统后的必要操作 使用mail命令,检查系统发送给用户的通知和信息 在属主目录下使用命令 du -kh | sort -n ,查看异常或较大的文件,并做相应的清理 Inspur group

  7. 二:登录、退出系统连接 4. 长时间误操作,请结束访问,避免占用系统资源 5. 结束系统访问必要操作 非停电、断网等意外设备故障导致,严禁在终端上直接关闭访问窗口或直接关闭终端电源实现结束系统访问。 SSH访问必需主动使用exit命令一到多次确保最终结束连接。 Inspur group

  8. 二:登录、退出系统连接 Inspur group • 登陆天梭集群系统 ssh -l (your count) 202.127.207.132 • 第一次登陆设置环境变量 vi ~/.bashrc source /opt/intel/impi/3.1/bin64/mpivars.sh source /opt/intel/cce/10.1.021/bin/iccvars.sh source /opt/intel/fce/10.1.021/bin/ifortvars.sh source /opt/intel/mkl/10.2.2.025/tools/environment/mklvarsem64t.sh 保存退出后 source ~/.bashrc • 使用命令du -kh | sort -n ,查看异常或较大的文件 6/3/2014

  9. 三:属主目录使用 1. 属主目录为登录后缺省进入的目录: /home/<研究室>/<yourid> 2. 属主目录用于系统存放管理用户的登陆和所使用软件配置文件,严禁用户随意存放执行程序的临时文件和非相关的文件,避免占用和耗费宝贵的系统存储资源,影响登陆连接服务。每次登陆后在属主目录下使用命令 du -kh | sort –n主动检查。异常或较大的文件并作相应清理。 3. 属主目录可以安装个人所需软件,如果软件所占空间较大,请联系管理员,修改属主目录文件配额。 Inspur group

  10. 四:计算任务投放 1.不论任务有多紧急,请务必先检测提交程序的正确性以及资源占用的合理适度,通过小批量测试数据预估占用CPU、内存和存储资源,强烈建议进行代码优化以减少CPU、内存、I/O资源占用,及时释放申请的内存,优化文件目录读写访问等I/O功能,避免资源和计算时间的浪费。 2. 大规模资源占用(占用实际内存超过1/4)或紧急任务时务必先联系管理员协调。 3. 计算任务提交后,应注意定时查看自己任务状态,当需要杀死自己进程或删除任务时,以用qdel命令, 如果无法删除必要时联系主机组协助。 4. 应及时清除临时文件和计算中程序设计生成的监控跟踪记录文件。临时性文件存放不要超过三个月。重要数据应打包或再压缩存放。 5. 不能在属主目录(登陆目录)下存放任务临时文件,必须在工作目(lustre)录中存放临时文件。 6. 不能在登陆节点上直接运行任务,只能在登陆节点做简单的 vi编辑、查看、管理自己的数据以及程序。 7. 刀片节点单个任务不能超过24GB内存。大内存任务投放至fuque上。 Inspur group

  11. 四:计算任务投放 Inspur group • PBS基本组件 • pbs command:用于提交、监视、修改和删除作业。 • pbs server: 提供基本的批处理服务,例如接收/创建一个批处理作业,管理维护作业队列,管理输出结果等。 • pbs mom:是一个守护进程,从pbs server处接收作业后放入其执行队列中等待执行。 • scheduler(maui): 对用户提交的作业进行调度

  12. 四:计算任务投放 Inspur group • Torque应该如何使用? • 熟悉Torque提供的几个命令 • 编写作业提交脚本 • 了解使用注意事项 • PBS命令 • qsub 作业提交脚本 • qstat [参数] • qdel 作业号

  13. 四:计算任务投放 Inspur group • PBS命令详解 • 提交作业的命令 qsub 作业提交脚本 此命令执行后,会给出个作业号 • 查询作业命令 qstat [参数] 其中参数可为: -q 列出系统队列信息 -Q:列出队列的一些限制信息 -an:列出队列中的所有作业 -r:列出正在运行的作业 -f jobid:列出指定作业在信息 -Qf queue:列出指定队列的所有信息 -B:列出PBS服务器的相关信息

  14. 四:计算任务投放 Inspur group • PBS命令详解 • 作业删除命令 qdel 作业号 其中作业号为qsub提交后系统所给出的一个号码 • 注意事项 1、非root用户只能查看、删除自己提交的作业 2、在提交作业时一定要根据自己的使用的机器数估算内存,把其写进作业提交脚本里。 3、root用户无法提交作业 4、检查PBS脚本是否正确,任务投放到testque上

  15. 四:计算任务投放 • 作业脚本的编写 • 基本参数 #!/bin/bash #PBS -d /lustre/ISSP2/dyliu/workdir #PBS -o /lustre/ISSP2/dyliu/output #PBS -e /lustre/ISSP2/dyliu/error #PBS -l nodes=2:ppn=8 #PBS -l walltime=240:00:00 #PBS -l mem=4gb #PBS -q allque Inspur group

  16. 四:计算任务投放 • 配置MPI环境(VASP) ulimit -s unlimited source /opt/intel/Compiler/11.1/046/bin/intel64/iccvars_intel64.sh source /opt/intel/Compiler/11.1/046/bin/intel64/ifortvars_intel64.sh source /opt/intel/mkl/10.2.2.025/tools/environment/mklvarsem64t.sh source /opt/intel/impi/3.1/bin64/mpivars.sh EXEC=/opt/issp2/vasp_4.6.28 Inspur group

  17. 四:计算任务投放 • 配置MPI环境(VASP) NP=`cat $PBS_NODEFILE | wc -l` NN=`cat $PBS_NODEFILE | sort | uniq | tee /tmp/nodes.$$ | wc -l` cat $PBS_NODEFILE > /tmp/nodes.$$ sed -i s/$/-ib:8/ /tmp/nodes.$$ mpdboot -n $NN -f /tmp/nodes.$$ -r ssh mpiexec -genv I_MPI_DEVICE rdma -machinefile /tmp/nodes.$$ -n $NP $EXEC mpdallexit rm -f /tmp/nodes.$$ Inspur group

  18. 四:计算任务投放 • 配置环境wien2k alias lsi="ls -aslp *.in*" alias lso="ls -aslp *.ou*" alias lsd="ls -aslp *.def" alias lsc="ls -aslp *.cl*" alias lss="ls -aslp *.sc*" alias lse="ls -aslp *.error" alias pslapw="ps -ef |grep "lapw"" alias cdw="cd $curdir" export EDITOR="xterm -e vi" export SCRATCH=$curdir Inspur group

  19. 四:计算任务投放 • 配置环境wien2k export WIENROOT=/opt/issp2/wien2k export W2WEB_CASE_BASEDIR=$curdir export STRUCTEDIT_PATH=$WIENROOT/SRC_structeditor/bin export PDFREADER=acroread export PATH=$PATH:$WIENROOT:$STRUCTEDIT_PATH:. export OCTAVE_EXEC_PATH=${PATH}:: export OCTAVE_PATH=${STRUCTEDIT_PATH}:: export PATH=$PATH:$WIENROOT:. ulimit -s unlimited alias octave="octave -p $OCTAVE_PATH" Inspur group

  20. 四:计算任务投放 • 配置环境wien2k EXEC="/opt/issp2/wien2k/runsp_lapw -ec 0.00001 -cc 0.00001 -i 400 -p" cat $PBS_NODEFILE > nodelist.$$ sed -i s/$/-ib/ nodelist.$$ echo "###################" > .machines echo "granularity:1" >> .machines echo "lapw0:"`sed -n 1p nodelist.$$` >> .machines for i in `cat nodelist.$$` do echo "1:"$i >> .machines done echo "extrafine:1" >> .machines rm -f nodelist.$$ $EXEC Inspur group

  21. 四:计算任务投放 • 配置环境Gaussian export GAUSS_EXEDIR=/opt/issp2/g03 export g03root=/opt/issp2/ export PATH=/opt/issp2/g03:/opt/issp2/g03/linda7.2/opteron-linux-I8/bin:$PATH export GAUSS_SCRDIR=/lustre/ISSP2/dyliu/g03tmp export LINDA_PATH=/opt/issp2/g03/linda7.2/opteron-linux-I8 source /opt/issp2/g03/bsd/g03.profile /opt/issp2/g03 < $FILENAME Inspur group

  22. 四:计算任务投放 Inspur group • 作业脚本注意事项 为减少资源消耗,系统配置采用autofs,20分钟无操作,即会卸载目录,因此,在脚本中,需使用绝对路径,保证任务可以正常运行 • 作业脚本参考 • VASP • Wien2k • g03 • castep • dmol3 • espresso

  23. 四:计算任务投放 作业管理 • 查询作业(1) Inspur group 提交作业

  24. 四:计算任务投放 作业管理 • 查询作业(3) Inspur group 查询作业(2)

  25. 四:计算任务投放 作业管理 Inspur group 删除作业

  26. 五:存储空间使用 1. 系统使用lustre并行文件系统提高I/O性能,作为工作目录,由于其承载压力较大,容易出现硬盘故障,因此,该目录只存放计算中的临时文件,请及时将结果文件备份回属主目录中。 2. 属主目录只允许存放最终结果文件,严禁将运算临时目录指向属主目录,如违规操作,造成属主目录损坏,管理员有权追究其责任。 3. 属主目录有磁盘配额限制,如需扩大容量(例如需要安装专用软件),可向管理员申请协调。 4. 应及时清除临时文件和计算中程序设计生成的监控跟踪记录文件。临时性文件存放不要超过三个月。重要数据应打包或再压缩存放。 5. 工作目录(lustre)中存放的临时文件,请及时清除,管理员会定期清理长时间无访问文件,如因未及时备份而被误删,管理员不承担任何责任。 6. 严禁在属主目录中存放无关文件,如发现违反,管理员将调低该用户磁盘配额。 Inspur group

  27. 五:存储空间使用 1. 工作目录: /lustre/<研究室>/yourid (总容量9.6TB ,单用户无容量限制,作为运算临时文件目录,请及时删除临时文件,30天无访问文件将被删除) 2. 属主目录: /home/<研究室>/yourid (每用户默认限制容量为50GB,用于安装自用软件,备份文件,保存计算结果文件) Inspur group

  28. 六:软件安装及使用规范 1. 系统默认安装了部分公用软件,位置在 /opt 下,主要为Intel 编译器、MPI及数学库。 2. 各研究室公用应用软件分别安装在 /opt/<研究室> 目录下 3. 用户如果有特殊软件需求,可以申请安装于公用目录下,也可以安装于自己属主目录下,如果该软件使用人员较多,推荐安装于公用目录下,减少对属主目录的空间占用。 4. 使用时,应注意用户的环境变量,修改属主目录下的.bashrc文件,设置正确的用户环境变量。 5. 作业脚本中,应使用软件绝对路径指明应用软件所在位置。 6. 严禁未经许可擅自修改公用软件。 Inspur group

  29. 六:软件安装及使用规范 用户环境变量配置举例: vi ~/.bashrc ######## g03 ######## export GAUSS_EXEDIR=/opt/issp2/g03 export g03root=/opt/issp2 export PATH=/opt/issp2/g03/:/opt/issp2/g03/linda7.2/opteron-linux-I8/bin:$PATH export GAUSS_SCRDIR=/lustre/ISSP2/<yourid> export LINDA_PATH=/opt/issp2/g03/linda7.2/opteron-linux-I8 source /opt/issp2/g03/bsd/g03.profile ######## intel ######## source /opt/intel/impi/3.1/bin64/mpivars.sh source /opt/intel/cce/10.1.021/bin/iccvars.sh source /opt/intel/fce/10.1.021/bin/ifortvars.sh source /opt/intel/mkl/10.2.2.025/tools/environment/mklvarsem64t.sh Inspur group

  30. 六:软件安装及使用规范 Inspur group

  31. 六:软件安装及使用规范 应用软件按照各研究室安装于/opt/<研究室>目录下,如issp2: Inspur group

  32. 七:关机和启动 1. 遇有紧急情况和计划性维护工作时,系统将关机,请各用户接获通知后,应注意保证投放的任务能够在预定的关机时间前结束。 2. 系统重新启动后,具体应用项目组应安排人员及时启动相应服务。紧急关机并重新启动后,请各自应检查关机前计算任务的状态和结果,注意确保计算结果的无误和完整,并注意文件和目录(特别是高度重要的数据)是否出现的访问异常情况。 Inspur group

  33. 八:维护人员联系方式 1. 电话: 13739223032 2. 邮件: dyliu@theory.issp.ac.cn gywu@theory.issp.ac.cn Inspur group

  34. Q & A Inspur group

  35. 谢谢大家! Inspur group 6/3/2014 Inspur group

More Related