计算机学院集群作业提交

提交作业
LSF 使用 bsub 命令来提交作业。
bsub 命令常见用法如下:
bsub –n z –q QUEUENAME –i inputfile –o outputfile COMMAND
其中z代表了提交作业需要的cpu数,–q指定作业提交到的队列,
如果不采用–q选项,系统把作业提交到默认作业队列(作业队列详细介绍请看下一节)。inputfile 代表程序需要读入的文件名(例如 namelist等),outputfile 代表一个文件,作业提交后标准输出的信息将会保存到这个文件中。COMMAND是用户要运行的程序。
(1)对于串行程序COMMAND可以直接使用用户的程序名
例如,对一个串行作业mytest, 提交方式为:
bsub –n 1 –q SugonC_12_64 –o mytest.out ./mytest
bsub -m nodename -q SugonC_12_64 COMMAND args   #在指定节点上运行作业

(2) 对于并行作业COMMAND为“–a mpich_gm mpirun.lsf 程序名”
因为并行作业必须用到MyriNET库,所以提交的时候必须使用
–a mpich_gm mpirun.lsf
例如对于一个1使用16个cpu的并行作业mytest,提交方式为:
bsub –n 16 –q SugonC_12_64 –o mytest.out –a mpich_gm mpirun.lsf ./mytest

使用脚本提交作业
bsub 命令可以使用输入脚本多次提交具有相同参数的作业,格式为:
#BSUB -B
#BSUB -N
#BSUB –n Z    #所需的核数
#BSUB –q QUEUENAME   #队列名
#BSUB –o OUTPUTFILE   #作业输出文件
#busb -R "rusage[mem=7500]"  #内存使用量
COMMAND   #命令

该脚本的参数与命令行
bsub –n Z –q QUEUENAME –o outputfile  -R "rusage[mem=7500]" COMMAND“参数相同。
提交时为 bsub < 脚本名
例如要提交一个需要16个cpu的并行作业mytest,可以编写作业脚本 bsub.scriptfile
#BSUB –n 16
#BSUB –q SugonC_12_64
#BSUB –o mytest.out
–a mpich_gm mpirun.lsf ./mytest


作业提交方法为:bsub<bsub.scriptfile

查看作业状态和删除作业等
几个常用的指令:
bjobs 检查提交作业状态
bjobs
bjobs -w
bjobs –r 显示正在运行的作业
bjobs –a 显示正在运行的和最近完成的作业
bjobs -p 显示等待运行的作业和等待原因
bjobs –s 显示正在挂起的作业和挂起的原因
bjobs -l 显示该作业的所有信息
bhist 显示最近完成作业或正在运行作业的历史情况
bhist <jobid>
bkill 删除不需要的作业
bkill <jobid>
bkill –r <jobid>
bpeek 当作业正在运行时显示它的标准输出,监视作业运行
bpeek <jobid>
bqueues 显示队列信息
bqueues
bqueues –l <queue name>
bmgroup  查看节点组
bhosts 显示各节点作业相关情况
bhosts
bhosts <hostname>
lsload 显示各节点负载信息
lsload
lsload <hostname>
lshosts处理各节点静态资源信息
lshosts
lshosts <hostaname>

使用示例