Slurm 使用教程

发布时间: 更新时间: 总字数:314 阅读时间:1m 作者:IP:上海 网址
专栏文章

SLURM(Simple Linux Utility for Resource Management) 是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统,被世界范围内的超级计算机和计算集群广泛采用。如天河二号上便使用了 SLURM 资源管理系统。

架构

Slurm arch

服务

  • slurmctld 中央管理守护进程,SlurmctldPort=6817
  • slurmd 计算节点守护程序,SlurmdPort=6818
  • slurmdbd Slurm Database demons,DbdPort=6819
    • 可选组件,用于在一个数据库中记录多个slurm管理集群的作业统计信息。
  • slurmrestd REST API 接口,slurmrestdport=6820
  • slurmstepd 工作步骤经理
  • SPANK 用于节点和作业(K)控制的Slurm插件架构

文件:

  • /var/log/slurmctld.log slurmctld日志文件
  • /var/log/slurm_jobacct.log 默认的作业记帐日志文件

slurmdbd

组成部分:

  • account 帐户
  • user 用户
  • cluster 群集
  • partition 分区

Slurm 数据库的内容以小写字母维护。

本文总阅读量 次 本站总访问量 次 本站总访客数