1、首先,SLUR怡觎现喾M 是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统。SLURM 维护着一个待处理工作的队列并管理此工作的整体资源利用。
2、它还以一种排他或非排他的方式管理可用的计算节点取决于资源的需求。
3、最后,SLURM 将作业分发给一组已分配的节点来执行工作并监视平行作业至其完成。
4、本质上,SLURM 是一个强健的集群管理器,它高度可移植、可伸缩至大型节点集群、容错好,而且更重要的是它是开源的。
5、启动 SLURM 之前,必须根据特定的环境配置它。为了创建我的配置文件,我使用了在线的 SLUR怡觎现喾M 配置器,由它为我生成基于表单数据的配置文件。