slurm

creation date 2017/08/16 22:58 last date modified 2017/08/17 00:55 | category:
スポンサード リンク

ジョブスケジューラ

OSSで利用可能なHPC向けジョブスケジューラにはSun Microsystemsが源流のSGE系,NASAが源流のPBS系がある。最低限必要な機能は揃っているが,どちらも古臭いように見える。最近はローレンス・リバモア国立研究所が中心のSlurmが有力らしい。Wikipediaによると,Top500のスパコンの約60%はSlurmを採用しているとのこと。

SGE系は,SunがOracleになってから開発が終了,PBS系のtorqueはプロプラのmoabと組み合わせないとアカウント管理ができない,同じくPBS系のPBSProはOSSになりたて(2017年8月現在)という欠点があったのでSlurmを使ってみることにする。

なお,Slurmの最大の利点は EC2対応 と思われる。

  • SGE

    • The Son of Grid Engine: 過去の資産を活用したいのでなければ,使う価値はなさげ。
  • PBS

    • pbspro: 2016年にOSSになりたて。ドキュメントが少なく積極的に使う理由がない
    • torque: アカウント管理が弱い。小さいグループ内だけで使うなら良いが
    • torque/maui: mauiはOSSだがほとんど開発終了している
    • torque/moab: moabはプロプラなのでライセンス購入?が必要
  • Slurm: アカウント管理機能有り。ジョブごとの消費電力計測,GPUやKNLにも対応しており高機能。

環境構築

今回は計算ノードを容易に増減できるように,SlurmをDokcer Swarmのサービスとしてデプロイする。

ジョブ投入

Comments !

social