1. 程式人生 > >分散式計算課程筆記-叢集(cluster)

分散式計算課程筆記-叢集(cluster)

概念

節點 (node):指一臺完整的主機,可以認為是伺服器的別名。例 如:管理節點,計算節點,GPU 節點。
叢集 (cluster):一組節點 (node) 經過區域網互聯形成的計算機群。 節點之間相互通訊有比較低的延遲。

作業排程系統–SLURM

本質目標:在使用者程式互不影響的條件下讓各個程式按照指定的規則執行。
使用者只需要提交任務,不需要實時盯著螢幕看,非常適合批處理或離線任務。

SLURM 方式一:提交式任務

  1. 準備任務所需資料,將所有檔案上傳到一個目錄中。
  2. 編寫 SLURM 指令碼,申請合適計算資源。
  3. 提交 SLURM 指令碼(sbatch 命令)。
  4. 檢查任務狀態(squeue),檢查任務是否會出錯。
  5. 等待執行結束(程式退出後任務立即結束),驗收結果。
    在這裡插入圖片描述
    在這裡插入圖片描述

在這裡插入圖片描述