在 Kubernetes 叢集中啟動 GPU 節點

阿新 • • 發佈：2021-09-15

參考文章：

排程 GPUs - 官方文件

在Kubernetes叢集中使用GPU資源

本文目的是執行在叢集中的POD使用節點上的GPU資源。Kubernetes 實現了裝置外掛（Device Plugins）以允許 Pod 訪問類似 GPU 這類特殊的硬體功能特性。我們需要在 GPU 節點上安裝來自對應硬體廠商的 GPU 驅動程式，並執行來自 GPU 廠商的對應的裝置外掛。

實驗環境

                          ./+o+-       ubuntu@netlab-529-GPU1
                  yyyyy- -yyyyyy+      OS: Ubuntu 18.04 bionic
               ://+//////-yyyyyyo      Kernel: x86_64 Linux 5.4.0-81-generic
           .++ .:/++++++/-.+sss/`      Uptime: 1d 18h 16m
         .:++o:  /++++++++/:--:/-      Packages: 1655
        o:+o+:++.`..```.-/oo+++++/     Shell: bash 4.4.20
       .:+o:+o/.          `+sssoo+/    Resolution: 1536x864
  .++/+:+oo+o:`             /sssooo.   DE: GNOME
 /+++//+:`oo+o               /::--:.   WM: Not Found
 \+/+o+++`o++o               ++////.   GTK Theme: Adwaita [GTK2/3]
  .++.o+++oo+:`             /dddhhh.   Icon Theme: Adwaita
       .+.o+oo:.          `oddhhhh+    Font: Cantarell 11
        \+.++o+o``-````.:ohdhhhhh+     CPU: 11th Gen Intel Core i7-11700KF @ 16x 4.9GHz [27.8°C]
         `:o+++ `ohhhhhhhhyo++os:      GPU: NVIDIA GeForce RTX 3080 Ti
           .o:`.syhhhhhhh/.oo++o`      RAM: 2143MiB / 47934MiB
               /osyyyyyyo++ooo+++/
                   ````` +oo+++o\:
                          `oo++.
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+

安裝裝置外掛

目前 kubernetes 叢集支援 Nvidia 和 AMD 兩個廠商的顯示卡。本文環境使用的是 Nvidia 顯示卡，所以在此介紹安裝 Nvidia 裝置外掛。

安裝 Nvidia 裝置外掛的前提條件

官方的 NVIDIA GPU 裝置外掛有以下要求:

Kubernetes 的節點必須預先安裝了 NVIDIA 驅動
Kubernetes 的節點必須預先安裝 nvidia-docker 2.0
Docker 的預設執行時必須設定為 nvidia-container-runtime，而不是 runc
NVIDIA 驅動版本 ~= 384.81

Docker 的預設執行時設定示例, 確保在docker配置檔案中(/etc/docker/daemon.json

)中存在以下片段:
{
   "default-runtime": "nvidia",
   "runtimes": {
       "nvidia": {
           "path": "/usr/bin/nvidia-container-runtime",
           "runtimeArgs": []
       }
   }
}

如果叢集已經啟動並且滿足上述要求，則可以部署 NVIDIA 裝置外掛，部署命令如下：

kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/1.0.0-beta4/nvidia-device-plugin.yml

安裝完成後的變化

安裝裝置外掛後，Kubernetes 將暴露 nvidia.com/gpu 為可排程的資源。

可以通過請求 nvidia.com/gpu 資源來使用 GPU 裝置，就像申請 CPU 和記憶體資源一樣。不過，申請 GPU 資源還是有一些限制：

GPUs 只能設定在 limits 部分
- 可以指定 GPU 的 limits 而不能指定 requests，Kubernetes 將使用限制值作為預設的請求值
- 可以同時指定 limits 和 requests，不過這兩個值必須相等
- 不可以僅指定 requests 而不指定 limits
容器（以及 Pod）之間是不共享 GPU 的。GPU 也不可以過量分配（Overcommitting）。
每個容器可以請求一個或者多個 GPU，但是用小數值來請求部分 GPU 是不允許的

部署示例

apiVersion: v1
kind: Pod
metadata:
  name: cuda-vector-add
spec:
  restartPolicy: OnFailure
  containers:
    - name: cuda-vector-add
      # https://github.com/kubernetes/kubernetes/blob/v1.7.11/test/images/nvidia-cuda/Dockerfile
      image: "k8s.gcr.io/cuda-vector-add:v0.1"
      resources:
        limits:
          nvidia.com/gpu: 1 # requesting 1 GPU

注意

目前k8s只支援卡級別的排程，並且顯示卡資源是獨佔，無法在多個容器之間分享，這一點在使用過程中需要特別注意。

在 Kubernetes 叢集中啟動 GPU 節點

參考文章：排程 GPUs - 官方文件在Kubernetes叢集中使用GPU資源本文目的是執行在叢集中的POD使用節點上的GPU資源。Kubernetes 實現了裝置外掛（Device Plugins）以允許 Pod 訪問類似 GPU 這類特殊的硬體功能

【Azure微服務 Service Fabric 】如何轉移Service Fabric叢集中的種子節點(Seed Node)

注意：在對Service Fabric的節點做操作之前，請務必確認是否是種子節點(Seed Node)且當前節點的數量是否與SF的持久層要求的數量一致。

叢集中某一個節點日誌檔案寫入不成功排查歷程

問題背景我的日誌路徑是 /opt/logs/xxxx.log，叢集中共有兩臺伺服器：一臺伺服器的日誌檔案最新更新時間是今天，

如何在 Kubernetes 叢集中玩轉 Fluid + JuiceFS

作者簡介：呂鼕鼕，雲知聲超算平臺架構師，負責大規模分散式機器學習平臺架構設計與功能研發，負責深度學習演算法應用的優化與 AI 模型加速。研究領域包括高效能運算、分散式檔案儲存、分散式快取等。

在 Kubernetes 叢集中使用 NodeLocal DNSCache

文章轉載自：https://www.qikqiak.com/post/use-nodelocal-dns-cache/ NodeLocal DNSCache 通過在叢集節點上執行一個 DaemonSet 來提高 clusterDNS 效能和可靠性。處於 ClusterFirst 的 DNS 模式下的 Pod 可以連線到

RAC叢集兩個節點只能啟動一個節點問題處理

環境：centos7.3 、RAC11.2.3 1、問題：兩個節點只能有一個節點能啟動成功，另一個節點不能啟動成功。檢視ogg的cssd日誌發現心跳問題but no network HB

自己搭建的叢集，啟動hadoop時slave節點的datanode沒有啟起來怎麼辦？

自己搭建的叢集，啟動hadoop 叢集是，發現slave節點的datanode沒有啟動，查了資料發現是因為我在啟動叢集前，執行了這個命令：

在 Linux 部署多節點 Kubernetes 叢集與 KubeSphere 容器平臺

KubeSphere是在Kubernetes之上構建的以應用為中心的企業級容器平臺，所有供為使用者提供簡單易用的操作介面以及嚮導式操作方式。同時，KubeSphere Installer 提供了快速部署生產級別的 Kubernetes 叢集和全棧化容器平

Kubernetes 教程：在 Containerd 容器中使用 GPU

原文連結：https://fuckcloudnative.io/posts/add-nvidia-gpu-support-to-k8s-with-containerd/ 前兩天鬧得沸沸揚揚的事件不知道大家有沒有聽說，Google 竟然將 Docker 踢出了 Kubernetes 的群聊，不帶它玩了。。。

kubernetes叢集斷電後etcd啟動失敗之etcd備份方案

一.問題描述二進位制部署的單Master節點的v1.13.10版本的叢集，etcd部署的是3.3.10版本，部署在master節點上。在異常斷電後，kubernetes叢集無法正常啟動。這裡通過檢視kubernetes和etcd的服務日誌資訊，發現etcd服

kubernetes叢集使用GPU及安裝kubeflow1.0.RC操作步驟

kubernetes叢集使用GPU及安裝kubeflow1.0.RC操作步驟安裝顯示卡驅動安裝CUDA sudo yum-config-manager --add-repo http://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo

Docker Swarm叢集如何限制服務在指定節點啟動（節點標籤與服務約束）

技術標籤：dockerdocker swarmnode label 前言多節點 Swarm 叢集部署服務，以 Service 或者 Stack 的形式部署到叢集時，預設情況下會隨機分配到各個節點。

中通快遞關鍵業務和複雜架構挑戰下的 Kubernetes 叢集服務暴露實踐

本文是上海站 Meetup 講師王文虎根據其分享內容整理的文章。 KubeSphere 社群的小夥伴們，大家好。我是中通快遞容器雲平臺的研發工程師王文虎，主要負責中通快遞容器雲平臺開發、應用容器化推廣、容器平臺運維等工

k3d: 在容器中啟動k3s叢集

k3d介紹 k3d 就是一個工具，用於管理k3s叢集。包括啟動，刪除，關閉，停止，檢視等。

Kubeadm 部署單Master節點 Kubernetes 叢集

環境準備軟體版本作業系統 Ubuntu-18.04 docker 20.10.12 Kubernetes 1.23.0 伺服器規劃 IP 角色

[譯]走進Kubernetes叢集的大腦：Etcd

原文：medium.com/better-prog… Etcd是Kubernetes用於儲存叢集各種狀態資訊（配置資訊，執行）一個很重要的元件，這篇文章，我們帶領大家掀開Etcd的神祕面紗，理解他是如何儲存這些各種各樣的碎片資訊的。

在 Kubernetes 叢集快速部署 KubeSphere 容器平臺

KubeSphere 不僅支援部署在 Linux 之上，還支援在已有 Kubernetes 叢集之上部署 KubeSphere，自動納管 Kubernetes 叢集的已有資源與容器。

阿里巴巴大規模神龍裸金屬 Kubernetes 叢集運維實踐

導讀：值得阿里巴巴技術人驕傲的是 2019 年阿里巴巴雙11 核心系統 100% 以雲原生的方式上雲，完美支撐了 54.4w 峰值流量以及 2684 億的成交量。背後承載海量交易的計算力就是來源於容器技術與神龍裸金屬的完美融合。

macOS+Vagrant+Ansible本地搭建Kubernetes叢集

前置今天想在自己電腦上搭建一個k8s的叢集環境，打算後續開發遊戲微服務框架做準備，但是浪費了我很多是時間，後悔沒用minikube來搭建單機版了，下面記錄的這些配置檔案，我都已經測試通過，當然什麼時候過期就不知

美團點評Kubernetes叢集管理實踐

背景作為國內領先的生活服務平臺，美團點評很多業務都具有非常顯著、規律的”高峰“和”低谷“特徵。尤其遇到節假日或促銷活動，流量還會在短時間內出現爆發式的增長。這對叢集中心的資源彈性和可用性有非常高的要求

在 Kubernetes 叢集中啟動 GPU 節點

實驗環境

安裝裝置外掛

安裝 Nvidia 裝置外掛的前提條件

安裝完成後的變化

部署示例

注意

相關推薦