docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]].
阿新 • • 發佈:2021-08-05
docker使用--gpus all報錯:
docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]].
在網上查詢了很多文章,總結起來就是要安裝nvidia-container-toolkit
或nvidia-container-runtime
(包含nvidia-container-toolkit)
但是尷尬的是怎麼都安裝不了nvidia-container-toolkit,一直顯示 ** E: Unable to locate package nvidia-container-toolkit**
網上的解決方案:
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
這個大家應該比較熟,老版本的docker安裝都會使用這個進行新增GPG keycurl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.repo
或者curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker
上面的方法我都進行了嘗試,這裡要注意第三步,centos和Ubuntu命令不一樣!
使用上面的命令我還是安裝不了,最後解決的過程記錄如下:
- 更改系統源為阿里的映象源
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
我的系統是Ubuntu18.04sudo apt-get update
這一步要保證沒得問題,我的顯示有幾個源重複配置,然後我就將其(sudo vim nvidia-docker.list
)註釋掉sudo apt-get install nvidia-container-toolkit
總結
實現路徑是一樣的,就是更新源那麼簡單嗎?實際上公司的網路非常差很不穩定,導致很多步驟不能正常執行,如sudo apt-get update
一會可以正常執行,一會報錯。