深度學習工作站由於顯示卡驅動問題導致不能使用GPU
阿新 • • 發佈:2019-02-01
問題:實驗室深度學習tesla k40c工作站GPU突然不能使用
表現:跑神經網路模型特別慢,記憶體爆滿,但是視訊記憶體卻空著
原因:顯示卡驅動程式不相容,導致顯示卡
GPU不可用。
備註:
實驗室顯示卡驅動型號:NVIDIA-Linux-x86_64-384.111.run
解決方案:重灌Linux顯示卡驅動,具體步驟如下所示:
(1),準備驅動程式(通常是.run檔案或者是.deb檔案,本次實驗中採用的是.run檔案)。
(2),遮蔽nouveau驅動。Ubuntu系統整合的顯示卡驅動程式是nouveau,它是第三方為NVIDIA開發的開源驅 動,我們需要先將其遮蔽才能安裝NVIDIA官方驅動。 所以我們要先把驅動加到黑名單blacklist.conf裡。我們要先修改該檔案的屬性才能編輯,
修改屬性:
$sudo chmod 666 /etc/modprobe.d/blacklist.conf
修改檔案:
$sudo vi /etc/modprobe.d/blacklist.conf
在檔案的最後幾行插入如下程式碼塊:
blacklist vga16fb
blacklist nouveau
blacklist rivafb
blacklist rivatv
blacklist nvidiafb
更新檔案:
sudo update-initramfs -u
(3),安裝驅動
$sudo service lightdm stop # 關閉圖形介面 $cd /home/xxx/Nvidia # 進入下載的.run檔案目錄中 $sudo chmod a+x NVIDIA-Linux-x86_64-xxx.run # 修改許可權 $sudo ./NVIDIA-Linux-x86_64-xxx.run -no-x-check -no-nouveau-check -no-opengl-files # 安裝驅動
比如:是否同意使用DKMS自動的build一個新模組,選擇否。以及是否加入nvidia 32位編譯庫,也選擇否。
(4),測試是否安裝成功
sudo service lightdm start //啟動圖形介面
使用nvidia-smi命令檢視顯示卡型號,並檢視視訊記憶體具體使用情況:
過程所學:
輸出顯示卡具體型號:cat /proc/driver/nvidia/version。(如上,nvidia-smi同樣可以檢視顯示卡型號)
檢視顯示卡是否安裝好:lshw -c video看configurure欄位有沒有driver字樣,若有內容,則顯示卡驅動裝好了。
檢視cuda版本:cat /usr/local/cuda/version.txt
檢視cudnn版本:cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
可能需要的教程:
#Install nvidia-docker and nvidia-docker-plugin
$ wget -P /tmp https://github.com/NVIDIA/nvidia-docker/releases/download/v1.0.1/nvidia-docker_1.0.1-1_amd64.deb
$ sudo dpkg -i /tmp/nvidia-docker*.deb
$ sudo nvidia-docker run –rm nvidia/cuda nvidia-smi #Test nvidia-smi