1. 程式人生 > 其它 >Nvidia GPU風扇和電源顯示ERR! 解決辦法

Nvidia GPU風扇和電源顯示ERR! 解決辦法

訓練模型時,風扇異常響,然後輸入nvidia-smi發現風扇異常如下圖(網上找的圖)

nvidia論壇有人給出瞭解決方案,即問題的根源可能是風扇轉速不足使GPU過熱導致的。

首先開啟GPU的persistent mode,再設定風扇的功率,重啟即可生效。其中200代表的是風扇的最大功率限制,可以將其設定為最大,這樣過熱的時候風扇就會自動加大功率。

sudo nvidia-smi -pm 1
sudo nvidia-smi -pl 200 -i 1 # 最高250,指定執行的1卡最高功率為200,從而降低發熱

手動風扇控制

此外,還可以將GPU風扇的手動風速控制開啟。方法為:

首先,使用sudo nvidia-xconfig --enable-all-gpus命令開啟所有gpu在xserver中的設定(不使用sudo可能無許可權寫入新配置)
然後修改配置檔案:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option "Coolbits" "4"如下圖所示:

  • 如果機器上有多塊gpu,在第一步命令執行後,會在這個xorg.conf中出現多個DeviceSection,都依次執行第三步操作。重啟機器後,命令列執行nvidia-settings,會開啟設定介面,在其中的會顯示所有GPU的設定選項,每個GPU控制選項下面都有一個Thermal settings,進入後開啟enable GPU Fan Setting即可對風扇進行手動風速調整了。