Nvidia GPU風扇和電源顯示ERR! 解決辦法
阿新 • • 發佈:2021-06-19
訓練模型時,風扇異常響,然後輸入nvidia-smi發現風扇異常如下圖(網上找的圖)
在nvidia論壇有人給出瞭解決方案,即問題的根源可能是風扇轉速不足使GPU過熱導致的。
首先開啟GPU的persistent mode
,再設定風扇的功率,重啟即可生效。其中200
代表的是風扇的最大功率限制,可以將其設定為最大,這樣過熱的時候風扇就會自動加大功率。
sudo nvidia-smi -pm 1 sudo nvidia-smi -pl 200 -i 1 # 最高250,指定執行的1卡最高功率為200,從而降低發熱
手動風扇控制
此外,還可以將GPU風扇的手動風速控制開啟。方法為:
首先,使用sudo nvidia-xconfig --enable-all-gpus命令開啟所有gpu在xserver中的設定(不使用sudo可能無許可權寫入新配置)
然後修改配置檔案:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option "Coolbits" "4"如下圖所示:
- 如果機器上有多塊gpu,在第一步命令執行後,會在這個
xorg.conf
中出現多個Device
Section,都依次執行第三步操作。重啟機器後,命令列執行nvidia-settings
,會開啟設定介面,在其中的會顯示所有GPU的設定選項,每個GPU控制選項下面都有一個Thermal settings
,進入後開啟enable GPU Fan Setting
即可對風扇進行手動風速調整了。