ubuntu16.04 Nvidia 顯示卡的風扇調速及startx的後果
問題描述
-
#檢視nvdia GPU 顯示卡狀態
-
watch -n 10 nvidia-smi
- 1
- 2
發現顯示卡Tesla k40c的溫度已經達到74°,轉速僅僅只有49%。 檢視Tesla產品資料,Tesla K40 工作站加速卡規格 ,可知
所以需要調整風扇速度來降溫。
然而官方驅動面板裡也沒有了風扇調速的選項
nvidia-settings
- 1
方法一
-
sudo su -
-
cd /etc/X11
-
cp -p xorg.conf xorg.conf.`date +%Y%m%d`
-
sudo gedit xorg.conf
- 1
- 2
- 3
- 4
找到”Section Device” 這塊 新增: Option “Coolbits” “4”
-
Section "Device"
-
Identifier "Device0"
-
Driver "nvidia"
-
VendorName "NVIDIA Corporation"
-
BoardName "GeForce GT8800"
-
Option "Coolbits" "4"
-
EndSection
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
儲存之後,重啟機器。調節選項出現,如下圖:
這時你會看到在Thermal Settings裡面有一個 Enable GPU Fan Settings,可手動調節顯示卡溫度。
方法二
有時會出現以下問題
cannot stat /etc/x11/xorg.conf no such file or directory
- 1
這時需要
-
sudo nvidia-xconfig
-
sudo nvidia-xconfig --cool-bits=4
- 1
- 2
Using X configuration file: “/etc/X11/xorg.conf”. Backed up file ‘/etc/X11/xorg.conf’ as ‘/etc/X11/xorg.conf.backup’ New X configuration file written to ‘/etc/X11/xorg.conf’
如若沒有變化,則需要
sudo gedit /etc/X11/xorg.conf
- 1
新增 Option “Coolbits” “4” 如下
-
Section "Device"
-
Identifier "Device0"
-
Driver "nvidia"
-
VendorName "NVIDIA Corporation"
-
BoardName "GeForce GTX 570"
-
Option "NoLogo" "True"
-
Option "Coolbits" "4"
-
EndSection
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
然後重啟
nvidia-settings #可檢視調節選項
- 1
或者
nvidia-settings -a "[gpu:0]/GPUFanControlState=1" -a "[fan:0]/GPUTargetFanSpeed=100"
- 1
這裡GPUTargetFanSpeed=100就是風扇的速度, 100就是風扇執行在100%的速度, 也可以改成其它速度. 注意在新的NVIDIA驅動, GPUCurrentFanSpeed 被改成了 GPUTargetFanSpeed. 另外GPUFanControlState=1表示讓使用者可以手動調節GPU風扇速度.
如果你想回到GPU自動控制風扇速度, 執行下面
nvidia-settings -a "[gpu:0]/GPUFanControlState=0"
- 1
備註:
cannot stat /etc/x11/xorg.conf no such file or directory
- 1
切記輸入
startx
- 1
來重新安裝xorg,這樣會帶來更大的麻煩。重啟後再輸入密碼,然後又進入一個登陸介面,輸入密碼,然後又回到原來的登陸介面。。。這樣一直下去,死迴圈了
解決方法
-
Alt+Ctrl+F1 #進入控制檯介面
-
cd ~ #進入你的使用者目錄
-
ls -ah #檢視所有的檔案
-
rm -rf .Xauth* #刪除.Xauthority檔案
-
Alt+Ctrl+F7 #返回到登陸介面
-
#輸入密碼即可登入
- 1
- 2
- 3
- 4
- 5
- 6
startx命令是用來啟動X windows伺服器的,執行後在使用者目錄下生成一個.Xauthority檔案,正是該檔案導致系統進入死迴圈,刪除即可。
方法三
sudo apt-get install nvclock
- 1
-
#change GPU fan speed, write this:
-
nvclock -f -F 70
- 1
- 2
- 3
這樣風扇速度就會維持 fan speed will run at 70%
若無法安裝 nvclock,則需要更新源包
sudo gedit /etc/apt/sources.list
- 1
新增源包
deb http://us.archive.ubuntu.com/ubuntu trusty main universe
- 1
更新源包
sudo apt-get update
- 1
sudo apt-get nvclock
- 1
設定多顯示卡降溫
nvidia-xconfig --enable-all-gpus
- 1
其餘步驟同單顯示卡一致。
備註:
Tesla的顯示卡K40開始k系列M系列p 系列都是被動散熱對硬體要求高。所以無法使用上述方法對風扇調速。
Tesla C卡主要用在“桌上型電腦”上的,為了顧慮到一般桌上型電腦可能未考慮“散熱”問題,所以C卡上自帶風扇,讓散熱效果好一些。而M卡是專門為“機架式電腦”設計的,絕大部分機架式電腦是一堆放在機架上的,所以內部有更多的風扇與導流設計,這樣M卡就可以省略風扇,把體積做到更小,提高單位體積的計算密度。 同樣的,M卡為叢集而設計,因此本身還提供更多的“監控元件”能與“叢集管理”軟體結合,管理人員可透過管理軟體監控每一片M型GPU卡的溫度與狀態,溫度過高也可透過管理軟體發出警告。C卡則缺乏這樣的功能。
每臺GPU系統最佳的GPU數量為2片(多卡架構的最小數量),最多別超過4片。市面上有8片甚至到16片的方案,不僅“散熱”問題、電源供應問題會令人提心吊膽,此外,收到PCI-E匯流排限制,超過4片以上的方案,都得不到“完整PCI-E頻寬”,所以GPU數量看來好像很多,但都得不到相對的效能提升。因此建議 2~4 片 GPU 的系統,是價效比、穩定性較優的配置。
參考文獻