1. 程式人生 > >因BIOS設定導致GPU無法使用問題

因BIOS設定導致GPU無法使用問題

esxi RoCE https 都沒有 ofo nvi 但是 proc tel

今天新裝一臺配有NVIDIA Telsa M10顯卡的Dell R740服務器,服務器地產系統安裝的VMware ESXi 6.0U3系統,一切按正常操作,顯卡驅動安裝也顯示正常,但後通過vCenter給虛擬機分配顯卡是遇到GPU配置文件無效問題,如圖所示:
技術分享圖片
使用NVIDIA-smi命令也報錯
技術分享圖片
首先,為確認顯卡是否存在故障,我通過客戶端可以配置顯卡直通並分配到VM,因此判斷不是顯卡問題;
技術分享圖片
顯卡驅動為NVIDIA官網下載,卸載重裝也都沒有問題,排除驅動版本問題;分析判斷感覺是Dell R740的BIOS設定有問題,嘗試步驟如下:
F2--進入BIOS設定

技術分享圖片
檢查各項配置
技術分享圖片
默認值是56TB,(ESXi6.X最大支持16TB內存,默認值56TB,可能存在問題)修改成12TB,保存重啟進入系統

技術分享圖片
再次進入vcenter分配GPU,配置方案生效,GPU正常工作
技術分享圖片
故障處理解釋:
ESXi雖然是64位系統,但是內存尋址限制到44位,也就是最大支持16TB內存;官方kb:https://kb.vmware.com/s/article/2087943?lang=en_US#q=2087943
目前Dell R740 出廠BIOS默認配置56TB內存,因此導致無法正確識別到GPU,所以需要確保NVIDIA GRID GPU的PCI尋址低於44位限制,才能使GPU正常工作。

因BIOS設定導致GPU無法使用問題