1. 程式人生 > 實用技巧 >記錄,太坑了,深度學習顯示卡損壞原來是這樣子的。

記錄,太坑了,深度學習顯示卡損壞原來是這樣子的。

記錄,太坑了,深度學習顯示卡損壞原來是這樣子的。

時間 2020-10-23

深度學習伺服器,3張 RTX2080Ti。
損壞的是1號卡,就是夾在0號和2號卡中間的那張卡。
可能常年溫度太高,燒壞了。

事件記錄:

每過一段時間,1號卡溫度和功率會變成nan。重啟伺服器就好了。

但伺服器經常有任務,也不能隨便重啟,沒看到什麼問題,就不管了。

又過了一段時間。發現模型運算超慢的。還以為那裡出問題了,查來查去,然後發現執行nvidia-smi命令也超慢的。懷疑機器問題,重啟一下,好了,就像啥事沒發生過。

改了一個模型,只是小小的改動,拿去訓練。Loss nan?我就改了個小地方,怎麼Nan了!又改了下Loss,沒用,醉了,咋回事,查不出問題,暫時擱置了。

好奇怪啊,明明訓練分數不錯啊,怎麼一預測這個鬼樣子,熱圖上總有一些奇怪的偽影,有些地方預測也沒錯啊。啊,一定是我訓練時的驗證函式寫的不夠好,我改改改。。。

然後到了今天,我草,預測熱圖怎麼還是這吊樣。把伺服器的模型權重拿下來,準備拉到筆記本里大幅度除錯一通。

等了10分鐘,筆記本跑完了,這不對啊,這預測熱圖完美啊。開始懷疑是不是有程式碼沒有同步到伺服器上去?然後把我的實驗程式碼全部同步了一遍。

???怎麼回事???,預測熱圖怎麼還是差距這麼大??莫非是依賴庫有問題????馬上全部依賴庫更新一通。

Orz,開始懷疑人生,莫非是pytorch的問題?我的筆記本是torch 1.6,伺服器是 torch 1.5.1 。更新伺服器pytorch到1.6,沒用!不會是CUDA問題把,我的筆記本是CUDA 10.2,伺服器是 10.1,換CUDA,搞不起啊,下載太耗時間了。

突然一個想法,死馬當活馬醫,試試換成0號卡,Orz,這熱圖跟我筆記本預測一模一樣了。

原來是顯示卡的問題,擦,這CUDA運算時內部都不檢測數值正確性的嗎。這顯示卡運算單元出毛病了,居然還不報錯。

突然間理解了以前顯示卡壞的時候,都會見到花屏,敢情原來是算錯數。

貼兩張熱圖
正常卡預測的熱圖
在這裡插入圖片描述
出問題的卡預測的熱圖
在這裡插入圖片描述