記錄，太坑了，深度學習顯示卡損壞原來是這樣子的。

阿新 • • 發佈：2021-01-14

記錄，太坑了，深度學習顯示卡損壞原來是這樣子的。

時間 2020-10-23

深度學習伺服器，3張 RTX2080Ti。
損壞的是1號卡，就是夾在0號和2號卡中間的那張卡。
可能常年溫度太高，燒壞了。

事件記錄：

每過一段時間，1號卡溫度和功率會變成nan。重啟伺服器就好了。

但伺服器經常有任務，也不能隨便重啟，沒看到什麼問題，就不管了。

又過了一段時間。發現模型運算超慢的。還以為那裡出問題了，查來查去，然後發現執行nvidia-smi命令也超慢的。懷疑機器問題，重啟一下，好了，就像啥事沒發生過。

改了一個模型，只是小小的改動，拿去訓練。Loss nan？我就改了個小地方，怎麼Nan了！又改了下Loss，沒用，醉了，咋回事，查不出問題，暫時擱置了。

好奇怪啊，明明訓練分數不錯啊，怎麼一預測這個鬼樣子，熱圖上總有一些奇怪的偽影，有些地方預測也沒錯啊。啊，一定是我訓練時的驗證函式寫的不夠好，我改改改。。。

然後到了今天，我草，預測熱圖怎麼還是這吊樣。把伺服器的模型權重拿下來，準備拉到筆記本里大幅度除錯一通。

等了10分鐘，筆記本跑完了，這不對啊，這預測熱圖完美啊。開始懷疑是不是有程式碼沒有同步到伺服器上去？然後把我的實驗程式碼全部同步了一遍。

？？？怎麼回事？？？，預測熱圖怎麼還是差距這麼大？？莫非是依賴庫有問題？？？？馬上全部依賴庫更新一通。

Orz，開始懷疑人生，莫非是pytorch的問題？我的筆記本是torch 1.6，伺服器是 torch 1.5.1 。更新伺服器pytorch到1.6，沒用！不會是CUDA問題把，我的筆記本是CUDA 10.2，伺服器是 10.1，換CUDA，搞不起啊，下載太耗時間了。

突然一個想法，死馬當活馬醫，試試換成0號卡，Orz，這熱圖跟我筆記本預測一模一樣了。

原來是顯示卡的問題，擦，這CUDA運算時內部都不檢測數值正確性的嗎。這顯示卡運算單元出毛病了，居然還不報錯。

突然間理解了以前顯示卡壞的時候，都會見到花屏，敢情原來是算錯數。

貼兩張熱圖
正常卡預測的熱圖
在這裡插入圖片描述
出問題的卡預測的熱圖

記錄，太坑了，深度學習顯示卡損壞原來是這樣子的。

記錄，太坑了，深度學習顯示卡損壞原來是這樣子的。時間 2020-10-23 深度學習伺服器，3張 RTX2080Ti。損壞的是1號卡，就是夾在0號和2號卡中間的那張卡。可能常年溫度太高，燒壞了。

聊聊spring事務失效的12種場景，太坑了

前言對於從事java開發工作的同學來說，spring的事務肯定再熟悉不過了。在某些業務場景下，如果一個請求中，需要同時寫入多張表的資料。為了保證操作的原子性（要麼同時成功，要麼同時失敗），避免資料不一致的情況

HMAC SHA256產生不同的結果，太坑了！！！

雖然這個坑是自己埋的，但還是要分享一波，一是給自己一個深刻的教訓，同時也是希望在茫茫人海中，如果你也遇到我同樣的問題，能夠減少彎路，少踩坑。

聊聊索引失效的10種場景，太坑了

執行結果：沒錯，這次確實走了索引，恭喜被你蒙對了，因為剛好id和height欄位都建了索引。

公司用的 MySQL 團隊開發規範，太詳細了，建議收藏！

作者：翁智華出處：https://www.cnblogs.com/wzh2010/ 資料庫物件命名規範資料庫物件

jedis.hmset()方法存<key, Map>太坑了啊，導致redis.clients.jedis.exceptions.JedisDataException: value sent to redis cannot be null異常問題

需要存的Map物件結構類似於: Map result = new HashMap(); result.put(\"a\", \"a\"); result.put(\"b\", studentInfo);

太強了，機器學習程式碼，自動生成！

最近在玩streamlit Streamlit 是第一個專門針對機器學習的應用開發框架，是開發自定義機器學習工具最快的方法，它的目標是取代Flask在機器學習專案中的地位。

TSCTF2022（先挖個坑，太忙了嗚嗚嗚）

目錄 happy_mota Patternlock happy_mota 先玩遊戲，玩兩局發現魔王很難打，通過npc對話發現flag被分成四段，並且玩到第11層的時候對話中有提示：11-19層的牆壁有點奇怪，發現第一串flag是TSCTF{enj。

完美子圖（這道題太難了，得寫下來要不回頭又忘了）

題目大意: 給你一個n×n的圖，向其中放n個點，求其中有幾個“完美子圖”。

對 JsonConvert 的認識太膚淺了，終於還是遇到了問題

一：背景 1. 講故事在開始本文之前，真的好想做個問卷調查，到底有多少人和我一樣，對 JsonConvert 的認識只侷限在 SerializeObject 和 DeserializeObject 這兩個方法上(┬＿┬), 這樣我也好結伴同行，不再孤單落魄

學c的第四天，入坑了！

運算子表示式和語句 1.基本運算子 = 資料物件:泛指資料在記憶體的儲存區域左值:表示可以被更改的資料物件

五年心血之作！SPringBoot又出新品，從程式設計思想到實戰，統統都可以整明白，太香了

前言當前我們都會說SpringBoot是Spring框架對“約定優先於配置理念的最佳實踐的產物，一個典型的SpringBoot應用本質上其實就是一個基於Spring框架的應用，而如果大家對Spring框架已經瞭如指掌，那麼，在我

千萬別錯過：微信這幾步走的太快了，節奏槓槓滴

loonggg 讀完需要 4分鐘速讀僅需 2 分鐘對於短視訊來講，對於視訊號來講，我已經在之前的文章中說過很多遍了，在一個新功能出現的時候，一定要抓住這個機會，學著成為第一批吃紅利的人，成為第一批吃螃蟹

Github 太狠了，居然把 “master“ 幹掉了！

前段時間棧長有看到 Github 和 master 分支變更的新聞，當時沒有注意細節，直到今天我建立倉庫時：

Github 太狠了，居然把 "master" 幹掉了！

Java技術棧 www.javastack.cn 關注閱讀更多優質文章前段時間棧長有看到 Github 和 master 分支變更的新聞，當時沒有注意細節，直到今天我建立倉庫時：

百度官方出品 | 全面解讀PaddlePaddle，零基礎快速入門深度學習

新書速遞今天給大家推薦一本由深度學習技術及應用國家工程實驗室、百度技術學院聯合北航人工智慧專家共同撰寫；百度官方出品，百度首席技術官王海峰博士作序，張鈸院士、李未院士、百度集團副總裁吳甜

太難了，為了寫個公眾號，我竟然...

作為一個技術人，在當下這個時代，學習寫作是非常非常有必要的，也有越來越多的夥伴開始了公眾號技術寫作，但不少人問到：

牛逼！阿里P7架構師分享出來的MyBatis+設計模式架構指南，太香了

全文內容目錄一覽 Java設計模式實踐指南（位元組跳動版）MyBatis入門到進階（含面試題解）MyBatis底層原始碼分析（MyBatis架構體系詳解）

nice！騰訊大佬買了市面上所有Java併發程式設計資料後，自己總結了一份筆記，太厲害了！

筆者在讀完市面上關於Java併發程式設計的資料後，感覺有些知識點不是很清晰，於是重新整合。鑑於開源精神，我們決定將我們討論之後的Java併發程式設計原理整理成筆記，分享給大家。站在巨人的肩上，我們可以

重磅推薦！阿里巴巴技術專家認證的Java系統性能聖經，太香了

寫在前面每個公司都要求程式設計師寫出效能良好、維護性強的程式碼，各種高階職位的任職要求也會把優化系統作為必選要求之一。當業務系統重構時，以及各種網際網路大促前，也都期望系統的效能能變得更好。

記錄，太坑了，深度學習顯示卡損壞原來是這樣子的。

記錄，太坑了，深度學習顯示卡損壞原來是這樣子的。

時間 2020-10-23

事件記錄：

相關推薦