動手學深度學習 | 使用和購買GPU | 15

阿新 • • 發佈：2021-09-22

目錄

使用GPU
購買GPU
整機配置
QA

使用GPU

其實如果沒有錢買GPU的話，使用Google Colab也是一個不錯的選擇，大概是10 dollar一個月。

算力其實是很貴的... 利用好算力是一件很重要的事情！

關於Nvidia Driver too old的問題，如果是伺服器的話，這裡不要盲目的去更新顯示卡驅動，這樣子會把別人的環境搞壞的。

正確的方式應該是去安裝適合自己驅動的版本的框架。

# 下面命令來確認cuda的版本，然後在進行相應cuda的下載
cat /usr/local/cuda/version.txt

使用GPU是簡單的，只要把權重copy到GPU上，在把輸入copy到GPU上，就可以在GPU上進行運算了。

購買GPU

GPU的效能主要由以下3個引數構成：

計算能力。通常我們關心的是32位浮點計算能力。16位浮點訓練也開始流行，如果只做預測的話也可以用8位整數。
視訊記憶體大小。當模型越大或者訓練時的批量越大時，所需要的視訊記憶體就越多。
視訊記憶體頻寬。只有當視訊記憶體頻寬足夠時才能充分發揮計算能力。

當然只推薦消費類的GPU（GTX、RTX），對於企業類的GPU這是不推薦的，一般會貴5~6倍。

顯示卡儘量要買新的，因為工藝在進步，新一代對比舊一代，同樣的計算效能，價格會便宜。（電子裝置都是如此，買新不買舊）

整機配置

通常，我們主要用GPU做深度學習訓練。因此，不需要購買高階的CPU。至於整機配置，儘量參考網上推薦的中高檔的配置就好。不過，考慮到GPU的功耗、散熱和體積，在整機配置上也需要考慮以下3個額外因素：

機箱體積。顯示卡尺寸較大，通常考慮較大且自帶風扇的機箱。
電源。購買GPU時需要查一下GPU的功耗，如50 W到300 W不等。購買電源要確保功率足夠，且不會造成機房供電過載。
主機板的PCIe卡槽。推薦使用PCIe 3.0 16x來保證充足的GPU到記憶體的頻寬。如果搭載多塊GPU，要仔細閱讀主機板說明，以確保多塊GPU一起使用時仍然是16倍頻寬。注意，有些主機板搭載4塊GPU時會降到8倍甚至4倍頻寬。

QA

如果買GPU的話，視訊記憶體是越大越好嗎？還有什麼評價指標嗎？

當然是越大越好，但是視訊記憶體是一個很貴的事情，視訊記憶體比CPU的記憶體貴。

GPU的視訊記憶體是越大越好的，但是越大越貴，所以你要在你的承受範圍能力買。

後面會講解CPU和GPU的工作原理的不同，也就是為什麼說GPU視訊記憶體越大越好。

跑專案的時候視訊記憶體不夠怎麼辦，如果把batch_size調小，視訊記憶體夠用了但是cuda佔用一直很低怎麼辦？

如果是視訊記憶體不夠用的話，那麼只有把batch_size給調小。

但是如果把batch_size調小的話，那麼Volatile GPU-Util（GPU計算單元的利用率）不高。

那麼這裡給的建議就是把模型給調小一點，比如如果是使用ResNet152的話，這裡就建議修改成ResNet50。

GPU使用率是不是越高越好，長時間滿負荷是不是對顯示卡不太好？

滿負荷對GPU是沒有問題的，唯一的問題是溫度不要過熱！最好建議就是不要超過80度，90度太久。

沐神說他是燒過很多塊卡的... 滿負荷是沒有問題的，但是就是要注意溫度！溫度是一個很重要的事情。

一般使用gpu訓練，data在哪一步to gpu比較好？

一般是在最後network train的時候。

因為很多資料的變化，做data preprocess在GPU上不一定支援的比較好，如果data在GPU上做的比較好，那麼可以往前走，比如很多時候在GPU上做一些圖片的處理。

tensor.cuda() 和 to(device)有什麼區別？

都是將tensor挪到GPU上，但是to(device)是講module，也就是模型挪到GPU上。

使用GPU後加速效果不明顯有哪些可能的原因？執行GPU使用率在60%~70%。

其實60~70%的使用頻率已經不低了，看看能不能優化下網路。

對於CNN的話，GPU的使用率很容易到80%以上。

怎麼評價apple M1 gpu和cpu共用記憶體？

整合顯示卡基本都是個cpu共用記憶體的，而且共不共用記憶體不是關鍵，而是要看記憶體的頻寬，其實M1的記憶體頻寬還行。

cuda和GPU到底是什麼關係？

GPU是硬體，cuda可以認為是開發的一個SDK。

自定義的block被放在同一個Sequential內的不同layer，但是不想共享引數，該怎麼做？

只要new新的物件就可以了，傳入的也是物件，如果不是同一個物件，預設是不會共享引數的。

動手學深度學習 | 使用和購買GPU | 15

目錄使用GPU購買GPU整機配置QA 使用GPU 其實如果沒有錢買GPU的話，使用Google Colab也是一個不錯的選擇，大概是10 dollar一個月。

動手學深度學習 | 深度學習硬體：CPU和GPU | 30

目錄CPU和GPUQA CPU和GPU 我們講講GPU和CPU是什麼，而且為什麼深度學習使用GPU會快。

動手學深度學習 | 模型選擇+過擬合和欠擬合 | 09

目錄模型選擇過擬合和欠擬合QA 模型選擇我們其實關心的是泛化誤差，並不太關心訓練誤差。

動手學深度學習基礎

第一次作業：深度學習基礎 1. 影象處理基本練習展示不同通道上的影象 # 展示三通道影象

《動手學深度學習》mxnet版/第三章學習筆記

第三章從單層神經網路延伸到多層神經網路，並通過多層感知機引入深度學習模型

《動手學深度學習》mxnet版/第五章學習筆記

第五章描述卷積神經網路中卷積層和池化層的工作原理，並解釋填充、步幅、輸入通道和輸出通道的含義

《動手學深度學習》mxnet版/第四章學習筆記

第四章概括深度學習計算的各個重要組成部分，如模型構造、引數的訪問和初始化等，自定義層，讀取、儲存和使用GPU

《動手學深度學習Pytorch版》之AlexNet預測結果展示

技術標籤：Pytorch深度學習python深度學習《動手學深度學習Pytorch版》https://github.com/ShusenTang/Dive-into-DL-PyTorch 為了檢視預測結果，在原Demo上加了預測顯示程式碼。注意：

《動手學深度學習》(TF2.0版)第二章

技術標籤：深度不學習第二章 import tensorflow as tf print(tf.__version__) 檢視TF的版本 2.2資料操作

動手學深度學習影象分類例項-多層感知機(三) 多層感知機的簡潔實現

技術標籤：深度學習深度學習神經網路機器學習人工智慧python 動手學深度學習影象分類例項-多層感知機(三) 多層感知機的簡潔實現

動手學深度學習 | 目錄 | 00

目錄安裝 | 01資料操作+資料預處理 | 02線性代數 | 03矩陣計算 | 04自動求導 | 05線性迴歸+基礎優化演算法 | 06Softmax迴歸+損失函式+圖片分類資料集多層感知機+程式碼實現模型選擇+過擬合和欠擬合權重衰退丟棄法數

動手學深度學習 | 資料操作+資料預處理 | 02

目錄資料操作資料操作實現資料預處理實現QA 資料操作圖片是三維的： w*h*channel

動手學深度學習 | 線性代數 | 03

目錄線性代數線性代數實現按特定軸求和QA 線性代數其實我們不需要太多線性代數的知識，但是還是稍微講一下作為一個數學上的入門。

動手學深度學習 | Softmax迴歸+損失函式+圖片分類資料集 | 07

目錄Softmax迴歸損失函式圖片分類資料集Softmax迴歸從零開始實現Softmax迴歸簡潔實現QA

動手學深度學習 | 多層感知機+程式碼實現 | 08

目錄感知機多層感知機多層感知機從零開始實現多層感知機簡潔實現QA 感知機

動手學深度學習 | 預測房價競賽總結 | 16

目錄競賽總結QA 競賽總結我們講知識，也不可能所有東西都cover到，讓大家競賽不是讓大家去學某個特定的知識，而是說大家遇到一個問題，怎麼去找一個解決方案。這一次的解決方案和下一次的會不一樣，但是問題是你

動手學深度學習 | 語言模型 | 53

目錄語言模型程式碼QA 語言模型一隻猴子打字，就算是打到宇宙毀滅，他也打不出莎士比亞的文章。

動手學深度學習 | 網路中的網路NiN | 24

目錄NiN程式碼QA NiN NiN Network in Network，網路中的網路，這個網路現在用的不多，幾乎很少被用到，但是它裡面提出了比較重要的一些概念，在後面很多網路中都會持續的被用到。

動手學深度學習安裝環節

以下均在linux中執行，建議學習的同學都選擇ununtu18.0以上版本OS。 1.minicanda的安裝：

動手學深度學習 | 批量歸一化 | 26

目錄批量歸一化程式碼QA 批量歸一化現在卷積神經網基本都是要使用到BN層的。BN層的思想不新，但是這個特定的層確實是最近幾年才出來的，而且大家會發現效果很好。而且當大家要把網路做深的時候，這就是一個不可避