1. 程式人生 > >史上最新最全的深度學習計算機硬體配置方案

史上最新最全的深度學習計算機硬體配置方案

引子

市場上用於深度學習訓練計算機大致情況如下:

(1)伺服器/工作站(支援2、4、8塊GPU架構):普遍存在噪音大抓狂,無法放置於辦公環境,必須放到專門的機房,維護成本高抓狂,另外資料儲存頻寬、延遲、容量也不盡如意。

(2)分散式叢集架構:效能強大,但是開發成本太高(太貴抓狂,是大多數科研單位及個人無法承受。

(3)組裝電腦:這類特點是價格便宜,但是在散熱和功率方面依然是普通家用/遊戲電腦標準,穩定性巨差抓狂

(4)大部分GPU計算機(伺服器/工作站):重點都放在GPU卡數量上,似乎只要配上足夠GPU卡,就可以了。

然而,機器硬體配置還需要整體均衡,不同的學習框架更需要不同GPU卡去適配。



上圖是不同的DL框架加速效能(NVIDIA GP100為例),不同的框架並不是GPU越多效能就越高。

深度學習計算密集,所以需要一個快速多核CPU,對吧?!尷尬

聽說深度學習有很多顯示卡就可以了,一個高速CPU可能是種浪費?!尷尬

搭建一個深度學習系統時,最糟糕的事情之一就是把錢浪費在並非必需的硬體上。尷尬

一個高效能且經濟的深度學習系統所需的硬體到底要如何配置?!

一 還是先從深度學習計算特點與硬體配置分析:

1 資料儲存要求

在一些深度學習案例中,資料儲存會成為明顯的瓶頸。做深度學習首先需要一個好的儲存系統,將歷史資料儲存起來。

主要任務:歷史資料儲存,如:文字、影象、聲音、視訊、資料庫等。

資料容量:提供足夠高的儲存能力。

讀寫頻寬:多硬碟並行讀寫架構提高資料讀寫頻寬。

介面:高頻寬,同時延遲低。

傳統解決方式:專門的儲存伺服器,藉助萬兆埠訪問。

缺點:頻寬不高,對深度學習的資料讀取過程時間長(延遲大,兩臺機器之間資料交換),成本還巨高。

UltraLA解決方案:

將並行儲存直接通過PCIe介面,提供最大16個硬碟的並行讀取,資料量大並行讀取要求高,無論是匯流排還是硬碟並行頻寬,都得到加大提升,滿足海量資料密集I/O請求和計算需要。

2 CPU要求

如今深度學習CPU似乎不那麼重要了,因為我們都在用GPU,為了能夠明智地選擇CPU我們首先需要理解CPU,以及它是如何與深度學習相關聯的,CPU能為深度學習做什麼呢?當你在GPU上跑深度網路時,CPU進行的計算很少,但是CPU仍然需要處理以下事情:

(1)資料從儲存系統調入到記憶體的解壓計算。

(2)GPU計算前的資料預處理。

(3)在程式碼中寫入並讀取變數,執行指令如函式呼叫,建立小批量資料,啟動到GPU的資料傳輸。

(4)GPU多卡平行計算前,每個核負責一塊卡的所需要的資料並行切分處理和控制。

(5)增值幾個變數、評估幾個布林表示式、在GPU或在程式設計裡面呼叫幾個函式——所有這些會取決於CPU核的頻率,此時唯有提升CPU頻率。

傳統解決方式:CPU規格很隨意,核數和頻率沒有任何要求。

UltraLA解決方案:

CPU頻率儘量高

CPU三級快取儘量大(有必要科普一下CPU快取)

“這是個經常被忽視的問題,但是通常來說,它在整個效能問題中是非常重要的一部分。CPU快取是容量非常小的直接位於CPU晶片上的儲存,物理位置非常接近CPU,能夠用來進行高速計算和操作。CPU通常有快取分級,從小型快取記憶體(L1,L2)到低速大型快取(L3,L4)。作為一個程式設計師,你可以將它想成一個雜湊表,每條資料都是一個鍵值對(key-value-pair),可以高速的基於特定鍵進行查詢:如果找到,就可以在快取得值中進行快速讀取和寫入操作;如果沒有找到(被稱為快取未命中),CPU需要等待RAM趕上,之後再從記憶體進行讀值——一個非常緩慢的過程。重複的快取未命中會導致效能的大幅下降。有效的CPU快取方案與架構對於CPU效能來說非常關鍵。深度學習程式碼部分——如變數與函式呼叫會從快取中直接受益。

CPU核數:比GPU卡數量大(原則:1核對應1卡,核數要有至少2個冗餘)。

3 GPU要求

如果你正在構建或升級你的深度學習系統,你最關心的應該也是GPU。GPU正是深度學習應用的核心要素——計算效能提升上,收穫巨大。

主要任務:承擔深度學習的資料建模計算、運行復雜演算法。

傳統架構:提供1~8塊GPU。

UltraLA解決方案:

資料頻寬:PCIe8x 3.0以上。

資料容量:視訊記憶體大小很關鍵。

深度學習框架匹配:CPU核-GPU卡 1對1。

GPU卡加速:多卡提升並行處理效率。

4 記憶體要求

至少要和你的GPU視訊記憶體存大小相同的記憶體。當然你也能用更小的記憶體工作,但是,你或許需要一步步轉移資料可憐。總而言之,如果錢夠安靜而且需要做很多預處理,就不必在記憶體瓶頸上兜轉,浪費時間

主要任務:存放預處理的資料,待GPU讀取處理,中間結果存放。

UltraLA解決方案:

資料頻寬最大化:單Xeon E5v4 4通道記憶體,雙XeonE5v4 8通道記憶體,記憶體頻寬最大化。

記憶體容量合理化:大於GPU總視訊記憶體。

說了那麼多,到底該如何配置深度學習工作站,下面是乾貨來襲大笑

二 UltraLAB GXi/GXM深度學習工作站介紹與配置推薦

1. GX370i-科研型

硬體架構:4核4.7GHz~5.0GHz+4塊GPU+64GB記憶體+4塊硬碟(最大)

機器特點:高性價比,最快預處理和GPU超算架構

資料規模: 小規模

2. GX490i-高效型

硬體架構:配置10核4.5GHz+4塊GPU+128GB+4塊硬碟(最大)

機器特點:較GX360i,CPU核數和記憶體容量提升

資料規模: 中小規模

3. GX490M-高效能型

硬體架構:配置6核4.5GHz/8核4.3GHz/10核4.3GHz+最大7塊GPU+256GB+20盤位並行儲存

機器特點:GPU數量支援到7塊,支援海量資料並行儲存

資料規模: 中大規模

4 GX620M-超級型

硬體架構:雙Xeon可擴充套件處理器(最大56核,最高3.8GHz)+最大9塊GPU+20盤位並行存

機器特點:目前最強大的CPU+GPU異構計算

資料規模:  建模與模擬計算、高效能科學計算、機器/深度學習

UltraLAB深度學習工作站特點:

(1)種類豐富: GX370i(1C4G), GX490i(1C4G) --科研型,GX490M(1C7G)、GX620M(2C9G)--超級型。

(2)效能特點:超高頻+多GPU+海量高速儲存+靜音級=最完美強大DL硬體平臺。

(3)應用平臺:完美支援TensorFlow,Caffe,Torch,DIGITS,Theano,MXNet等。

專注高效能圖形工作站定製

詳詢:微信/QQ596349281