FPGA實現深度學習的優勢及缺點

阿新 • • 發佈：2018-12-15

計算能力一般通過兩個引數表徵：

Peak GOPs峰值效能
Real GOPs實測效能（針對特定網路）

FPGA在推理過程，可以做到高的Real GOPs/Peak GOPs，而訓練過程，他的結構與演算法並不完全匹配。希望後面出的器件可以克服。

FPGA的算力優勢

推理時的低延遲，特別時batch size為1時，這個在微軟Brainwave Project專案中中反覆提到。

GPU的優勢是塊處理，批量資料進，批量計算，這樣可以利用他的海量計算單元，以及外部儲存。但推理時batch size為1的運算，FPGA的流水線設計優勢明顯。

定製化計算引擎

陣列式、可重構的資料流引擎（權重、資料流入、計算合理配合），配合大量分散式RAM的設計，可以讓FPGA適配特定的神經網路，針對應用場景的Real GOPs/Peak GOPs比率高。

這個我想就是FPGA宣稱功耗比GPU做的更低的原因。

另外在優化做到極致情況下，某些神經網路中FPGA的Real Gops確實有可能超過GPU

持續演進的軟硬體融合

通過演算法優化壓縮網路、壓縮權重、配合適配的NPU結構，更小的計算量達到接近的精度。

FPGA算力缺點

FPGA不適合做訓練，這個主要是訓練過程反向傳播的演算法特點導致，主要表現在3個方面：

不適合浮點運算，而訓練過程，基本上都是浮點運算。

我們以反向傳播過程的計算為例，流行的梯度優化演算法ADAM公式如下：

從上面公式可知，收斂過程，需要無數次的迭代計算，這一過程這些引數的改變數是極小的，而FPGA內部的運算單元主要是DSP（沒有浮點單元），適合定點計算，

迭代計算過程如果對精度進行擷取，在反向傳播過程中，計算誤差是逐層疊加的，深度越深，誤差累積越大，傳播後的權重引數要不趨向於0，要不趨向於飽和，從而導致訓練失敗。

而推理過程權重已經訓練完成，這時是針對每個引數做精度壓縮，不存在誤差逐級傳播，只要最後計算結果與原始精度相比下降程度在可接受範圍內就可以。

訓練過程需要計算種類多，FPGA實現某些運算代價大。

訓練過程中間節點的normalize，ADAM中的開根號運算等。

如果僅把正向傳播的乘加運算放在FPGA中，反向梯度計算放在CPU中，每次迭代時將導致大量的引數以及中間計算結果Activation在CPU和FPGA之間反覆傳遞，從而抵消硬體加速獲得的好處。

演算法的反向傳播過程的中間結果以及權重相對正向過程需要轉置。

正向傳播與反向傳播的計算對比如下：

以最簡單的反向傳播計算公式來看：

A對應途中j1,j2,j3的中間計算結果，在反向計算dW時，需要對正向計算的A做一次轉置，計算dA(l-1)時，需要對權重W做一次轉置。

多層神經網路時我們把權重快取和中間的activation快取看作一個二維陣列，正向時相當於按行讀取，反向時因為轉置，需要按列讀取。

對應的RAM操作：正向過程利用了FPGA分散式RAM優點，一次讀取出大量資料進行計算，而反向時的每次運算，由於轉置，引數和中間結果集中到某幾片RAM上。從而無法利用FPGA分散式RAM的高頻寬優點，而FPGA的主頻與CPU、GPU相比有差距，因此訓練上RAM反而成為劣勢，示意圖如下：

因此，反向傳播想做到高效能，要不需要在原生演算法上做改進，要不硬體上需要找到一種二維陣列的快速訪問方法。

FPGA實現深度學習的優勢及缺點

計算能力一般通過兩個引數表徵： Peak GOPs峰值效能 Real GOPs實測效能（針對特定網路） FPGA在推理過程，可以做到高的Real GOPs/Peak GOPs，而訓練過程，他的結構與演算法並不完全匹配。希望後面出的器件可以克服。 FPGA的算力優勢

FPGA在深度學習的未來

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

深度學習基礎及tensorflow框架---學習筆記

1、tensorflow框架基礎問題 ①tensorflow-gpu版環境配置為了在伺服器GPU上進行加速運算，安裝tensorflow-gpu版，安裝預設gpu版本之後發現tensorflow無法使用，在於最新tensorflow-gpu版與伺服器已有的NVIDIA平行計算架構CUDA9

深度學習介紹及簡單應用

引言　　深度學習背後的主要原理是從大腦中汲取靈感。，這種觀點產生了“神經網路”術語，大腦包含數十億個神經元，它們之間有數萬個連線。在許多情況下，深度學習演算法類似於大腦，因為大腦和深度學習模型都涉及大量的計算單元（神經元），這些單元在未啟用時並不是活躍的，它們彼此互動時會變得智慧化。神經元　　神經網路

【Android開源專案解析】QQ“一鍵下班”功能實現解析——學習Path及貝塞爾曲線的基本使用

早在很久很久以前，QQ就實現了“一鍵下班”功能。何為“一鍵下班”？當你QQ有資訊時，下部會有資訊數量提示紅點，點選拖動之後，就會出現“一鍵下班”效果。本文將結合github上關於此功能的一個簡單實現，介紹這個功能的基本實現思路。專案地址

基於FPGA的深度學習CNN加速器設計

英文原文：http://cadlab.cs.ucla.edu/~cong/slides/fpga2015_chen.pdf?spm=a2c4e.11153940.blogcont5752.3.654031b6l0wvY2&file=fpga2015_chen.pdfh

【平行計算-CUDA開發】FPGA 設計者應該學習 OpenCL及愛上OpenCL的十個理由

作為OpenCL CodeBench的開發者，Amdahl軟體公司始終堅信OpenCL能夠帶來巨大的利益，也從未懷疑過OpenCL標準的成功性。現在人們對計算效能的要求越來越高，在不超過發熱量和功耗的限制範圍，我們相信多核和多核系統提供了一個可行的解決方法。對於OpenCL使用者來說，OpenCL標準的優

[深度學習]RBM及DBN

2. 能量函式。隨機神經網路的基礎是統計力學，差不多思想是熱力學來的，能量函式是描述整個系統狀態的一種測度。系統越有序或者概率分佈越集中（比如小球在碗底的情況），系統的能量越小，反之，系統越無序並且概率分佈發散（比如平均分佈），則系統的能量越大，能量函式的最小值，對應著整個系統最穩定的狀態。這裡跟

MxNet 遷移學習實現深度學習分類

利用MxNet實現影象分類任務這篇文章將利用MxNet以及其前端gluon 實現一個完整的影象分類任務，其中主要包括以下幾個方面：影象I/O 搭建網路進行訓練驗證演算法輸出結果定義輔助函式損失函式驗證資料I/O定義網路模型訓練測試生成結果

Python的Numpy實現深度學習常用的函式

目錄常用的啟用函式我們常用的啟用函式有sigmoid，tanh，ReLU這三個函式，我們都來學習學習吧。 sigmoid函式在深度學習中，我們經常會使用到sigmoid函式作為我們的啟用函式，特別是在二分類上，sigmoid函式是比較

Android端實現深度學習

這裡截取了本人畢業設計關於移動端實現深度學習的章節。本章節將詳細介紹如何實現移動端呼叫深度學習模型進行使用，簡單來說就是兩個步驟，生成可供呼叫的模型和呼叫模型。這裡我們用到的人臉檢測模型為第三章節訓練出來的mAP最高的模型。 4.1 固定模型為了使a

深度學習入門及深度學習學習路線

最近一段老師逼著搞論文，都沒啥時間刷題和更新部落格了。前段時間無意間看到一些深度學習方面的資料，個人覺得寫的實在是太精彩了，必須得推薦給他大家。目前只更新了7篇部落格，裡面包含了原理（即數學推導）和實踐（程式碼實現），對於入門來講實在是合適不過的了。宣告：本文只負責推薦，

騰訊雲FPGA的深度學習演算法

GPU 執行深度學習演算法比 CPU 快很多，但是由於高昂的價格以及超大的功耗對於給其在IDC大規模部署帶來了諸多問題。有人就要問，如果做一個完全為深度學習設計的專用晶片(ASIC)，會不會比 GPU 更有效率？事實上，要真的做一塊深度學習專用芯片面臨極大不確定性，首先為了效能必須使用最好的半導體制造工

自己動手實現深度學習框架-2 核心實現

目標完成框架設計文件中列出的基礎類和需要在基礎類中實現的介面。使用最簡的單多層感知機(Multi-Layer Perceptron)模型對框架進行初步驗證, 因此, 除了框架的核心部分外, 還要實現一個全連線層，一個啟用函式，一個優化器和一個損失函式。

自己動手實現深度學習框架-3 自動分批訓練, 緩解過擬合

程式碼倉庫: https://github.com/brandonlyg/cute-dl 目標為Session類增加自動分批訓練模型的功能, 使框架更好用。新增緩解過擬合的演算法: L2正則化, 隨機丟棄。實現自動分批訓練設計方案增加Dataset類負責管理資料集, 自動對資料分批。在Ses

自己動手實現深度學習框架-4 使用交叉熵損失函式支援分類任務

程式碼倉庫: https://github.com/brandonlyg/cute-dl 目標增加交叉熵損失函式，使框架能夠支援分類任務的模型。構建一個MLP模型, 在mnist資料集上執行分類任務準確率達到91%。實現交叉熵損失函式數學原理分解交叉熵損失函式 &n

自己動手實現深度學習框架-5 使用學習率優化器加快模型訓練速度

程式碼倉庫: https://github.com/brandonlyg/cute-dl (轉載請註明出處!) # 目標 1. 增加學習率優化器, 加快模型在小學習率下模型的訓練速度。 2. 使用MNIST資料集比較同一個模型使用不同學習率優化器的表現。 # 常見的學習率優化演算法 &nbs

自己動手實現深度學習框架-6 卷積層和池化層

程式碼倉庫: https://github.com/brandonlyg/cute-dl (轉載請註明出處!) # 目標上個階段使用MLP模型在在MNIST資料集上實現了92%左右的準確率，達到了tensorflow同等模型的水平。這個階段要讓cut

自己動手實現深度學習框架-7 RNN層--GRU, LSTM

# 目標這個階段會給cute-dl新增迴圈層，使之能夠支援RNN--迴圈神經網路. 具體目標包括: 1. 新增啟用函式sigmoid, tanh. 2. 新增GRU(Gate Recurrent Unit)實現. 3. 新增LSTM(Long Shor

自己動手實現深度學習框架-8 RNN文字分類和文字生成模型

程式碼倉庫: https://github.com/brandonlyg/cute-dl # 目標上階段cute-dl已經可以構建基礎的RNN模型。但對文字相模型的支援不夠友好, 這個階段的目標是, 讓框架能夠友好地支援文字分類和本文生成任務。具體包

FPGA實現深度學習的優勢及缺點

相關推薦