速讀-A3基於注意力機制的神經網路處理器

阿新 • • 發佈：2020-10-17

論文：Ham, Tae Jun, et al. “A^ 3: Accelerating Attention Mechanisms in Neural Networks with Approximation.” 2020 IEEE International Symposium on High Performance Computer Architecture (HPCA). IEEE, 2020.

SJTU-CS7331-高階計算機系統架構閱讀材料

HPCA，CCF-A體系結構頂會。
在這裡插入圖片描述

隨著神經網路計算需求的增長，學術界已經提出了許多用於神經網路的硬體加速器。這種現有的神經網路加速器通常專注於流行的神經網路型別，例如卷積神經網路（CNN）和遞迴神經網路（RNN）。但是，注意力機制（Attention Mechanism）並沒有引起太多關注，注意力機制是一種新興的神經網路原語，它使神經網路能夠從知識庫，外部儲存器或過去的狀態中檢索最相關的資訊。注意機制已被許多先進的神經網路廣泛採用，用於計算機視覺，自然語言處理和機器翻譯，並且佔總執行時間的很大一部分。

作者設計了一種稱為A3的專用硬體加速器，該加速器的目標是利用近似勢能的神經網路中的注意力機制。尤其是，A3的工作確定了新興的神經網路原語的重要性，並通過軟體-硬體協同設計使其加速，從而實現了比常規硬體更高數量級的能效提升。此外，A3還為近似注意力機制設計了專用的硬體流水線，同時推出了臺積電40nm的測試晶片。實驗結果表明，與傳統硬體相比，該加速器可實現顯著的效能和能效提升。

在章節Ⅱ-A和章節Ⅱ-B部分中，論文表明注意機制是大多數先進的神經網路（如Word2Vec，Glove和FastText）中廣泛使用的策略，用於識別和檢索與輸入有關的資料，即可區分的基於內容的相似性搜尋。大多數網路都在自然語言處理，計算機視覺和推薦系統領域。詳細分析了注意機制中點積，softmax歸一化和權重和的計算過程。此後，本文得出的結論是，在矩陣向量乘法中執行的大多數計算對最終輸出幾乎沒有影響，因為大多數得分值在softmax歸一化之後可以近似並優化為接近零。因此，A3加速器指日可待。

文章介紹了A3的兩個不同版本：Base-A3（第III部分）和Approx-A3（第IV和V部分）。對於前者，每個模組的硬體設計都直接對映到其計算。後者提出了近似機制，因此後者更值得討論。

特別是，有關如何設計近似注意力的想法有兩個關鍵步驟。一種是通過有限的計算來識別與注意力機制中的查詢相關的候選者。另一個是避免計算可能是不相關的行。有一個關鍵的直覺：如果我們能以某種方式識別出一些最大和最小的分量相乘結果，就可以用很少的計算來計算估計的注意力得分。

對於Approx-A3，作者設計了一組新的硬體加速器模組，用於候選者選擇和評分後逼近。它使用天真的想法，即加法比乘法好。例如，給定大小為n x d的矩陣，Approx-A3首先對儲存在SRAM中的矩陣的每一列進行排序。然後，大小為1乘d的兩個指標的目的是要獲取m次排序列中的max和min個元素，以更新估計的注意力，代替查詢向量和排序矩陣的逐元素乘法。因此，該演算法僅執行2 x m的乘法，比n x d小得多。簡而言之，該演算法每次迭代更新兩個估計的注意力得分：最大和最小分量相乘結果。最後，經過m次迭代後具有正估計注意力得分的行將成為近似注意力的候選物件。

操作圖：

在這裡插入圖片描述

加速器結構：

在這裡插入圖片描述

本文演示了一些評估A3加速器的實驗。選擇VI分為四個部分：A（工作量），B（準確性評估），C（效能結果）和D（面積，功率，能量和測試晶片）。

從效能結果可以看出，近似可以進一步提高吞吐量（2.6-7.0倍）和等待時間（1.6-8.0倍）。因此，在面積和能源效率方面，可以節省更多的能源（比CPU效率高> 10,000倍）。結果證明，Approx-A3的先前設計非常有效。如果在忽略管芯尺寸的情況下將這種技術應用於移動終端，則這是有用的。此外，應該注意的是，大多數能量都花費在輸出計算和候選選擇上，這很容易理解，因為逐個元素的乘法被近似值代替。但是，我們都知道近似方案會影響端到端模型的準確性。根據VI-B，結果表明，保守近似方案損失了約1-1.6％的精度指標，而積極近似方案損失了約8-9％的精度指標。此外，選擇的前幾項的數量表明，激進近似法可能會錯過一些注意力得分較高的專案。

速讀-A3基於注意力機制的神經網路處理器

速讀-A3基於注意力機制的神經網路處理器

Pytorch實現基於卷積神經網路的面部表情識別(詳細步驟)

Pytorch實現基於卷積神經網路的面部表情識別(詳細步驟)（轉載）

基於注意力機制的文字匹配

Python 基於卷積神經網路實現蒸汽波復古風格濾鏡

基於淺層神經網路（全連線網路）的強化學習演算法（Reinforce）在訓練過程中出現梯度衰退（degenerate）的現象

【預測模型】基於matlab BP神經網路氣溫預測【含Matlab原始碼 714期】

【預測模型】基於matlab BP神經網路混凝土強度預測【含Matlab原始碼 695期】

【預測模型】基於matlab BP神經網路短時交通流預測【含Matlab原始碼 687期】

【預測模型】基於matlab BP神經網路鋰電池健康狀態預測【含Matlab原始碼 688期】

【預測模型】基於matlab BP神經網路預測CPI指數【含Matlab原始碼 662期】

【房價預測】基於matlab Elman神經網路房價預測【含Matlab原始碼 589期】

【手寫數字識別】基於卷積神經網路CNN實現手寫數字識別分類matlab原始碼

聯邦學習論文研究（基於卷積神經網路的聯邦學習演算法研究）

基於卷積神經網路(CNN)的中文垃圾郵件檢測

OPPO 首個自研晶片命名 MariSilicon X，確認為 NPU 神經網路處理器

基於python的BP神經網路及異或實現過程解析

基於FPGA的卷積神經網路實現（七）卷積模組

W10 - 999、基於神經網路預測蘋果糖度

基於神經網路的風格遷移目標損失解析

速讀-A3基於注意力機制的神經網路處理器

相關推薦