1. 程式人生 > 實用技巧 >速讀-A3基於注意力機制的神經網路處理器

速讀-A3基於注意力機制的神經網路處理器

論文:Ham, Tae Jun, et al. “A^ 3: Accelerating Attention Mechanisms in Neural Networks with Approximation.” 2020 IEEE International Symposium on High Performance Computer Architecture (HPCA). IEEE, 2020.

SJTU-CS7331-高階計算機系統架構 閱讀材料

HPCA,CCF-A體系結構頂會。
在這裡插入圖片描述

隨著神經網路計算需求的增長,學術界已經提出了許多用於神經網路的硬體加速器。這種現有的神經網路加速器通常專注於流行的神經網路型別,例如卷積神經網路(CNN)和遞迴神經網路(RNN)。但是,注意力機制(Attention Mechanism)並沒有引起太多關注,注意力機制是一種新興的神經網路原語,它使神經網路能夠從知識庫,外部儲存器或過去的狀態中檢索最相關的資訊。注意機制已被許多先進的神經網路廣泛採用,用於計算機視覺,自然語言處理和機器翻譯,並且佔總執行時間的很大一部分。

作者設計了一種稱為A3的專用硬體加速器,該加速器的目標是利用近似勢能的神經網路中的注意力機制。尤其是,A3的工作確定了新興的神經網路原語的重要性,並通過軟體-硬體協同設計使其加速,從而實現了比常規硬體更高數量級的能效提升。此外,A3還為近似注意力機制設計了專用的硬體流水線,同時推出了臺積電40nm的測試晶片。實驗結果表明,與傳統硬體相比,該加速器可實現顯著的效能和能效提升。

在章節Ⅱ-A和章節Ⅱ-B部分中,論文表明注意機制是大多數先進的神經網路(如Word2Vec,Glove和FastText)中廣泛使用的策略,用於識別和檢索與輸入有關的資料,即可區分的基於內容的相似性搜尋。大多數網路都在自然語言處理,計算機視覺和推薦系統領域。詳細分析了注意機制中點積,softmax歸一化和權重和的計算過程。此後,本文得出的結論是,在矩陣向量乘法中執行的大多數計算對最終輸出幾乎沒有影響,因為大多數得分值在softmax歸一化之後可以近似並優化為接近零。因此,A3加速器指日可待。

文章介紹了A3的兩個不同版本:Base-A3(第III部分)和Approx-A3(第IV和V部分)。 對於前者,每個模組的硬體設計都直接對映到其計算。後者提出了近似機制,因此後者更值得討論。

特別是,有關如何設計近似注意力的想法有兩個關鍵步驟。一種是通過有限的計算來識別與注意力機制中的查詢相關的候選者。另一個是避免計算可能是不相關的行。有一個關鍵的直覺:如果我們能以某種方式識別出一些最大和最小的分量相乘結果,就可以用很少的計算來計算估計的注意力得分。

對於Approx-A3,作者設計了一組新的硬體加速器模組,用於候選者選擇和評分後逼近。它使用天真的想法,即加法比乘法好。例如,給定大小為n x d的矩陣,Approx-A3首先對儲存在SRAM中的矩陣的每一列進行排序。然後,大小為1乘d的兩個指標的目的是要獲取m次排序列中的max和min個元素,以更新估計的注意力,代替查詢向量和排序矩陣的逐元素乘法。因此,該演算法僅執行2 x m的乘法,比n x d小得多。簡而言之,該演算法每次迭代更新兩個估計的注意力得分:最大和最小分量相乘結果。最後,經過m次迭代後具有正估計注意力得分的行將成為近似注意力的候選物件。

操作圖:

在這裡插入圖片描述

加速器結構:

在這裡插入圖片描述

本文演示了一些評估A3加速器的實驗。選擇VI分為四個部分:A(工作量),B(準確性評估),C(效能結果)和D(面積,功率,能量和測試晶片)。

從效能結果可以看出,近似可以進一步提高吞吐量(2.6-7.0倍)和等待時間(1.6-8.0倍)。因此,在面積和能源效率方面,可以節省更多的能源(比CPU效率高> 10,000倍)。結果證明,Approx-A3的先前設計非常有效。如果在忽略管芯尺寸的情況下將這種技術應用於移動終端,則這是有用的。此外,應該注意的是,大多數能量都花費在輸出計算和候選選擇上,這很容易理解,因為逐個元素的乘法被近似值代替。但是,我們都知道近似方案會影響端到端模型的準確性。根據VI-B,結果表明,保守近似方案損失了約1-1.6%的精度指標,而積極近似方案損失了約8-9%的精度指標。此外,選擇的前幾項的數量表明,激進近似法可能會錯過一些注意力得分較高的專案。

更多內容訪問 omegaxyz.com
網站所有程式碼採用Apache 2.0授權
網站文章採用知識共享許可協議BY-NC-SA4.0授權
© 2020 • OmegaXYZ-版權所有 轉載請註明出處