從Winograd演算法看INT8量化及卷積加速原理

阿新 • • 發佈：2020-09-08

Winograd演算法

主要參考了shine-lee大神的文章《卷積神經網路中的Winograd快速卷積演算法》，詳細請參閱原文。

Winograd演算法論文出自CVPR 2016的一篇 paper：Fast Algorithms for Convolutional Neural Networks。

當前的流行的推理框架（加速器），如NCNN、NNPACK、TNN等，可以看到，對於卷積層，大家不約而同地採用了Winograd快速卷積演算法，那到底Winograd演算法是個什麼呢。

問題定義

將一維卷積運算定義為

m+r-1，卷積運算是對應位置相乘然後求和，輸入訊號每個位置至少要參與1次乘法，所以乘法數量最少與輸入訊號長度相同，記為

在行列上分別進行一維卷積運算，可得到二維卷積，記為，輸出為，卷積核為，則輸入訊號為，乘法數量至少為

若是直接按滑動視窗方式計算卷積，一維時需要次乘法，二維時需要次乘法，遠大於上面計算的最少乘法次數。

使用Winograd演算法計算卷積快在哪裡？一言以蔽之：快在減少了乘法的數量，將乘法數量減少至或。

怎麼減少的？請看下面的例子。

一個例子 F(2, 3)

先以1維卷積為例，輸入訊號為，卷積核為，則卷積可寫成如下矩陣乘法形式：

如果是一般的矩陣乘法，則需要6次乘法和4次加法

，如下：

但是，卷積運算中輸入訊號轉換成的矩陣不是任意矩陣，其中有規律地分佈著大量的重複元素，比如第1行和第2行的和，卷積轉換成的矩陣乘法比一般矩陣乘法的問題域更小，這就讓優化存在了可能。

Winograd是怎麼做的呢？

其中，

乍看上去，為了計算，需要的運算次數分別為：

輸入訊號d

輸出

在神經網路的推理階段，卷積核上的元素是固定的，因此

與直接運算的6次乘法和4次加法相比，乘法次數減少，加法次數增加。在計算機中，乘法一般比加法慢，通過減少減法次數，增加少量加法，可以實現加速。

1D winograd

上一節中的計算過程寫成矩陣形式如下：

其中，

對於二維的卷積：

對於二維情況
numpy.einnum('ij,ij->', A, B)
對於三位情況
numpy.einnum('ijk,ijk->ijk', A, B)

回到Winograd演算法，

卷積核

輸入

Filter transform矩陣，尺寸

Input transform矩陣，尺寸

Output transform矩陣，尺寸

整個計算過程在邏輯上可以分為4步：

Input transform
Filter transform
Hadamar product
Output transform

注意，這裡寫成矩陣形式，並不意味著實現時要呼叫矩陣運算的介面，一般直接手寫計算過程速度會更快，寫成矩陣只是為了數學形式。

1D to 2D，F(2, 3) to F(2x2, 3x3)

上面只是看了1D的一個例子，2D怎麼做呢？

論文中一句話帶過：

A minimal 1D algorithm F(m, r) isnested with itselfto obtain a minimal 2D algorithm,F(m×m, r×r).

其中，

問題是：怎麼nested with itself？

這裡繼續上面的例子，擴充套件到2D，，先寫成矩陣乘法，見下圖，圖片來自SlideShare，注意數學符號的變化，

將卷積核的元素拉成一列，將輸入訊號每個滑動視窗中的元素拉成一行。注意圖中紅線劃分成的分塊矩陣，每個子矩陣中重複元素的位置與一維時相同，同時重複的子矩陣也和一維時相同，如下所示

令，即視窗中的第0行元素，表示第1、2、3行；，

卷積運算為對應位置相乘再相加，上式中，表示長度為4的與長度為3的卷積結果，結果為長度為2的列向量，其中，和均為長度為4的列向量，進一步地，可以看成3對長度為4的列向量兩兩對應位置相乘再相加，結果為長度為4的列向量，也可以看成是4組長度為3的行向量的點積運算，同樣，也是4組長度為3的行向量的內積運算，考慮兩者的重疊部分和，恰好相當於的每一行在

所謂的nested with itself如下圖所示，

此時，Winograd演算法的乘法次數為16（上圖

卷積神經網路中的Winograd

要將Winograd應用在卷積神經網路中，還需要回答下面兩個問題：

上面我們僅僅是針對一個小的image tile，但是在卷積神經網路中，feature map的尺寸可能很大，難道我們要實現
在卷積神經網路中，feature map是3維的，卷積核也是3維的，3D的winograd該怎麼做？

第一個問題，在實踐中，會將input feature map切分成一個個等大小有重疊的tile，在每個tile上面進行winograd卷積。

第二個問題，3維卷積，相當於逐層做2維卷積，然後將每層對應位置的結果相加，下面我們會看到多個卷積核時更巧妙的做法。

這裡直接貼上論文中的演算法流程：

整體仍可分為4步，

Input transform
Filter transform
Batched-GEMM（批量矩陣乘法）
Output transform

演算法流程視覺化如下，圖片出自論文Sparse Winograd Convolutional neural networks on small-scale systolic arrays，與演算法對應著仔細推敲還是挺直觀的。

注意圖中的Matrix Multiplication，對應3維卷積中逐channel卷積後的對應位置求和，相當於個矩陣乘積，參與乘積的矩陣尺寸分別為，把Channel那一維消掉。

總結

Winograd演算法通過減少乘法次數來實現提速，但是加法的數量會相應增加，同時需要額外的transform計算以及儲存transform矩陣，隨著卷積核和tile的尺寸增大，就需要考慮加法、transform和儲存的代價，而且tile越大，transform矩陣越大，計算精度的損失會進一步增加，所以一般Winograd只適用於較小的卷積核和tile（對大尺寸的卷積核，可使用FFT加速，主要是因為現在流行小卷積核，比如1×1、3×3。FFT只有在卷積核超過大約9×9×9的時候，才有速度優勢。這是在CPU上用MKL做的測試。不過depth wised conv有取代Winograd的趨勢，因為對於1×1、3×3，如果用global depth wised conv的話是不是就體現不出Winograd的優勢，這是一個思考點），在目前流行的網路中，小尺寸卷積核是主流，典型實現如
就卷積而言，Winograd演算法和FFT類似，都是先通過線性變換將input和filter對映到新的空間，在那個空間裡簡單運算後，再映射回原空間。
與im2col+GEMM+col2im相比，winograd在劃分時使用了更大的tile，就劃分方式而言，

現在瞭解了Winograd演算法，但是它是如何和INT8量化結合實現更進一步的加速呢？

Int8 Convolution 流程：

input_fp32 -> quantize -> int8-conv -> Int32 -> dequantize -> output_fp32

Int8 Winograd流程：

input_fp32 -> quantize -> int8-winograd -> Int32 -> dequantize -> output_fp32

是不是結合《從TensorRT看INT8量化原理》就突然豁然開朗了呢，其中可以參考文章中的2.3 DP4A(DotProduct of48-bitsAccumulated to a 32-bit)

Reference

[1]https://www.cnblogs.com/shine-lee/p/10906535.html

[2]https://baike.baidu.com/item/%E5%93%88%E8%BE%BE%E7%8E%9B%E7%A7%AF/18894493?fr=aladdin

[3]https://www.zhihu.com/question/264307400

[4]https://zhuanlan.zhihu.com/p/67718316

[5]https://www.jianshu.com/p/7a2eb2da0f60

從Winograd演算法看INT8量化及卷積加速原理

Winograd演算法主要參考了shine-lee大神的文章《卷積神經網路中的Winograd快速卷積演算法》，詳細請參閱原文。

Tensorflow卷積實現原理+手寫python程式碼實現卷積教程

從一個通道的圖片進行卷積生成新的單通道圖的過程很容易理解，對於多個通道卷積後生成多個通道的圖理解起來有點抽象。本文以通俗易懂的方式講述卷積，並輔以圖片解釋，能快速理解卷積的實現原理。最後手寫python程式

詳解卷積中的Winograd加速演算法

6. 何時開啟WinoGrad卷積和Sgemm用於卷積一樣，我們也需要思考WinoGrad在何種情況下是適用的，或者說是有明顯加速的。這篇文章介紹的WinoGrad卷積是針對NCHW這種記憶體排布的，然後我們來看一下NCNN在基於NCHW這種

從 HTTP 角度看 Go 如何實現檔案提交

早前寫過一篇文章，Go HTTP 請求 QuickStart。當時，主要參考 Python 的 requests 大綱介紹 Go 的 net/http 如何發起 HTTP 請求。

從可逆計算看宣告式程式設計

可逆計算是筆者提出的下一代軟體構造理論，它的核心思想可以表示為一個通用的軟體構造公式

從Linux原始碼看Socket(TCP)Client端的Connect

從Linux原始碼看Socket(TCP)Client端的Connect 前言筆者一直覺得如果能知道從應用到框架再到作業系統的每一處程式碼，是一件Exciting的事情。

深度解讀 OpenYurt：從邊緣自治看 YurtHub 的擴充套件能力

作者 | 新勝阿里雲技術專家導讀：OpenYurt 開源兩週以來，以非侵入式的架構設計融合雲原生和邊緣計算兩大領域，引起了不少行業內同學的關注。阿里雲推出開源專案 OpenYurt，一方面是把阿里雲在雲原生邊緣計算領域

從聯結器元件看Tomcat的執行緒模型——BIO模式

在高版本的Tomcat中，預設的模式都是使用NIO模式，在Tomcat 9中，BIO模式的實現Http11Protocol甚至都已經被刪除了。但是瞭解BIO的工作機制以及其優缺點對學習其他模式有有幫助。只有對比後，你才能知道其他模式的優勢

從聯結器元件看Tomcat的執行緒模型——NIO模式

Tomcat8之後，針對Http協議預設使用org.apache.coyote.http11.Http11NioProtocol，也就是NIO模式。通過之前的部落格分析，我們知道Connector元件在初始化和start的時候會觸發它子元件（Http11NioProtocol、NIOEndpoi

CondenseNet：可學習分組卷積，原作對DenseNet的輕量化改造 | CVPR 2018

CondenseNet特點在於可學習分組卷積的提出，結合訓練過程進行剪枝，不僅能準確地剪枝，還能繼續訓練，使網路權重更平滑，是個很不錯的工作

從MySQL原始碼看其網路IO模型

從MySQL原始碼看其網路IO模型前言 MySQL是當今最流行的開源資料庫，閱讀其原始碼是一件大有裨益的事情(雖然其程式碼感覺比較凌亂)。而筆者閱讀一個Server原始碼的習慣就是先從其網路IO模型看起。於是，便有了本篇部

從linux原始碼看socket(tcp)的timeout

從linux原始碼看socket(tcp)的timeout 前言網路程式設計中超時時間是一個重要但又容易被忽略的問題,對其的設定需要仔細斟酌。在經歷了數次物理機宕機之後,筆者詳細的考察了在網路程式設計(tcp)中的各種超時設定，於

從linux原始碼看epoll

從linux原始碼看epoll 前言在linux的高效能網路程式設計中，繞不開的就是epoll。和select、poll等系統呼叫相比,epoll在需要監視大量檔案描述符並且其中只有少數活躍的時候，表現出無可比擬的優勢。epoll能讓核心記住

從linux原始碼看socket的close

從linux原始碼看socket的close 筆者一直覺得如果能知道從應用到框架再到作業系統的每一處程式碼，是一件Exciting的事情。上篇部落格講了socket的阻塞和非阻塞，這篇就開始談一談socket的close(以tcp為例且基於linux-

聯合列舉型別：從C語言看列舉與聯合型別到TypeScript/Python

列舉，還是從hello world 開獎，大部分的人應該是從C開始的，比如我。當然，這部分也可以跳過。

SVD及在卷積層的應用

SVD及在卷積層的應用講SVD分解之前先得講特徵值分解（EVD），在EVD的基礎上理解SVD會更容易些

【拍3件】美味從“芯”發現：高樂高卷卷心糕點8枚裝*3盒29.7元

【拍3件】美味從“芯”發現：高樂高卷卷心糕點8枚裝*3盒報價59.7元，限時限量30元券，實付29.7元包郵，領券併購買。

從Linux原始碼看Socket(TCP)的bind

從Linux原始碼看Socket(TCP)的bind 前言筆者一直覺得如果能知道從應用到框架再到作業系統的每一處程式碼，是一件Exciting的事情。今天筆者就來從Linux原始碼的角度看下Server端的Socket在進行bind的時候到底做了哪

卷積神經網路5-池化層及全連線

1.池化層的作用除了卷積層，卷積網路也經常使用池化層，來縮減模型大小，提高計算速度；同時提高所提取特徵的魯棒性。

影象處理之卷積模式及C++實現

1. 卷積的三種模式深度學習框架中通常會實現三種不同的卷積模式，分別是 SAME、VALID、FULL。這三種模式的核心區別在於卷積核進行卷積操作的移動區域不同，進而導致輸出的尺寸不同。我們以一個例子來看這三種模式的

從Winograd演算法看INT8量化及卷積加速原理

問題定義

一個例子 F(2, 3)

1D winograd

1D to 2D，F(2, 3) to F(2x2, 3x3)

卷積神經網路中的Winograd

總結

相關推薦