ESPNet/ESPNetV2：空洞卷積金字塔 | 輕量級網路

阿新 • • 發佈：2021-01-28

> ESPNet系列的核心在於空洞卷積金字塔，每層具有不同的dilation rate，在引數量不增加的情況下，能夠融合多尺度特徵，相對於深度可分離卷積，深度可分離空洞卷積金字塔價效比更高。另外，HFF的多尺度特徵融合方法也很值得借鑑來源：曉飛的演算法工程筆記公眾號 # ESPNet *** **論文: ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation** ![](https://upload-images.jianshu.io/upload_images/20428708-1ba470beda87d0ac.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) * **論文地址：[https://arxiv.org/abs/1803.06815](https://arxiv.org/abs/1803.06815)** * **論文程式碼：[https://github.com/sacmehta/ESPNet](https://github.com/sacmehta/ESPNet)** ### Introduction ESPNet是用於語義分割的輕量級網路，核心在於ESP模組，該模組包含point-wise卷積和空洞卷積金字塔，分別用於降低計算複雜度以及重取樣各有效感受域的特徵。ESP模組比其它卷積分解方法(mobilenet/shufflenet)更高效，ESPNet能在GPU/筆記本/終端裝置上達到112FPS/21FPS/9FPS。 ### ESP module ![](https://upload-images.jianshu.io/upload_images/20428708-4cb0ebed597c9abb.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) ESP模組將標準卷積分解成point-wise卷積和空洞卷積金字塔(spatial pyramid of dilated convolutions)，point-wise卷積將輸入對映到低維特徵空間，空洞卷積金字塔使用$K$組$n\times n$空洞卷積同時重取樣低維特徵，每個空洞卷積的dilation rate為$2^{k-1}$，$k=\{1, \cdots, K\}$。這種分解方法能夠大量減少ESP模組的引數量和記憶體，並且保持較大的有效感受域。 * ##### Width divider K 對於輸入輸出維度為$M$和$N$，卷積核大小為$n\times n$的標準卷積，需要學習的引數量為$n^2MN$，有效感受域為$n^2$。超引數$K$用來調節ESP模組的計算複雜度，首先使用point-wise卷積將輸入維度從$M$降為$\frac{N}{K}$(reduce)，然後將低維特徵分別使用上述的空洞卷積金字塔進行處理(split and transform)，最後將K組空洞卷積的輸出合併(merge)。ESP模組包含$\frac{MN}{K}+\frac{(nN)^2}{K}$引數，有效感受域為$[(n-1)2^{K-1} + 1]^2$，在引數和感受域方面都有一定的提升。 * ##### Hierarchical feature fusion (HFF) for de-gridding ![](https://upload-images.jianshu.io/upload_images/20428708-8dc92d80fc6766f6.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 論文發現，儘管空洞卷積金字塔帶來更大的感受域，但直接concate輸出卻會帶來奇怪網格紋路，如圖2所示。為了解決這個問題，在concate之前先將輸出進行層級相加，相對於新增額外的卷積來進行後處理，HFF能夠有效地解決網格紋路而不帶來過多的計算量。另外，為了保證網路的梯度傳遞，在ESP模組添加了一條從輸入到輸出的shortcut連線。 ### Relationship with other CNN modules ![](https://upload-images.jianshu.io/upload_images/20428708-3543dd8131a071aa.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 論文列舉了部分輕量級網路的核心模組進行了對比，可以看到ESP模組在引數量/記憶體/感受域方面都有很不錯的數值。 ### ESPNet ![](https://upload-images.jianshu.io/upload_images/20428708-18b1478450a453fd.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 圖4為ESPNet的演進過程，$l$為特徵圖大小，相同$l$的模組具有相同大小的特徵圖，紅色和綠色模組分別為下采樣和上取樣模組，一般無說明即$\alpha_2=2$、$\alpha_3=8$。 ### Experiments 這裡只列舉了部分實驗，具體的其它實驗可以去看看論文。 ![](https://upload-images.jianshu.io/upload_images/20428708-677f6e90782eeaad.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 替換圖4d中的ESP模組進行實驗對比。 ![](https://upload-images.jianshu.io/upload_images/20428708-26f9111400400454.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 與其它語義分割模型進行對比。 ### Conclusion ESPNet是語義分割的輕量級網路，在保證輕量化的同時，針對語義分割的場景進行了核心模組的設計，使用空洞卷積金字塔進行多感受域的特徵提取以及引數量的減少，並且使用HFF來巧妙消除網格紋路，十分值得借鑑。 # ESPNetV2 *** **論文: ESPNetv2: A Light-weight, Power Efficient, and General Purpose Convolutional Neural Network** ![](https://upload-images.jianshu.io/upload_images/20428708-aaa81e20c6f4f388.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) * **論文地址：[https://arxiv.org/abs/1811.11431](https://arxiv.org/abs/1811.11431)** * **論文程式碼：[https://github.com/sacmehta/ESPNetv2](https://github.com/sacmehta/ESPNetv2)** ### Introduction 模型輕量化共包含3種方法，分別為模型壓縮，模型量化以及輕量化設計。論文設計了輕量級網路ESPNetv2，主要貢獻如下： * 通用的輕量化網路結構，能夠支援視覺資料以及序列化資料，即能支援視覺任務和自然語言處理任務。 * 在ESPNet基礎上，加入深度可分離空洞卷積進行拓展，相對於ESPNet擁有更好的精度以及更少的引數。 * 從實驗來看，ESPNetv2在多個視覺任務上有較好的準確率和較低的引數量，任務包括影象分類、語義分割、目標檢測。 * 設計了cyclic learning rate scheduler，比一般的固定學習率的scheduler要好。 ### Depth-wise dilated separable convolution ![](https://upload-images.jianshu.io/upload_images/20428708-dbedf8a156f5dce2.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 假設輸入為$X\in \mathbb{R}^{W\times H\times c}$，卷積核為$X\in \mathbb{K}^{n\times n\times c \times \hat{c}}$，輸出為$Y\in \mathbb{R}^{W\times H\times \hat{c}}$，標準卷積、分組卷積，深度分離卷積以及深度可分離空洞卷積的引數量和有效感受域如表1所示。 ### EESP unit ![](https://upload-images.jianshu.io/upload_images/20428708-dfaf6efb64885f05.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 論文基於深度可分離空洞卷積以及分組point-wise卷積改進ESP模組，提出了EESP(Extremely Efficient Spatial Pyramid)模組。原始的ESP模組結構如圖1a所示，論文首先將point-wise卷積替換為分組point-wise卷積，然後將計算量較大的空洞卷積替換為深度可分離空洞卷積，最後依然使用HFF來消除網格紋路，結構如圖1b所示，能夠降低$\frac{Md+n^2d^2K}{\frac{Md}{g}+(n^2+d)dK}$倍計算複雜度，$K$為空洞卷積金字塔層數。考慮到單獨計算$K$個point-wise卷積等同於單個分組數為$K$的point-wise分組卷積，而分組卷積的在實現上更高效，於是改進為圖1c的最終結構。 ![](https://upload-images.jianshu.io/upload_images/20428708-da45c82fbd92176d.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 為了更高效地學習多尺度特徵，論文提出下采樣版本的EESP模組(Strided EESP with shortcut connection to an input image)，主要進行以下改進： * 修改深度可分離空洞卷積為stride=2的版本。 * 為模組原本的shortcut新增平均池化操作。 * 將element-wise相加操作替換為concate操作，這樣能增加輸出的特徵維度。 * 為防止隨著下采樣產生的資訊丟失，新增一條連線輸入影象的shortcut，該路徑使用多個池化操作來使其空間大小與模組輸出的特徵圖一致，然後使用兩個卷積來提取特徵並調整維度，最後進行element-wise相加。 ### Network architecture ![](https://upload-images.jianshu.io/upload_images/20428708-5d5cffa68e244129.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) ESPNetv2的網路結構如表2所示，ESSP模組的每個卷積後面都接BN層以及PReLU，模組最後的分組卷積的PReLU在element-wise相加後進行，$g=K=4$，其它與ESPNet類似。 ### Cyclic learning rate scheduler 在影象分類的訓練中，論文設計了迴圈學習率排程器，在每個週期$t$，學習率的計算為： ![](https://upload-images.jianshu.io/upload_images/20428708-25d80f8c545ad3b3.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) $\eta_{max}$和$\eta_{min}$分別為最大和最小學習率，$T$為迴圈週期。 ![](https://upload-images.jianshu.io/upload_images/20428708-30af4b06ccb7a7b6.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 迴圈學習率排程器的視覺化如圖4所示。 ### Experiments ![](https://upload-images.jianshu.io/upload_images/20428708-b612195563581152.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 影象分類效能對比。 ![](https://upload-images.jianshu.io/upload_images/20428708-702d19f2743b6be4.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 語義分割效能對比。 ![](https://upload-images.jianshu.io/upload_images/20428708-25e7552bd1bf18a0.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 目標檢測效能對比。 ![](https://upload-images.jianshu.io/upload_images/20428708-855d6024d97adb2e.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 文字生成效能對比。 ### Conclusion ESPNetv2在ESPNet的基礎上結合深度分離卷積的設計方法，進行了進一步的模型輕量化，結合了更豐富的特徵融合，模型能夠拓展到多種任務中，具有很不錯的效能。 # CONCLUSION *** ESPNet系列的核心在於空洞卷積金字塔，每層具有不同的dilation rate，在引數量不增加的情況下，能夠融合多尺度特徵，相對於深度可分離卷積，深度可分離空洞卷積金字塔價效比更高。另外，HFF的多尺度特徵融合方法也很值得借鑑。 > 如果本文對你有幫助，麻煩點個贊或在看唄～更多內容請關注微信公眾號【曉飛的演算法工程筆記】 ![work-life balance.](https://upload-images.jianshu.io/upload_images/20428708-7156c0e4a2f49bd6.png?imageMogr2/auto-orient/strip%7CimageView2/2

ESPNet/ESPNetV2：空洞卷積金字塔 | 輕量級網路

ESPNet/ESPNetV2：空洞卷積金字塔 | 輕量級網路

空域分析及變換（1）：濾波卷積

Dilated/Atrous conv空洞卷積/多孔卷積

空洞卷積與反捲積

關於dilated convolution(空洞卷積)感受野的計算

CNN：對於卷積的理解

對深度可分離卷積、分組卷積、空洞卷積、轉置卷積的理解

opencv學習（九）：利用卷積對影象模糊處理

Tensorflow】tf.nn.atrous_conv2d如何實現空洞卷積？

[深度學習]Semantic Segmentation語義分割之空洞卷積DILATED CONVOLUTIONS(4)

轉：全卷積網路（FCN）與影象分割

Tensorflow函式 tf.nn.atrous_conv2d如何實現空洞卷積？

[AI教程]TensorFlow入門：訓練卷積網路模型解決分類問題

[卷積]空洞卷積的改進

【深度學習】8：CNN卷積神經網路與sklearn資料集實現數字識別

tensorflow 學習專欄（六）：使用卷積神經網路（CNN）在mnist資料集上實現分類

TensorFlow實戰：經典卷積神經網路（AlexNet、VGGNet）

Tensorflow例項：（卷積神經網路）LeNet-5模型

機器學習：利用卷積神經網路實現影象風格遷移 (一)

論文理解：基於卷積神經網路的人臉識別方法

ESPNet/ESPNetV2：空洞卷積金字塔 | 輕量級網路

相關推薦