影象語義分割(6)-RefineNet:用於高解析度影象語義分割的帶有恆等對映的多路精細網路
阿新 • • 發佈:2019-01-14
論文地址 :RefineNet: Multi-Path Refinement Networks with Identity Mappings for High-
Resolution Semantic Segmentation
論文程式碼:github連結
1. 問題提出
使用深度卷積神經網路進行影象語義分割都會遇到這樣的問題:pooling和卷積步長導致feature map尺寸降低,損失了精細特徵,針對這個問題很多論文提出瞭解決方案:
- pooling下采樣導致解析度的損失,採用DeConv反捲積方式很難恢復位置資訊;
- 使用空洞卷積增大感受野,,但是這樣有兩個缺點:(1)增加了計算代價;(2)空洞卷積本質是一個粗糙的Sub-Sampling,損失了重要的資訊[是不是一個改進的點,還是已經得到了改進?];
- skip-connections產生高解析度的預測,這也是本文作者借鑑的點;
2. 提出方案
- 提出多路RefineNet,利用多個層級的特徵,使得語義分割更加精確
- 利用Residual Connections(恆等對映),使得梯度更加容易長/短傳,使端到端的訓練更加高效
- 提出chained residual pooling,可以從較大的區域捕捉北京的上下文資訊
3. 基本架構
RefineNet架構靈活,和FCN一樣可以有多種變形:
3.1 Single RefineNet
3.1 2-cascaded RefineNet
3.1 4-cascaded RefineNet
3.1 4-cascaded 2-scale RefineNet
4. 架構解讀
從上一節可以看到,模型的基本結構是RefineNet Block,詳細結構如下:
4.1 RCU:Residual Convolution Unit
這一部分主要用於微調預訓練好的ResNet來適應我們自己的任務,是原始ResNet的一個卷積單元的卷積版本,如3.3中的圖片,RefineNet-4的filters數量是512,其餘三個都是256。
4.2 Multi-Resolution Fusion
這一部分中,實現對輸入進行卷積以產生相同維度的特徵圖,然後把所有特徵圖上取樣至最大的輸入的尺寸,最後將所有特徵圖fused by summation。如果只有一個輸入路徑(3.3中的RefineNet-4),那麼這個輸入可以跳過這個模組,也就是go through without changes。
4.3 Chained Residual Pooling
這個模組主要用於較大影象區域中捕獲背景的上下文資訊。
4.4 Output Convolutions
這個部分由三個RCU串聯而成,主要將非線性操作應用到多路融合的特徵圖從而產生用於分類的特徵圖,通過這個部分特徵圖維度不變。