1. 程式人生 > >【TuSimple】understanding convolution for semantic segmentation

【TuSimple】understanding convolution for semantic segmentation

引介

文章提出的網路在PASCAL VOC2012和Cityscapes上都叫TuSimple,TuSimple是指圖森公司. 不過文章讀起來也確實挺容易理解的.
這篇文章是2017年2月的文章,所屬領域為Semantic Segmentation.

Abstract

本文展示瞭如何通過操縱更適合實際使用的卷積相關操作來改進畫素級語義分割.首先,本文實現了dense upsampling convolution(DUC)來產生畫素級別的預測,目的是捕獲和編碼更加細節的資訊.然後,提出了一種hybird dilated convolution(HDC)框架用於編碼階段的使用,目的是改善由於dilated convolution造成的’gridding issue’.
本文提出的方法在Cityscapes和KITTI以及PASCAL VOC 2012當時都達到了state-of-the-art.

Introduction

在Semantic segmentation領域,目前最好的方法通常有一下三個組成部件:(1)FCN(2)CRFs(3)dilated convolution.自從FCN引入SS之後,研究人員主要關注兩個方面來提升效能:(1)更深的FCN models(2)能強大的CRFs.而本文另闢蹊徑,考慮從另一個角度提升SS效能:編碼和解碼過程中的卷積運算.解碼提出了DUC,編碼提出了HDC.

Approach

DUC
針對無法學習的二次上取樣和反捲積需要先填充0進行反池化和卷積操作的確定,本文提出DUC使用卷積操作直接生成pixel-wise的預測圖.DUC結構圖示如下:
1


原文描述得簡單易懂:
1
DUC對相對小的物體識別得很好.

HDC
這部分主要是針對dilated conv的”gridding issue”.這種現象圖示如下:
1
簡單描述就是如果多個層的dilation是一樣的,那麼網路貢獻的數值只有那些稀疏的點上的數值,當dilation變大的時候,由於downsampling等操作來自input的取樣會更加稀疏,區域性資訊可能完全喪失,同時大距離的資訊也可能不再相關.
本文為了改進這個問題,把dilatioin rate變成鋸齒形式的,也就是不同層之間的dilation不斷變化,導致了Fig2(b)的結果.
HDC的另一個優點是,由於dilation rates可以是任意的,所以能夠天然增大網路的感受野,對於識別相對大的物體表現得很好.
有個需要注意的地方,本文認為,在一組中的dilation rate不應該有公因子關係,否則gridding issue會仍然存在.

Experiments

接著就是實驗部分,具體細節參看原文,效果確實不錯.
1

相關資料