1. 程式人生 > >完語義分割經典論文:DeepLab

完語義分割經典論文:DeepLab

Here we go

本文所提到的是DeepLabv2: DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
專案地址:http://liangchiehchen.com/projects/DeepLab.html
University of California- Los Angeles的Liang-Chieh Chen(左0)和 google的George Papandreou(左1The first two authors contribute equally to this work 純潔的革命友誼!


這裡寫圖片描述 這裡寫圖片描述

關鍵詞:Atrous Convolution ;hole演算法
本文貢獻主要在 3 4個方面:
1. Atrous Convolution 也就是前一版中 hole演算法
2. Atrous spatial pyramid pooling(ASPP)
3. CRF
4. 101篇參考文獻,良心出品!

故事背景

FCN出現之前分割技術和分類技術還不是在一個全卷積網路中的,也有很多好的文章值得一讀,FCN把全連線改為了卷積,score map上取樣之後對圖片進行畫素級的分割,後續也有很多文章對其進行改進並取得了不錯效果,本文就是其中具有代表性的一個工作,其中本文用到的hole演算法比較經典,也是本文重點介紹的地方,至於CRF,感興趣的童鞋可以找相關文獻擼公式。
本文在當時Pascal 刷到79.7%,不錯的成績了,說到Pascal 禁不住感嘆下Jianping團隊,現在的成績,,,

一句話總結:

本文降低stride並使用hole演算法代替上取樣,使用multi-scale,endtoend訓練之後加入crf,得到了比較好的結果,其中最高是使用coco pretrain的ResNet101模型,輸入三種圖片尺度融合之後使用CRF,達到79.7%的效果。

1. Atrous Convolution

atrous convolution 簡單來理解就是將filter中以rate=r的間隔保留引數,結合下圖:
這裡寫圖片描述
可以看到此一維atrous convolution 中 雖然kernel size的跨度為5,但是這個filter是帶孔的,也就是實際只有3個不為零,這樣改動的優點有:
- 與kernel size=5的filter相比,引數量要少(與kernel size=3相同),計算量要少,輸出的feature 卻相同dense的feature
- 可以通過rate的大小,較隨意的設定感受野大小,卻不用擔心padding過大的問題,這也是為aspp奠定了基礎
實施中,作者分別在caffe和TensorFlow中使用了不同的方案:caffe中通過修改im2col函式來調整對feature maps的取樣,而在TensorFlow中則通過產生r

2個子feature maps 保持filter不變來達到 相同的效果。

2. Multiscale

本文中 用了兩種方法,在VGGs中通過ASPP進行了4個不同感受野的feature maps的融合。
另外在ResNet101上直接使用了三種不同尺寸的原始圖片輸入同一引數的模型中,aspp之後,對得到的score maps進行融合。

3. Results

這裡只列出Pascal voc 2012的結果,使用power等於0.9的poly的學習策略要好於step,crf後面會有文章詳細介紹,其他影響因素見下表:
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述