[深度學習論文筆記][CVPR 18]Path Aggregation Network for Instance Segmentation
[CVPR 18]Path Aggregation Network for Instance Segmentation
Shu Liu, Lu Qi, Haifang Qin, Jianping Shi and Jiaya Jia
from
CUHK, Peking University, Sensetime & YouTu Lab
Motivation
本文提出了名為PANet的網路結構,用於物體檢測(object detection)和例項分割(instance segmentation)任務。該網路基於FPN[1]和Mask RCNN[2]模型之上提出了三點創新,顯著地提升了模型在物體檢測和例項分割網路上的效能:
- PANet改進了主幹網路結構,加強了特徵金字塔的結構,縮短了高低層特徵融合的路徑;
- 提出了更靈活的RoI池化。之前FPN的RoI池化只從高層特徵取值,現在則在各個尺度上的特徵裡操作;
- 預測mask的時候使用一個額外的fc支路來輔助全卷積分割支路的結果。
網路的結構圖如下所示,三個創新點對應的結構變化已經在圖中標出:
PANet在COCO 17例項分割競賽中取得了第一名的成績,在檢測任務中取得了第二的成績。
Method
Bottom-up Path Augmentation
FPN的網路結構如下圖所示:
PANet的主幹網路與FPN不同之處在於新構建的N2~N5卷積。從Ni層到Ni+1層的細節結構如下圖所示,其中的融合操作是逐畫素加和:
構建該新支路的優勢在於縮短了底層尺寸大的特徵到高層尺寸小的特徵之間的距離,讓特徵融合更加有效。其變化可以參考網路結構圖中紅色(原FPN特徵融合路徑)和綠色(PANet特徵融合路徑)虛線。綠色虛線所跨越的卷積層會更少。
Adaptive Feature Pooling
在FPN中,作者根據RoI的尺寸大小來決定在P2~P5的某個層上取特徵,且尺寸越大所操作的特徵越高,如下圖所示:
這篇文章的作者認為高低層特徵各有其優勢。高層特徵的視野域更大,小的RoI可以在這些特徵上獲取更豐富的上下文資訊。低層特徵可以幫助大的proposal更好地定位。這裡提出的池化方法則是在所有尺度的特徵上操作,之後進行融合,如下圖所示:
Fully-connected Fusion
作者認為全連線層與全卷積的網路相比能更好地獲取尺度更大的資訊,有助於區分兩個不同的例項或者一個例項的不同部位。其本質是全連線層是卷積核更大的卷積操作,因此能獲得更大的視野域。
在實現過程中,作者將RoI操作結果拉伸到28x28的尺寸,之後使用全連線操作得到784x1x1的前背景二分類結果,其中784=28x28。將該分割結果與全卷積得到的分割結果融合,即得到最終的分割結果。
Experiments
COCO
PANet在COCO 2016資料集上的例項分割和物體檢測效能如下所示,其中ms-train指的是使用多尺度的輸入影象進行訓練:
同時在COCO資料庫上作者也做了相近的對比試驗,以驗證各個模組的有效性:
Cityscapes & MVD
作者在Cityscapes和MVD資料庫上也測試了例項分割的效能,都有不錯的效果。結果如下圖所示,其中test tricks指的是測試階段使用所尺度圖片、圖片翻轉、mask投票和box投票等:
Reference
[1] T. Lin, P. Dollar, R. B. Girshick, K. He, B. Hariharan, and S. J. Belongie. Feature pyramid networks for object detection. In CVPR, 2017.
[2] K. He, G. Gkioxari, P. Dollar, and R. B. Girshick. Mask R-CNN. In ICCV, 2017.