1. 程式人生 > >論文閱讀-《CoupleNet:Coupling Global Structure with Local Parts for Object Detection》

論文閱讀-《CoupleNet:Coupling Global Structure with Local Parts for Object Detection》

中科院nlpr實驗室 ICCV2017

1.Motivation

這篇文章主要是在R-FCN的基礎上改的。其主要的觀點就是R-FCN可以看成是對一個proposal,用一些position-sensitive的weak classifier去做檢測,然後把這些classifier的檢測結果ensemble起來(position-sensitive RoI pooling),因此作者指出這張方法沒有考慮到region proposal的global的資訊和context的資訊。

2.Contribution

在原來R-FCN的基礎上引入了proposal的global和context資訊,通過結合part,global,context的資訊,提高了檢測的精度
1


上面這張圖能夠比較形象地說明作者提出了CoupleNet的效果。

(a)圖裡面,對於邊界的物體,global的置信度不高,但是在人眼,嘴巴這些地方的local part的置信度比較高,結合之後可以得到人的檢測結果。

(b)圖,對於結構比較簡單的物體,比如餐桌,local part整體置信度比較低,但是global的置信度會比較高,結合之後也能檢測出餐桌。

3.Framework

2
上圖表示作者提出的CoupleNet的結構。

  • 最上面這條支路就是原本的R-FCN;
  • 中間這條支路是用來encode global info的,對於一個region proposal,依次通過 k x k的RoI Pooling,k x k的conv以及1 x 1 conv;
  • 最下面的支路是用來encode context prior的,對於一個region proposal,首先選擇以這個proposal為中心,面積是原來2倍的proposal,一樣依次通過k x k RoI Pooling,k x k conv以及1 x 1 conv;
  • 最後把local FCN和Global FCN的結果couple起來,作者選擇的是先各自通過1x1conv調整啟用值的scale,然後對應位置元素相加,最後通過一個softmax進行分類;
  • 對於座標迴歸,結構是一樣的。

4.Experiments

作者在VOC和COCO上做的實驗,結果都是當時single model裡面state-of-art的
3


4