目標檢測之FPN(Feature Pyramid Net)
阿新 • • 發佈:2018-12-19
FPN思想
FPN的思想來源是傳統影象處理中的影象金字塔(image pyramid),例如sift特徵構建中使用的不同尺度的影象金字塔。FPN思想的主要是用來提高模型對不同大小輸入影象以及目標檢測問題中不同大小物體的魯棒性。
模型結構
- (a)中的影象金字塔,即將影象resize到不同的大小,然後分別對不同大小的圖片使用模型進行訓練和檢測。這種方法的缺點在於增加了時間成本。有些演算法會在測試時候採用影象金字塔。
- SPP net,Fast RCNN,Faster RCNN是採用(b)方式,即僅採用網路最後一層的特徵。
- SSD(Single Shot Detector)採用(c)多尺度特徵的方式,沒有上取樣過程,即從網路不同層抽取不同尺度的特徵做預測,這種方式不會增加額外的計算量。作者認為SSD演算法中沒有用到足夠低層的特徵(在SSD中,最低層的特徵是VGG網路的conv4_3),而在作者看來足夠低層的特徵對於檢測小物體是很有幫助的。但是我個人認為,在這裡SSD只是用了一個淺層layer的特徵,進行目標檢測,會缺少全域性語義特徵。只是用一個深層layer的特徵進行目標檢測會缺少區域性特徵細節。這才是SSD在使用多尺度特徵進行目標檢測的時候的主要問題
- FPN採用(d)方式,多尺度特徵融合,實現了在目標檢測的時候既考慮全域性特徵同時又考慮區域性特徵。
多尺度特徵融合方式
- 將上層特徵進行上取樣得到和下層特徵圖同樣大小的特徵圖,然後兩個特徵圖進行融合得到最終的特徵圖,使用該特徵圖作為進一步處理的輸入特徵。