學習筆記2022.1.2
FPN (CVPR 2017)
1.概述
-
名稱:特徵圖金字塔網路FPN(Feature Pyramid Networks)
-
解決問題:物體檢測中的多尺度問題(?)
-
效果:簡單改變網路連線,不增加計算量,但提高對小物體的檢測效能
-
獨特之處:低層的特徵語義資訊較少,但目標位置資訊準確;高層的特徵語義資訊較豐富,但目標位置資訊粗略。有些演算法採用多尺度特徵融合的方式,但一般是用融合後的特徵做預測,而FPN是在不同特徵層獨立進行預測
2.對比
-
常見的網路結構(就是普通的CNN):如SPP-Net、Fast R-CNN、Faster R_CNN等,都是自底向上卷積,用最後一層特徵圖進行預測,存在對小物體檢測能力下降的問題(若原圖中某物體面積小於最後一層特徵圖中每個畫素點對映的原圖區域大小,就會被忽略(?))
-
圖片金字塔(手工時代?):按比例縮放圖片,形成圖片金字塔,生成每張圖片的對應特徵圖後單獨預測,但是太耗時,一般在測試時用
-
多尺度特徵融合:同SSD一樣,但FPN作者認為SSD用的底層特徵還不夠底層
-
FPN (Feature Pyramid Networks):對高層特徵進行上取樣,低層特徵進行自頂向下的連線,每一層都會進行預測
-
top-down pyramid w/o lateral:這是作者設計出來做實驗對比的,有自頂向下,沒有橫向連線(論文沒有原圖,魔改了)
-
only finest nevel:同上,有橫向,只在最後一層進行預測
3.FPN詳解(主要結構的三個方面,對應圖看)
-
主網路:ResNet(具體細節還需要看原文?)
-
自底向上:CNN的正常前向傳播,得到一層層特徵(這裡涉及ResNet內容?)
-
自上而下:把高層特徵圖進行上取樣(upsampling),生成與各層特徵圖大小相同的另外的特徵圖;再用橫向連線將上取樣的結果和自底向上生成的相同大小的feature map進行融合(merge),其中橫向連線的兩層特徵空間尺寸相同,這樣可以利用底層定位細節資訊。將低解析度的特徵圖做2倍上取樣(為了簡單起見,使用最近鄰上取樣)。然後通過按元素相加,將上取樣對映與相應的自底而上對映合併。這個過程是迭代的,直到生成最終的解析度圖
-
橫向連線(側邊融合):用1 * 1的卷積核進行連線
4.實驗與對比(暫略)
- 與RPN結合
- 與其他網路對比