[CVPR2018] An Analysis of Scale Invariance in Object Detection – SNIP

阿新 • • 發佈：2019-01-12

An Analysis of Scale Invariance in Object Detection – SNIP

簡介

這篇文章分析了小尺度與預訓練模型尺度之間的關係, 並且提出了一個和有異曲同工之妙的中心思想: 要讓輸入分佈接近模型預訓練的分佈(本文主要探討尺度的分佈不一致帶來的問題).
之後利用分析的結論, 提出了一個多尺度訓練(MST)的升級版:Scale Normalization for Image Pyramids (SNIP).

分類和檢測的難度差異

上了深度網路後, 分類任務已經做到了誤差率2%(ImageNet). 為什麼在COCO上才62%? 這麼懸殊的距離主要因為檢測資料集中包含了大量小物體, 他們成了絆腳石.
這裡寫圖片描述

* 結論: 檢測器必須同時應對如此之大的尺度變化的樣本, 這就導致了我們使用ImageNet(或其他分類)預訓練模型時, 有嚴重的domain-shift問題.

各種對付尺度變化的方法

深淺特徵融合
改變卷積核(Dilated/Deformable)來識別大物體
每層獨立predict
多尺度訓練/測試

作者丟擲的兩個問題

檢測中把圖片放大了再使用對效能提升至關重要嗎 (通常480x640的尺寸要放大到800x1200)?
為了檢測小物體, 可以不可以在ImageNet上用低畫素圖片預訓練一個縮放倍數較小的CNN?
用ImageNet做預訓練模型的時候訓練檢測器的時候, 是否所有尺寸的object都可以參與進來?
還是隻是一小部分在範圍內的模型(如 64x64 到 256x256)

分析現存的解決方法

淺層小物體, 深層大尺度

例子: SDP, SSH, MS-CNN.
缺點: 在淺層預測小物體時, 是以犧牲語意抽象性來實現的.

特徵融合/特徵金字塔

儘管Feature Pyramids 有效的綜合了多卷積層特徵圖資訊，但是對於very small/large objects 檢測效果不是很好

例子: FPN, Mask-RCNN, RetinaNet
缺點: 若一個25x25的物體, 即使融合上取樣x2後也仍然只有50x50. 距離預訓練模型224x224還是有很大差距.

多尺度分類問題

藉由分類模型的實驗, 探索檢測中domain-shift帶來的影響. 檢測中的Domain-shift主要來自於訓練/測試尺度不匹配:
* 訓練800x1200. 因為視訊記憶體有所限制, 不能更大了
* 測試1400x2000. 為了提升小物體檢測效能

這裡寫圖片描述

CNN-B: 原圖訓練 / 偽高清測試

CNN-B是一個在224x224尺度上訓練的模型, 其 $s t r i d e = 2$ . 我們將測試圖片降取樣到 [48x48, 64x64, 80x80, 96x96,128x128], 然後再放大回224x224用於測試. 結果如圖:
這裡寫圖片描述
* 結論: 訓/測尺度(實際上是清晰度)差距越大, 效能跌的越厲害. 因為不用與訓練尺度相互匹配的尺度進行測試, 會使得模型一直在sub-optimal發揮.

CNN-S: 低清訓練 / 低清測試

CNN-S是根據上述原則, 我們做一個訓/測尺度匹配的實驗. 選取48x48作為訓/測尺度. 並且 $s t r i d e = 1$ , 因為如果不修改 $s t r i d e$ 的話很容易就卷沒了. 模型架構變了, 於是針對與上文CNN-S的可比較性問題, 作者說:

After-all, network architectures which obtain best performance on CIFAR10 [17] (which contains small objects) are different from ImageNet

這裡寫圖片描述

根據結果看到, 訓/測尺度匹配後, 效能大幅提升. 同樣將48換成96也得到一致的結果.

CNN-B-FT: 原圖訓練, 偽高清微調 / 偽高清測試

我們很容易想到的另一種方法就是, 為了在偽高清尺度測試, 我們就把由原圖訓練的CNN-B用偽高清去做微調. 最終CNN-B-FT的結果甚至好於CNN-S.

這裡寫圖片描述

結論

從CNN-B-FT的實驗可以得出: 在高清訓練集學出來的模型依然有辦法在低清晰度的圖片上做預測. 直接用低清晰度圖片微調好過將 $s t r i d e$ 降低重新訓練一個.
推廣到目標檢測上, 當尺度不同時, 我們可以選擇更換在ImageNet上pre-trained網路架構. 或者我們根據上述結論, 直接使用同一個網路架構, 因為在分類任務上學到的大目標權重可以幫助我們在小目標上的分類.

分析尺度變化

資料庫中原圖尺寸為640x48, 小物體是小於32x32的物體

實驗 $800_{a l l}$ vs $1400_{a l l}$

實驗設定: 我們選用800x1200和1400x2000兩種訓練尺度, 分別記作 $800_{a l l}$ 和 $1400_{a l l}$ . 測試時, 我們都使用1400x2000的尺度.
結果比較:

$800_{a l l}$	$1400_{a l l}$
19.6	19.9

* 分析: 正如之前分析的一樣, 當訓/測尺度一致時, 得到的結果最好. 所以 $1400_{a l l}$ 勝出.
* 問題: 但是為什麼只超過了一點點呢? 因為在考慮小物體的分類效能而放大圖片的同時, 也將中/大尺度的樣本放大得太大, 導致無法正確識別.

實驗 $1400_{< 80 p x}$

實驗設定: 用了大圖, 卻被中/大尺寸的樣本破壞了效能, 那麼我們就只用小於某閾值的樣本進行訓練, 即在原圖尺寸中 $> 80 p x$ 的樣本直接拋棄, 只保留 $< 80 p x$ 的樣本參與訓練.
結果比較:

$1400_{< 80 p x}$	$800_{a l l}$	$1400_{a l l}$
16.4	19.6	19.9

* 分析問題: 跟預想的不一樣, 為什麼效能下降這麼多? 其根本原因是因為這種做法拋去了太多的樣本(~30%), 導致訓練集豐富性下降, 尤其是拋棄的那個尺度的樣本.

實驗多尺度訓練(MST)

實驗設定: 多尺度訓練保證了各個尺度的樣本, 都有機會被縮放到合理的尺度區間參與訓練.
結果比較:

$1400_{< 80 p x}$	$800_{a l l}$	$1400_{a l l}$	$M S T$
16.4	19.6	19.9	19.5

* 分析問題: 其最終效能跟 $800_{a l l}$ 沒太大差別, 主要原因和”實驗 $800_{a l l}$ vs $1400_{a l l}$ 類似, 因為這一次引入了極大/極小的訓練樣本.

Scale Normalization for Image Pyramids (SNIP)

思想: SNIP是MST的升級版. 只有當這個物體的尺度與預訓練資料集的尺度(通常224x224)接近時, 我們才把它用來做檢測器的訓練樣本.
還基於一個假設, 即不同尺度的物體, 因為多尺度訓練, 總有機會落在一個合理的尺度範圍內. 只有這部分合理尺度的物體參與了訓練, 剩餘部分在BP的時候被忽略了

SNIP操作

這裡寫圖片描述

RPN階段

用所有的GroundTruth給Anchors分配好+/-標籤
根據第 $i$ 個尺度下的valid range: $[s_{i}, e_{i}]$ , 將GroundTruth根據是否落在範圍內分為Valid/Invalid GT
去除那些 $I o U_{(a n c h o r s | I n v a l i d G T)} > 0.3$ 的Anchors

FC階段

用所有的GroundTruth給ProposalRoIs分配好類別標籤
棄用不在 $[s_{i}, e_{i}]$ 範圍內的GT和Proposals
全被剔除了的處理:

If there are no ground truth boxes within the valid range at a particular resolution in an image, that image- resolution pair is ignored during training

測試階段

用多尺度正常進行測試
在合併多尺度Detection之前, 只在各個尺度留下滿足其條件的Detection
Soft-NMS合併 (對比的其他模型有沒有soft-nms?)

Sub-Image取樣

考慮到GPU視訊記憶體, 需要crop圖片來滿足視訊記憶體侷限.
* 用最少數量的1000x1000的chips來囊括所有的小物體. 如果沒有小物體的話, 這個區域就不需要進行任何計算, 加速訓練.
* 操作:
只對1400x2000的圖片進行取樣. 800x1200/480x640/圖片無小物體時, 不進行取樣

sampled_chips = []
while num_sampled_unique_object < num_object:
    chips = get_random_chips(size=(1000,1000), number=50)
    sampled_chips.append( chips.where(chips.num_objects is max ) )
sampled_chips = sampled_chips.truncate_boundary()

[CVPR2018] An Analysis of Scale Invariance in Object Detection – SNIP

An Analysis of Scale Invariance in Object Detection – SNIP

簡介

分類和檢測的難度差異

各種對付尺度變化的方法

作者丟擲的兩個問題

分析現存的解決方法

淺層小物體, 深層大尺度

特徵融合/特徵金字塔

多尺度分類問題

CNN-B: 原圖訓練 / 偽高清測試

CNN-S: 低清訓練 / 低清測試

CNN-B-FT: 原圖訓練, 偽高清微調 / 偽高清測試

結論

分析尺度變化

實驗800all800all vs 1400all1400all

實驗1400<80px1400<80px

實驗多尺度訓練(MST)

Scale Normalization for Image Pyramids (SNIP)

SNIP操作

RPN階段

FC階段

測試階段

Sub-Image取樣

相關推薦

實驗 $800_{a l l}$ vs $1400_{a l l}$

實驗 $1400_{< 80 p x}$