1. 程式人生 > >論文提要“Fast Feature Pyramids for Object Detection”

論文提要“Fast Feature Pyramids for Object Detection”

很多目標檢測器需要對影象進行多尺度精細搜尋,傳統方法的瓶頸是對每個尺度分別計算特徵,本文使用比較大的間隔octave計算特徵,之後對octave之間的尺度特徵進行推算,節省了多尺度特徵計算的時間,將目標檢測提到實時。

動機:目前的目標檢測方法如DPM,通常需要使用多通道,精細尺度取樣及增強的歸一化方法提升準確率,導致計算量大大增加。自然場景影象存在碎片統計特徵,可以用於不同尺度直接的結構預測。

多尺度梯度直方圖對比實驗
由一個問題引出,給定影象在某一尺度的梯度特徵,能夠估計臨近尺度的梯度特徵?
梯度直方圖是影象梯度角度的分佈,每個畫素對梯度直方圖投票,權值是梯度幅值。作者做了一個有趣的實驗,將影象進行上取樣和下采樣2倍,統計重取樣前後梯度直方圖某個bin的幅值比例 r

q=hq/hq 的分佈,統計結果如下圖所示:
這裡寫圖片描述
對於上取樣,均值為2,即為上取樣的倍數,對於下采樣,均值為0.34,為常數,比取樣倍數小的原因是損失了高頻資訊。對於歸一化的直方圖,下采樣直方圖幅值變化的比例均值為0.26。

多尺度特徵統計學習
1. 特徵尺度法則
Ω 表示低層位移不變函式,C=Ω(I)表示影象的不同通道,定義fΩ(I) 為所有通道的加權和,即fΩ(I)=ijkwijkC(i,j,k)。令Is 表示I在s尺度的表示,Is的維度hs×ws是I的s倍。fΩ(Is)如下定義:
這裡寫圖片描述

根據Ruderman和Bialek提出的自然場景影象與尺度間的法則,並考慮將影象分成K個曉得影象塊,f

Ω(Is1)fΩ(Is2)存在如下關係:
fΩ(Is1)/fΩ(Is2)=(s1/s2)λΩ+ε (4)
2. 估計λ
為了估計給定不同通道ΩλΩ,首先統計影象資料集特徵隨著尺度變換的均值:
μs=1NNi=1fΩ(Iis)/fΩ(Ii1)
根據公式(4),μs=sλΩ+E[ε]
μs應與log2(s)存線上性關係,不同特徵的λ如下圖所示
這裡寫圖片描述
3. 單一影象偏差的幅值E[ε2] 隨著尺度變換的比之s1/s2增加而增加

快速特徵金字塔
1. 特徵通道縮放
使用R(I,s)表示影象I使用尺度s重取樣,給定影象I的特徵C=Ω(I),僅使用C預測新尺度s對應的特徵影象Cs=Ω(

Is)。傳統的方法是先縮放影象,再計算縮放後圖像的特徵。本文使用下述公式預測:
CsR(C,s)sλΩ (7)
下圖顯示了該方法的原理:
這裡寫圖片描述
2. 快速特徵金字塔
快速金字塔的原理如下圖所示,傳統的方法是先重取樣影象,再計算每個尺度的特徵。文中只在每個octave重取樣影象計算特徵,每個octave之間的尺度(4到12個尺度)對應的特徵使用(7)式進行估計,使用octave進行估計的運算量是直接計算影象特徵運算量的1/3。
這裡寫圖片描述

目標檢測器
1. Aggregated Channel Features(ACF)
給定一幅影象,計算幾個通道C=Ω(I),對C中的每個block求和,之後對低解析度影象進行平滑處理。特徵即是累積通道中單個畫素的查詢表。使用boosting組合決策樹進行目標檢測。具體流程如下圖所示
這裡寫圖片描述
2. Integral Channel Features(ICF)
ICF使用積分影象進行特徵提取,ICF檢測器及尺度金字塔如下圖所示
這裡寫圖片描述
3. DPM
直接貼出實驗結果,使用本文的方法提升後VOC資料20類測試的mAP只降低2%。
這裡寫圖片描述