1. 程式人生 > >SiamRPN---High Performance Visual Tracking with Siamese Region Proposal Network

SiamRPN---High Performance Visual Tracking with Siamese Region Proposal Network

1. Introduction

  • 目前的跟蹤器可以分為兩大類:
    1.第一類是基於相關濾波:通過利用迴圈特性在傅立葉域訓練一個迴歸器,能夠線上跟蹤並更新濾波器引數。近來一些相關濾波演算法通過使用深度特徵來提高精度,但在濾波器更新是嚴重降低了速度。
    2.另一類方法是使用非常強大的深度特徵,此類方法不更新模型,所以效能沒有相關濾波好。
  • 本文提出的SiamRPN是離線訓練好的基於深度特徵的跟蹤器,並取得了比目前最先進相關濾波方法更優的效能。SiamRPN由模板分支和檢測分支組成,用端到端的方法在大規模的影象對上進行離線訓練。不同於標準的RPN,本文使用兩個分支的相關特徵圖來提取候選區域。由於跟蹤任務不區分類別,所以作者將模板分支上的目標外觀資訊編碼到RPN特徵中來判別前景和背景。
  • 貢獻可總結為以下三點:
    1.提出了孿生區域建議網路,能夠利用ILSVRC和Youtube-BB大量的資料進行離線端到端訓練。
    2.線上跟蹤時,將proposed framwork視為單目標的檢測任務,這使得可以不用高耗時的多尺度測試就能精確的候選區域。
    3.在VOT2015, VOT2016 and VOT2017的實時比賽中達到了最優效能,並且可達到160FPS,同時具有精度的效率的優勢。

2. Related Works

2.1 RPN in detection

  • RPN是在Faster R-CNN提出來的,後來Faster R-CNN的變種如FPN利用特徵金字塔來提高小目標檢測的效能。

2.2 One-shot learning

  • 最常見的例子就是人臉檢測,只知道一張圖片上的資訊,用這些資訊來匹配出要檢測的圖片,這就是單樣本檢測,也可以稱之為一次學習。

3. Siamese-RPN framework

  • Siamese-RPN由提取特徵的Siamese子網路和區域生成的候選區域子網路組成。
    在這裡插入圖片描述

3.1 Siamese feature extraction subnetwork

  • 網路基於AlexNet
  • 該子網路由模板分支和檢測分支組成:模板分支將歷史幀的目標塊作為輸入,用 z
    z
    表示;檢測分支用當前幀的目標塊作為輸入,用 x x 表示。兩個網路共享CNN引數,用 φ ( z ) \varphi(z) φ ( x ) \varphi(x) 表示網路輸出。

3.2 Region proposal subnetwork

  • 該子網路由分類分支和迴歸分支組成,分類分支輸出有 2 k 2k 個channels(前景和背景),迴歸分支有 4 k 4k 個channels( x , y , w , h x,y,w,h ),其中 k k 表示anchors,即每個位置預測框的個數。
  • 分類分支使用cross-entropy損失,迴歸分支使用Faster R-CNN中的smooth L 1 L1 損失。

3.3 Training phase:End-to-end train Siamese-RPN

  • sample pairs:從ILSVRC隨機間隔幀和Youtube-BB連續幀提取
  • Siamese子網路首先在ImageNet上進行預訓練,然後用SGD對Siamese-RPN進行端到端訓練
  • 由於在跟蹤任務中相鄰幀間的變化不會太大,所以選用的anchors個數比檢測任務要少。只選用了一個尺度的5種不同寬高比 [ 0.33 , 0.5 , 1 , 2 , 3 ] [0.33,0.5,1,2,3]
  • 正樣本:IOU > 0.6 >0.6 ,負樣本:IOU < 0.3 <0.3
  • 對每個樣本對限制最多16個正樣本和總共64個樣本

4. Tracking as one-shot detection

4.1 Formulation

  • 平均損失 L \mathcal L (1) m i n W = 1 n i = 1 n L ( ζ ( φ ( x i ; W ) ; φ ( z i ; W ) ) , i ) \underset{W}{min}=\frac{1}{n}\sum^n_{i=1}\mathcal L(\zeta(\varphi(x_i;W);\varphi(z_i;W)),\ell_i)\tag{1} 1. W W 訓練的網路權重
    2. φ \varphi 表示Siamese子網路
    3. L \mathcal L 表示 RPN子網路
    4. n n 表示樣本對數
    5. i \ell_i 表示樣本標籤

4.2 Inference phase:Perform one-shot detection

  • 模板分支在初始幀得到的輸出作為檢測分支的卷積核,然後在整個跟蹤過程中固定不變。
    在這裡插入圖片描述

4.3 Proposal selection

  • 直接丟棄距中心太遠的BB,如下圖所示,丟棄大於7的BB
    在這裡插入圖片描述
  • 用餘弦窗和尺度變化懲罰來對proposal進行排序,選最好的。餘弦窗是為了抑制距離過大的,尺度懲罰是為了抑制尺度大的變化。
  • 非極大值抑制(NMS)

5. Experiments

5.1 Implementation details

5.2 Result on VOT2015

在這裡插入圖片描述

5.2 Result on VOT2016

在這裡插入圖片描述

5.4 Result on VOT2017

在這裡插入圖片描述

6. 與baseline–SiamFC對比

  • 視覺跟蹤領域主流的實時跟蹤方法是以SiameseFC為代表的孿生網路結構,Siamese FC網路非常簡單,通過相同的網路提取出影象的特徵,通過類似卷積的相關操作方法,可以快速的實現模板與搜尋區域中的17x17個小影象進行比對,輸出的17x17的響應圖,相當於每個位置和模板幀的相似度。但SiameseFC有以下缺陷:首先由於沒有迴歸,網路無法預測尺度上的變化,所以只能通過多尺度測試來預測尺度的變化,這裡會降低速度。其次,輸出的相應圖的解析度比較低,為了得到更高精度的位置,Siamese FC採用插值的方法,把解析度放大16倍,達到與輸入尺寸相近的大小。
  • SiameseRPN通過引入物體檢測領域的區域推薦網路(RPN),通過網路迴歸避免多尺度測試,一方面提升了速度,另一方面可以得到更為精準的目標框,更進一步,通過RPN的迴歸可以直接得到更精確地目標位置,不需要通過插值得到最終的結果。在訓練過程中,我們引入了大規模的視訊資料集Youtube-BB進行訓練,相比較SiameseFC使用的VID資料集,Youtube-BB在視訊數量上有大約50倍的提升,這保證了網路能夠得到更為充分的訓練。

7. 參考

https://blog.csdn.net/fzp95/article/details/80982201