Siamese Network (應用篇5) :孿生網路用於跟蹤 CVPR2016

參看論文:Tao R, Gavves E, Smeulders A W, et al. Siamese Instance Search for Tracking[J]. computer vision and pattern recognition, 2016: 1420-1429.


comment:利用孿生網路的匹配能力進行跟蹤,這種思想不難想到。跟蹤的很大的一個分支就是基於目標檢測(匹配)的跟蹤。在以後相當長的一段時間裡,基於孿生網路的跟蹤方案並解決長時間(long-term)問題一定是跟蹤領域的熱點。但相比於DCF及其衍生的CNN-DCF優秀的跟蹤效能,Siamese還有相當長的路要走。一方面,基於匹配的跟蹤何如引入時間場效應(temporal smooth)?如何引入attention機制將是難點。此外,如果想成為一種普適性的方法,很顯然網路不能太複雜太深,否則時效性不好,平衡精度與速度始終是跟蹤領域兩座大山。

1. 摘要 及 目的



作者原文是這樣說的:We focus on learning the matching function suited for application in trackers. Hence, our aim is not to build a fully fledged tracker which might need explicit occlusion detection, model updating, tracker combination, forget mechanisms and other. We rather focus on the matching function alone, similar to the simplicity of the normalized cross-correlation (NCC) tracker .In each frame, the tracker simply finds the candidate patch that matches best to the initial patch of the target in the first frame by the learned matching function.

2. 方法 及 細節


圖2 The proposed Siamese invariance network to learn the generic matching function for tracking. ‘conv’, ‘maxpool’, ‘roipool’ and ‘fc’ stand for convolution, max pooling, region-of-interest pooling and fully connected layers respectively. Numbers in square brackets are kernel size, number of outputs and stride. The fully connected layer has 4096 units. All conv layers are followed by rectified linear units (ReLU)。(這裡沒有翻譯,主要在於作者提到的兩個點。其一,ROI池化;其二,全連線層採用了大量的神經元)

損失函式用的還是hinge loss:

D是指兩個特徵表達的歐氏距離。 訓練採用的還是老方法,一對影象以及他們的標籤。


We propose a simple tracking strategy. As the only reliable data we have for the target object is its location at the first frame, at each frame we compare the sampled candidate boxes with the target object at the first frame. We pass all the candidate boxes from the search stream of our network and pick the candidate box that matches best to the original target:


We employ the radius sampling strategy. More specifically, around the predicted location of the previous frame we sample locations evenly on circles of different radii。
為了避免候選樣本的窮盡搜尋問題,作者提議採用半徑取樣策略。更確切地說,以前一幀預測中心為基準利用不同半徑進行候選樣本取樣。We use 10 radial and 10 angular divisions


Box Refinement 策略:作者訓練四個嶺迴歸分類器,針對矩形框的圓心座標、高度、寬度進行優化。這主要參考了前人的工作,通過迴歸進行矩形窗精修可以大大提高目標定位的準確度。


3. 結論 及 反思

comment:這篇文章有毒...作者竟然直接剔除了遮擋的視訊,而且文章中大量的小tricks 和 處理只是給了別人的效果,卻沒有解釋自己實驗中的效益!


 圖4. 兩例跟蹤失敗的情況。左邊:基於最佳匹配原理很難處理空間相似性目標的干擾。因為搜尋空間的等權重的,這裡應該利用餘弦窗函式加以約束,施加位移懲罰。 右邊:最佳匹配跟蹤無法解決遮擋問題,這主要還是因為模型更新沒有做好。在作者的文章中壓根沒有做模型更新。所以該方法應用非常有限。


