1. 程式人生 > >VOT2018總體效能以及各個演算法的分析

VOT2018總體效能以及各個演算法的分析

一,VOT相關

  1. 短期跟蹤

(1)假定在跟蹤失敗後不能重新檢測成功,而是要reset。

(2)短期實時跟蹤,要求預測邊界框的速度快於或等於視訊幀率。

  1. 長期跟蹤

(1)在短期跟蹤的基礎上,執行re-detection。

(2)給短期跟蹤與長期跟蹤提供的唯一資訊是第一幀的邊界框。

  1. 短期跟蹤測試資料集:

UAV123,OTB,VOT。

  1. 長期跟蹤測試資料集:

LTB35:UAVL20,Youtobe,AMP。

  1. 長期跟蹤

(1)長期跟蹤的視訊至少長2分鐘,20-25fps,最好長10分鐘。

(2)相比短期跟蹤,長期跟蹤要處理目標長時間離開視野的情況。競賽要求長期跟蹤需要報告每一幀中目標位置和目標的出現置信度。

(3)長期跟蹤器需要兩個部分組成,短期部分和檢測部分來檢測目標重新出現的狀況。此外,需要短期元件和檢測器之間的互動機制,其適當地更新視覺模型並在目標跟蹤和檢測之間切換。其中TLD就是一個開創性的工作,啟發了後續的長期跟蹤工作。

二,VOT結果分析

1. 短期挑戰跟蹤結果

(1)有4個tracker基於CNN匹配,一個基於迴圈神經網路,14個應用孿生網路(SiamFC,SiamRPN),34個基於相關濾波(C-COT,ECO)。

(2)62%的tracker用到了CNN特徵。

(3)冠軍是LADCF,執行在CPU上。paper,code。

針對視覺特性:

(1)總體最佳表現者仍然處於每個屬性排名的頂部,但是沒有一個跟蹤器在每個屬性方面始終優於所有其他跟蹤器。

(2)影響跟蹤最大的視覺特徵是:遮擋、光照改變和運動改變。

2. 短時實時挑戰跟蹤結果

(1)Top 10 中的八個都是孿生結構SiamFC的擴充套件。這些跟蹤器使用預訓練的CNN特徵,最大化相關定位精度,需要GPU。

(2)兩個使用相關濾波的tracker在CPU上執行。

2.1. short trem公開測試集挑戰的top 10:

(1) LADCF, (2) MFT, (3) SiamRPN, (4) UPDT, (5) RCO, (6) DRT, (7) DeepSTRCF1, (8) SA_Siam_R, (9) CPT , (10) DLSTpp

方法還是相關濾波佔主流(DCF),在前十中佔據8位,還有兩個是Siamese nets。

魯棒性最好的前4:

(1) MFT, (2) LADCF, (3) RCO, (4) UPDT

精確度最好的前5:

(1) SiamRPN, (2) SA_Siam_R, (3) FSAN, (4) DLSTpp

影響這兩個指標的來自兩個方面:遮擋和尺度的變化

2.2. short term 實時挑戰組的top 10:

(1) SiamRPN, (2) SA_Siam_R, (3) SA_Siam_P, (4) SiamVGG, (5) CSRTPP, (6) LWDNTm, (7) LWDNTthi, (8) CSTEM, (9) MBSiam, (10) UpdateNet

  1. 長期跟蹤挑戰結果(VOT2018新新增挑戰)

(1)排名第一的是MobileNet-based tracking by detection algorithm (MBMD) 。

  1. 最具挑戰性的屬性是快速運動,視野外,寬高比變化和完全遮擋。

三,主要演算法分析

short-term challenge

LADCF:Learning Adaptive Discriminative Correlation Filters via Temporal Consistency preserving Spatial Feature Selection for Robust Visual Tracking

       該模型的新穎之處在於利用目標和背景的互補資訊,自適應地優化出最具鑑別性地空間特徵;結合時序影象序列的平滑性,保持不斷更新的跟蹤器能夠始終處在一個較低維度的流形空間上。在此模型基礎上利用深度特徵實現在複雜場景中的有效跟蹤。

程式碼:https://github.com/XU-TIANYANG/LADCF  

MFT Multi-solution Fusion for Visual Tracking(沒發表)

       基於相關濾波演算法的MFT跟蹤器。首先,結合連續卷積運算元的不同多解析度特徵。其次,為了提高魯棒性,訓練了使用不同特徵的多解,並優化融合了多解來預測目標位置。最後,不同的Res50、SE-Res50、Hog和CN特徵組合應用於不同的跟蹤情況。

SiamRPN(長時第二名):Distractor-aware Siamese Networks for Visual Object Tracking

       作者借鑑了meta learning的思想,通過模版幀來學習檢測分支RPN的網路引數,就是預訓練模版分支,然後利用第一幀的目標特徵輸出一系列weights,而這些weights,encode了目標的資訊,作為檢測分支RPN網路的引數去detect目標。

作者把這稱為一個“one shot detection”的任務,當然,這樣做最大的問題在於訓練,要訓練好這樣一個model,需要大量的資料的,這也是為什麼作者在ILSVRC和Youtube BB這種超大的資料集上訓練的原因。      

UPDT:Unveiling the Power of Deep Tracking

       在ECO的基礎上特徵網路換成了ResNet-50,並加入Data Augmentation提取特徵,淺層特徵和深度特徵分治,兩部分自適應融合。該論文探究了深度特徵和手工特徵分別對目標跟蹤的影響,主要分析了不同樣本擴增方法和精度/魯棒性平衡兩方面的影響,得出兩類特徵應該分別處理的結論,深度特徵更應該關注於魯棒性,手工特徵更關注精度,使用了樣本擴充套件和調節精度/魯棒性平衡引數的方法可以顯著提高深度特徵下的跟蹤效能;提出了一種新的跟蹤測試結果質量測量方法,結合這種方法計算融合兩種特徵下響應結果的加權係數,得到最終的響應map。      

程式碼:無      

RCO :Continuous Convolution Operators with Resnet features(沒公佈)

       RCO跟蹤器基於CFWCR的擴充套件。採用連續卷積運算元綜合融合多解析度特徵,提高了相關濾波跟蹤器的效能。卷積神經網路中較淺、較深的特徵集中在不同的目標資訊上。為了改進協同求解方法,充分利用各種特徵,提出了一種多解的方法。為了預測目標位置。

程式碼:無      

DRT :Correlation Tracking via Joint Discrimination and Reliability Learning

       該論文提出一個可以聯合訓練包含判別性和可靠性資訊的跟蹤模型,也是基於迴圈樣本和FFT加速優化的框架。

主要貢獻有二,其一是提出了在原始目標函式中加入區域性響應一致限制,目的是使的目標內的響應的差異減小;其二是提出了可靠性權重,用來描繪目標框內不同區域的重要性。同時原始濾波器和可靠性權重是線上聯合學習的。   

程式碼:https://github.com/cswaynecool/DRT

DeepSTRCF:Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking

STRCF在DCF的基礎上加入了spatial和temporal正則項,且tracking過程中只使用上一幀的資訊。STRCF的目標函式是凸函式,可以ADMM(交替方向乘子演算法)來得到全域性最優。     

程式碼:https://github.com/lifeng9472/STRCF  

SA Siam R:A Twofold Siamese Network for Real-Time Object Tracking With Angle Estimation

       SA Siam R是基於Siamese網路的tracker SA-Siam的變體。SA Siam R採用了三種簡單而有效的機制,即角度估計、空間掩碼和模板更新,以達到比SA-Siam更好的效能。首先,該框架包含了搜尋區域的多尺度多角度候選物件。根據響應對映隱式估計被跟蹤物件的尺度變化和角度變化。其次,當目標的長寬比為1:1時,採用空間掩模,以降低背景噪聲。最後,採用移動平均模板更新來處理目標變形較大的硬序列。      

程式碼:無      

long-term challenge

第一名

MBMD    Learning regression and verification networks for long-term visual tracking

       匹配網路通過預訓練能夠適應線上跟蹤時目標外觀的變化,但是對干擾物區分度不夠;分類網路能夠很好地區分出干擾物,卻很難適應目標外觀的變化。如果用單一網路(匹配或分類),很難通過網路輸出判斷目標是否出現在當前幀,並執行全圖搜尋。所以本演算法採用定期更新短期部分,不更新長期部分。應用了邊框分類網路和基於MobileNet的匹配網路。分類網路在給定第一幀目標的搜尋區域內對目標物件的邊界框進行分類。分類網路使用SSD-MobileNet架構,其引數在線上跟蹤期間是固定的。

程式碼:https://github.com/xiaobai1217/MBMD