1. 程式人生 > >【目標跟蹤】Long-term Correlation Tracking 閱讀筆記

【目標跟蹤】Long-term Correlation Tracking 閱讀筆記

Long-term Correlation Tracking

long_term_tracking tracking 閱讀筆記

簡介

論文致力於解決在目標跟蹤過程中,由於目標的外觀變化,導致跟蹤失敗的問題。影響目標外觀的因素包括目標本身形變、突然的快速移動、嚴重遮擋和出界等。解決的方法是把跟蹤問題分解問平移估計和尺度變化估計。同時,時間上的上下文關係可以提高平移估計的精度,而訓練判別相關濾波器(discriminative correlation filter)可以更有效地估計尺度變化。

本文提出的方法基於兩個重要的前期工作:
首先,是對於視訊而言,相鄰的兩幀變化很小。即便目標被遮擋了,其周圍背景的變化也是很小的。所以,可以對跟蹤目標本身和其周圍背景同時進行建模,此模型提取的特徵對嚴重遮擋、快速移動和嚴重形變都有很強的魯棒性。
其次,是提高檢測器的精度。這樣可以更好地估計目標的尺度變化,以及當跟蹤失敗時重新檢測。

另外,論文定義了 tracking-by-detection 的兩個研究問題:
其一是穩定性-靈活性困境。也就是說,一個十分保守的模型,比如只對第一幀目標建模,這個模型一定十分魯棒,不易引入背景噪聲導致跟蹤失敗(drifting)。而一個積極更新的模型,就很容易跟丟,因為會引入背景噪聲。文章提出的解決辦法是對目標和背景分別建模,兩個模型有不同的更新策略。
其二是負樣本採集的問題。之前負樣本採集十分模糊, 並且二分類的label對樣本的空間關係的表達不夠有效。本文采用Gaussian-weighted label來標註正負樣本。

論文總的架構,是將長跟蹤(long-term tracking)分解為對運動目標的尺度(scale) 和平移(translation) 的估計,並配合一個re-detection 策略。

相關工作和問題背景

相關濾波 Correlation tracking

相關濾波是一種應用非常廣泛的方法,因為濾波操作可以通過頻域上的乘法快速實現,所以它的優勢在於極高的計算效率。例如 MOSSE(minimum output sum of squared error) 可以達到幾百FPS。
但是這種方法的缺點在於,對線上的模型更新問題處理得不夠好。很容易跟丟,以及難以應對遮擋和出界的問題。
Figure1 展示了KCF演算法的效果,可以看出來對於快速移動的物體,這種方法效果很好。但是當出現遮擋後,就跟丟了。(看綠框框,在230幀處出現了快速移動,跟蹤效果很好。但是在350幀處出現了遮擋,到了380處目標再次出現,此時已經更新了模板,所以出現了drifting)
相關濾波效果對比

tracking-by-detection

為了解決穩定性-靈活性困境,Kalal 等人提出了 TLD(tracking, learning and detection)方法,提出跟蹤和檢測是可以互相促進的。跟蹤為檢測器提供正樣本,檢測器在跟蹤失敗時重新初始化跟蹤器。
本文提出了一種方法,使用嶺迴歸(ridge regression)模型來學習上下文的相關性,而不是簡單地使用二分類模型。通過這種模型,可以有效減少二分類模型普遍出現的取樣不明確的問題。

本文跟蹤模組

本論文要解決的問題是,在跟蹤過程中,跟蹤目標出現較大的外觀變化,可能導致跟蹤失敗。我們把跟蹤問題分解為對目標的平移估計和尺度估計。其中,平移估計採用上下文相關性,尺度估計使用判別濾波器。此外,增加了一個檢測器,用於在跟蹤失敗時的補充。

Correlation tracking

對於一個典型的相關濾波器而言,大體上流程是這樣的:
對於一個M×N大小的影象,其所有的迴圈矩陣 xm,n作為訓練樣本。其label為ym,n 。那麼可以得到一個方程:

w=argminwm,n|ϕ(xm,n)wy(m,n)|2+λ|w|2

其中ϕ表示到核空間的對映, λ是正則化引數。(通過正則化項使矩陣滿秩。)
使用快速傅立葉變換,把卷積操作變為elementwise的乘積操作。
求得使目標方程最小化的w為:

w=m,na(m,n)ϕ(xm,n)
其中a由下面公式得到:
A=F(a)=F(y)F(ϕ(x)ϕ(x))+λ
F 表示離散傅立葉變換。
接下來進行預測:
對於一張大小為M×N新的圖片z, 計算響應圖如下:
y^=F1(AF(ϕ(z)ϕ(x^)))

其中, x^ 表示學習到的特徵模型, 表示Hadamard product(其實就是element-wise product)。據此,預測這張圖片上目標的位置,就通過找y^上的最大值找到。

而本文使用的方法有一點點不同
首先,本文提出的方法是在同一張影象上學習兩個filter。其中一個Rc同時考慮目標的特徵和背景的特徵,另一個Rt只考慮目標的特徵。為了訓練Rc,我們補充了一個空間權重。同時,為了減輕邊界效應,對目標和上下文的響應加入餘弦窗。
對於Rc,我們希望它能夠及時更新,保證當目標遮擋、形變時能繼續估算它的位移。所以,它需要一個較大的步長α。亦即:

x^t=(1α)x^t1+αxtA^t=(1α)A^