基於Deep Learning的跟蹤演算法總結(一)
阿新 • • 發佈:2019-01-05
博主最近主要關注使用深度學習的視訊跟蹤一系列演算法,本文為學習筆記,僅供學習交流,如有侵權,請指出。
No Free Lunch
不同於檢測、識別等視覺領域深度學習一統天下的趨勢,深度學習在目標跟蹤領域的應用並非一帆風順。其主要問題在於訓練資料的缺失。深度模型的魔力之一來自於對大量標註訓練資料的有效學習,而目標跟蹤僅僅提供第一幀的bounding-box作為訓練資料。
接下來,介紹幾種思路來解決上述資料缺少的問題。
一、利用輔助圖片資料預訓練深度模型,線上跟蹤時微調
在目標跟蹤的訓練資料非常有限的情況下,使用輔助的非跟蹤訓練資料進行預訓練,獲取對物體特徵的通用表示(general representation ),在實際跟蹤時,通過利用當前跟蹤目標的有限樣本資訊對預訓練模型微調(fine-tune), 使模型對當前跟蹤目標有更強的分類效能,這種遷移學習的思路極大的減少了對跟蹤目標訓練樣本的需求,也提高了跟蹤演算法的效能。
DLT(NIPS2013)
Learning a Deep Compact Image Representation for Visual Tracking
DLT是第一個把深度模型運用在單目標跟蹤任務上的跟蹤演算法。它的主體思路如上圖所示:
(1) 先使用棧式降噪自編碼器(stacked denoising autoencoder,SDAE)在Tiny Images dataset這樣的大規模自然影象資料集上進行無監督的離線預訓練來獲得通用的物體表徵能力。預訓練的網路結構如上圖(b)所示,一共堆疊了4個降噪自編碼器, 降噪自編碼器對輸入加入噪聲,通過重構出無噪聲的原圖來獲得更魯棒的特徵表達能力。SDAE1024-2560-1024-512-256這樣的瓶頸式結構設計也使獲得的特徵更加compact。
(2) 之後的線上跟蹤部分結構如上圖(c)所示,取離線SDAE的encoding部分疊加sigmoid分類層組成了分類網路。此時的網路並沒有獲取對當前被跟蹤物體的特定表達能力。此時利用第一幀獲取正負樣本,對分類網路進行fine-tune獲得對當前跟蹤目標和背景更有針對性的分類網路。在跟蹤過程中,對當前幀採用粒子濾波(particle filter)的方式提取一批候選的patch(相當於detection中的proposal),這些patch輸入分類網路中,置信度最高的成為最終的預測目標。
(3) 在目標跟蹤非常重要的模型更新策略上,該論文采取限定閾值的方式,即當所有粒子中最高的confidence低於閾值時,認為目標已經發生了比較大的表觀變化,當前的分類網路已經無法適應,需要進行更新。
小結:DLT作為第一個將深度網路運用於單目標跟蹤的跟蹤演算法,首先提出了“離線預訓練+線上微調”的思路,很大程度的解決了跟蹤中訓練樣本不足的問題,在CVPR2013提出的OTB50資料集上的29個跟蹤器中排名第5。
但是DLT本身也存在一些不足:
(1) 離線預訓練採用的資料集Tiny Images dataset只包含32*32大小的圖片,解析度明顯低於主要的跟蹤序列,因此SDAE很難學到足夠強的特徵表示。
(2) 離線階段的訓練目標為圖片重構,這與線上跟蹤需要區分目標和背景的目標相差甚大。
(3) SDAE全連線的網路結構使其對目標的特徵刻畫能力不夠優秀,雖然使用了4層的深度模型,但效果仍低於一些使用人工特徵的傳統跟蹤方法如Struck等。
SO-DLT(arXiv2015)
Transferring Rich Feature Hierarchies for Robust Visual Tracking