1. 程式人生 > >用於視覺跟蹤的層次化卷積特性

用於視覺跟蹤的層次化卷積特性

用於視覺跟蹤的層次化卷積特性

摘要

視覺目標跟蹤是一項具有挑戰性的工作,由於目標物件的變形、突然運動、背景雜波和遮擋等因素,使目標物件的外觀發生明顯變化。本文利用在物件識別資料集上訓練的深度卷積神經網路提取的特徵來提高跟蹤準確性和魯棒性,最後一個卷積層的輸出對目標的語義資訊 (為什麼叫做語義資訊?) 進行編碼,這些表示對顯著的外觀變化具有魯棒性,然而,它們的空間解析度過於粗糙,無法精確定位目標。相反,較早的卷積層提供了更精確的定位,但是對於外觀的變化不那麼一成不變。我們將卷積層的層次結構解釋為影象金字塔表示的非線性對應層,並利用這些多層次的抽象用於視覺跟蹤。具體來說,我們自適應地學習每個卷積層上的相關濾波器來編碼目標的外觀,分層推斷每個層定位目標的最大響應。在大規模基準資料集上的大量實驗結果表明,該演算法優於最先進的方法。

參考:
- 【深度學習系列】卷積神經網路CNN原理詳解(一)——基本原理
- 【深度學習系列】卷積神經網路詳解(二)——自己手寫一個卷積神經網路
- 卷積神經網路(CNN)學習筆記1:基礎入門
- Deep Learning(深度學習)學習筆記整理系列之(一)
- [Deep Learning] 神經網路基礎
- 一文弄懂神經網路中的反向傳播法——BackPropagation
- 十分鐘看懂影象語義分割技術
- 劍橋構建視覺“語義大腦”:兼顧視覺資訊和語義表示

1 介紹

視覺目標跟蹤是計算機視覺中的一個基本問題,具有廣泛的應用前景,視覺跟蹤的典型場景是跟蹤未知目標物件,由第一幀中的包圍框指定。雖然近幾十年來有了很大的進展,但是視覺跟蹤仍然是一個具有挑戰性的問題,主要是由於遮擋、變形、突然運動、光照變化、背景雜波等引起的較大外觀變化。近年來,基於卷積神經網路(CNNs)的特徵在廣泛的視覺識別任務中顯示了最先進的結果。因此,瞭解如何最好地利用CNNs中豐富的特性層次結構來實現準確的視覺跟蹤非常有意義。
現有的基於深度學習的跟蹤器通常在估計的目標位置周圍繪製正樣本和負樣本,以逐步學習訓練在CNN提取的特徵上的分類器。這樣的做法引發了兩個問題,第一個問題是在最近的目標識別演算法中使用神經網路作為線上分類器,其中只使用最後一層的輸出來表示目標。對於高階視覺識別問題,有效的方法是使用最後一層的特性,因為它們與分類級語義關係最密切,並且對類內變數和精確位置等複雜的變數大多數不變。然而,視覺跟蹤的目的是精確定位目標,而不是推斷其語義類別。因此,只使用最後一層的特性並不是目標的最佳表示。第二個問題與提取訓練樣本有關。訓練一個魯棒分類器需要大量的正樣本和負樣本,這在視覺跟蹤中是不可用的。此外,由於在目標附近取樣,正樣本和負樣本高度相關,因此在確定決策邊界時存在模糊性。

在這項工作中:
(i) 我們使用來自CNNs分層的層的特性來解決這兩個問題,而不僅僅是最後一層來表示目標;
(ii) 學習自適應相關濾波器,無需取樣。
我們的方法建立在這樣的觀察之上:儘管最後一層CNNs更有效地捕獲語義,但它們不足以捕獲細粒度的空間細節,例如物件位置。另一方面,較早的層在定位方面是精確的,但是不像圖1所示的那樣捕獲語義。這一發現表明,利用多層CNN特徵進行視覺跟蹤的推理是非常重要的,因為語義對顯著的外觀變化具有魯棒性,而空間細節對於精確定位是有效的。我們利用了最近CNNs技術的進步和經典計算機視覺問題多層次推理方法的層次特徵。例如,從影象金字塔的粗水平計算光流是有效的,但是為了獲得精確和詳細的流場需要更精細的水平。為了獲得最佳結果,通常採用粗到細的搜尋策略。

(圖1. 一個典型CNN模型的卷積層,例如,在特性層次結構中提供多級抽象。較早層的特徵保留了較高的空間解析度,使用類似於Gabor filters[4]響應對映的低階視覺資訊進行精確定位。另一方面,後一層的特性捕獲了更多的語義資訊,而較少的細粒度空間細節。我們的方法利用最後一層的語義資訊來處理大的外觀變化,通過使用早期層的特徵來精確定位,減少漂移。)

基於這種聯絡,我們學習了一個自適應相關濾波器,該濾波器覆蓋了從每個CNN層提取的特徵,並使用這些多層次的相關響應對映來協同推斷目標位置。將特徵的所有移位形式作為訓練樣本,將其迴歸到具有較小空間頻寬的高斯函式,從而減輕了二值判別分類器訓練的取樣不確定性。

我們做了以下三個貢獻:
首先,我們建議使用CNNs的豐富特性層次結構作為視覺化跟蹤的目標表示,同時利用語義和細粒度細節處理大型外觀變化,避免漂移。
其次,我們自適應地學習每一個線性相關濾波器CNN層,以減輕取樣模糊。我們使用從粗到精的多級相關響應對映來推斷目標位置。
第三,我們在一個具有10個基準的大型資料集上進行了廣泛的實驗

2 相關工作

在本節中,我們將討論與這項工作密切相關的跟蹤方法。我們建議讀者在[33,22,26]中閱讀關於視覺跟蹤的綜合評論。

由二進位制分類器跟蹤

視覺跟蹤可以作為一個區域性視窗的重複檢測問題(被稱為通過檢測跟蹤),分類器通過線上學習。對於每一幀,我們收集一組正、負訓練樣本,用於增量學習一個判別分類器,將目標從背景中分離出來。然而,這種抽取樣本學習線上分類器的方法存在著抽樣模糊問題。樣品標記的輕微誤差會影響分類器,並逐漸導致跟蹤器漂移。為了減輕樣本不確定性導致的這些模型更新問題,已經做了大量的工作。這些演算法的核心思想在於如何正確地更新分類器以減少漂移。示例包括多例項學習、半監督學習和P-N學習。Zhang等人沒有隻學習一個分類器,而是將多個分類器組合成不同的學習速率。另一方面,Hare等人表明,使用分類器進行標籤預測的目標與跟蹤目標(準確的位置估計)和姿態跟蹤作為一個聯合的結構化輸出預測問題沒有明確耦合。通過減輕抽樣模糊問題,這些方法在最近的基準研究中表現良好。我們用相關濾波器解決了樣本模糊問題,其中訓練樣本回歸到高斯函式的軟標籤而不是二進位制標籤來進行區分分類器的學習。

通過相關過濾器跟蹤

由於採用了快速傅立葉變換(fast Fourier
transforms),具有較高的計算效率,因此視覺跟蹤的相關濾波器引起了廣泛的關注。基於相關濾波器的跟蹤方法將輸入特徵的所有圓偏移版本(circular-shifted versions)迴歸到一個目標高斯函式,因此不需要目標外觀的硬閾值樣本(hard-thresholded samples)。Bolme等人通過學習了亮度通道上的最小輸出平方和誤差濾波器,以實現快速視覺跟蹤。為了大大提高跟蹤精度,提出了幾個擴充套件,包括核心化相關濾波器、多維特徵、情境學習和規模估計。在這項工作中,我們建議以類似於現有方法的方式學習多維特徵上的相關過濾器。主要區別在於使用學習的CNN特徵而不是手工製作的特徵(例如,HOG 或顏色屬性),我們在分層卷積層上構建多個相關濾波器,而不是現有方法那樣只有一個單獨的濾波器。

由CNN跟蹤

視覺表示對於目標跟蹤非常重要。許多手工製作的特性被用來表示目標外觀,例如子空間表示和顏色直方圖。近年來,CNNs在視覺識別問題上取得了長足的進展。Wang和Yeung提出了一種使用多層自動編碼器網路的深度學習跟蹤器(deep learning tracker, DLT)。這個網路是在80M的微小影象資料集的一部分上以無監督的方式進行預訓練的。另一方面,Wang等人提出在視訊儲存庫中學習一個雙層神經網路,其中對特徵學習施加了暫時的慢度約束。Li等人構建倍數CNN分類器對目標物件的不同例項,以排除模型更新期間的噪聲樣本。DeepTrack從二進位制樣本中學習兩層CNN分類器,不需要提前訓練。 Hong等人使用預先訓練好的CNN學習特定目標的顯著性地圖。我們注意到前面提到的CNN跟蹤器都依賴於正面和負面的訓練樣本,並且只利用了最後一層的特性。與此相反,我們的方法建立在自適應相關濾波器的基礎上,該濾波器可以消除帶有軟標籤的密集的、迴圈移位的樣本,有效地減少了取樣的模糊性。此外,我們利用多個卷積層的特性對目標外觀進行編碼。我們使用VGG-Net提取CNN特徵,它是在具有分類級別標籤的大型ImageNet資料集上訓練的。 我們還注意到,DLT和DeepTrack方法通過線上微調CNNs更新了外觀模型,但是Wang等人和我們的演算法使用分類器學習進行模型更新。

3 概述

我們的方法建立在這樣的觀察之上:CNNs的最後一層編碼目標的語義抽象,它們的輸出對於外觀變化是健壯的。另一方面,早期的層保留了更細粒度的空間細節,因此有助於精確定位。我們顯示在圖2中一個影象的邊緣和視覺化水平一步CNN特性在第三,第四,第五卷積和迴旋的第五層,層不太有效定位尖銳邊界由於其低空間解析度而第三層是更有用的精確定位。

(圖2:具有水平臺階邊緣的影象的CNN特徵的視覺化。在虛線處的三層特性的前三個主要元件是視覺化的。注意,conv5-4層由於空間解析度低,定位步驟邊緣的效率較低,而conv3-4層更適合於精確定位。)
我們的目標是充分利用語義和細粒度的細節來進行視覺化物件跟蹤。圖3展示了我們演算法的主要步驟:我們學習在每個卷積層的輸出上進行自適應線性相關濾波,並對多級相關響應對映進行粗到精搜尋,以推斷目標的位置。

(圖3:提出的演算法的主要步驟:給定一幅影象,我們首先在前一幀的估計位置上裁剪搜尋視窗。我們使用第三、第四和第五層卷積層作為目標表示。然後將 i 索引的每一層與學習的線性相關濾波器 w ( i ) 進行卷積,生成響應對映,其最大值的位置表示估計的目標位置。我們搜尋多級響應對映以從粗到精的方式推斷目標位置。)

4 提出的演算法

在本節中,我們首先介紹了在這項工作中使用的CNN特性,學習線性相關過濾器的技術細節,以及粗到細的搜尋策略。最後介紹了線上模型的更新。

4.1 卷積特性

我們使用來自CNN的卷積特徵圖(例如,AlexNet或VGG-Net)來編碼目標外觀。 隨著CNN前向傳播,來自不同類別的物件之間的語義區分被加強,並且空間解析度逐漸降低以用於精確定位(也參見圖1)。 對於視覺物件跟蹤,我們對目標物件的準確位置感興趣。 因此,我們忽略完全連線的層,因為它們顯示出很小的空間解析度,即1×1。
由於CNNs中使用的池操作符,隨著卷積層深度的增加,空間解析度逐漸降低。例如,在VGG-Net中 pool5 的卷積的特徵圖的空間大小的 7 × 7 ,也就是輸入影象大小 224 × 224 1 32 。如此低的空間解析度不足以精確定位目標,我們通過使用雙線性插值將每個特徵對映調整到一個固定的更大的尺寸來緩解這個問題。設 h 為特徵圖, x 為上取樣特徵圖,第i個位置的特徵向量為:
         x i = k α i k h k      (1)

其中,插值權值 α i k 分別取決於i和k相鄰特徵向量的位置。