1. 程式人生 > >18.Flow Guided Recurrent Neural Encoder for Video Salient Object Detection

18.Flow Guided Recurrent Neural Encoder for Video Salient Object Detection

用於視訊顯著目標檢測的流導向迴圈神經編碼器

摘要

最近,由於深度卷積神經網路,影象顯著性檢測已經取得了顯著進展。然而,將最先進的顯著性檢測器從影象擴充套件到視訊是具有挑戰性的。顯著目標檢測的效能受到物體或相機運動以及視訊中外觀對比度的顯著變化的影響。在本文中,我們提出了流引導的遞迴神經編碼器(FGRNE),一種用於視訊顯著物件檢測的精確的端到端學習框架。它通過在LSTM網路方面利用光流和順序特徵演化編碼方面的運動資訊來增強每幀特徵的時間連續性。它可以被視為將任何基於FCN的靜態顯著性檢測器擴充套件到視訊顯著性目標檢測的通用框架。密集的實驗結果驗證了FGRNE各部分的有效性,並證實我們提出的方法在DAVIS和FBMS的公共基準測試中顯著優於最先進的方法。

 

  1. 引言

顯著性目標檢測旨在識別吸引人們注意的影象或視訊中最具視覺特徵的物體。由於需要在許多計算機視覺應用中解決這個問題,例如影象和視訊壓縮[12],目標分割[37],視覺跟蹤[38]和身份重認證[43],它引起了很多關注。儘管在過去十年中已經對基於影象的顯著性目標檢測進行了廣泛研究,但由於其高複雜性和缺乏大規模註釋的視訊資料集,因此基於視訊的顯著性目標檢測的研究較少。

近年來,由於深度卷積神經網路(CNN)的成功展開,靜態影象中顯著性目標檢測的效能已經明顯提高了[21,10,18,20]。然而,將這些方法直接應用於視訊顯著性目標檢測是非常重要且具有挑戰性的。顯著性目標檢測的效能受到物體或相機運動以及視訊中外觀對比度的明顯變化的影響。如圖1的第二行所示,現有技術的靜止影象顯著性目標檢測器(例如DSS[10])由於不能保持連續幀之間的顯著性目標的視覺連續性和時間相關性而急劇惡化。

 


認知研究表明,視覺對比是導致特定區域在靜態影象中變得突出的關鍵因素。對於動態視訊,由物體運動引起的連續幀之間的差異對人們的注意力更具吸引力[13]。這種時間資訊已經在現有的視訊顯著性目標檢測方法中被利用,或者以圖形模型[35,3]的形式,或者簡單地嵌入在卷積神經網路中[36]。基於圖形模型的方法通常採用生成框架,首先從幀內外觀對比度資訊[3]或幀間梯度流場[35]推斷出初始顯著性圖譜,並進一步結合能量函式和一些啟發式時空建模,以鼓勵輸出顯著性圖譜的跨框架連續性。由於它們不依賴於訓練資料和手工製作的低階特徵,因此基於圖形模型的方法處理具有複雜語義對比度和物體運動的視訊是非常困難的。雖然光流已經在這些方法中被利用,但它僅用於現成模式的啟發式後處理。最近,隨著深度CNN在靜態影象的顯著性目標檢測中的蓬勃應用,還嘗試將CNN擴充套件到視訊顯著性目標檢測[36,16]。它們簡單地連線連續的幀影象並饋送到卷積神經網路以進行時間連續性建模。然而,由於卷積神經網路不具有記憶功能,原始幀影象的這種樸素的聚合以及嚴重的卷積運算不能很好地表徵時域中視訊幀的連續動態演化。此外,這種簡單的時空建模策略缺乏對物體運動的明確補償,使得難以在保持時間連續性的同時通過劇烈運動來檢測顯著性目標(例如,目標移動超出神經網路的接受域)。

在這項工作中,我們提出流引導遞迴神經編碼器(FGRNE),一種端到端學習框架,將任何基於FCN的靜止影象顯著性檢測器擴充套件到視訊顯著性目標檢測。它通過在LSTM網路方面利用光流和順序特徵演化編碼方面的運動資訊來增強每幀特徵的時間連續性。具體而言,我們採用現成的基於FCN的影象顯著性檢測器(例如DSS[10])作為我們用於特徵提取和最終顯著性推斷的主網路,以及用於幀對之間的運動估計的預訓練的FlowNet[7]。我們的FGRNE學習通過結合流引導特徵變形以及基於LSTM的時間連續特徵編碼來改進每幀特徵。最後一個時間步的輸出特徵對映被視為我們的編碼特徵,並被饋送到主網路的上部以進行顯著性推斷。此外,我們的FGRNE還涉及另一個LSTM模組,以改善具有大時間間隔的幀對的估計光流。FGRNE的所有三個模組(包括運動計算和更新),流引導特徵變形以及時間連續性特徵編碼都與主網路端到端地進行訓練。

總之,本文有以下貢獻:

  •我們引入流引導的遞迴神經編碼器框架來增強每幀特徵表示的時間連續性建模,可以利用它來將任何基於FCN的靜止影象顯著性檢測器擴充套件到視訊顯著性目標檢測。

  •我們建議在FGRNE框架中採用光流網路來估計每個幀的運動,這進一步用於特徵變形以明確地補償目標的運動。

  •我們建議在我們的FGRNE中利用ConvLSTM進行順序特徵編碼,該編碼可以捕獲時域中外觀對比度的演變,並且與特徵變形相輔相成,以改善視訊顯著性目標檢測的效能。

 

  1. 相關工作

2.1靜態圖片顯著性目標檢測

幾十年來,影象顯著性目標檢測已被廣泛研究。傳統方法可以分為基於低階特徵的自下而上方法[8,15,5]和由高階知識引導的自上而下模型[14,40,22]。近年來,深度CNN將顯著性目標檢測的研究推向了一個新的階段,併成為該領域的主導研究方向。基於CNN的深度方法可以進一步分為兩類,包括基於區域的深度特徵學習[19,42,32]和基於端到端完全卷積網路的方法[20,10,18,33,17]。第一類中的方法將影象分成區域,並將每個區域視為用於深度特徵提取和顯著性推斷的獨立單元。由於特徵提取和儲存中的重要冗餘,它們通常是空間和時間浪費的。為了克服這種缺陷,已經開發了基於FCN的深度模型,以便以端到端的可訓練方式將原始輸入影象直接對映到其對應的顯著性圖譜。這些方法可以充分利用特徵共享機制,並在單個網路前向操作中生成每個區域的分層特徵。它們可以產生出色的顯著性圖譜,並已成為該領域最先進方法的基本組成部分。

與這些基於靜止影象的顯著性目標檢測方法相比,我們關注視訊顯著性目標檢測,其結合時間和運動資訊以改善用於顯著性目標推斷的特徵圖表示。它可以被視為將一個基於FCN的通用模型框架擴充套件到視訊顯著性檢測,並且可以很容易地從靜止影象顯著性目標檢測器的改進中受益。

2.2視訊顯著性檢測

與靜止影象中的顯著性檢測相比,由於有效的時空建模的高度複雜性和缺乏大規模註釋的視訊資料集,檢測視訊顯著目標更具挑戰性。在研究界很少探索它。此問題的早期方法可以被視為一些靜態顯著性模型的簡單擴充套件,具有額外製作的時間特徵[24,9]。最近,值得注意的工作通常將視訊顯著性檢測表示為連續幀上的時空上下文建模問題,並將能量函式與手工規則相結合,以鼓勵輸出顯著性圖譜的空間平滑性和時間連續性[3,35,6]。然而,這些方法都屬於無監督的生成模型,並且依賴於手工製作的低階特徵用於啟發式顯著性推斷,因此不能處理需要知識和語義推理的複雜視訊。雖然最近Le等人發表了一篇未刊登的著作[16],他們建議將深度CNN特徵結合到用於時間連續性增強的時空條件隨機域(CRF)框架中,它仍然受到多級流水線(傳遞途徑)的缺陷及其高計算成本的影響。我們最相關的工作是[33],它利用第二個FCN來改善從基於FCN初始靜態顯著性網路來生成顯著性圖譜的時間連續性,將連續幀對的連線以及初始顯著性圖譜作為輸入,並且在前向網路操作中直接對映到重新確定的顯著性圖譜。由於卷積神經網路不具有記憶功能,因此無法很好地模擬時域中視訊幀的連續演進。此外,這種時空建模的粗糙策略缺乏對物體運動的明確補償,使得難以通過劇烈運動來檢測顯著目標。

相比之下,我們的方法考慮了特徵級別中的時間資訊而不是原始輸入幀,並且結合了LSTM網路以自然地編碼進行順序特徵演化。整個框架經過端到端的訓練,推理過程非常高效。此外,我們的方法可以進一步結合這種基於圖形模型的後處理技術(例如CRF)用以改善效能。

 

2.3基於光流的運動估計

光流估計兩個連續幀之間的逐畫素運動,並廣泛用於各種視訊分析任務。傳統方法主要基於變分公式,主要處理小位移,並且受到高效計算成本的限制。最近,基於深度學習的方法已被用於光流計算[7,28,11]。最具代表性的工作是FlowNet[7],它表明CNN可以應用於高效的光流推理。還嘗試將FlowNet納入當代深度學習框架,以增強視訊特徵表示的時間連續性,從而為各種視訊理解任務帶來效能改進,包括視訊識別[45],目標檢測[44]和視訊物件分割[29]。

光流已經在現有的視訊顯著性目標檢測模型中被利用,然而,它在後處理中用作輔助運動特徵或手工規則以用於時間連續性改進。受[45,44]的啟發,我們採用光流技術實現跨幀的特徵變形,並補償物體運動引起的變化。然而,與這些努力不同,運動流在我們的框架中用於動態更新,並且特徵變形的結果被利用於時間特徵編碼而不是特徵聚合。此外,我們首先將光流整合到遞迴神經編碼器中,以實現有效的時空特徵學習,並在視訊顯著性目標檢測任務中展示了其卓越的效能。

 

  1. 流引導迴圈神經編碼器

給定視訊幀序列Ii,i=1,2,...,N,視訊顯著性目標檢測的目的是輸出所有幀的顯著性圖譜,Si,i=1,2,...,N。用於靜態影象的最先進的顯著性目標檢測器主要基於FCN結構[20,23,18,10]。給定預訓練靜態模型N(例如DSS [10]模型),可以將其視為特徵提取模組Nfea,其後是畫素方式顯著性迴圈模組Nreg。給定影象I的輸出顯著性對映S可以被計算為S=Nreg(Nfea(I))。由於缺少特徵表示中的時間連續性建模,將該模型直接應用於每個單獨的幀通常會產生不穩定且時間上不一致的顯著性圖譜。

我們提出的FGRNE ε旨在通過額外檢視k個前幀的一段來增強特徵表示的時間連續性。給定參考幀Ii,編碼特徵表示為Fi = ε(Nfea(Ii),Nfea(Ii-1),...,Nfea(Ii-k))。由於物體運動及其外觀對比度的變化是視訊顯著性影響因素的兩個核心,因此提出的FGRNE採用了現成的FlowNet模型[7]和基於LSTM的特徵編碼器來分別處理這兩個因素


如圖2所示,我們的FGRNE架構由三個模組組成,包括運動計算和更新,運動引導特徵變形和時間連續性特徵編碼。具體而言,我們首先計算相對於參考幀的每個k個前幀的光學流圖。每個流動圖都以相反的順序進一步饋送到LSTM以進行運動改進。其次,應用每個時間步驟更新的流圖以相應地扭曲特徵圖。最後,每個扭曲的特徵被連續地饋送到另一個LSTM以用於時間連續特徵編碼,其產生結果特徵Fi。因此,輸出的顯著性圖譜被計算為Si = Nreg(Fi)。

3.1 運動的計算和更新

給定參考Ii和k個前幀的視窗,我們首先應用嵌入式FlowNet F[7]來單獨估計k個初始流場{Oi→j = F(Ii,Ij)| j = i-1,i-2 ,...,i-k}相對於參考座標系。得到的流場Oi→j是兩個通道的位置偏移圖。它計算Ii中每個畫素位置(x,y)的畫素位移(u,v)到Ij中的空間位置(x',y'),即(x',y')=(x+u,y+v),其中u和v分別表示水平和垂直方向上的畫素偏移。

 由於FlowNet最初是根據連續幀的配對資料進行訓練的,因此可能不足以反映長時間間隔的兩幀之間的運動關係。直觀地,越接近參考系,估計的運動流越精確。我們可以逐步採用更近的幀的流動圖來重新確定更大的時間間隔。基於上述考慮,我們建議將ConvLSTM [39]與基於CNN的FlowNet結合起來,共同學習流動圖並以相反的順序重新定義。

 ConvLSTM是傳統全連線LSTM的擴充套件,它在輸入到狀態和狀態到狀態連線中都具有卷積結構。在ConvLSTM中傳輸的所有資料都可以視為3D張量,最後兩個維度是空間維度。設X1,X2,...,Xt表示輸入到ConvLSTM和H1,H2,...,Ht代表其隱藏狀態。在每個時間步驟,ConvLSTM的輸出隱藏狀態根據其自己的輸入以及來自其先前輸入的編碼過去狀態進行更新,其被公式化為

Ht = ConvLSTM(Ht-1,Ct-1,Xt),(1)


其中C是ConvLSTM在其先前時間步的記憶單元狀態。在[39]之後,ConvLSTM模組由輸入門,忘記門ft和輸出門ot組成,整體更新方程可以在(2)中列出,其中'*'表示卷積運算子,'◦'表示矩陣相乘,σ(·)代表sigmoid函式:

為了用ConvLSTM更新光流場,LSTM層展開用於k流場的視窗,隱藏狀態的大小設定為與輸入流圖相同。我們以相反的順序依次將k初始運動流饋送到ConvLSTM單元,即X1:k = Oi→(i-1),Oi→(i-2),...,Oi→(i-k)。隱藏狀態是更新的流域的編碼,其進一步饋送到卷積核大小為1×1的卷積層,產生重新定義的流圖ROi→j,表示為:


3.2 運動引導特徵變形


在[45]的推動下,給定一個重新定義的流圖ROi→j,通過應用以下的變形函式,第j幀上的特徵對映Nfea(Ij)被扭曲到參考幀,

其中WarpFi→j指的是從第j幀到第i幀扭曲的特徵對映。W(·)是雙線性變形函式,它應用於特徵對映的每個通道的所有空間位置。它在光流ROi→j的所需位置處實現為Nfea(Ij)的雙線性插值。

 

3.3 時間連續性特徵編碼


雖然特徵變形操作可以補償由目標或相機運動引起的特徵不對齊。僅表徵視訊幀的連續動態演化以及時域中外觀對比度的演變仍然是不夠的。基於上述考慮,我們建議利用另一個ConvLSTM進行順序特徵編碼。具體而言,該ConvLSTM將一系列扭曲特徵(包括參考系的特徵)作為輸入,即,等式(1)中表示的X1:k設定為X1:k = WarpFi→(i-k),WarpFi→(i-k+1),...,WarpFi→(i-1),Nfea(Ii),並且通過計算從t=1到t=k+1的時間特徵編碼的前向隱藏序列來工作,然後更新輸出層。(1)中的狀態更新功能可以重寫如下:

隱藏狀態是迄今為止記憶的未來的編碼。並且最後時間步長k+1的隱藏狀態是我們的最終特徵編碼。

 

4.實驗結果

4.1實驗設定

4.1.1 資料集

我們在兩個公共資料集上評估我們方法的效能:Freiburg-Berkeley運動分割(FBMS)資料集[2,25]和DAVIS [27]資料集。FBMS資料集包含59個視訊,其中包含720個帶註釋的稀疏註釋幀。DAVIS是一個新開發的視訊物件分割資料集,它包含50個高質量和全高清視訊序列,具有3455個密集註釋的畫素級和每幀真實性。它是最具挑戰性的基準之一,涵蓋各種視訊物件分割挑戰,如遮擋,運動模糊和外觀變化。

存在另一個數據集SegTrackV2,它是來自[30]中提出的原始SegTrack資料集的擴充套件資料集,包含14個關於鳥類,動物,汽車和人類的視訊,帶有1066個密集註釋的幀影象。如[36]所述,我們將整個SegTrackV2,FBMS和DAVIS的訓練集作為我們的訓練集,並在DAVIS和FBMS的測試集上評估我們訓練的模型。

 

4.1.2評估標準


與基於影象的顯著性目標檢測類似,我們採用precision-recall曲線(PR),最大F-測量和平均絕對誤差(MAE)作為評估指標。連續顯著性圖譜重新調整為[0,255]並使用區間中的所有整數閾值進行二值化。在每個閾值處,可以通過將二元顯著性圖譜與groundtruth進行比較來獲得一對precision和recall值。 PR曲線是從資料集中所有影象的顯著性圖譜上的平均precision和recall中獲得的。F-measure定義為

其中β2設定為0.3,如[1]中所述。我們報告從PR曲線計算的最大F-測量值(maxF)。MAE被定義為二元ground truth G和顯著性圖譜S [26]之間的平均畫素值絕對差值,

 

4.1.3實施細節

我們提出的FRGNE已經在Mxnet [4]上實現,這是一個靈活的開源深度學習框架網路。FGRNE與任何基於FCN的靜止影象顯著性目標檢測器相容。在本文中,我們選擇最先進的深度監督顯著性目標檢測(DSS)[10]方法,以公共訓練模型為基準,並將更新的DSS與FGRNE嵌入作為視訊顯著性目標檢測的最終模型,進行消融研究時,與其他基準進行比較。在4.3節中,我們將在其他主網路上列出我們提出的FGRNE的更多結果,以證明我們提出的演算法的有效性。在訓練期間,幀影象在饋入網路之前被調整為256*512。在推斷時,我們將影象調整為256畫素的較短邊。我們使用速度為0.9的SGD以端到端模式訓練我們框架中包含的所有元件。學習率初始設定為2.5e-4,每8k訓練輪次衰減0.9。損失函式被設定為與主網路相同(例如,DSS[10]採用影象級類平衡交叉熵損失)。視窗大小k受記憶體限制,在我們的實驗中其預設值設定為5。我們還在第4.3節中探討了不同設定的影響。實驗在具有NVIDIA Titan X GPU和3.4GHz Intel處理器的工作站上進行。

 

4.2與現有技術的比較

我們將我們的方法(FGRNE)與最近的9種最先進的方法進行比較,包括MST [31],MB+[41],RFCN[33],DHSNet[23],DCL[20],DSS[10],SAG[34],GF[35]和DLVSD[36]。前六個是最先進的靜態影象顯著性目標檢測方法,而後三個是基於視訊的顯著性模型。為了公平比較,我們使用作者提供的實現或顯著性圖譜。我們還使用與訓練我們的FGRNE相同的訓練集來調整所有公共靜態顯著性模型,並使用重新建立的模型進行比較。

視覺比較如圖4所示。可以看出,基於深度學習的靜態顯著性模型在獨立觀看時可以生成看似有希望的顯著性圖譜,當放入整個序列時,它們不出意外地不一致。雖然現有的基於視訊的模型可以在具有相對輕微物體運動的視訊上產生一致的結果,但它們仍然無法處理外觀(物體或相機運動)發生顯著變化的視訊。特別值得注意的是,我們提出的方法結合了現成的DSS[10]模型作為我們的基線,它可以學習通過時間連續性來改善原始特徵,並最終產生優於原始特徵的優化結果。通常,我們的方法在各種具有挑戰性的情況下生成更準確和一致的顯著性圖。

作為定量評估的一部分,我們展示了圖3中PR曲線的比較。如圖所示,我們的方法(FGRNE)在DAVIS和FBMS上都顯著優於所有最先進的靜態和動態顯著性目標檢測演算法。此外,表1中列出了最大F-測量值和MAE的定量比較,我們提出的方法將FBMS和DAVIS上最佳效能靜態演算法的最大F-測量值分別提高了5.24%和2.57%,並相應地降低了MAE的17.10%和8.57%。與效能最佳的視訊模型相比,我們的FGRNE在FBMS和DAVIS資料集上分別將最大F測量值提高了12.50%和14.16%,並相應地將MAE降低了18.18%和50%。一個有趣的現象是,由於出色的完全卷積網路,目前最好的靜態顯著性模型實際上優於基於狀態到視訊的顯著性目標檢測方法。

 

4.3消融研究

4.3.1流導向迴圈神經編碼器的有效性

如第3節所述,我們提出的FGRNE涉及三個主要模組,包括運動流更新,運動引導特徵變形和時間一致特徵編碼。為了驗證這三個模組中每個模組的有效性和必要性,我們將FGRNE與其表2中的五個變數進行比較。

Sa指的是從單幀基線模型生成的顯著性圖譜。為了便於比較,我們還使用訓練集的各個幀來微調模型。它在DAVIS的測試集中達到最大Fβ= 0.775且MAE = 0.047,其已經優於大多數最先進的方法。這表明經過調整的基線模型具有競爭力,可作為評估的有效參考。與我們的整個框架相比,顯示將FGRNE嵌入基線模型完全導致F-測量值增加2.97%,同時將MAE降低31.91%。


Sb是指基線模型上的樸素特徵聚合演算法。參考幀的特徵簡單地更新為觀看視窗中的特徵對映的加權和,其中第j幀的權重wi→j設定為1/(i-j+1)。它表示為

它也像我們訓練FGRNE一樣經過端到端的訓練。如表中所示,該變數的F-測量值降至0.768,而MAE增加至0.052,甚至低於基線模型。它表明這種天真的特徵聚合不適合順序特徵建模。我們推測其原因在於場景結構和外觀變化引起的特徵錯位。

Sc是指基線模型上的簡單特徵編碼演算法,以及FGRNE的退化變數。關閉運動更新模組並且不使用流動運動,即,在訓練期間運動流Oi→j被設定為全零。該變體也以與FGRNE相同的方式端到端地進行訓練。如表中所示,F-指數略微增加至0.777,而MAE則大幅下跌23.40%至0.036。然而,效能仍然遠低於提出的FGRNE。這表明遞迴神經編碼器可以學習利用先前幀的特徵來改善參考幀的時間連續性。但是,僅基於LSTM的特徵編碼是不夠的。

Sd將運動引導特徵變形新增到Sb模型,而不啟動運動演化更新模組。它實際上是一個流引導的特徵聚合程式。它將F-指數提高1.56%至0.780,同時將MAE降低30.77%至0.036 W.r.t Sb的表現。這意味著特徵對齊是特徵聚合之前的重要操作。Sa的明顯效能增益也揭示了運動建模對視訊顯著性目標檢測的重要性。

Se將運動引導特徵變形新增到Sc的模型中。它是FGRNE的退化版本,沒有運動流更新。所有其他因素保持不變。它將最大F-測量值提高2.06%至0.793,並將MA的效能降低2.78%至0.035 w.r.t,這意味著運動引導特徵扭曲的效能增益與基於LSTM的時間連續性建模相輔相成。事實上,物體運動和外觀對比度的變化是視訊顯著性影響因素的兩個核心,這與我們提出的FGRNE中兩個互補模組的設計完全一致。

Sf指的是提出的FGRNE方法,其開啟Se中的運動流演變更新模組。它進一步使F-指標上漲0.63%至0.798,同時將MAE下調8.57%至0.032。這表明反向LSTM可以幫助重新確定運動流,這彌補了FlowNet在估算具有大時間間隔的幀對的光流時的不足。

此外,我們還列出了我們提出的FGRNE的每個變體的執行時間成本比較。如圖所示,將FGRNE合併到靜態模型每幀額外花費94ms。注意到在給定視窗中的所有幀的顯著性推斷期間共享特徵提取,並且我們的演算法以滑動視窗模式執行。因此,擴大視窗大小不會導致時間計算成本的嚴重增加。

 

4.3.2特徵提取器選擇的靈敏度

如第3節所述,我們的FGRNE依賴於預先訓練的靜態顯著性檢測器作為我們的主網路。主網路分為特徵提取器和逐畫素分類模組。原則上,它可以在任何層分割,因為主網路是全卷積的。我們探討了將FGRNE新增到不同特徵提取水平對最終結果的影響的效果。我們分別嘗試將特徵編碼新增到主DSS模型的Conv3_3,Conv4_3和Conv5_3的輸出特徵對映中。實驗結果表明,FGRNE能夠改善特徵圖的所有尺度上的時間連續性,當選擇Conv3_3,Conv4_3和Conv5_3的特徵圖時,其最大值分別為0.777,0.789和0.798。其中,結合FGRNE使用從Conv5_3中提取的特徵可以獲得最大的效能增益,從而使F-measure增加2.97%,並將MAE降低8.57%,降至單幀靜態版本。

4.3.3視窗大小設定的靈敏度

我們提出的FGRNE通過利用視窗k前幀來學習促進編碼特徵的時間連續性。 受到我們工作站記憶體的限制,k可以設定為最大值10。我們已經探討了k= {1,2,3,5,8,10}的不同設定對顯著性目標檢測效能的影響。圖5中的結果表明,使用5和8個前幀的訓練達到非常接近的準確度,k=5表現稍好。預設情況下,我們在實驗中的訓練和推理期間設定k=5。

 

4.3.4主模型選擇的靈敏度

如第3節所述,我們採用基於FCN的靜態顯著性檢測器作為我們FGRNE的主模型。為了證明我們提出的方法廣泛適用於任何基於FCN的主網路模型,我們申請將FGRNE納入最近釋出的另外兩種基於FCN的顯著性目標檢測方法,包括DCL[20]和MSRNet[18]。對於後者,由於機器記憶體的限制,我們只對其單一規模版本即SSRNet進行實驗。如圖6所示,對F-measure和MAE的實驗評估表明,我們的FGRNE可以被訓練以有效地增強特徵表示的空間時間連續性,這極大地提高了視訊顯著性目標檢測的效能。

 

5.與無監督視訊目標分割方法的比較

視訊顯著性目標檢測的問題設定與無監督視訊物件分割的問題設定非常相似,除了其目標是計算每個畫素的顯著性概率值而不是二進位制分類。為了與最先進的無監督視訊物件分割方法進行公平比較,我們將FGRNE與基於靜態ResNet-101的畫素方式二元分類模型結合在一起,其中的特徵是從Conv5_x的最終輸出特徵圖中提取的。我們根據平均IoU評估我們在DAVIS和FBMS資料集上提出的方法,並與一些最先進的方法進行比較。如表3所示,我們提出的方法在DAVIS和FBMS上分別優於現有技術的LVO [29],IoU測量值分別為2.96%和14.0%。注意到如[29]中所述,在DAVIS的排行榜上報告的mIoU值為75.9%包括CRF作為後處理,沒有CRF的LVO的結果是70.9,如他們的論文中所報道的。為了公平比較,我們還在表格中報告了有和沒有CRF的mIoU結果。可以看出,我們提出的CRF方法在DAVIS和FBMS上也分別優於LVO 1.6%和16.90%。

 

6.結論

在本文中,我們提出了一個用於視訊顯著性目標檢測準確的端到端框架。我們提出的流動引導迴圈編碼器旨在改善深度特徵表示的時間相干性。它可以被認為是將任何基於FCN的靜態顯著性檢測器擴充套件到視訊顯著性物件檢測的通用框架,並且可以從未來基於影象的顯著性目標檢測方法的改進中容易地獲益。此外,由於我們專注於學習增強的特徵編碼,因此可以輕鬆擴充套件到視訊分析的其他應用程式,並且值得在將來進行探索。