1. 程式人生 > 其它 >Action Shuffling for Weakly Supervised Temporal Localization概述

Action Shuffling for Weakly Supervised Temporal Localization概述

1.針對的問題

  目前的弱監督動作定位方法表現出兩個顯著的趨勢:

  (1) 動作背景建模。通過分別學習視訊級別的動作和視訊的背景表示,可以提高動作定位效能,然而,視訊級建模只能捕獲粗粒度的描述。對動作的內在特徵進行深入分析的研究較少。

  (2) 探索外部資源。為了彌補弱監督帶來的有限資訊,藉助外部資源已成為另一種趨勢。通常,公開可用的視訊或生成的帶有視訊級別或幀級別標籤的偽視訊被用作補充訓練資料。不過這種方法也存在兩個缺點:(1)原始資料集和輔助資料集之間的源-目標自適應對於穩健的知識轉移至關重要,但很難實現。(2)新訓練視訊的特徵提取給計算消耗帶來了額外負擔。

 

2.主要貢獻

 •設計了動作內/動作間重組機制,以充分利用動作的順序敏感和位置不敏感特徵,並提高模型的表示能力。該模型以自增強的方式工作,不需要外部資源。

 •設計了全域性-區域性對抗訓練方案,以增強模型在視訊級預測和片段級動作背景識別方面對無關噪聲的魯棒性。

 •設計了網路架構,將不同的模組整合到一個統一的框架中,該框架以端到端的方式進行優化。在具有挑戰性的未經剪輯的視訊資料集上進行的大量實驗表明,ActShufNet在技術水平上取得了令人鼓舞的結果。

 

3.方法

  作者發現動作具有兩個關鍵特徵:

  •一方面,動作對順序敏感。視訊的動態運動特徵通過有序幀內的時間相關性來反映。改變動作的內部順序可能會顯著改變其語義。例如發射子彈在相反的時序下就變成了捕捉子彈,這是一種完全不同的行為。

  •另一方面,動作對位置不敏感。與對內部順序的依賴相比,一個行為相對獨立於它發生的時間。在不同的時間點採取同一類別的行動不太可能影響底層語義,只要保持原有的內部順序。

  由此,作者提出了一種新的具有動作內/動作間重組的弱監督動作定位網路結構,稱為ActShufNet。在傳統的基於注意力的動作識別和定位正規化的基礎上,作者構建了一個自增強的學習模型,以實現在不依賴任何外部資源的情況下提高表示能力。模型從基於class-agnostic注意力的初步分割動作開始,經過兩條分支,即動作內和動作間的重組。動作內重組隨機改變動作的內部順序,旨在通過自我監督任務恢復其原始順序。通過這種方式,優化的表示被強制捕獲動作的潛在內在相關性,這有助於隨後的語義推斷。動作間動作重組隨機選取同一類別的動作,這些動作共同建立新的未剪輯視訊,這些視訊自然附加了共享視訊級標籤。這樣,訓練資料集可以任意擴充套件,同時在每個建立的視訊中包含更多種類。為了進一步增強模型對動作和背景的區分能力,提出了全域性區域性對抗訓練方案,以獲得抗干擾的魯棒學習效能。

  模型流程圖如下:

   對於一個有T幀/片段的視訊V,通過預訓練的特徵提取模型提取RGB或光流視訊特徵,由於可變長度T的未裁剪視訊會帶來可變特徵矩陣,處理非常不方便。因此,利用注意力機制來整合幀級描述,並獲得固定大小的緊湊表示。

   每個視訊會包含多個動作子視訊,對每個動作子視訊均勻取樣N個固定大小的片段,取樣的N個片段被隨機打亂並組織成一個元組來形成輸入資料,以它們的原始順序作為目標。將順序預測作為一個分類任務,它輸出輸入clip特徵在不同順序上的概率估計。

  從同一類的視訊中隨機選擇幾個動作片段,並將它們連線到一個新視訊中。新視訊具有與原視訊相同的標籤,從而可以擴充訓練集。