Weakly Supervised Action Localization by Sparse Temporal Pooling Network總結
阿新 • • 發佈:2022-04-20
0.前言
1.針對的問題
這篇論文前的許多視訊理解技術都依賴於修剪過的視訊作為輸入,然而,現實世界中的大多數視訊都是未修剪的,包含大量與目標動作無關的幀,由於提取顯著資訊的挑戰,這些技術容易失敗。
2.主要貢獻
-
引入了一種新的深度神經網路架構,用於未經修剪的視訊中進行弱監督動作定位,其中動作是從網路識別出的片段的稀疏子集中檢測得到的。
-
提出了一種計算和結合時間分類啟用對映和class-agnostic注意力的方法,用於目標動作的時間定位。
-
所提出的弱監督動作定位技術在THUMOS14 [17]上實現了最先進的結果,並在ActivityNet1.3 [14]動作定位任務中表現出色。
3.方法
使用注意力模組來識別一個視訊中與目標動作相關的關鍵片段的稀疏子集,並通過自適應時間池化融合關鍵片段。
演算法概述:
演算法採用雙流輸入:視訊幀的RGB資訊和幀間的光流資訊,並行執行動作分類和定位。 為了進行定位,從雙流中計算時間分類啟用對映(T-CAMs)並用於生成時序定位目標動作的一維時間動作提議。
模型總體流程如下:
首先對一組片段進行取樣,並使用預訓練好的卷積神經網路從每個片段中提取特徵表示。然後,每個特徵向量被輸入到一個注意力模組,該模組由兩個全連線(FC)層和一個位於兩個FC層之間的ReLU層組成。第二個FC層的輸出輸入到一個sigmoid函式,它強制生成的注意力權值在0到1之間。然後,這些類不可知的注意力權重被用來調整時間平均池化——特徵向量加權和,以建立一個視訊級別的表示。 該表示輸入分類模組,該模組包含一個FC層,然後是sigmoid層,該分類模組可以利用視訊級標籤以規則的交叉熵損失進行訓練。對注意力權重施加L1損失,作為稀疏損失,以加強稀疏注意力,使注意力集中在與動作相關的片段上。