1. 程式人生 > 其它 >ACGNet Action Complement Graph Network for Weakly-supervised Temporal Action Localization概述

ACGNet Action Complement Graph Network for Weakly-supervised Temporal Action Localization概述

1.針對的問題

  現有WTAL方法通常利用現成的段級特徵,這些特徵存在空間不完整性和時間不一致性,具體來說,空間不完整性指動作片段經常會出現遮擋、模糊、外場等問題,因此缺乏特定的空間細節,時間不一致性指一個完整的動作通常跨越一個較長的時間視窗,而一個較短的動作片段不足以觀察該動作的全部動態,這限制了這些方法的效能。

2.主要貢獻

  1.提出了一種新的WTAL圖卷積網路,即ACGNet,它通過隱式利用互補資訊並聯合解決空間不完整性和時間不一致性問題,極大地增強了片段級動作表示的可分辨性。

  2.考慮多個重要因素(即片段相似性、時間擴散和圖稀疏)來構造初始ACG。此外,還提出了一種新的“簡單正例挖掘”方法,使圖形網路的訓練變得可行和實用,使ACGNet能夠靈活地注入現有的框架中。

  3.為幾種最新的WTAL方法嵌入了提出的ACGNet。在兩個具有挑戰性的資料集上進行的大量實驗表明,它能夠在很大程度上進一步推動WTAL的SOTA。

3.方法

  通過一個簡單而有效的圖卷積網路隱式地解決了這兩個問題。提出的動作互補圖網路(ACGNet)有助於動作片段在整個未修剪的長視訊中利用其他片段的互補線索。在應用ACGNet之後,可以根據增強的特徵更容易地對難例進行分類。特別地,不僅考慮分段級相似性,而且在構造初始動作補充圖(ACG)時也減輕了時間上接近段的負面影響。此外,使圖足夠稀疏,以保留資訊量最大的連線。通過圖卷積,將高質量片段的互補資訊傳播到低質量片段,從而增強每個片段的動作表示。換言之,其他片段提供的補充資訊被視為監督,以瞭解WTAL場景中更多的區別性特徵。最重要的是,由於精心設計的損失函式ACGNet可以作為一個通用外掛模組工作,靈活地嵌入到不同的WTAL框架中,進一步顯著增強了SOTA的效能。

  針對具體問題來說:

  1.片段相似圖。未經修剪的長視訊可能包含多個動作示例,由於場景、照明條件、拍攝角度、遮擋等的不同,差異很大。但是,同一動作類別的多個示例之間始終存在相似的運動模式,其中,一些高質量或易於分類的片段記錄了干擾較少的更完整的動作示例,提供了相對穩定的資訊,而低質量的片段也可以相互補充。例如,屬於同一動作類別的兩個時間段可能在不同區域被遮擋。在這種情況下,一方可以幫助另一方感知在其自身片段中可見的區域。因此,作者希望在所有段之間傳播各種互補資訊。為此,作者首先通過考慮片段級特徵之間的相似性來構造片段相似圖。文中通過兩個原始段級特徵之間的餘弦距離來度量它們的相似性,並通過設定第i個節點和第j個節點之間的邊權值(即As

ij)來構造相似性圖Gs。

  2.時間擴散圖。由於在連續段之間存在高度的時間依賴性,因此作者在構造圖時也考慮了時間資訊。在自然界中,時間上接近的片段通常具有較高的概率屬於相同的動作,並且往往有較高的相似性,即相應的邊權值應該相對較大。此外,在實際應用中,特徵提取網路中的時間卷積(即作者實驗中的I3D)可以在較短的時間視窗內融合相鄰段之間的時間資訊。這導致了時間接近段之間更高的特徵相似性(即,當i→j時,Asij趨於較大)。因此,如果作者基於上述事實構造時間圖,並將其直接新增到段相似度圖中,互補資訊的傳播可能會在較短的時間視窗內受到限制,不能在距離很遠的段之間成功共享。例如,包含高質量判別動作示例的第i段Si不能補充其他在時間上遠離Si的劣質示例(屬於同一動作)。因此,作者試圖儘可能分散互補資訊,以便在未經修剪的長視訊中增強更多片段的可分辨性,從而提高定位效能。為此,作者通過在更遠的節點之間施加更大的邊權重來構造時間擴散圖。

  總體框架:

  給定一個輸入視訊V,首先將其平均分成固定數量的T個短時間段,用於處理視訊長度的巨大變化。然後,使用廣泛採用的視訊特徵提取網路,例如I3D網路,提取這些片段的特徵。ACGNet接收原始特徵F作為輸入,將這些特徵作為節點,構造出片段相似圖和時間擴散圖,將兩個子圖結合得到最終的動作補充圖G,但是這樣生成的圖G將十分密集,如果我們直接學習基於這個密集圖的增強特徵,對於每個節點/片段,我們可能會獲得相似的全域性視訊級特徵,因為每個節點都需要感知所有剩餘節點的特徵。這隱含地妨礙了段級特徵的可辨別性,導致定位結果不太準確。因此,有必要使圖足夠稀疏,只保留那些資訊量最大的節點。所以需要經過一個圖稀疏的過程,稀疏後的圖一方面通過圖平均得到平均特徵FAVG,另一方面通過圖卷積得到FGCN,將F,FAVG和FGCN相加得到增強特徵F',另外作者還提出了一個EPM損失,該損失將“簡單陽性”片段視為特徵空間中的類質心,目標是將其他類似片段推近它們。使得更多的動作片段變得更容易區分,最終獲得更準確的定位結果。