Weakly Supervised Action Localization by Sparse Temporal Pooling Network總結

阿新 • • 發佈：2022-04-20

0.前言

相關資料：
- arxiv
- code
- 論文翻譯（翻譯1，翻譯2）
論文基本資訊：

領域：弱監督時序動作定位
發表時間：CVPR2018（2018.4.3）

1.針對的問題

　　這篇論文前的許多視訊理解技術都依賴於修剪過的視訊作為輸入，然而，現實世界中的大多數視訊都是未修剪的，包含大量與目標動作無關的幀，由於提取顯著資訊的挑戰，這些技術容易失敗。

2.主要貢獻

引入了一種新的深度神經網路架構，用於未經修剪的視訊中進行弱監督動作定位，其中動作是從網路識別出的片段的稀疏子集中檢測得到的。
提出了一種計算和結合時間分類啟用對映和class-agnostic注意力的方法，用於目標動作的時間定位。
所提出的弱監督動作定位技術在THUMOS14 [17]上實現了最先進的結果，並在ActivityNet1.3 [14]動作定位任務中表現出色。

3.方法

　　使用注意力模組來識別一個視訊中與目標動作相關的關鍵片段的稀疏子集，並通過自適應時間池化融合關鍵片段。

　　演算法概述：

　　演算法採用雙流輸入：視訊幀的RGB資訊和幀間的光流資訊，並行執行動作分類和定位。為了進行定位，從雙流中計算時間分類啟用對映（T-CAMs）並用於生成時序定位目標動作的一維時間動作提議。

　　模型總體流程如下：

　　首先對一組片段進行取樣，並使用預訓練好的卷積神經網路從每個片段中提取特徵表示。然後，每個特徵向量被輸入到一個注意力模組，該模組由兩個全連線(FC)層和一個位於兩個FC層之間的ReLU層組成。第二個FC層的輸出輸入到一個sigmoid函式，它強制生成的注意力權值在0到1之間。然後，這些類不可知的注意力權重被用來調整時間平均池化——特徵向量加權和，以建立一個視訊級別的表示。該表示輸入分類模組，該模組包含一個FC層，然後是sigmoid層，該分類模組可以利用視訊級標籤以規則的交叉熵損失進行訓練。對注意力權重施加L1損失，作為稀疏損失，以加強稀疏注意力，使注意力集中在與動作相關的片段上。

Weakly Supervised Action Localization by Sparse Temporal Pooling Network總結

0.前言

1.針對的問題

2.主要貢獻

3.方法

Weakly Supervised Action Localization by Sparse Temporal Pooling Network總結

ACGNet Action Complement Graph Network for Weakly-supervised Temporal Action Localization概述

Action Shuffling for Weakly Supervised Temporal Localization概述

Weakly Supervised Open-set Domain Adaptation by Dual-domain Collaboration筆記

Weakly Supervised Semantic Segmentation with Boundary Exploration論文解讀

對Weakly Supervised Human-Object Interaction Detection in Video via Contrastive Spatiotemporal Regions的進一步總結

論文閱讀：Weakly-Supervised Semantic Segmentation via Sub-Category Exploration

對Weakly Supervised Relative Spatial Reasoning for Visual Question Answering的進一步總結

Counterfactual Generator A Weakly-Supervised Method for Named Entity Recognition

視訊超分：FSTRN（Fast Spatio-Temporal Residual Network for Video Super-Resolution）

Codeforces Round #683 (Div. 2, by Meet IT) 題解&總結

Predicting Entity Relations across Different Security Databases by Using Graph Attention Network

【ICRA 2021】【簡讀】論文閱讀： Graph Attention Spatio-temporal Convolutional Network for 3D Human Pose Estimation in Video

總結Learning Efficient Single-stage Pedestrian Detectors by Asymptotic Localization Fitting

docker harbor x509: certificate signed by unknown authority action: push: unauthorized to access repository

論文閱讀：3D human pose estimation in video with temporal convolutions and semi-supervised training

[論文][人臉演算法]Boosting Facial Expression Recognition by A Semi-Supervised Progressive Teacher

Temporal Ensembling for Semi-Supervised Learning

【SpringBoot-In-Action】一、Spring Boot快速入門

iOS Audio hand by hand: 變聲，混響，語音合成 TTS，Swift5，基於 AVAudioEngine 等

Weakly Supervised Action Localization by Sparse Temporal Pooling Network總結

0.前言

1.針對的問題

2.主要貢獻

3.方法

相關推薦