1. 程式人生 > 實用技巧 >ECCV 2020 論文大盤點-動作檢測與識別篇

ECCV 2020 論文大盤點-動作檢測與識別篇

本文盤點 ECCV 2020所有動作檢測與識別(Action Detection and Recognition)相關論文,總計 26 篇。

包含動作識別(Action Recognition)、動作檢測(Action Detection)、時序動作檢測(Temporal Action Detection)、動作定位(Action Localization)、群組活動識別、基於骨架的動作識別等。

下載包含這些論文的 ECCV 2020 所有論文:

ECCV 2020 論文合集下載,分類盤點進行中

動作識別Action Recognition

MotionSqueeze: Neural Motion Feature Learning for Video Understanding

作者 |Heeseung Kwon,Manjin Kim,Suha Kwak,Minsu Cho

單位 |浦項科技大學;NPRC

論文 |https://arxiv.org/abs/2007.09933

程式碼 |https://github.com/arunos728/MotionSqueeze

主頁 |http://cvlab.postech.ac.kr/research/MotionSqueeze/

備註 |ECCV2020

Few-shot ActionRecognitionwith Permutation-invariant Attention

作者 |Hongguang Zhang,Li Zhang,Xiaojuan Qi,Hongdong Li,Philip H. S. Torr,Piotr Koniusz

單位 |澳大利亞國立大學;牛津大學;Data61/CSIRO;香港大學等

論文 |https://arxiv.org/abs/2001.03905

備註 |ECCV 2020Spotlight

本文作者提出了一種新的少樣本動作識別網路(ARN),由一個編碼器、比較器和一個注意機制組成,來模擬短期和長期時空模式。作者研究了自監督的作用,通過空間和時間增強/輔助任務。

此外,作者還提出了一種新的機制:attention by alignment ,解決了所謂的判別性長期塊的時間位置的分佈遷移問題。

通過結合 self-supervision(自監督) 和 attention by alignment 的損失,得到高達6%的準確性的收益。

Directional Temporal Modeling for Action Recognition

作者 |Xinyu Li,Bing Shuai,Joseph Tighe

單位 |Amazon Web Service

論文 |https://arxiv.org/abs/2007.11040

備註 |ECCV 2020Spotlight

Adversarial Self-Supervised Learning for Semi-Supervised 3D Action Recognition

作者 |Chenyang Si,Xuecheng Nie,Wei Wang,Liang Wang,Tieniu Tan,Jiashi Feng

單位 | 國科大;中科院;新加坡國立大學

論文 |https://arxiv.org/abs/2007.05934

備註 |ECCV 2020

本文提出了一種用於半監督式3D動作識別的對抗自監督學習(ASSL)框架,通過 adversarial learning(對抗學習)和 neighbor relation exploration ,將SSL和半監督方案緊密耦合。

提供了一種新的自監督策略:neighborhood consistency(鄰域一致性),用於半監督的3D動作識別。通過探索鄰域內的資料關係,該模型可以學習判別性的運動表示,顯著提高半監督3D動作識別的效能。

作者表示,直接將SSL應用於半監督學習會受到標記和未標記樣本的表示錯位的影響。因此開創了一種新型的對抗式正則化,將SSL耦合到半監督演算法中,使其特徵分佈對齊,從而進一步提升泛化能力。

AR-Net: Adaptive Frame Resolution for Efficient Action Recognition

作者 | Yue Meng, Chung-Ching Lin, Rameswar Panda, Prasanna Sattigeri, Leonid Karlinsky, Aude Oliva, Kate Saenko, Rogerio Feris

單位 | MIT-IBM Watson AI Lab;波士頓大學;麻省理工學院

論文 | https://arxiv.org/abs/2007.15796

程式碼 | https://github.com/mengyuest/AR-Net

主頁 | https://mengyuest.github.io/AR-Net/

備註 |ECCV 2020

動作識別是計算機視覺中的一個開放性和挑戰性問題。現有的最先進的模型已經實現了很好的識別效果,但其昂貴的計算程式碼限制了其許多現實應用。

本文中,提出一種新的方法:AR-Net(Adaptive Resolution Network),它可以根據輸入條件為每一幀選擇最佳的解析度,以實現在長的未修剪視訊中高效的動作識別。

具體來說,給定一個視訊幀,使用策略網路來決定動作識別模型應該使用什麼樣的輸入解析度進行處理,目的是提高準確性和效率。使用標準的反向傳播有效地訓練了策略網路與識別模型的聯合。

在幾個具有挑戰性的動作識別基準資料集上的廣泛實驗很好地證明了提出的方法比最先進的方法更有效。

Temporal Distinct Representation Learning for Action Recognition

作者 |Junwu Weng,Donghao Luo,Yabiao Wang,Ying Tai,Chengjie Wang,Jilin Li,Feiyue Huang,Xudong Jiang,Junsong Yuan

單位 | 騰訊AI;騰訊優圖;南洋理工大學;紐約州立大學

論文 |https://arxiv.org/abs/2007.07626

備註 |ECCV 2020

本文提出漸進式增強模組,用於 channel-level 資訊濾波,有效地激發了不同幀的鑑別通道,同時避免了重複資訊提取。

另外,提出一個時序多樣性損失來訓練網路。該損失可以校準卷積核,從而使網路可以專注於並捕捉幀之間的變化。也提高了識別精度,且不增加額外的網路複雜性。

RubiksNet: Learnable 3D-Shift for Efficient Video Action Recognition

作者 |Linxi Fan, Shyamal Buch, Guanzhi Wang, Ryan Cao, Yuke Zhu, Juan Carlos Niebles, Li Fei-Fei

單位 | SVL;德州大學奧斯汀分校;英偉達

論文 |https://www.ecva.net/papers/eccv_2020/

papers_ECCV/papers/123640494.pdf

程式碼 |https://github.com/StanfordVL/rubiksnet

備註 |ECCV 2020

本文作者提出RubiksNet,一種新型的高效的視訊動作識別架構,基於提出的可學習的3D時空移位操作(RubiksShift),效果與先前工作相當或更好,引數減少了2.9 - 5.9倍,FLOP減少了2.1 - 3.7倍。

DDGCN: A Dynamic Directed Graph Convolutional Network for Action Recognition

作者 |Matthew Korban, Xin Li

單位 |路易斯安那州立大學

論文 |https://www.ecva.net/papers/eccv_2020/

papers_ECCV/papers/123650749.pdf

備註 |ECCV 2020

本文作者提出一種動態定向圖卷積網路(DDGCN),從人類行動的骨骼表徵中對其空間和時間特徵進行建模。

DDGCN由三個新的特徵建模模組組成。

(1)動態卷積取樣(DCS)。

(2)動態卷積權重(DCW)分配。

(3)定向圖空間-時間(DGST)特徵提取。

綜合實驗表明,DDGCN在各種測試資料集中的表現優於現有的最先進的動作識別方法。


Towards Efficient Coarse-to-Fine Networks for Action and Gesture Recognition

作者 |Niamul Quader, Juwei Lu, Peng Dai, Wei Li

單位 | 華為諾亞方舟實驗室

論文 |https://www.ecva.net/papers/eccv_2020/

papers_ECCV/papers/123750035.pdf

備註 |ECCV 2020

實現動作和手勢識別的高效粗細網路

Multi-view Action Recognition using Cross-view Video Prediction

作者 |Shruti Vyas, Yogesh S Rawat, Mubarak Shah

單位 |中佛羅里達大學

論文 |https://www.ecva.net/papers/eccv_2020/

papers_ECCV/papers/123720426.pdf

程式碼 |https://github.com/svyas23/cross-view-action

主頁|https://www.crcv.ucf.edu/research/projects/multi-view-action-recognition-using-cross-view-video-prediction/

備註 |ECCV 2020

框架將不同視角和時間的短視訊片段作為輸入,並學習一個整體的內部表示,用於預測未見視角和時間的視訊片段。

時序動作檢測Temporal Action Detection

SF-Net: Single-Frame Supervision for Temporal Action Localization

作者 |Fan Ma,Linchao Zhu,Yi Yang,Shengxin Zha,Gourab Kundu,Matt Feiszli,Zheng Shou

單位 |悉尼科技大學;Facebook

論文 |https://arxiv.org/abs/2003.06845

程式碼 |https://github.com/Flowerfan/SF-Net

備註 |ECCV 2020Spotlight

Two-Stream Consensus Network for Weakly-Supervised Temporal Action Localization

作者 |Yuanhao Zhai, Le Wang, Wei Tang, Qilin Zhang, Junsong Yuan, Gang Hua

單位 | 西安交通大學;伊利諾伊大學芝加哥分校;HERE Technologies等

論文 |https://www.ecva.net/papers/eccv_2020/

papers_ECCV/papers/123510035.pdf

備註 |ECCV 2020Spotlight

弱監督時空動作定位(W-TAL)目的是僅在視訊級監督下對未修剪視訊中的所有動作例項進行分類和定位。但是,如果沒有幀級標註,識別 false positive action proposals(假陽性動作proposals)和 generate action proposals(生成具有精確時間邊界的動作 proposals)仍具有挑戰性。

本文作者提出了一個W-TAL的雙流共識網路(TSCN),所提出的TSCN的特點是採用迭代細化訓練方法,對幀級 pseudo ground truth 進行迭代更新,並用於提供幀級監督,以改進模型訓練和消除假陽性動作 proposals。

此外,還提出了一種新的注意力歸一化損失,以鼓勵預測的注意力像二元選擇一樣,並促進行動例項邊界的精確定位。在THUMOS14和ActivityNet資料集上進行的實驗表明,所提出的TSCN優於當前最先進的方法,甚至可以達到與最近一些完全監督方法相當的結果。

CFAD: Coarse-to-Fine Action Detector for Spatiotemporal Action Localization

作者 | Yuxi Li, Weiyao Lin, John See, Ning Xu, Shugong Xu, Ke Yan, Cong Yang 單位 | 上海交通大學;上海大學;多媒體大學;Adobe Research;Clobotics, China

論文 |https://arxiv.org/abs/2008.08332

備註 |ECCV 2020

所提出方法推理速度快 3.3倍

動作定位ActionLocalization

Localizing the Common Action Among a Few Videos

作者 |Pengwan Yang,Vincent Tao Hu,Pascal Mettes,Cees G. M. Snoek

單位 | 北大;阿姆斯特丹大學

論文 |https://arxiv.org/abs/2008.05826

程式碼 |https://github.com/PengWan-Yang/commonLocalization(404)

備註 |ECCV 2020

本文致力於在未修剪的長視訊中定位動作的時間範圍

Bottom-Up Temporal Action Localization with Mutual Regularization

作者 |Peisen Zhao,Lingxi Xie,Chen Ju,Ya Zhang,Yanfeng Wang,Qi Tian

單位 | 上海交通大學;華為

論文 |https://arxiv.org/abs/2002.07358

程式碼 |https://github.com/PeisenZhao/Bottom-Up-TAL-with-MR

備註 |ECCV 2020

Weakly-Supervised Action Localization with Expectation-Maximization Multi-Instance Learning

作者 |Zhekun Luo,Devin Guillory,Baifeng Shi,Wei Ke,Fang Wan,Trevor Darrell,Huijuan Xu

單位 | 加州伯克利;北大;卡內基梅隆大學;中科院

論文 |https://arxiv.org/abs/2004.00163

程式碼 |https://github.com/airmachine/EM-MIL-WeaklyActionDetection(未開源)

備註 |ECCV 2020

動作檢測Action Detection

Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos

作者|Anurag Arnab,Chen Sun,Arsha Nagrani,Cordelia Schmid

單位 | 谷歌

論文|https://arxiv.org/abs/2007.10703

備註 |ECCV2020

針對未裁剪的視訊提出一種不確定性感知的弱監督動作檢測演算法。

動作檢測--視訊理解

Asynchronous Interaction Aggregation for Action Detection

作者 |Jiajun Tang,Jin Xia,Xinzhi Mu,Bo Pang,Cewu Lu

單位 | 上海交通大學

論文 |https://arxiv.org/abs/2004.07485

程式碼 |https://github.com/MVIG-SJTU/AlphAction

備註 |ECCV 2020

本文提出了非同步互動聚合網路(AIA),利用不同的互動方式來提升動作檢測。其中有兩個關鍵的設計:一個是互動聚合結構(IA)採用統一的正規化,對多種型別的互動進行建模和整合;另一個是非同步記憶體更新演算法(AMU),通過對非常長期的互動進行動態建模,可以在沒有巨大計算成本的情況下實現更好的效能。

Context-Aware RCNN: A Baseline for Action Detection in Videos

作者 | Jianchao Wu, Zhanghui Kuang, Limin Wang, Wayne Zhang, Gangshan Wu

單位 | 南京大學;商湯

論文 | https://arxiv.org/abs/2007.09861

程式碼 | https://github.com/MCG-NJU/CRCNN-Action

Detecting Human-Object Interactions with Action Co-occurrence Priors

作者 |Dong-Jin Kim,Xiao Sun,Jinsoo Choi,Stephen Lin,In So Kweon

單位 |韓國科學技術院;微軟

論文 |https://arxiv.org/abs/2007.08728

程式碼 |https://github.com/Dong-JinKim/ActionCooccurrencePriors/

備註 |ECCV 2020

基於骨架的動作識別Skeleton-Based

Decoupling GCN with DropGraph Module for Skeleton-Based Action Recognition

作者 |Ke Cheng, Yifan Zhang, Congqi Cao, Lei Shi, Jian Cheng, Hanqing Lu

單位 | 中科院;國科大等

論文 |https://www.ecva.net/papers/eccv_2020/

papers_ECCV/papers/123690528.pdf

程式碼 |https://github.com/kchengiva/DecoupleGCN-DropGraph

備註 |ECCV 2020

所提出方法提升了 spatial-temporal 圖卷積網路效能,並且沒有額外的 FLOPs,沒有額外的延遲,沒有額外的GPU記憶體成本。

時序動作分割

Boundary-Aware Cascade Networks for Temporal Action Segmentation

作者 |Zhenzhi Wang, Ziteng Gao, Limin Wang, Zhifeng Li, Gangshan Wu

單位 | 南京大學;騰訊

論文 |https://www.ecva.net/papers/eccv_2020/

papers_ECCV/papers/123700035.pdf

程式碼 |https://github.com/MCG-NJU/BCN

解讀 |https://zhuanlan.zhihu.com/p/199403632

備註 |ECCV 2020

動作合成

A Recurrent Transformer Network for Novel View Action Synthesis

作者 |Kara Marie Schatz, Erik Quintanilla, Shruti Vyas, Yogesh S Rawat

單位 |澤維爾大學;伊利諾伊理工大學;中佛羅里達大學

論文 |https://www.ecva.net/papers/eccv_2020/

papers_ECCV/papers/123720409.pdf

程式碼 |https://github.com/schatzkara/cross-view-video

備註 |ECCV 2020

從一個視角提供相同的動作時,所提出的方法可以從一個未知的視角合成一個動作視訊。

時序動作提名生成 Temporal action proposal generation

Boundary Content Graph Neural Network for Temporal Action Proposal Generation

作者 |Yueran Bai,Yingying Wang,Yunhai Tong,Yang Yang,Qiyue Liu,Junhui Liu

單位 | 北大;愛奇藝

論文 |https://arxiv.org/abs/2008.01432

備註 |ECCV 2020

通過圖神經網路對邊界和內容預測之間的關係進行建模,生成更精確的時序邊界和可靠的內容置信度分數。

行為估計Action Assessment

An Asymmetric Modeling for Action Assessment

作者 |Jibin Gao, Wei-Shi Zheng, Jia-Hui Pan, Chengying Gao, Yaowei Wang, Wei Zeng, Jianhuang Lai

單位 | 中山大學;北大;鵬城實驗室;琶洲實驗室等

論文 |https://www.ecva.net/papers/eccv_2020/

papers_ECCV/papers/123750222.pdf

程式碼 |https://www.isee-ai.cn/~gaojibin/ProjectAIM.html

備註 |ECCV2020

群組活動識別

Joint Learning of Social Groups, Individuals Action and Sub-group Activities in Videos

作者 |Mahsa Ehsanpour,Alireza Abedin,Fatemeh Saleh,Javen Shi,Ian Reid,Hamid Rezatofighi

單位 |阿德萊德大學;澳大利亞國立大學等

論文 |https://arxiv.org/abs/2007.02632

程式碼 |https://github.com/mahsaep/Social-human-activity-understanding-and-grouping

備註 |ECCV 2020

針對社交任務提出一個端到端可訓練框架,提出的方法還在傳統群體活動識別任務的兩個廣泛採用的基準上設定了最先進的結果(假設場景中的個體形成一個單一的群體,併為場景預測一個單一的群體活動標籤)。在現有的群體活動資料集上引入了新的標註,將其重新用於社交任務。

推薦閱讀:

CVPR 2020 論文大盤點-動作檢測與動作分割篇

本文為我愛計算機視覺公眾號整理,轉載請註明出處。

備註:動作

人體動作檢測與識別交流群

動作識別、動作檢測等技術,

若已為CV君其他賬號好友請直接私信。

我愛計算機視覺

微訊號:aicvml

QQ群:805388940

微博知乎:@我愛計算機視覺

投稿:[email protected]

網站:www.52cv.net

在看,讓更多人看到