1. 程式人生 > >Temporal Action Detection (時序動作檢測)方向2017年會議論文整理

Temporal Action Detection (時序動作檢測)方向2017年會議論文整理

2017年馬上要過去,自己也在時序動作檢測這個方向正好做了一年時間,所以最近整理了一下今年各大視覺會議上(CVPR,ICCV,ACMMM,BMVC,AAAI等)時序動作檢測這個方向的論文,供大家參考。

關於Temporal Action Detection (Localization) 時序動作檢測這一方向的介紹,可以見我之前的專欄文章: Video Analysis 相關領域解讀之Temporal Action Detection(時序行為檢測)。簡單來說,temporal action detection是要在視訊序列中確定動作發生的時間區間(包括開始時間與結束時間)以及動作的類別。類似於影象中的目標檢測任務,時序動作檢測也可以分為生成時間區間提名(temporal action proposal generation)以及對提名進行分類(action recognition)倆個環節。今年有不少工作針對前者設計了模型,也在這篇文章中一併討論。

Temporal Action Detection

如前所述,該方向的任務是視訊序列中確定動作發生的時間區間(包括開始時間與結束時間)以及動作的類別。最常用的資料庫為THUMOS14, 其餘常用的資料庫還包括MEXaction2, ActivityNet 1.2/1.3 等。常用的測評指標為mAP ( mean Average Precision)。

[1] CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos

  • 發表會議:CVPR 2017 (oral)

  • 效能:THUMOS14 上的[email protected] 為 24.7%,ActvitiyNet 1.3測試集上的average mAP為 22.9%

  • 基於C3D(3D CNN網路)設計了一個卷積逆卷積網路,輸入一小段視訊,輸出frame-level的動作類別概率。該網路主要是用來對temporal action detection中的動作邊界進行微調,使得動作邊界更加準確,從而提高mAP。由於基於了層數不多的C3D網路,該方法的速度非常快,可以達到500FPS。

[2] Temporal Action Detection with Structured Segment Networks

  • 發表會議:ICCV 2017

  • 效能:THUMOS14 上的[email protected] 為 29.8%,ActvitiyNet 1.3測試集上的average mAP為 28.28%

  • CUHK多媒體實驗室的工作。這篇文章提出了一種時序動作提名演算法TAG,以及後續的分類/邊界迴歸網路 SSN。TAG在後面再討論,SSN我認為值得參考的是其輸入特徵的設計(開始-中間-結束區間的三段式設計,今年不少工作也有類似的做法)以及其輸出分數的設計(判斷proposal是否完整的completeness classifier)。這篇文章對temporal action detection這個任務本身也進行了非常細緻的討論,值得一讀。

[3] Temporal Action Localization by Structured Maximal Sums

  • 發表會議:CVPR 2017

  • 效能:THUMOS14 上的[email protected] 為17.8%

  • 這篇文章中,對視訊中的每個類別生成三種序列:開始幀概率,中間幀概率,結束幀概率。再基於這些概率設計了一種Structured Maximal Sums(結構化最大和)演算法來產生檢測結果。這篇文章生成概率序列的思路非常值得參考,但是模型的構建不太合理(對temporal資訊的建模不夠),最終模型在資料庫上的效能並不是很理想。

[4] Temporal Context Network for Activity Localization in Videos

  • 發表會議:ICCV 2017

  • 效能:THUMOS14 上的[email protected] 為 25.6%,ActvitiyNet 1.3測試集上的average mAP為 23.58%

  • 這篇文章的思路主要參考了Faster-RCNN的結構。對視訊先用2stream網路提取特徵序列,再用滑窗機制在視訊中的每個位置生成多個不同尺寸的proposal,之後再對每個proposal訓練一個action classifier和一個ranker來對proposal進行分類和排序。

[5] Cascaded Boundary Regression for Temporal Action Detection

  • 發表會議:BMVC 2017

  • 效能:THUMOS14 上的[email protected] 為 31.0%

  • 這篇文章同樣先對視訊提取特徵產生特徵序列,然後用滑窗機制產生proposal,之後使用MLP構建了一個分類器以及一個邊界迴歸器,通過級聯的邊界迴歸來精確定位動作的時序邊界。思路還是比較簡單的,但是實驗效果不錯,應該是今年文章中在THUMOS上效果最好的,不過效果好也與它用了ActivityNet上預訓練的模型來提取特徵有關。

[6] R-C3D : Region Convolutional 3D Network for Temporal Activity Detection

  • 發表會議:ICCV 2017

  • 效能:THUMOS14 上的[email protected] 為 28.9%,ActvitiyNet 1.3測試集上的average mAP為 16.74%

  • 這篇文章同樣採用了Faster-RCNN形式的思路,即先proposal,在roi-pooling,最後進行分類和邊界迴歸。不過這篇文章採用了3D convnet來實現了end-to-end的訓練,比較有趣。(上半年我也曾經想做類似的工作,結果發現自己的顯示卡視訊記憶體跑不起來。。)

[7] Single Shot Temporal Action Detection

  • 發表會議:ACMMM 2017

  • 效果:THUMOS14 上的[email protected] 為 24.6%

  • 這篇論文是我今年投稿在ACMMM上的論文,主要參考了目標檢測任務中的單階段模型(如SSD 與 YOLO),通過時序卷積網路以及anchors機制,實現了無需proposal generation步驟的時序動作檢測模型。具體介紹可以見我之前的文章:”Single Shot Temporal Action Detection” 論文介紹。

[8] End-to-End, Single-Stream Temporal Action Detection in Untrimmed Videos

  • 發表會議:BMVC 2017

  • 效果:THUMOS14 上的[email protected] 為 29.2%

  • 使用了C3D來提取視訊的特徵,與SSAD相同,該方法同樣不需要生成proposal,而是採用了anchor機制。這篇文章方法的核心模組是堆疊的GRU單元。由於使用的是C3D特徵,所以這篇文章的方法速度也相當的快。

[9] Exploring Temporal Preservation Networks for Precise Temporal Action Localization

​ - 該文提出的TPN模型是CDC[1] 方法的改進模型。在CDC中,在時間維度上存在上取樣和下采樣,存在一定的時序資訊的丟失。而在TPN模型中,將普通的temporal convolution 替換為temporal preservation convolution 這一操作,能夠在不進行時序池化操作的情況下獲得同樣大小的感受野而不縮短時序長度,從而更好得保留時序資訊。

[10] SCC : Semantic Context Cascade for Efficient Action Detection

  • 發表會議:CVPR 2017

  • ActvitiyNet 1.3測試集上的average mAP為 19.3%

  • ActivityNet 資料集作者的文章。這篇文章主要通過探索動作-物體,動作-場景之間的關係來提高動作定位的精度

[12] Temporal Convolutional Networks for Action Segmentation and Detection

  • 發表會議:CVPR 2017

  • 效果:用了幾個不太常見的小資料庫,就不列舉了

  • 這篇文章主要設計了一個基於時序卷積的卷積-逆卷積網路,來實現對視訊幀的類別分類(作者管這個叫action segmentation,不過我覺得在一維的情況下用這個詞感覺意義不大)。時序卷積能夠比較好的學習長時間的時序模式,今年我也基本上都是使用時序卷積來做自己的工作,感覺比起RNN來更易搭建,除錯與優化模型。

Temporal Action Proposal Generation

該任務的目標是生成一批有可能包含動作片斷的時間區域,而不需要對時間區域進行動作分類。常用的資料庫同樣是THUMOS14以及ActivityNet 1.3 等。常用的測評指標為AR( Average Recall)。注意,實際上時序動作檢測模型去掉分類功能一般都能用來做時序提名生成,此處則主要討論獨立的時序提名生成模型。

[2] Temporal Action Detection with Structured Segment Networks

  • 發表會議:ICCV 2017

  • 效能:THUMOS14 上的[email protected] 為48.9% (注意此處作者用的測評指標與之前該領域的測評指標略有不同,主要是閾值方面,統一指標下實測效果[email protected] 為39.61%)

  • 這篇文章中提出了TAG (Temporal Action Grouping) 方法。該方法對視訊中的每一幀都用actionness classifier判斷其是動作的概率,再用多閾值聚類的方法生成proposals

[13] TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals

  • 發表會議:ICCV 2017

  • 效能:THUMOS14 上的[email protected] 為43.02%

  • 該方法在模型上與[5] 基本相同,是同一個作者的工作。區別主要在於[13]為2分類,[5]為多分類;[5]中多了級聯結構。這篇文章是今年該方向在THUMOS資料集上效果最好的。

[14] SST: Single-Stream Temporal Action Proposals

  • 發表會議:CVPR 2017

  • 效能:THUMOS14 上的[email protected] 為37.90%

  • 同樣是ActivityNet 作者他們組的工作,事實上這個方向應該就是他們最先開始挖的坑。這篇文章採用了C3D特徵,GRU編碼以及anchors機制。它的核心claim是“Single-Stream” ,即它在處理t時刻的proposals只看t時刻及之前的特徵,可以算是一種線上的演算法吧。

小結

比起17年前,今年該方向的論文數量可以說是大大增長,各資料集上的指標也提高的分快,感覺明年論文也會很多。如前所述,時序動作檢測可以分為提名和分類兩個部分。分類這塊這兩年精度提高的很快,在不少資料集上都已經達到了相當高的準確率。然而目前檢測的準確率還是比較低,所以我個人認為通過改善時序動作提名模型,可以大大提高檢測的準確率。CVPR 2018 我也投稿了一篇關於時序動作提名任務的工作,希望能好運吧~ 如果文章中的介紹有錯誤或是有遺漏歡迎指正~

相關推薦

Temporal Action Detection (時序動作檢測)方向2017年會議論文整理

2017年馬上要過去,自己也在時序動作檢測這個方向正好做了一年時間,所以最近整理了一下今年各大視覺會議上(CVPR,ICCV,ACMMM,BMVC,AAAI等)時序動作檢測這個方向的論文,供大家參考。 關於Temporal Action Detection (

Temporal Action Detection (時序動作檢測)綜述

最近幾年由於網路上視訊量的急劇增多和神經網路的飛快發展,這項任務得到了更多的關注。目前這項任務的主要資料集有THUMOS2014、ActivityNet。評價指標為IOU,目前2017的大多數工作在IOU=0.5的情況下達到了20%-30%的MAP,雖然較201

Temporal Action Detection with Structured Segment Networks

原文連結:本文只是對原文的簡單翻譯,不對實驗過程分析,如有不準確的地方,歡迎指教~SSN:結構化分段網路的時序動作檢測摘要:SSN:structured segment networks,通過結構化時序金字塔對每一個動作例項的時序結構建模。在金字塔的頂端,引入一個判別模型,包

論文筆記之 SST: Single-Stream Temporal Action Proposals

ron 我們 裁剪 只需要 lock proposal 數據 function 性能 SST: Single-Stream Temporal Action Proposals 2017-06-11 14:28:00   本文提出一種 時間維度上的 proposal

SLS機器學習介紹(03):時序異常檢測建模

文章系列連結 SLS機器學習介紹(01):時序統計建模 SLS機器學習介紹(02):時序聚類建模 SLS機器學習介紹(03):時序異常檢測建模 SLS機器學習介紹(04):規則模式挖掘 SLS機器學習最佳實戰:時序異常檢測和報警 摘要與背景 雖然計算機軟硬體的快速發展已

TD Temporal-Difference Learning 時序差分法(差分學習)

temporary 英 ['temp(ə)rərɪ]美 [ˈtempəreri] adj. 臨時的,暫時的;短暫的 n. 臨時工,臨時僱 TD演算法是RL的核心演算法。TD是DP和MC演算法的結合。Like DP, TD methods without waiting for a fin

OpenCV學習筆記(7)--Canny Edge Detection Canny邊緣檢測

    Canny 邊緣檢測是很流行的邊緣檢測演算法,是在1986年由John F.Canny提出的。它是一個多級(multi-stage)演算法。下面詳細介紹每一級。     1.減少噪音         因為邊緣檢測對噪音非常敏感,所以實現邊緣檢測的第一步,是使用高斯

脫離Tensoeflow Object Detection API使用檢測程式

脫離Tensoeflow Object Detection API使用檢測程式 第一次寫CSDN部落格,如果有不好之處,歡迎提出建議(=・ω・=) github地址:https://github.com/Bend-Function/Run-without-API/

行為識別Action Detection概述及資源合集(持續更新...)

隨著深度學習技術的發展,以及計算能力的進步(GPU等),現在基於視訊的研究領域越來越受到重視。視訊與圖片最大的不同在於視訊還包含了時序上的資訊,此外需要的計算量通常也大很多。 這篇主要介紹Action Recognition(行為識別)這個方向。這個方向的主要目標是判斷一段

object detection(物體檢測)系列論文梳理

object detection論文閱讀梳理: 1、R-CNN:Rich feature hierarchies for accurate object detection and semantic segmentation 技術路線:selective s

tensorflow入門教程(二十五)Object Detection API目標檢測(下)

1、概述 上一講,我們使用了別人根據COCO資料集訓練好的模型來做目標檢測,這一講,我們就來訓練自己的模型。 2、下載資料集 為了方便學習,我們先使用別人整理好的資料集來訓練---VOC 2012資料集。VOC 2012一共有17125張圖片,每張圖片都有標註,標註的內

SCNN-用於時序動作定位的多階段3D卷積網路

注:本文首發在微信公眾號-極市平臺。如需轉載,請聯絡微信Extreme-Vision 這篇文章主要介紹Zheng Shou在CVPR2016上的工作”Temporal action localization in untrimmed videos via mu

特定區域的動作檢測

還是我的小專案,如果把攝像頭的每一幀都送到分類器做推理,實在是沒必要,只需要把檢測到動作的幀送去做推理就好了。這一步的實現參考的是 Adrian Rosebrock的兩篇博文Basic motion detection and tracking with Pyt

SLS機器學習最佳實戰:批量時序異常檢測

0.文章系列連結 SLS機器學習介紹(01):時序統計建模 SLS機器學習介紹(02):時序聚類建模 SLS機器

2017年會是Serverless爆發之年嗎?

中小型公司,尤其是網際網路行業的創業公司,本身並沒有太多的技術人員,如果設計系統時需要考慮諸多的技術問題,例如Web應用伺服器如何配置、資料庫如何配置、訊息服務中介軟體如何搭建等等,那對於他們來說人員成本、系統成本會很高,Serverless架構的出現,讓這種情況可能可以大幅度改善。 初識Serve

HOG:用於人體檢測的梯度方向直方圖 Histograms of Oriented Gradients for Human Detection

用於人體檢測的方向梯度直方圖 Navneet Dalal,Bill Triggs 摘要        我們研究了視覺目標檢測的特徵集問題,並用線性SVM方法進行人體檢測來測試,通過與當前的基於邊緣和梯度的描述子進行實驗對比,得出方向梯度直方圖(Histograms of

輪廓檢測論文解讀 | Richer Convolutional Features for Edge Detection | CVPR | 2017

有什麼問題可以加作者微信討論,cyx645016617 上千人的粉絲群已經成立,氛圍超好。為大家提供一個遇到問題有可能得到答案的平臺。 ## 0 概述 - 論文名稱:“Richer Convolutional Features for Edge Detection” - 論文連結:https://opena

2017微信號碼檢測軟件 是否有微信軟件

對於一個制作網絡營銷軟件團隊來說,其推廣自己的產品的主要手段就的通過網站,這其中對於網站建設中必不可缺的就是網絡編輯,在如今內容為王的互聯網時代,而且醫療網站滿天飛的情況下,要想讓自己的營銷軟件網站在眾網站中脫穎而出,網絡編輯就顯得十分重要了。網絡編輯不太會,要怎麽樣做到推銷自己的,而且還可以別人不反

2017微信開通狀態檢測軟件 微信篩選工具

微信作為移動互聯網最大的流量入口,相信每個企業都會奮不顧身的投入進去。但是微信營銷又其實這般容易做出效果的?那麽微信營銷怎麽做?微信營銷並不等於在線銷售,更多的取決於你在線服務的精準性和滿足性。比如一個天天喜歡美食的人,你給他群發個體育的東西,不是他感興趣的,自然形成不了轉化,形成不了效益。

《三聯生活周刊》2017年23期:5星。地球年齡與人類進化的檢測技術的簡史。

多人 留下 周口 兩個 入侵 正是 起源 可靠性 第三波 本期主題是人類測量地球年齡與人類進化史的技術的簡史。地球年齡最終依靠同位素測量法確定為45.5億年,人類進化史初期是根據化石推測,後來則根據DNA的變化來推算。 個人感覺這是看過的袁嶽的文章中最精彩的一篇,有靠