使用Motion-Vector實現Real-time人體行為識別

阿新 • • 發佈：2019-02-15

導言：由上一篇部落格的方法實現人體行為識別，準確率高，但缺陷在於速度慢，最大的原因在於經典的two-stream的人體行為識別均使用光流圖作為temporal net的輸入。光流法速度慢，在應用中無法實時。

這篇部落格引用論文

Real-time Action Recognition with Enhanced Motion Vector CNNs——–Bowen Zhang, Limin Wang, Zhe Wang, Yu Qiao, Hanli Wang

MotionVector來替代optical flow可以極大的提升速度。MotionVector原本用於視訊壓縮，以便視訊傳輸到指定端後解壓。論文中使用MotionVector作為運動特徵來使用。但是速度快帶來的缺陷是圖片精度低，與光流圖的點狀形式存在不同，運動向量圖以塊狀存在，因此圖片不清楚，噪聲多，勢必帶來識別準確率的下降。

該網路的核心思想是通過使用optical flow訓練好的OF-CNN指導MV-CNN的訓練。該transfer knowledge思想來自於Hinton大神的一篇論文：

Distilling the knowledge in neural network

論文中使用了兩種方法來防止精度過度下降。

1.使用Teacher Initialization進行初始化。即使用opticalflow的model進行初始化，再用motion vector進行fine-tune.

2.使用監督性transfer。即定義一種新的loss。該loss稱之為Teacher superivision loss(TSL)。使用softmax loss 和TSL共同監督網路。

TSL公式如下

PT(i)代表optical flow在fc layer的值除以Temp，並經過softmax的輸出。Ps(i)是MV-CNN的softmax輸出(不用除以TEMP）。TEMP是來自於Hinton的論文，稱之為temperature (to soften the next-to-last layer output)。

MV-CNN網路本身的LOSS，即普通的softmax:

這裡寫圖片描述

最終的LOSS為

這裡寫圖片描述
其中w是權重，一般設定為4，Temp一般為w的一半，即2。

論文重點就這兩個，其最終的結果是略次於two-stream的方法，比C3D強。

我的實驗：

由於前兩天剛完成VGG的two-stream Action recognition，因此直接使用VGG完成這篇論文的部分實驗。僅僅做了如下改變

將optical flow換成motion vector。其中出了一個bug: motion vector有的視訊的圖片數量小於光流法，原因在於不是每一幀都包含motion vector,有的幀提取不出運動向量，即I-frame，因此可能出現丟幀的情況。在本例中，我發現有的視訊最後一幀和最後一幀無法提取出運動向量。因此少這兩幀。如果是中間幀缺失，程式會講上一幀的影象複製到當前幀。因此：將訓練檔案中的圖片個數進行修改，修改到與Motion vector一致。
換pretrain model，換成optical-CNN訓練完成的model。
換學習率，增大學習率，與論文中一致，不過發現迭代次數不需要太多，stepvalue大概一萬就可以，下降三次即可收斂完畢。
補充：我的測試是在python下進行的，因此速度測試存在一個問題，這個問題是矩陣賦值的速度極大的影響了整個網路的執行速度。比如圖片的crop一定會用矩陣賦值，經過測試，crop圖片中心進行測試，caffe模型的執行時間是0.1s，而crop賦值達到0.06s。而作者是matlab,因此矩陣賦值的速度遠遠大於沒有用mkl優化的numpy賦值。速度測試一直耽擱著，等解決了會再更新。

實驗結果：temporal的Training Acc：64.6%，測試Acc：79.78%。加入spatial net(與上一篇部落格的model一樣)後的ACC:84.985%。

反思：最終的結果不能令人滿意，我的temporal Accuracy超過論文中的79.3%，而最終的combination Acc:86.6%。超過我大概有1.6%。我的網路比他深，始終想不出有什麼原因會導致結合準確率低於他。等以後有思路了，一定會更新。

使用Motion-Vector實現Real-time人體行為識別

導言：由上一篇部落格的方法實現人體行為識別，準確率高，但缺陷在於速度慢，最大的原因在於經典的two-stream的人體行為識別均使用光流圖作為temporal net的輸入。光流法速度慢，在應用中無法實時。這篇部落格引用論文 Real-time

【資料集整理】人體行為識別和影象識別

原連結：https://blog.csdn.net/liuxiao214/article/details/78889662 謝謝博主的整理，轉載一下以便查閱。一共12個人體行為識別的資料集，基於視訊的； 6個影象識別的，有關物體識別、行人識別、年齡識別和人頭檢測的，基

人體行為識別特徵點提取綜述很全面

行為識別特徵提取綜述摘要　　人體行為識別目前處在動作識別階段，而動作識別可以看成是特徵提取和分類器設計相結合的過程。特徵提取過程受到遮擋，動態背景，移動攝像頭，視角和光照變化等因素的影響而具有很大的挑戰性。本文將較全面的總結了目前行為識別中特徵提取的方法，並將其特徵劃分為全域性特徵和區域性特徵，且

人體行為識別（骨架提取），搭建openpose環境，VS2019(python3.7)+openpose

這幾天開始接觸人體行為識別，經過多方對比後，選擇了現在最熱的人體骨架提取開源庫，openpose。下面就不多說了，直接開始openpose在win10下的配置：需求如下： 1. VS2019&nb

行為識別人體骨架檢測+LSTM

轉自http://geek.csdn.net/news/detail/138011 在人工智慧研究領域，這一技能叫人體行為識別，是智慧監控、人機互動、機器人等諸多應用的一項基礎技術。以電影提到的老人智慧看護場景為例，智慧系統通過實時檢測和分析老人的行動，判斷老人是否正

行為識別筆記：Stacked Fisher Vector基本原理

Stacked Fisher Vector是Xiaojiang Peng在“Action Recognition with Stacked Fisher Vectors”一文中提出的用於動作識別的

用華為HMS ML kit人體骨骼識別技術，Android快速實現人體姿勢動作抓拍 

你有沒有過這種體驗，拍照時對著鏡頭，腦子一片空白、表情僵硬、手和腳無處安放，最後拍出來的照片很是奇怪。拍照軟體中的固定姿勢抓拍功能可以幫助你：選擇一個你想要的姿勢模板，當你擺出同款姿勢時，軟體會進行自動抓拍，完美避開拍照時的尷尬。本文詳細介紹了華為HMS ML kit人體骨骼識別技術的整合過程，該技術精準

論文筆記：目標追蹤-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking

exploit orm dom ons tail red 最好早期形式化基於自適應顏色屬性的目標追蹤 Adaptive Color Attributes for Real-Time Visual Tracking 基於自適應顏色屬性的實時視覺追蹤 3月講的第一

Behavior Tree 用 Lua 實現一個最簡行為樹

urn ret pri end put true for 行為樹一個 1 local SELECTOR = 1 2 local SEQUENCE = 2 3 local CONDITION = 3 4 local ACTION = 4 5 6 loca

學習筆記TF024:TensorFlow實現Softmax Regression(回歸)識別手寫數字

概率 none nump 簡單測試數據 python dice bat desc TensorFlow實現Softmax Regression(回歸)識別手寫數字。MNIST(Mixed National Institute of Standards and Techno

Staple: Complementary Learners for Real-Time Tracking——筆記

ear sta rac 特征前景大小 time 直方圖筆記 Stalpe = DSST + 顏色直方圖初始化　　求出patch的前景顏色直方圖和背景顏色直方圖　　建立高斯標簽　　尺度濾波器第一幀　　求位移濾波器　　求尺度濾波器第二幀　　根據上一幀的位

JavaScript實現了網頁的行為

內容 round java pro 瀏覽器 chang ace 寫到字段 1.JavaScript使用JavaScript 可插入 HTML 頁面的編程代碼。可由所有的現代瀏覽器執行。JavaScript 標簽可以放置到 HTML 頁面的 <head> 或者&

模板-前向星的vector實現

code names end 模板 n) node color span col 　　之前用慣了指針型的前向星，每一次都得手打20行代碼，十分不爽。之後學了vector，腰不酸了，腿不疼了，寫代碼也方便多了。 1 //前向星模板 2 #include <cstd

YOLO(You Only Look Once):Real-Time Object Detection

path nor bat pen 2-0 object network file with caffe-yolo:https://github.com/xingwangsfu/caffe-yolo YOLO in caffe Update 12-05-2016: Curre

用vector實現二維向量

order sdn 不同 main tar ng- name 每一個 clas 如果一個向量的每一個元素是一個向量，則稱為二維向量，例如 [cpp] view plain copy vector<vector<int> >vv(3,

C++ vector 實現二維數組

spa 容器 cto target blank 思想 clas htm 表示在STL中Vector這一容器，無論是在封裝程度還是內存管理等方面都由於傳統C++中的數組。本文主要是關於使用Vector初始化、遍歷方面的內容。其他二維的思想也是類似的。這裏簡單敘述一下C++

Real Time Rendering 1

art ide sta and useful int clas mce divide 【Real Time Rendering 1】 1、RTR是一本導論。官網：http://www.realtimerendering.com。 2、At around 6 fps, a

Real Time Rendering 2

spa sin 圖片 alt 分享圖片 direction rendering rect tin 【Real Time Rendering 2】 1、The light vector l is usually defined pointing in a direction

論文筆記--PCN:Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks

.com 角度 ati 分享圖片直接算法二級使用計算測試demo：https://github.com/Jack-CV/PCN 關鍵詞：rotation-invariant face detection， rotation-in-plane， coarse-t

Filtering Approaches for Real-Time Anti-Aliasing（2011 SIGGRAPH）

siggraph The sam 不同 gin d3d optional posit ear Filtering Approaches for Real-Time Anti-Aliasing（2011 SIGGRAPH）在2011的SIGGRAPH上，NVIDA提出了F

使用Motion-Vector實現Real-time人體行為識別

這篇部落格引用論文

該網路的核心思想是通過使用optical flow訓練好的OF-CNN指導MV-CNN的訓練。該transfer knowledge思想來自於Hinton大神的一篇論文：

論文中使用了兩種方法來防止精度過度下降。

1.使用Teacher Initialization進行初始化。即使用opticalflow的model進行初始化，再用motion vector進行fine-tune.

2.使用監督性transfer。即定義一種新的loss。該loss稱之為Teacher superivision loss(TSL)。使用softmax loss 和TSL共同監督網路。

TSL公式如下

MV-CNN網路本身的LOSS，即普通的softmax:

最終的LOSS為

論文重點就這兩個，其最終的結果是略次於two-stream的方法，比C3D強。

我的實驗：

由於前兩天剛完成VGG的two-stream Action recognition，因此直接使用VGG完成這篇論文的部分實驗。僅僅做了如下改變

實驗結果：temporal的Training Acc：64.6%，測試Acc：79.78%。加入spatial net(與上一篇部落格的model一樣)後的ACC:84.985%。

反思：最終的結果不能令人滿意，我的temporal Accuracy超過論文中的79.3%，而最終的combination Acc:86.6%。超過我大概有1.6%。我的網路比他深，始終想不出有什麼原因會導致結合準確率低於他。等以後有思路了，一定會更新。

相關推薦