Deep Feature Flow for Video Recognition

阿新 • • 發佈：2019-03-24

大量 src 相對分解部件驗證出了實時目標

來自MSRA視覺計算組，發表在CVPR2017上。這篇文章提出了一個結合光流的快速視頻目標檢測和視頻語義分割方法。

motivation
- 在視頻流的每一幀上用CNN計算特征太慢了。
- 兩個相鄰幀有相似的feature map
- 結合光流將特征進行傳播

技術分享圖片

　　在目標檢測和語義分割任務中，通用的做法是首先將圖片送到一個深層卷積網絡提取特征，再將特征送入相應的任務網絡得到結果。在視頻上進行目標檢測或者語義分割任務時，

如果繼續使用單幀圖片的方法，將有大量的時間耗在特征提取上面，無法做到實時性。而由於視頻的連續性，相鄰兩幀的feature map其實具有很高相似度，這裏作者通過可視化resnet101

最後一個卷積層裏面的兩個卷積核輸出的特征來進行了驗證。

　　第一排和第二排分別是同一視頻中的相鄰的兩幀，第一列是原始圖片，後兩列是可視化之後的卷積特征，可以看到上下兩排卷積特征非常相似。同時卷積特征與圖像內容保持了空間的

對應性，可以看到中間的特征圖上激活的汽車特征的位置和原始圖片上汽車的位置是對應的，而這種對應性能夠提供使用空間warp，將臨近幀的特征進行輕量傳播，以此來避免在每一幀上

都進行特征提取。這裏作者使用了光流信息進行特征傳播，將第一幀的特征\(f_k\)與兩幀的光流\(M_{i\to k}\)結合，warp得到第二幀的特征估計\(f_{k\to i}\)。第三排就是warp得到的結果，與

CNN計算的真實效果，也就是第二排差不多。通常光流估計和特征傳播比卷積特征的計算快得多，能夠實現顯著的加速。

什麽是warp操作？

技術分享圖片

warp最開始是用在對圖片像素點進行對齊的操作。光流本質就是記錄了某幀圖片上的像素點到另一幀的運動場，光流圖上每一個點對應著圖片上該點的二位運動矢量。假設我們知道

第t幀中的點P會運動到第t+1幀，這樣就得到了運動矢量。這時如果我們已知第t幀的像素值和第t+1幀每個像素點的運動矢量，則可倒推出t+1幀上的點在第t幀的位置，則可以通過雙線

性插值來得到對應的點的像素值。由於光流值通常不是整數值，因此用雙線性插值。

deep feature flow算法

技術分享圖片

　　文章中將目標檢測或者語義分割網絡分解成兩個連續的子網絡，\(N_{feat}\)是特征網絡，一般用resnet，\(N_{task}\)是任務網絡，在特征圖上進行語義分割或者目標檢測任務。

圖中的F是光流估計網絡，這裏用的是改造過的flownet，輸入相鄰的兩幀圖片，得到和feature map大小一樣的特征光流圖，flownet已經在光流估計的數據集上預訓練過。

DFF在一段視頻幀裏面以固定間隔選取關鍵幀，其他的幀為非關鍵幀。對於關鍵幀，DFF用一個特征提取網絡去提取feature map，進而任務網絡以這些特征為輸入得到結果；

對於非關鍵幀，DFF先經過光流網絡計算該非關鍵幀與此之前最近的關鍵幀的特征光流圖，然後利用得到的光流圖和關鍵幀的feature map進行warp操作，從而將關鍵幀的特征

對齊並傳播到該非關鍵幀，然後任務網絡基於此特征輸出該非關鍵幀的任務結果。

　　DFF利用相對輕量的光流網絡和warp操作代替原來的特征提取網絡來得到相應的特征，達到節省計算量來加速的目的。

result

技術分享圖片

　　左邊是在cityscapes上進行的視頻語義分割實驗，右邊是在imagenet VID上進行的視頻目標檢測實驗，第一排是單幀圖片的baseline，用的R-FCN檢測算法。

最終在關鍵幀間隔取為10的情況下，達到了73.1的mAP和20.25的幀率，這個結果比單幀圖片的baseline損失了0.8的mAP但是得到了5倍的提速。此外作者還比較了DFF

網絡中的特征網絡和光流網絡是否一起進行端到端學習的結果，實驗顯示所有部件一起端到端訓練時效果最好。

Deep Feature Flow for Video Recognition

Deep Feature Flow for Video Recognition讀書筆記

摘要：本文主要提出了一個深度特徵流演算法，用於視訊的識別。它僅在稀疏的關鍵幀上執行計算量極大的卷積子網路，並通過流場將它們的深度特徵圖傳輸到其他幀。由於流計算方法相對較快，所以演算法得到了明顯的加速。

Deep Feature Flow for Video Recognition

大量 src 相對分解部件驗證出了實時目標來自MSRA視覺計算組，發表在CVPR2017上。這篇文章提出了一個結合光流的快速視頻目標檢測和視頻語義分割方法。 motivation 在視頻流的每一幀上用CNN計算特征太慢了。兩個相鄰幀有相似的fe

20.Flow-Guided Feature Aggregation for Video Object Detection

用於視訊目標檢測的流引導特徵聚合摘要將最先進的目標檢測器從影象擴充套件到視訊是具有挑戰性的。檢測的準確性受到視訊中外觀惡化的影響，例如，運動模糊，視訊散焦，罕見姿勢等。現有工作試圖在盒級上利用時間資訊，但是這種方法不是端對端訓練的。我們提出了流引導特徵聚合，一種用於視訊目標檢測的精確的端

【論文筆記】視訊物體檢測(VID)系列 FGFA：Flow-Guided Feature Aggregation for Video Object Detection

1.Abstract 視訊中的物體檢測會受到諸如運動模糊、視訊散焦、奇特姿態等的影響。現有的工作嘗試從box-level使用temporal資訊，但是這種方法不能端到端地進行訓練。我們提出了FGFA，在frame-level使用temporal資訊。它將相

Deep Residual Learning for Image Recognition

ant PE ear network sub cit test error inpu Kaiming HeXiangyu ZhangShaoqing RenMicrosoft Research {kahe, v-xiangz, v-shren, jiansun}@micr

Multi-Fiber Networks for Video Recognition (MFNet)

輕量需要 inf 能力 mage 圖片分類 str 一個線性 Motivation：減少時空網絡的計算量，保持視頻分類精度上的基礎上，使得速度盡可能接近對應網絡的2D版本。為此提出 Multi-Fiber 網絡，將復雜網絡拆分成輕量網絡的集成，利用 fibers 間

【論文翻譯】ResNet論文中英對照翻譯--（Deep Residual Learning for Image Recognition）

【開始時間】2018.10.03 【完成時間】2018.10.05 【論文翻譯】ResNet論文中英對照翻譯--（Deep Residual Learning for Image Recognition）【中文譯名】深度殘差學習在影象識別中的應用【論文連結】https://arx

ResNet: Deep Residual Learning for Image Recognition詳解

Deep Residual Learning for Image Recognition 這是一篇2015年何凱明在微軟團隊提出的一篇大作，截止目前其論文引用量達12000多次。摘要網路比較深的模型比較難以訓練。作者提出了一個殘差學習的框架來減輕模型的訓練難度，

Deep Residual Learning for Image Recognition（譯）

轉載自：http://blog.csdn.net/wspba/article/details/57074389 僅供參考，如有翻譯不到位的地方敬請指出。論文地址：Deep Residual Learning for Image Recognition 摘要越深的

論文閱讀筆記二十四：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）

分享圖片介紹 bin con strong map com 提高 https 論文源址：https://arxiv.org/abs/1406.4729 tensorflow相關代碼：https://github.com/peace195/sppnet 摘要

Deep Feature Interpolation for Image Content Changes(基於深度特徵插值的影象屬性轉換方法)

引言：我們提供了一種基於深度特徵插值的方法，一種線性資料驅動的自動化高維空間轉換的方法，就如名字所說的，DFI僅僅基於使用經過預訓練的深度卷積特徵簡單的線性插值。我們發現雖然其方法比較簡單，但是DFI能夠顯示高水準的風格轉換例如在“臉部年輕化和衰老轉化”，“戴眼鏡”，“新

SPP-net(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

Abstract SPP-net提出了空間金字塔池化層來解決CNN只是輸入固定尺寸的問題，因為單固定尺寸的輸入會影響識別效果，並且對於多尺度影象的情況下魯棒性不好。SPP-net很好的解決了以上問題，對於任意尺度影象都可以提取出固定維度的特徵，實驗證明SPP-net對分類

2017-06-Deep Network Flow for Multi-Object Tracking-論文閱讀筆記

摘要：資料關聯是很多計算機視覺應用的重要組成部分，多目標跟蹤就是其中的一個例子。典型的資料跟蹤方法是找到一個圖匹配方式或者一個網路流使得配對連線的代價最小，然而經常使用的是手工設計特徵或者固定特徵的線性函式。本文指出通過將優化問題表示為可微的函式反向傳播學習資料關聯的特徵是必要。本文用上述

【筆記】SPP-Net : Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

基於空間金字塔池化的卷積神經網路物體檢測論文：http://xueshu.baidu.com/s?wd=paperuri%3A%28c51f05992150d24c15f0dabf0913382e%29&filter=sc_long_sign&tn=SE

【論文閱讀】Rethinking Spatiotemporal Feature Learning For Video Understanding

【論文閱讀】Rethinking Spatiotemporal Feature Learning For Video Understanding 這是一篇google的論文，它和之前介紹的一篇facebook的論文的研究內容非常相似連結地址，兩篇論文放到ArXiv上只相差了一個月，但是個

SPP(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

Introduction 在一般的CNN結構中，在卷積層後面通常連線著全連線。而全連線層的特徵數是固定的，所以在網路輸入的時候，會固定輸入的大小(fixed-size)。但在現實中，我們的輸入的影象尺寸總是不能滿足輸入時要求的大小。然而通常的手法就是裁剪(cr

影象識別的深度殘差學習Deep Residual Learning for Image Recognition

原論文：Deep Residual Learning for Image Recognition 作者：Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun (Microsoft Research) 時間：Dec 2015

深度學習論文翻譯解析（九）：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

論文標題：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition　　　　　　標題翻譯：用於視覺識別的深度卷積神經網路中的空間金字塔池論文作者：Kaiming He, Xiangyu Zhang, Shao

Optical Flow Guided Feature A Fast and Robust Motion Representation for Video Action Recognition論文解讀

Optical Flow Guided Feature A Fast and Robust Motion Representation for Video Action Recognition論文解讀 1. Abstract 2. 論文解讀 3

Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition 翻譯

光流引導特徵：視訊動作識別的快速魯棒運動表示

Deep Feature Flow for Video Recognition

相關推薦