ICCV | 深度三維殘差神經網路:視訊理解新突破
編者按:隨著網際網路的不斷髮展,可處理視訊的深度神經網路遠比普通神經網路更難訓練,如何減輕訓練負擔成為了一項不可忽視的工作。來自微軟亞洲研究院多媒體搜尋與挖掘組的研究成果“Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks”,在正在舉辦的International Conference on Computer Vision (ICCV) 2017會議上釋出,它專注於如何利用大量視訊資料來訓練視訊專用的深度三維卷積神經網路,提出一種基於偽三維卷積(Pseudo-3D Convolution)的深度神經網路的設計思路,並實現了迄今為止最深的199層三維卷積神經網路。通過該網路學習到的視訊表達,在多個不同的視訊理解任務上取得了穩定的效能提升。
1993年9月,一款名為NCSA Mosaic的瀏覽器正式支援在網頁內嵌入圖片,這標誌著網際網路從純文字時代邁入了“無圖無真相”的多媒體時代。如今,隨著網際網路頻寬的提升和高速移動裝置的普及,資訊的獲取途徑和傳播途徑也在與日增加,視訊逐漸成為網際網路多媒體消費的重要組成部分。
從傳統的視訊分享網站到電視電影節目的網路化,再到現在新興的視訊直播網站和小視訊分享網站,網際網路視訊已經進入了爆炸式發展的新階段。據統計,僅僅以視訊分享網站YouTube為例,平均每分鐘就有約300小時的視訊上傳到YouTube上,每天的視訊觀看次數更是高達50億次。數量如此巨大的視訊內容與觀看次數對視訊處理、分類、推薦等常見視訊相關技術提出了更高的要求,也提供了更廣闊的應用場景。
在視訊處理相關技術中,視訊特徵描述學習(Representation Learning)是一個最基本的問題。學習視訊的特徵表達是幾乎所有視訊處理和分析的基礎,其中包括視訊標註、動作識別、視訊監控、視訊檢索、視訊場景識別、視訊分割、視訊自然語言描述和基於視訊的人機互動等等。
然而目前視訊識別的相關研究多數使用的是基於影象的卷積神經網路(如微軟研究院在2015提出的殘差神經網路ResNet)來學習視訊特徵,這種方法僅僅是對單幀影象的CNN特徵進行融合,因此往往忽略了相鄰的連續視訊幀間的聯絡以及視訊中的動作資訊。目前,視訊專用的深度神經網路還很缺乏。
在正在舉行的International Conference on Computer Vision (ICCV)2017會議上,微軟亞洲研究院釋出了多媒體搜尋與挖掘組最新的研究成果——
基於三維卷積神經網路的視訊特徵提取
為了使用深度神經網路來提取視訊中時間和空間維度上的資訊,一種直接的思路就是將用於影象特徵學習的二維卷積拓展為三維卷積(3D Convolution),同時在時間和空間維度上進行卷積操作。如此一來,由三維卷積操作構成的三維卷積神經網路可以在獲取每一幀視覺特徵的同時,也能表達相鄰幀隨時間推移的關聯與變化,如下圖所示。
然而這樣的設計在實踐中卻存在一定的困難。首先,時間維度的引入使得整個神經網路的引數數量、執行時間和訓練所需的GPU記憶體都將大幅增長;其次,隨機初始化的三維卷積核需要大量精細標註的視訊資料來進行訓練。受困於以上兩點,近些年關於三維卷積神經網路的發展十分緩慢,其中最著名的C3D[2] 網路只有11層,模型大小卻達到321MB,甚至大於152層ResNet[3] 的235MB模型。
深度偽三維卷積神經網路設計
為了解決以上的侷限性,我們提出了一系列基於偽三維卷積和殘差學習(Residual Learning)的神經網路模組,用以同時在時間和空間上進行卷積操作。其中,偽三維卷積是這個網路結構的核心操作,基本思想是利用一個1*3*3的二維空間卷積和3*1*1的一維時域卷積來模擬常用的3*3*3三維卷積。通過簡化,偽三維卷積神經網路相比於同樣深度的二維卷積神經網路僅僅增添了一定數量的一維卷積,在引數數量、執行速度等方面並不會產生過度的增長。與此同時,由於其中的二維卷積核可以使用影象資料進行預訓練,對於已標註視訊資料的需求也會大大減少。結合殘差學習的思想,該論文提出三種不同的偽三維卷積殘差單元(P3D-A,P3D-B,P3D-C)分別使用序列、並行和帶捷徑(shortcut)的序列三種方式來確定空間卷積和時域卷積之間的關係。
通過使用以上三種偽三維殘差單元替代152層ResNet中的二維殘差單元,該工作得到了目前最深的199層三維卷積網路結構。最終經過ImageNet資料集中的圖片資料和Sports-1M(包含了487個類別的百萬級視訊片段)[4] 視訊資料的訓練,該網路在視訊動作識別(Action Recognition)、視訊相似度分析(Video Similarity)和視訊場景識別(Scene Recognition)三個不同的視訊理解任務上均獲得了穩定的效能提升,並且在CVPR 2017的Activity Net Challenge的Dense-Captioning任務中獲得第一名。
除了利用偽三維卷積網路提取特徵外,該網路還可以作為其它方法的基本網路結構,從而提升其它基於神經網路方法的視訊識別效能。以雙流(Two-stream)方法為例,在UCF101的視訊動作識別任務上,如果使用偽三維卷積網路作為基本網路結構,實現的Two-stream框架無論是單個幀分支(Frame)與光流分支(Flow),或者是最終兩個分支合併的結果,都超過了其它網路結構。
以上的實驗結果驗證了偽三維卷積殘差網路可以有效學習來自大量影象和視訊訓練資料中的類別資訊。在與二維卷積殘差網路和傳統三維卷積網路的對比中,該結構成功地提升了在不同視訊識別任務上的效能。關於偽三維殘差網路相關的程式碼和模型詳見https://github.com/ZhaofanQiu/pseudo-3d-residual-networks。
神經專用神經網路的發展方向
該工作基於偽三維卷積和殘差結構給出了訓練超深度三維卷積網路的可能性,然而本文中提到的神經網路目前主要針對視訊分類問題。面對紛繁複雜的視訊內容與視訊應用需求,單一的神經網路很難滿足。針對不同的應用,視訊專用神經網路有以下三個具有潛力的發展方向:
第一,視訊檢索(Video Search)專用神經網路。視訊檢索、視訊推薦是大型視訊分享網站所要面對的首要問題,給予使用者良好的檢索體驗,並適當地推薦使用者需要的視訊內容,幫助使用者快速地找到自己感興趣的視訊。
第二,視訊分割(Semantic Video Segmentation)專用神經網路。視訊分割的目標在於畫素級別地分割出視訊中的人、車等常見物體。而隨著AR/VR技術的發展,畫素級別的目標識別可以輔助許多不同的AR/VR相關應用,這也促進了視訊分割的發展。
第三,視訊生成(Video Generation)專用神經網路。隨著使用者越來越容易地在不同裝置上進行視訊拍攝,非專業使用者對視訊的自動/半自動編輯、美化也逐漸有了更多的需求。因此,視訊生成神經網路便可以幫助使用者編輯創作自己的視訊作品。
隨著卷積神經網路的發展,人工智慧在很多影象相關任務上的效能都產生了飛躍,也有大量相關技術從學術圈慢慢地走進了我們的生活。但是由於視訊包含資訊太過複雜,大資料的獲取、儲存、處理均存在一定困難,導致視訊相關技術在很多方面仍然進步緩慢,相信隨著視訊專用卷積神經網路的發展,這部分的不足也會逐漸被彌補。
無論是文字、影象還是視訊,人工智慧的發展在滿足網際網路使用者需求的同時也始終推動著使用者習慣的變遷。有了合理的演算法對視訊進行分析、推薦,可以幫助網際網路使用者獲得更好的瀏覽體驗;有了使用者更好的反饋及更大的點選量,可以讓視訊產業規模進一步擴大;更大規模的視訊資料會進一步對視訊相關演算法提出更高的要求。在這樣的迴圈之下,視訊產業本身必將伴隨著視訊相關演算法快速地發展,迎接更美好的未來。
參考文獻
[1] Z. Qiu, T. Yao, T. Mei.Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks. InICCV, 2017.
[2] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M.Paluri. Learning spatiotemporal features with 3d convolutional networks. InICCV, 2015.
[3] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.
[4] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R.Sukthankar, and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In CVPR, 2014.
作者介紹邱釗凡,微軟亞洲研究院和中國科學技術大學聯合培養博士生,導師為梅濤研究員和田新梅副教授。主要研究方向包括視訊特徵學習、視訊動作識別和多媒體內容分析。他曾於2015年在中國科學技術大學獲得學士學位,並於2017年獲得微軟學者獎學金。
姚霆博士,微軟亞洲研究院多媒體搜尋與挖掘組研究員,主要研究興趣為視訊理解、大規模多媒體搜尋和深度學習。他帶領研究團隊在COCO影象描述自動生成、2017年VISDA視覺領域自適應語義分割任務、2016&2017年ActivityNet視訊行為識別等多個國際級比賽中取得了世界領先的成績。他於2014年在香港城市大學獲得電腦科學博士學位並於2015年榮獲SIGMM Outstanding Ph.D. Thesis Award。
梅濤博士,微軟亞洲研究院資深研究員,主要研究興趣為多媒體分析、計算機視覺和機器學習。他的研究團隊目前致力於視訊和影象的深度理解、分析和應用。他同時擔任IEEE 和 ACM 多媒體彙刊(IEEE TMM 和 ACM TOMM)以及模式識別(Pattern Recognition)等學術期刊的編委,並且是多個國際多媒體會議的大會主席和程式委員會主席。他是國際模式識別學會會士,美國計算機協會傑出科學家,中國科學技術大學和中山大學兼職教授。
你也許還想看:
感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:[email protected]。
相關推薦
ICCV | 深度三維殘差神經網路:視訊理解新突破
編者按:隨著網際網路的不斷髮展,可處理視訊的深度神經網路遠比普通神經網路更難訓練,如何減輕訓練負擔成為了一項不可忽視的工作。來自微軟亞洲研究院多媒體搜尋與挖掘組的研究成果“Learning Spatio-Temporal Representation with Pseudo-3D Residual
【深度學習_4.2】Keras構建殘差神經網路
殘差神經網路可幫助避免多層神經網路的梯度消失(主要解決的問題)、梯度爆炸等現象 普通殘差塊 First component of main path: The first CONV2D has F1F1 filters of shape (1,1) and a st
殘差神經網路
之前的章節,我們利用一個僅包含一層隱藏層的簡單神經網路就在MNIST識別問題上獲得了98%左右的準確率。我們於是本能會想到用更多的隱藏層,構建更復雜的神經網路將會為我們帶來更好的結果。 就如同在進行影象模式識別的時候 ,第一層的神經層可以學到邊緣特徵 ,第二層的可以學到更復雜的圖形特徵,例如三角形,長方
Coursera Deep Learning 第四課 卷積神經網路 第二週 程式設計作業 殘差神經網路 Residual Networks
Coursera Deep Learning 第四課 卷積神經網路 第二週 程式設計作業 殘差神經網路 Residual Networks Welcome to the second assignment of this week! You will l
二維卷積神經網路的結構理解
針對這個圖,我們對應著卷積的api函式來說: tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None) 如上圖: 第一列為一張輸入影象, 大小為7*7*3,
深度學習與卷積神經網路(直觀理解)
基本上在輸入影象中,如果有一個形狀是類似於這種濾波器的代表曲線,那麼所有的乘積累加在一起會導致較大的值!現在讓我們看看當我們移動我們的過濾器時會發生什麼。可以看到結果值是0哦,為什麼?還不明白麼,因為耳朵的邊緣和剛剛尾股部曲線太不同了。 這樣的多個濾波器就可以在大量資料的訓練下得到大量特徵了
深度學習之殘差網路原理深度刨析
為什麼要加深網路? 深度卷積網路自然的整合了低中高不同層次的特徵,特徵的層次可以靠加深網路的層次來豐富。 從而,在構建卷積網路時,網路的深度越高,可抽取的特徵層次就越豐富。 所以一般我們會傾向於使用更深層次的網路結構,以便取得更高層次的特徵。 但是在使用深層次的網路結構時我們會遇到兩個問
深度學習: ResNet (殘差) 網路
Introduction 添加了一些直達通道,相當於加入了約束。使得某些原本就應為identity mapping的module,直接獲得identity mapping的能力。 起因 2015年之前,在層數不多的深度網路模型中,人們通過 設定 合理的
深度學習2---任意結點數的三層全連線神經網路
上一篇文章:深度學習1—最簡單的全連線神經網路 我們完成了一個三層(輸入+隱含+輸出)且每層都具有兩個節點的全連線神經網路的原理分析和程式碼編寫。本篇文章將進一步探討如何把每層固定的兩個節點變成任意個節點,以方便我們下一篇文章用本篇文章完成的網路來訓練手寫
TensorFlow官方文件樣例——三層卷積神經網路訓練MNIST資料
上篇部落格根據TensorFlow官方文件樣例實現了一個簡單的單層神經網路模型,在訓練10000次左右可以達到92.7%左右的準確率。但如果將神經網路的深度拓展,那麼很容易就能夠達到更高的準確率。官方中文文件中就提供了這樣的樣例,它的網路結構如
【火爐煉AI】深度學習004-Elman迴圈神經網路
【火爐煉AI】深度學習004-Elman迴圈神經網路 (本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) Elman神經網路是最早的迴圈神經網路,由Elman於1990年提出,又稱為SRN(Simp
改善深層神經網路:超引數除錯、正則化以及優化_課程筆記_第一、二、三週
所插入圖片仍然來源於吳恩達老師相關視訊課件。仍然記錄一下一些讓自己思考和關注的地方。 第一週 訓練集與正則化 這周的主要內容為如何配置訓練集、驗證集和測試集;如何處理偏差與方差;降低方差的方法(增加資料量、正則化:L2、dropout等);提升訓練速度的方法:歸一化訓練集;如何合理的初始化權
深度學習筆記——卷積神經網路
程式碼參考了零基礎入門深度學習(4) - 卷積神經網路這篇文章,我只對程式碼裡可能存在的一些小錯誤進行了更改。至於卷積神經網路的原理以及程式碼裡不清楚的地方可以結合該文章理解,十分淺顯易懂。 import numpy as np from functools import reduce fro
深度學習基礎--卷積神經網路的不變性
卷積神經網路的不變性 不變性的實現主要靠兩點:大量資料(各種資料);網路結構(pooling) 不變性的型別 1)平移不變性 卷積神經網路最初引入區域性連線和空間共享,就是為了滿足平移不變性。 關於CNN中的平移不變性的來源有多種假設。 一個想法是平移不變性
深度學習筆記(四)——神經網路和深度學習(淺層神經網路)
1.神經網路概覽 神經網路的結構與邏輯迴歸類似,只是神經網路的層數比邏輯迴歸多一層,多出來的中間那層稱為隱藏層或中間層。從計算上來說,神經網路的正向傳播和反向傳播過程只是比邏輯迴歸多了一次重複的計算。正向傳播過程分成兩層,第一層是輸入層到隱藏層,用上標[1]來表示;第二層是隱藏層到輸出層,用上標
基於一維卷積神經網路的增強效率BPSK解調器《翻譯》
參考文獻:Zhang M, Liu Z, Li L, et al. Enhanced Efficiency BPSK Demodulator Based on One-Dimensional Convolutional Neural Network[J]. IEEE Access, 2018, PP
[譯]在 Keras 中使用一維卷積神經網路處理時間序列資料
原文地址:Introduction to 1D Convolutional Neural Networks in Keras for Time Sequences 原文作者:Nils Ackermann 譯文出自:掘金翻譯計劃 本文永久連結:github.com/xitu/go
【深度學習】卷積神經網路
講卷積神經網路之前說說為什麼能夠進行分類識別?按照傳統的SIFT,HOG演算法都是先進行特徵的提取過程,那麼卷積神經網路怎麼進行特徵的提取呢? 下面,我們就開始吧! 先提一個小問題:“你是通過什麼瞭解這個世界的?” 當一輛汽車從你身邊疾馳而過,你是通過哪些資訊知道那是一
【深度學習】卷積神經網路的卷積層和池化層計算
一、簡介 \quad\quad 卷積神經網路(Convolutional neural network, CNN),
神經網路6_CNN(卷積神經網路)、RNN(迴圈神經網路)、DNN(深度神經網路)概念區分理解
sklearn實戰-乳腺癌細胞資料探勘(部落格主親自錄製視訊教程,QQ:231469242) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm