深度學習讓系統“看”懂短視訊內容
伴隨短視訊的火熱,使用者規模、視訊觀看時長也在日益增長,而面對海量的視訊,如何有效的推薦給使用者、如何洞察熱點事件成為了關鍵。美圖資料部門北京技術總監趙麗麗,在LiveVideoStackCon 2017上與我們一同分享了深度學習在短視訊視覺內容分析中的核心應用方向,以及前沿深度學習演算法在產品化應用於短視訊分析時的技術難點和解決方案。
演講 / 趙麗麗
整理 / LiveVideoStack
很高興可以和大家分享深度學習在短視訊視覺內容分析中的應用,分享包括四個方面,首先回顧深度學習的發展歷程和講述深度學習在短視訊領域進行自動化視訊內容分析的意義和必要性,再結合美拍短視訊業務分享我們將深度學習應用到視訊內容理解中遇到的問題和解決思路,最後從產品、資料以及技術層面展望後續的一些優化方向。
深度學習發展歷程
神經網路的發展最早可以追訴到上世紀40年代,Walter Pitts 和Warren McCulloch提出使用閾值邏輯單元來模擬神經元的輸出。1956年人工智慧世界大會上首次提出了人工智慧的概念,1958年Rosenblatt提出感知器的概念併發布了相應的演算法模型。由於感知器是一個單層的神經網路,它無法學習諸如異或操作的非線性功能,由此神經網路的發展也進入了冰凍期。1986年Hinton首次提出基於反向傳播演算法學習特徵表示,使得多層神經網路的訓練成為可能,而直到現在這一演算法仍是深度神經網路訓練的核心過程。由於當時硬體計算能力以及資料量有限,多層神經網路訓練所需的計算消耗和它帶來的效果提升並不能滿足人們的需求。直到2006年Hinton再次提出深度置信網路(DBN)和非監督學習的概念,從學術上證明神經網路層數是無限的,自此出現了深度學習的概念。
深度學習模型架構發展
2010年斯坦福大學李飛飛團隊公佈了千萬級標註資料集ImageNet,與此同時發起了大規模資料識別競賽,在競賽前期參賽演算法採用的都是傳統手工設計的特徵機器學習演算法,結合傳統機器學習分類演算法,分類誤差在26%左右。2012年,Alex提出使用深度神經網路(AlexNet)進行分類,將誤差降低到了16%。
除了理論積累和創新,GPU技術的發展帶來的硬體計算能力提升以及大規訓練資料集的可用性,都對深度學習的發展起到積極的可推動作用,像GoogleNet、VGG、ResNet等越來越多的網路結構被提出,這些網路結構的設計思路是往網路深度發展。而深度學習網路模型在滿足持續提升學習效率的同時,實際業務應用的需求也越來越高,因此更多學者提出更寬的網路——通過拆分通道的卷積操作來幅度減少卷積網路模型引數的數量以及卷積操作次數。
深度學習框架
除了以上兩點,深度學習網路模型迭代更新速度如此之快,很大程度也得益於大量的開源深度學習框架,比較有代表性的如Caffe、MXNet、TensorFlow、Torch\Pytorch等,這些開源框架極大方便了新的深度神經網路的提出和驗證的過程。
短視訊自動化內容分析
計算機視覺基本問題&應用領域
眾所周知,計算機視覺的操作物件主要包括兩類:影象和視訊。從底層而言需要解決三個基本問題:第一是分類問題,即從圖片或視訊識別內容的種類;第二是檢測問題,即不但要識別出影象的物體,還要識別出物體的位置;最後是分割問題,分割主要是語義分割,它精確到畫素級別,因此也是基本問題中最難的。
以計算機視覺三個基本問題為基礎,它又產生一些更深層次的技術,包括視訊中的目標追蹤、影象和視訊的主題描述、語義理解、視訊中的事件檢測等等,而在這些技術之上還有一些垂直的應用領域——資訊壓縮、使用者畫像、搜尋、推薦系統、人機互動等等,更上層的應用則有網際網路多媒體、智慧家居、駕駛、安防、智慧金融、醫療機器人等。
短視訊領域概況&場景分析
來源:第一財經商業資料中心(CBNData)《2017短視訊行業大資料洞察》
近兩年短視訊領域特別火爆,從最早的美拍,到快手、抖音、火山小視訊、秒拍等等,越來越多的短視訊應用走進了大家的日常生活。在第一財經商業資料中心釋出的短視訊行業大資料洞察中,截止今年6月我國國內網路視訊使用者規模已經達到5.65億,視訊觀看時長也在不斷增加。而圍繞短視訊的業務場景的應用也在增長:首先是推薦,如APP首頁的Feed流推薦以及播放頁面相關視訊的推薦;第二是視訊內容的搜尋;此外還有基於短視訊使用者的行為資料(如上傳視訊內容)進行全方位、多維度畫像;最後是熱點事件預測,主要是通過分析短時間內大批量出現的視訊內容,進行熱點事件的預測。
內容分析
1.視訊內容分析三大基本問題
短視訊業務相關的各業務場景,都涉及對視訊內容的理解,而視訊內容的理解需要解決三個問題:第一個問題“有什麼”,也就是視訊內容中包含的主題是什麼;第二個問題“在哪裡”,即視訊發生的場景;第三個問題“做什麼”,也就是視訊中主體的行為,或者正在發生怎樣的事情。
2.短視訊內容特徵
我們要對視訊內容進行理解,首先需要定義一個標準化的標籤體系,它應該涵蓋視訊內容中的主題、物體、場景、事件或行為。對於短視訊而言,它的幾個特徵一定程度上限制了這個標籤體系的建立:首先,短視訊資料量大,每天都會有成千上百萬的視訊被上傳;第二,短視訊內容未知,現實生活中場景是很複雜的,尤其對於UGC內容,我們無法知道使用者上傳的視訊中主體和場景可能有哪些,它的行為是無法預測的;第三是時效性,在不同的時間段內視訊的主題、場景以及行為是不同的,它可能會隨著時間進行轉移。所以在這樣的資料集上人工進行建立標籤體系非常困難。
上圖是我們分別通過演算法和人工對視訊分類進行標籤化的測試結果,包括效率和質量的對比。我們可以看到,演算法處理效率比人工高近兩百倍,在這種處理速度下,演算法準確率相比人工的平均準確率75%也有很大提升。
美拍短視訊內容理解:探索與實踐
DeepNet平臺
美圖智慧視覺分析平臺(DeepNet)為海量影象和視訊資料提供智慧視覺分析服務。從平臺架構來看,主要從四大方面進行演算法支撐——影象識別、場景理解、質量評估、轉碼分析。在這些技術之上,每個業務場景演算法都形成線上推理、訓練、標註的互動閉環:智慧視覺分析服務為線上業務提供推理服務;自動化訓練服務對模型訓練進行實時更新,從而解決模型時效性問題;標註平臺則負責收集標註資料,這部分資料包含兩類——人工標註團隊針對具體業務場景標註的資料以及稽核業務資料時產生的一些並行標籤。最上層是業務層,包括推薦、稽核、畫像、廣告搜尋。
上圖是DeepNet系統框架,主要包括三個部分:視覺分析服務、模型訓練和標註。視覺分析服務會產生兩部分的結果輸出:一部分是對視訊內容理解的語義標籤,一部分是對視訊的特徵表示,它可能是一個浮點的高維向量,也可能是一個二進位制的雜湊碼,其中語義標籤會被人工抽樣稽核,稽核結果被再次修正之後會加入到標註資料中,後續模型更新時會用到這部分資料。
短視訊內容分析挑戰
接下來我們介紹深度學習實際應用到短視訊內容分析時需要解決的一些問題:首先要解決視訊中“有什麼”——識別視訊中的物體、挖掘主題、並將視訊特徵資訊提取儲存;其次是“在哪裡”——檢測視訊發生的場景以及文字識別;第三點是“做什麼”——檢測視訊中主體的行為、正在發生的事件以及視訊描述。這三部分是理解視訊內容的基礎,我們在此基礎上對美拍視訊內容做了第四個分析——“好不好”:首先我們要保證視訊內容是合法合規的,因此要做內容稽核;同時還要做畫質評估來保證畫面質量,提升使用者的觀看體驗;此外為了評價視訊是否受歡迎,我們會用深度學習做播放預測。
而在實際應用過程中我們遇到了很多問題,大概總結為三類:如何有效定義資料標籤,如何高效獲取訓練資料,以及如何合理利用計算資源。
1.如何有效定義資料標籤
我們從三個方面來解決有效定義資料標籤,最基礎的是對海量資料進行抽樣分析,也就是在海量資料中按一定比例抽樣,對抽取到的資料應用演算法預先訓練的模型去做預先的處理——識別、分類、檢測,在處理結果之上再用人工分析,最終將分析的結果作為整個資料集的代表。第二部分是文字分析,使用者在上傳視訊時會新增一些視訊的描述、標籤以及標題等,我們可以結合文字分析方法將這些標籤提取出來賦給相應的視訊。第三部分是無監督學習——這也是我們正在做的,它應用了視訊主題挖掘,也就是對所有一個階段的視訊根據無監督學習聚成幾類,然後對這個類別的類中心的資料進行分析,提取它的標籤、主題、場景、事件。
大規模視訊主題挖掘借鑑的是微軟和清華在2015年提出的一個基於Scalable Visual Instance Mining with Instance Graph的方法,它的核心是對輸入的大規模影象集提取一個特徵表示,在這個特徵表示的基礎上再構建一個相似關係圖進行聚類,相比於傳統方法對於新的資料需要重新進行聚類,它將這個過程拆分成兩部分:一個是圖的構建,一個是基於圖的聚類。而基於圖的聚類在這個過程的時間其實非常少,那麼當有新的資料時,只需要把新的資料加入這個圖中做更新,再聚類的時間開銷很小。
大規模視訊資料主題挖掘這一過程的核心點是特徵表示,傳統的特徵表示方法大概可以分為三個過程:提取視覺特徵,基於視覺特徵建立視覺詞袋,以及進行量化和雜湊,生成一個雜湊碼或index值。近幾年伴隨深度學習的發展,有些學者提出基於深度神經網路的雜湊的特徵提取演算法,這類演算法的思想是讓中間的神經網路做所有的事情,輸入一個圖片經過網路推理就可以得到雜湊碼。我們則是基於微軟和清華在2015年提出的方法上針對深度雜湊做改進。
接下來跟大家分享下現在深度雜湊特徵提取的研究成果,由於研究成果非常多,這裡只舉兩個例子:監督學習和非監督學習。監督學習的思路是使用資料的一些標籤資料去進行訓練從而學習到雜湊碼,eBay在今年關於視覺檢索中用到的雜湊方法就是監督學習。而非監督學習是利用影象本身的一些相關資訊進行學習,不利用任何的標籤資料,比如我講一個影象旋轉一定角度,它並不會關心這個影象包含什麼標籤,只會計算旋轉前後圖形之間的loss是最小的,從而保證學到的特徵能夠更好的表示當前影象。
我們提出了一個視訊的深度雜湊方法,這部分演算法技術的相關論文” Deep Hashing with Category Mask for Fast Video Retrieval”放到了arxiv上[https://arxiv.org/abs/1712.08315],歡迎大家下載論文了解具體技術細節。
2.如何高效獲取訓練資料
針對如何高效獲取訓練資料,我們結合演算法和人工,首先針對開源資料集訓練一個模型,並對業務資料進行初期演算法的識別、分類、檢測,檢測、分類的結果將再次進行人工稽核,最終稽核結果再返回更新模型。
3.如何合理利用計算資源
主要從三個方面合理規劃和利用計算資源:第一是從演算法的角度優化,一方面是優化網路結構,這個同時也會降低訓練時間;另一方面是優化推理邏輯,也就是不改變網路結構,在推理時進行層間的壓縮。第二是分時處理,從業務角度來看,對推理和訓練支援的力度是不同的,推理服務請求量可能很高,而且不同時段的請求量也是不一樣的,比如白天一般大於晚上,這樣我們在分配推理和訓練服務時就需要合理錯開高峰期。第三是轉碼預測,使用者上傳雲端的視訊在手機端播放時會佔用一定的頻寬,因此我們會對一些視訊提前轉碼,但因為轉碼本身很消耗計算資源,為防止無效轉碼,使用演算法預測視訊被轉碼的概率。
上圖是轉碼預測演算法的網路結構,主要分為兩部分:首先,對視訊封面通過CNN網路提取影象特徵;然後,將視訊的原資料資訊-如視訊作者的好友數、粉絲數、歷史視訊的播放數等對映成向量,和提取的CNN特徵結合輸入到淺層神經網路進行訓練。
上圖是分別使用規則判斷和使用神經網路演算法進行轉碼預測效率的對比資料,橫座標是轉碼計算需要的資源,縱座標是播放覆蓋率。我們可以看到,傳統簡單標記規則在佔用80%轉碼計算資源的情況下,播放覆蓋量大概在75%;而使用神經網路演算法,在同等播放覆蓋率的前提下可以節省84%的轉碼計算資源,在使用同等的轉碼計算資源的情況下則可以增加27%的播放量。
思考與展望
對於深度學習在短視訊內容分析中的應用我們認為還有很多地方需要優化。從產品層面來說需要優化功能定義,讓深度學習可以更好的應用於產品從而提升使用者體驗;資料層面則是優化標註流程、提升標註的質量,加快模型的迭代更新速度;最後在應用現有技術滿足業務的同時,我們也希望能夠在演算法和模型上做一定的積累和創新。以上是我的分享,謝謝大家。
LiveVideoStack招募全職技術編輯和社群編輯
LiveVideoStack是專注在音視訊、多媒體開發的技術社群,通過傳播最新技術探索與應用實踐,幫助技術人員成長,解決企業應用場景中的技術難題。如果你有意為音視訊、多媒體開發領域發展做出貢獻,歡迎成為LiveVideoStack社群編輯的一員。你可以翻譯、投稿、採訪、提供內容線索等。
通過[email protected]聯絡,或在LiveVideoStack公眾號回覆『技術編輯』或『社群編輯』瞭解詳情。
相關推薦
基於深度學習分析與檢索海量短視訊內容
在RTC 2018 實時網際網路大會上,美圖雲視覺技術總監趙麗麗分享了美圖在短視訊領域的AI技術應用,內容主要包括三部分:美圖短視訊的業務場景,基於此業務場景所做的短視訊內容分析和檢索技術,以及遇到的問題與相應的解決方案。最後是平臺構建過程中的一些思考。以下是演講內容整理。 美圖在短視訊領域的代表產品就
一個成功案例讓你看懂智能養卡代還系統
模式 size 分享 特性 pro alt 自己的 src 代理 隨著三級分銷的商業模式發展以來,越來越受到大家的歡迎,不斷有新的商家加入其中。而三級分銷的支付系統自開發以來也為企業創造了很多價值,那麽三級分銷支付系統到底是怎麽一回事呢?零零壹的小編給你詳細說說吧。一個故事
剖析執行時(讓你看懂執行時)
init ont get tle pre art details ddc down 執行時機制:比較高級的特性,純C語言 實際上我們平時寫的OC代碼。都是轉成C語言的執行時代碼,執行時代碼的效率更高,更直接 Person.h @inter
4張圖讓你看懂分布式架構從硬件到軟件
開發 基本 行處理 倉庫 tcp -1 管理 img 必須 對於分布式的架構相對很多開發者都是個高大上的項目,其實只要看得懂圖精通tcp通信、精通磁盤管理、精通內存管理、精通多線程與並行處理,精通事務(其實事務就是基於tcp通信層所擴展而來的MQ之類的一種IO消息模式而與)
一篇讓你看懂Spark任務執行各物件建立時機!
1.SparkContext哪一端生成的? Driver端 2.DAG是在哪一端被構建的? Driver端 3.RDD是在哪一端生成的? Driver端 4.廣播變數是在哪一端呼叫的方法進行廣播的? Driver端 5.要廣播的資料應該在哪一端先建立好再廣播呢? Driver
讓你看懂聚類分析
目錄 1.聚類分析概述 2.各種距離的定義 2.1 樣本相似性度量 2.2 類與類間的相似性度量 2.3 變數間的相似度度量 3.劃分聚類 4.層次聚類 1.聚類分析概述 聚類分析是一種定量方法,從資料分析的角度看,它是對多個樣本進行定量分析的多元統
Python If-else 多種寫法讓你看懂大佬程式碼
Python If-else 多種寫法讓你看懂大佬程式碼 第一種:普通寫法 a, b, c = 1, 2, 3 if a>b: c = a else: c = b 第二種:常見一行表示式 為真時放if前 a, b, c = 1, 2, 3
21大領域,深度學習最值得看的128篇論文資源
從全域性到枝幹、從經典到前沿、從理論到應用、還有最新的研究...,所有你不需要的需要的,現在不需要的未來需要的,你不需要的周邊小夥伴需要的...反正全都在這了。 對於大多數想上手深度學習的小夥伴來說,“我應當從那篇論文開始讀起?” 這是一個亙古不
三個例子,讓你看懂資料倉庫多維資料模型的設計
一、概述 多維資料模型是最流行的資料倉庫的資料模型,多維資料模型最典型的資料模式包括星型模式、雪花模式和事實星座模式,本文以例項方式展示三者的模式和區別。 二、星型模式(star schema) 星型模式的核心是一個大的中心表(事實表),一組小的附屬表(維表)。
YouTube 深度學習推薦系統的十大工程問題
這篇文章主要介紹了 YouTube 深度學習系統論文中的十個工程問題,為了方便進行問題定位,我們還是簡單介紹一下背景知識,簡單回顧一下 Deep Neural Networks for YouTube Recommendations中介紹的 YouTube 深度學習推薦系統的框架。(更詳細的資訊,請參見重讀
GitHub 專案推薦:用深度學習讓你的照片變得美麗
在挑選手機時,手機攝像頭往往是我們考慮的重要因素之一,但目前很多手機拍出來的照片效果不盡如人意。如何用深度學習的方法美化照片? George Seif 發表了一篇文章,是關於如何自動增強低質量相機拍攝的照片,大家快來實戰吧~ 照相是一項很棒的技術。它讓我們能夠儲存自己的記憶,當看到照片中的景色時,我們可
深度學習對話系統理論--資料集和評價指標介紹
對話系統常用評價指標 當前對話系統之所以還沒有取得突破性的進展,很大程度上是因為沒有一個可以準確表示回答效果好壞的評價標準。對話系統中大都使用機器翻譯、摘要生成領域提出來的評價指標,但是很明顯對話系統的場景和需求與他們是存在差別的,這也是當前模型效果不是很好的原因之一。從對
從頭實現一個深度學習對話系統--Seq-to-Seq模型詳解
上一篇文章已經介紹了幾篇關於Seq-to-Seq模型的論文和應用,這裡就主要從具體的模型細節、公式推導、結構圖以及變形等幾個方向詳細介紹一下Seq-to-Seq模型。這裡我們主要從下面幾個層次來進行介紹: Seq-to-Seq框架1 Seq-to-Seq框架
構建無處不在的深度學習部署系統
《SDCC 2017 人工智慧技術實戰線上峰會》學習筆記 劉文志 深度學習部署平臺特點: 深度學習的兩個方面: 部署、訓練 面臨的挑戰:現代深度學習部署平臺要求: 支援多種不同的架構不同廠家 不同硬體 不同程式語言 不同終端:伺服器、桌
一篇文章讓你看懂量化交易發展史
閱讀原文:http://club.jr.jd.com/quant/topic/1080077 京東金融量化交流群:417082141 一.從文藝復興科技,大獎章和HMM說起 Renaissance Technologies(Ren Tech)這家對衝基金的名字在量化圈算是如雷貫耳了。創始人數學家James
深度學習對話系統理論篇--資料集和評價指標介紹
對話系統常用評價指標 當前對話系統之所以還沒有取得突破性的進展,很大程度上是因為沒有一個可以準確表示回答效果好壞的評價標準。對話系統中大都使用機器翻譯、摘要生成領域提出來的評價指標,但是很明顯對話系統的場景和需求與他們是存在差別的,這也是當前模型效果不是很好的
128篇論文,21大領域,深度學習最值得看的資源全在這裡
從全域性到枝幹、從經典到前沿、從理論到應用、還有最新的研究…,所有你不需要的需要的,現在不需要的未來需要的,你不需要的周邊小夥伴需要的…反正全都在這了。對於大多數想上手深度學習的小夥伴來說,“我應當從那篇論文開始讀起?”這是一個亙古不變的話題。而對那些已經入門的
深度學習網路怎麼看你的自拍
原文:http://karpathy.github.io/2015/10/25/selfie/ 簡單翻譯和摘錄下有意思的地方。 這哥們兒用DNN(Deep Neural Network)基於點贊數評估了下自拍的質量,得出幾個結論。 DNN喜歡: 得是個女的;面部佔畫面1/
深度學習入門必看
是我 決策 包括 效果 超越 自然 選項 準備 進展 看網上搜集的各種龐雜的DL學習資料列表,你可能會被嚇死。但實際上大部分學習資料都包含了相當多重復的內容,下面是我個人總結的一些學習經驗,希望能去蕪存菁,幫助程序員快速進入深度學習的聖殿。 數學基礎。如果你去讀