付彥偉:零樣本、小樣本以及開集條件下的社交媒體分析
點選上方“深度學習大講堂”可訂閱哦!
編者按:隨著社交媒體及數字採集裝置的普及,網路上存在著海量的視訊及影象資料,如果能夠充分利用這些資料,將促進相關計算機視覺任務的發展。然而這些資料卻面臨著資料樣本分佈不均衡、以及樣本無監督等問題,因此如何在樣本量不足甚至零樣本、以及樣本無標註的情況下,充分利用社交媒體中的資料,成為了計算機視覺領域的開放式問題。本文中,來自復旦大學大資料學院的付彥偉副研究員將就這一問題進行討論。大講堂特別在文末提供文章以及程式碼的下載連結。
首先介紹一下我本人,我博士就讀於倫敦瑪麗女王大學,導師是向濤教授和龔少剛(Shaogang Gong)教授。之後在匹茲堡CMU的Disney Research做博士後。
我今天介紹的內容可以概括為四個單詞:Overview,Definition,Embedding,More.
Overview
對社交媒體中的大資料進行分析,其資料來源分為兩個部分,一是YouTube,Flicker和Instagram上的影象視訊資料,二是Facebook,Wechat,Google+上的使用者關係資料。這二者都屬於社交媒體分析中的大資料,是我研究的主要topic。
首先來說對影象、視訊資料的分析,眾所周知,這種資料量非常龐大,可以用來做零樣本、小樣本以及開集條件下的影象分類,動作識別,活動識別,以及感情識別。基於以上四個問題,我主要介紹下面幾個工作:
對於關係型資料,我們從統計裡的ranking和概率圖模型的角度來分析更多型別的問題,比如crowdsourcing ranking on Internet和social network。對於這類問題,也是要分析one-shot、zero-shot等條件下的識別,我們也做了一些工作:
Definition
首先說一下對one-shot,zero-shot,open-set recognition的定義。對於識別任務而言,人類通過視覺系統和聽覺系統獲取影象資訊和聲音資訊,再經人腦處理得到識別結果。這就啟發我們去做監督識別。
深度學習將傳統方法從訓練資料、低層次特徵提取、特徵編碼和池化再到大規模語義建模的過程變為端到端的學習過程。但是大千世界芸芸眾生,能收集到的樣本只是一小部分,尤其人類可以動態構造一些新類別,因此需要收集一些新資料來訓練模型。
One-shot learning 是基於監督學習的,在某個空間(如視覺空間),根據語義標籤訓練相應的分類器,因為training inference較少,所以稱之為one-shot。但是one-shot learning不能識別從未見過的物體類別,這就啟發了最近的zero-shot learning。
Zero-shot learning是為了識別未知類別的樣本,其思想是遷移一些已知的輔助類別語義知識。如圖黑色字型標籤就是輔助類別,我們可以根據已知的輔助類別樣本來學習從視覺空間到語義標籤的對映,所有測試樣本都會被投影到該語義空間,然後被賦予相應的標籤資訊,這裡的關鍵是如何選取語義標籤。
如圖所示,一般的語義標籤大體上可以分為兩類,一類是Semantic Attributes(語義屬性),它具有很好的解釋性但需要大量的人工標註,而另一類是Semantic Word Vectors(語義向量),可以從大量文字中訓練出來,並不需要人工標註,並有大量的free vocabulary。
Attribute learning識別的未知類別數量一般並不大,可以把這類思想推廣到open-set recognition,open-set recognition就是從大量圖片詞彙類別中識別影象視訊的語義標籤。
以識別問題為例,總結一下零樣本、小樣本以及開集條件下的任務。也可以擴充套件到其他類似問題。
有監督學習:能夠取得較好的表現效果,但需大量人工標註;
小樣本學習(one-shot, N-shot, Few-shot):每類只需很少樣本,但也需大量人工標註;
零樣本需學習:不需要樣本標籤,但是目標類別數受限;
Open-set Learning:不需要樣本標註,有大量的樣本庫。
另一方面我們可以利用free-vovabulary詞彙來幫助整個學習過程,比如影象被對映到語義空間,在這個空間中,只知道unicycle或tricycle,在零樣本學習情況下,我們更傾向於把它歸為unicycle,因為它靠近unicycle的語義原型。
而空間裡面如果含有其他的free vocabulary,比如segway,recumbent bicycle,測試樣本如果和它們靠的更近,那麼可能就不能把這個樣本認為是unicycle,也就是說通過這個free-vocabulary,可以更新這個從特徵空間到語義空間的matrix。
Embedding
下面說一下其他的工作embedding,再從實際來看,人類攝入很多文章和照片,對於文章和圖片都可以訓練很好的深度學習模型,那麼人腦會不會形成統一的embedding space呢?假設這個觀點是成立的,那麼研究出發點就是如何做mutli-view/multi-modal embedding。
我們第一個工作是Learning multi-modal latent attributes。
回顧一下屬性學習,從淺層特徵到屬性,再到類別,這裡的關鍵是屬性,但是屬性一般較依賴於人工的標註,對屬性的定義常常有很多挑戰,比如不完整、稀疏或者比較模糊,這就依賴從資料中挖掘屬性。
這裡給出一些例子,這是我們的資料集,模型可以從這些類別中挖掘對應的latent attribute。
基本的模型結構如圖所示,通過multi-modal latent attribute topic model來建模視訊、音訊等模態資料之間的關係,這裡的屬性可以是使用者自定義的,也可以是潛在的屬性,我們可以在attribute claim 中加以限定,通過topic挖掘對應的資訊。
我們在USAA資料集和AwA資料集上進行了實驗,結果如上表所示,把屬性當作video attention的話,可以做多工學習。
對於不同的使用者自定義屬性,結果也非常好。
在這個框架下,還可以做one-shot learning。
還可以視覺化哪些淺層特徵對應哪些屬性,是用於自定義的還是自身潛在的屬性。
第二個工作是multi-view embedding。
再回顧一下這個框架,從淺層特徵到屬性、類別。
在零樣本學習中,有兩個問題。第一個是projection domain shift問題,比如,斑馬和豬,斑馬是輔助訓練資料,而豬是目標資料,它們都有hasTail這個屬性,但是它們的視覺屬性是非常不一樣的,把從輔助資料中學習到的淺層特徵直接對映到未知資料上,一定會出現domain shift的問題,而這個domain shift其實是一個多維問題,我們稱之為projection domain shift問題。
第二個問題是prototype sparsity問題,也就是每一個新類其實只有一個attribute prototype,那麼就需要考慮是否能利用資料本身的資訊,比如manifold information,第三個是embedding multiple representations,我們現在已有semantic attribute,semantic word vector,考慮把它們嵌到一起。
基於這三個問題,我們提出了一個演算法框架。假設在目標資料上可以得到不同的子空間,每一個空間代表每一個view,利用一個multi-view CCA把資料投影到CCA space,在這個空間裡面構造一個graph或者hyper graph,然後進行ranking,這樣就可以做one-shot learning,zero-shot learning,甚至open set learning。
在三個標準測試集上的結果顯示效果非常好,尤其是AwA,這是2014年的結果,AwA的結果已經能達到80.5。
通過視覺化可以得知,在原始空間中,可能有些測試類別是無法分開的,但是在embedding space中這些類別是可以區分得非常好。
下面來介紹一下Pairwise Graph Embedding。
關係型別的資料標註,可以統稱為Subjective visual properties。比如比較兩幅影象哪一個更漂亮,哪一個更有意思,哪一個笑得更多一些,這是更好的語義表示,它的歧義性更小,更有利於遷移學習。我們定義subjective visual properties,類似的問題包括image/video interestingness & aesthetics,以及image memorability & image/video quality等。
對於這類資料,我們一般是要做Crowdsourced Paired Comparisons來收集它的標註資訊,這裡的優勢在於,標註起來更節省成本,可以標註大規模的資料集。這裡有個問題,一個是outliers,另一個是sparsity,因為畢竟是一個稀疏空間。
我們提出了一個robust learning to rank框架來解決上述兩個問題,這裡影象是一些合成樣本,左邊是若干人臉,比較他們的年齡,我們收集了一些temporation,綠色是predict,紅色是outline,根據得到的資訊預測ranking。
我們可以構造一個有向圖,在這個有向圖上,我們可以outline,用form乘Lasso,這裡的gamma是一個outline variable,叫incidental parameter。
所以我們提出了一個Preconditioned Lasso方法。
我們的解法是用Regularisation Path,左邊藍色點對應inline,紅色點對應outline,如果check regularisation path會發現,從右到左變換拉姆達值的時候,outline會首先出現,所以就可以對所有這些點進行排序,然後top就是outline。
More
最後簡單回顧一下我們其他的一些工作。
視訊理解,通過深度學習來embedding 目標或者場景,做action,activity,one-shot learning,zero-shot learning。上圖為video emotion understanding的工作。
以及如何利用概率圖模型來自動生成海報。
最後,分享一個我們建的髮型資料集,其中收集了64種不同的髮型,大約三萬張不同人臉標註。
文中引用文章的下載連結為:
https://pan.baidu.com/s/1i5KTjXr
本文主編袁基睿,編輯楊茹茵。
該文章屬於“深度學習大講堂”原創,如需要轉載,請聯絡 astaryst。
作者資訊:
作者簡介:
付彥偉,青年副研究員,2014年獲得倫敦大學瑪麗皇后學院博士學位。入選2017年度上海市青年科技英才揚帆計劃。主要研究領域包括計算機視覺與模式識別、機器學習與統計學習、情感計算、多媒體視訊分析與處理等,有IEEE TPAMI, CVPR等頂級期刊會議論文20篇,10項中國、3項美國專利。
VALSE是視覺與學習青年學者研討會的縮寫,該研討會致力於為計算機視覺、影象處理、模式識別與機器學習研究領域內的中國青年學者提供一個深層次學術交流的舞臺。2017年4月底,VALSE2017在廈門圓滿落幕,近期大講堂將連續推出VALSE2017特刊。VALSE公眾號為:VALSE,歡迎關注。
往期精彩回顧
歡迎關注我們!
深度學習大講堂是由中科視拓運營的高質量原創內容平臺,邀請學術界、工業界一線專家撰稿,致力於推送人工智慧與深度學習最新技術、產品和活動資訊!
中科視拓(SeetaTech)將秉持“開源開放共發展”的合作思路,為企業客戶提供人臉識別、計算機視覺與機器學習領域“企業研究院式”的技術、人才和知識服務,幫助企業在人工智慧時代獲得可自主迭代和自我學習的人工智慧研發和創新能力。
中科視拓目前正在招聘: 人臉識別演算法研究員,深度學習演算法工程師,GPU研發工程師, C++研發工程師,Python研發工程師,嵌入式視覺研發工程師,運營經理。有興趣可以發郵件至:[email protected],想了解更多可以訪問,www.seetatech.com
中科視拓
深度學習大講堂
點選閱讀原文開啟中科視拓官方網站
相關推薦
付彥偉:零樣本、小樣本以及開集條件下的社交媒體分析
點選上方“深度學習大講堂”可訂閱哦!編者按:隨著社交媒體及數字採集裝置的普及,網路上存在著海量的
人工智慧中小樣本問題相關的系列模型演變及學習筆記(一):元學習、小樣本學習
【說在前面】本人部落格新手一枚,象牙塔的老白,職業場的小白。以下內容僅為個人見解,歡迎批評指正,不喜勿噴![握手][握手] 【再囉嗦一下】本來只想記一下GAN的筆記,沒想到發現了一個大宇宙,很多個人並不擅長,主要是整理歸納! 一、Meta Learning 元學習綜述 Meta Learning,又稱為 l
統計分析之引數檢驗與非引數檢驗、匹配樣本與獨立樣本、2樣本與K樣本介紹----附SPSS操作指南
最近幾天博主需要做一些計算生物學分析,重新溫習了一遍統計學的知識。由於博主此次使用的是非引數檢驗,將重點介紹非引數檢驗相關內容,仍然是深入淺出的風格,先放一些概念,再總結實際使用的技巧。寫在這裡,供大家參考學習。  
併發程式設計實戰(2):原子性、可見性和競態條件與複合操作
原子性 一個不可分割的操作,比如a=0;再比如:a++; 這個操作實際是a = a + 1;是可分割的,它其實包含三個獨立的操作:讀取a的值,將值加1,然後將計算結果寫入a,這是一個“讀取-修改-寫入”的操作序列,所以他不是一個原子操作。 可見性 可見性,是指執行緒之間的可見
iOS探索:RunLoop本質、資料結構以及常駐執行緒實現
RunLoop的本質 RunLoop是通過內部維護的事件迴圈來對事件/訊息進行管理的一個物件 沒有訊息需要處理時,休眠以避免資源佔用,狀態切換是從使用者態通過系統呼叫切換到核心態 有訊息處理時,立刻被喚醒,狀態切換是從核心態通過系統呼叫切換到使用者態 這裡有一個問題,我們應用程式中
【開源】微信小程式、小遊戲以及 Web 通用 Canvas 渲染引擎
Cax 小程式、小遊戲以及 Web 通用 Canvas 渲染引擎 特性 Learn Once, Write Anywhere(小程式、小遊戲、PC Web、Mobile Web) 支援小程式、小遊戲以及 Web 瀏覽器渲染 小程式、小遊戲和 Web 擁有相同簡潔輕巧的 API 高效能的渲染架構 超輕量
安卓資料持久化:檔案儲存、SharedPreferences儲存以及資料庫儲存
1,檔案儲存 手機自帶的記憶體,只能供當前應用程式訪問,其他應用程式訪問不了,程式解除安裝這些資料也會隨著消失 原理: 基本是先獲取一個檔案的輸出流,然後把資訊write進去,最後關閉流 a,通過上下文類context的openFileOutput()方法獲得一個FileOutputStream輸出流 b
Redis深入之道:原理解析、場景使用以及視訊解讀
Redis是一個開源的使用ANSI C語言編寫、支援網路、可基於記憶體亦可持久化的日誌型、Key-Value資料庫,並提供多種語言的API。同時redis也是一個key-value儲存系統。Redis,更 是一個高效能的key-value資料庫。最主要的是Redis還支援
Linux 筆記:核心思想、常用命令以及指令碼語法
總結於 《鳥哥的 Linux 私房菜 - 基礎學習篇》 ,圖片也來自於此。 核心思想 目錄樹結構(directory tree) Linux 系統是基於目錄樹結構的,這是它的核心思想。目錄,即資料夾。Linux 系統相當於一個資料夾,Linux 系統的所有資料要麼對應一個資料夾,要麼就是一個檔案。比如,你新
sklearn之Cross-validation、GridSearchCV,以及訓練集(train)、測試集(test)、驗證集(validate)的辨析
1.訓練集(train)、測試集(test)、驗證集(validate) 對於初學者而言,訓練集、測試集、驗證集這三個詞可能會讓你很迷糊,特別是後兩者。這裡我儘量用簡單的話說一下我自己的理解,希望可以講明白: 對於機器學習模型訓練而言,
數字影象處理筆記——Snakes演算法、活動輪廓以及水平集(Snakes, active contours, and level sets)
Snakes演算法 上一講我們講的影象分割演算法主要是基於畫素的,這一講主要是基於曲線的。我們希望能得到一個能夠包圍住影象輪廓的平滑的曲線,snakes演算法就是一個很有用的演算法。首先我們將曲線的座標x、y同一用引數s表示,s範圍從0-1代表從起點繞曲線一週再回到原點 我們假定初始化
關於Android中Service的手動、自動以及其在特殊條件下的重啟
上一篇部落格有說到Service之間的守護問題。 接著這個Sevice的守護,我們可以做一些事。例如重啟。看到重啟你是不是就會想到Service自身來重啟呢?很遺憾,Service不能在kill(o
Oracle 獲取表的主鍵、外鍵以及唯一約束條件
pre columns etl pan nbsp name col 擁有 bsp Oracle 獲取表的主鍵、外鍵以及唯一約束條件 Select a.Owner 主鍵擁有者, a.table_name 主鍵表, b.Column_Name 主鍵列
[Golang] 從零開始寫Socket Server(3): 對長、短連接的處理策略(模擬心跳)
microsoft ted 每次 range 點擊 關閉 ade 而在 href 通過前兩章,我們成功是寫出了一套湊合能用的Server和Client,並在二者之間實現了通過協議交流。這麽一來,一個簡易的socket通訊框架已經初具雛形了,那麽我們接下來做的
數學-線性代數導論-#11 基於矩陣A生成的空間:列空間、行空間、零空間、左零空間
strong pos div 直接 jpg 不能 多次 常見 變化 線性代數導論-#11 基於矩陣A生成的空間:列空間、行空間、零空間、左零空間 本節課介紹和進一步總結了如何求出基於一個m*n矩陣A生成的四種常見空間的維數和基: 列空間C(A),dim C(A) =
4星|《財經》2018年第15期:電動飛機、無人小飛機、AI無人機
屬於 這也 缺失 生態系統 轉發 更改 討論 生物 分時 《財經》2018年第15期 總第532期 旬刊 本期主題是AI。有多篇國內AI行業的比較深入的調查報告,比較有意思的有:電動飛機、無人小飛機、AI無人機、歐盟通用數據保護條例、Amazon Echo雲端保存了聽
小程式: 新建專案、基礎配置
1. 新建專案 微信開發者工具 -- + 新建專案 2. 在app.json中進行應用程式配置 注意: json檔案類似於文字文件txt,不能在裡面寫註釋
新手入門:零基礎理解大型分散式架構的演進歷史、技術原理、最佳實踐
本文引用了阿豪的微信公眾號文章分享,感謝原作者的分享。 1、前言 隨著社會的發展、網際網路技術的進步,以前的大型機服務端架構很顯然由於高成本、難維護等原因漸漸地變得不再那麼主流了,替代它的就是當下最火的網際網路分散式架構。 從若干年前大行其道的傳統大型機到如今的分散式架構,技術發展已經經歷了好幾個階段,
語音合成論文和英偉達撞車,韓國小哥緊急放出全部草稿程式碼和樣本 | 資源帖...
曉查 發自 凹非寺量子位 報道 | 公眾號 QbitAI 由於和英偉達研究撞車,韓國一位研究語音合成的作者已經哭暈了。 10月31日,英偉達在arXiv網站上傳了一篇論文——WaveFlow:一個用於音訊合成基於流的生成網路。 英偉達論文地址:https://arxi
MT4上看盤的一些基本知識:大周期均線、小周期均線、什麽是金叉、什麽是死叉
什麽 周期 什麽是 png com 圖表 inf average src 一、大周期均線是什麽鬼? Moving Average:技術指標均線 在MT4上加載一個大周期均線:點擊插入》技術指標》趨勢指標》Moving Average,打開後如下圖: 點擊確