付彥偉：零樣本、小樣本以及開集條件下的社交媒體分析

阿新 • • 發佈：2019-01-14

點選上方“深度學習大講堂”可訂閱哦！

編者按：隨著社交媒體及數字採集裝置的普及，網路上存在著海量的視訊及影象資料，如果能夠充分利用這些資料，將促進相關計算機視覺任務的發展。然而這些資料卻面臨著資料樣本分佈不均衡、以及樣本無監督等問題，因此如何在樣本量不足甚至零樣本、以及樣本無標註的情況下，充分利用社交媒體中的資料，成為了計算機視覺領域的開放式問題。本文中，來自復旦大學大資料學院的付彥偉副研究員將就這一問題進行討論。大講堂特別在文末提供文章以及程式碼的下載連結。

首先介紹一下我本人，我博士就讀於倫敦瑪麗女王大學，導師是向濤教授和龔少剛(Shaogang Gong)教授。之後在匹茲堡CMU的Disney Research做博士後。

我今天介紹的內容可以概括為四個單詞：Overview，Definition，Embedding，More.

Overview

對社交媒體中的大資料進行分析，其資料來源分為兩個部分，一是YouTube，Flicker和Instagram上的影象視訊資料，二是Facebook，Wechat，Google+上的使用者關係資料。這二者都屬於社交媒體分析中的大資料，是我研究的主要topic。

首先來說對影象、視訊資料的分析，眾所周知，這種資料量非常龐大，可以用來做零樣本、小樣本以及開集條件下的影象分類，動作識別，活動識別，以及感情識別。基於以上四個問題，我主要介紹下面幾個工作：

對於關係型資料，我們從統計裡的ranking和概率圖模型的角度來分析更多型別的問題，比如crowdsourcing ranking on Internet和social network。對於這類問題，也是要分析one-shot、zero-shot等條件下的識別，我們也做了一些工作：

Definition

首先說一下對one-shot，zero-shot，open-set recognition的定義。對於識別任務而言，人類通過視覺系統和聽覺系統獲取影象資訊和聲音資訊，再經人腦處理得到識別結果。這就啟發我們去做監督識別。

深度學習將傳統方法從訓練資料、低層次特徵提取、特徵編碼和池化再到大規模語義建模的過程變為端到端的學習過程。但是大千世界芸芸眾生，能收集到的樣本只是一小部分，尤其人類可以動態構造一些新類別，因此需要收集一些新資料來訓練模型。

One-shot learning 是基於監督學習的，在某個空間（如視覺空間），根據語義標籤訓練相應的分類器，因為training inference較少，所以稱之為one-shot。但是one-shot learning不能識別從未見過的物體類別，這就啟發了最近的zero-shot learning。

Zero-shot learning是為了識別未知類別的樣本，其思想是遷移一些已知的輔助類別語義知識。如圖黑色字型標籤就是輔助類別，我們可以根據已知的輔助類別樣本來學習從視覺空間到語義標籤的對映，所有測試樣本都會被投影到該語義空間，然後被賦予相應的標籤資訊，這裡的關鍵是如何選取語義標籤。

如圖所示，一般的語義標籤大體上可以分為兩類，一類是Semantic Attributes（語義屬性），它具有很好的解釋性但需要大量的人工標註，而另一類是Semantic Word Vectors（語義向量），可以從大量文字中訓練出來，並不需要人工標註，並有大量的free vocabulary。

Attribute learning識別的未知類別數量一般並不大，可以把這類思想推廣到open-set recognition，open-set recognition就是從大量圖片詞彙類別中識別影象視訊的語義標籤。

以識別問題為例，總結一下零樣本、小樣本以及開集條件下的任務。也可以擴充套件到其他類似問題。

有監督學習：能夠取得較好的表現效果，但需大量人工標註；

小樣本學習（one-shot, N-shot, Few-shot）：每類只需很少樣本，但也需大量人工標註；

零樣本需學習：不需要樣本標籤，但是目標類別數受限；

Open-set Learning：不需要樣本標註，有大量的樣本庫。

另一方面我們可以利用free-vovabulary詞彙來幫助整個學習過程，比如影象被對映到語義空間，在這個空間中，只知道unicycle或tricycle，在零樣本學習情況下，我們更傾向於把它歸為unicycle，因為它靠近unicycle的語義原型。

而空間裡面如果含有其他的free vocabulary，比如segway，recumbent bicycle，測試樣本如果和它們靠的更近，那麼可能就不能把這個樣本認為是unicycle，也就是說通過這個free-vocabulary，可以更新這個從特徵空間到語義空間的matrix。

Embedding

下面說一下其他的工作embedding，再從實際來看，人類攝入很多文章和照片，對於文章和圖片都可以訓練很好的深度學習模型，那麼人腦會不會形成統一的embedding space呢？假設這個觀點是成立的，那麼研究出發點就是如何做mutli-view/multi-modal embedding。

我們第一個工作是Learning multi-modal latent attributes。

回顧一下屬性學習，從淺層特徵到屬性，再到類別，這裡的關鍵是屬性，但是屬性一般較依賴於人工的標註，對屬性的定義常常有很多挑戰，比如不完整、稀疏或者比較模糊，這就依賴從資料中挖掘屬性。

這裡給出一些例子，這是我們的資料集，模型可以從這些類別中挖掘對應的latent attribute。

基本的模型結構如圖所示，通過multi-modal latent attribute topic model來建模視訊、音訊等模態資料之間的關係，這裡的屬性可以是使用者自定義的，也可以是潛在的屬性，我們可以在attribute claim 中加以限定，通過topic挖掘對應的資訊。

我們在USAA資料集和AwA資料集上進行了實驗，結果如上表所示，把屬性當作video attention的話，可以做多工學習。

對於不同的使用者自定義屬性，結果也非常好。

在這個框架下，還可以做one-shot learning。

還可以視覺化哪些淺層特徵對應哪些屬性，是用於自定義的還是自身潛在的屬性。

第二個工作是multi-view embedding。

再回顧一下這個框架，從淺層特徵到屬性、類別。

在零樣本學習中，有兩個問題。第一個是projection domain shift問題，比如，斑馬和豬，斑馬是輔助訓練資料，而豬是目標資料，它們都有hasTail這個屬性，但是它們的視覺屬性是非常不一樣的，把從輔助資料中學習到的淺層特徵直接對映到未知資料上，一定會出現domain shift的問題，而這個domain shift其實是一個多維問題，我們稱之為projection domain shift問題。

第二個問題是prototype sparsity問題，也就是每一個新類其實只有一個attribute prototype，那麼就需要考慮是否能利用資料本身的資訊，比如manifold information，第三個是embedding multiple representations，我們現在已有semantic attribute，semantic word vector，考慮把它們嵌到一起。

基於這三個問題，我們提出了一個演算法框架。假設在目標資料上可以得到不同的子空間，每一個空間代表每一個view，利用一個multi-view CCA把資料投影到CCA space，在這個空間裡面構造一個graph或者hyper graph，然後進行ranking，這樣就可以做one-shot learning，zero-shot learning，甚至open set learning。

在三個標準測試集上的結果顯示效果非常好，尤其是AwA，這是2014年的結果，AwA的結果已經能達到80.5。

通過視覺化可以得知，在原始空間中，可能有些測試類別是無法分開的，但是在embedding space中這些類別是可以區分得非常好。

下面來介紹一下Pairwise Graph Embedding。

關係型別的資料標註，可以統稱為Subjective visual properties。比如比較兩幅影象哪一個更漂亮，哪一個更有意思，哪一個笑得更多一些，這是更好的語義表示，它的歧義性更小，更有利於遷移學習。我們定義subjective visual properties，類似的問題包括image/video interestingness & aesthetics，以及image memorability & image/video quality等。