1. 程式人生 > 實用技巧 >ICCV2019——Learning Semantic-Specific Graph Representation for Multi-Label Image Recognition

ICCV2019——Learning Semantic-Specific Graph Representation for Multi-Label Image Recognition

文章目錄

ICCV2019——Learning Semantic-Specific Graph Representation for Multi-Label Image Recognition(影象識別,圖神經網路)

在這裡插入圖片描述


論文地址:https://arxiv.org/pdf/1908.07325.pdf
原始碼地址:https://github.com/Mu-xsan/SSGRL

1. 背景介紹

​ 影象的多標籤識別是一項具有挑戰性的任務。面對影象的多標籤識別任務,我們需要解決兩個主要的問題:

  1. 如何精確挖掘語義物件區域
  2. 如何對語義物件區域之間的關聯和互動進行建模

​ 當前對於挖掘語義物件的方法通常採用目標定位技術或藉助視覺注意網路來定位語義物件區域。然而目標定位技術必須搜尋大量與類別無關的冗餘建議,並且很難整合到深度神經網路中進行端到端的訓練,而視覺注意網路由於缺乏監督或指導,只能粗略定位目標區域。

​ 對於語義物件區域之間的關聯和互動進行建模,現在常用的是引入RNN,LSTM等方法來建模語義區域之間的上下文相關性,並捕獲標籤相關性。但是這些方法中每個區域或標籤對之間仍存在直接關聯,且無法明確地對統計標籤共現進行建模。

​ 下圖展示了常用的多標籤識別框架SRN:
在這裡插入圖片描述
在這裡插入圖片描述
​ 由上圖,SRN捕捉語義區域的方法藉助了視覺注意網路,雖然在精度上高於目標定位技術,但由於缺乏監督,僅能粗略定位。而捕捉上下文關係中,在conv4,SRN將每四個通道合成一個捕捉上下文資訊的特徵通道,雖然捕捉了上下文資訊,但很明顯捕捉的資訊很有限,無法充分發揮捕捉周圍資訊。

​ 面對SRN的問題,論文引入了兩個模組:

  1. 語義解耦模組,該模組結合了類別語義來指導學習語義特定的表示。
  2. 語義互動模組,該模組將這些表示與基於統計標籤共現的圖形相關聯,並通過圖形傳播機制探索它們的互動。

2. 總體路線

在這裡插入圖片描述

2.1 語義解耦模組

​ 該模組通過語義引導注意機制來實現。

​ 輸入640 x 640 x 3的圖片,通過ResNet-101提取出特徵向量fI,論文將ResNet-101最後一層的全域性平均池化層改成了2 x 2,步長為2的平均池化層,該操作為了更好的與語義向量進行結合。

​ 輸入類別詞,通過Glove模型訓練出語義向量xc(這裡使用Glove模型是因為該模型同時考慮到了區域性和整體的資訊),Glove模型的目的:進行詞的向量化表示,使得向量之間儘可能多的蘊含語義和語法資訊。論文中將語義向量xc設定為300。
在這裡插入圖片描述
我選擇了部分的類別詞,通過Glove模型訓練出對應的維度為300的詞向量,將其降維視覺化。可以從圖中看到表示數字的詞語幾乎重疊在一起了,可見通過Glove模型進行詞的向量化,的確使向量蘊含了更多的語法資訊。

​ 得到特徵向量fI和語義向量xc後,通過低秩雙線性池化的哈達瑪積公式將兩個模態獨自和有關聯的資訊進行融合,對映到一個低維空間中。公式如下:
在這裡插入圖片描述
​ 該公式體現了每個位置的重要性。論文在ResNet-101上進行改進就是為了將最後輸出的1 x 1 x 2048的特徵向量變成3 x 3 x2048的特徵向量,更好的體現每個位置(w,h)的重要性,使特徵向量和語義向量更好的進行融合。
在這裡插入圖片描述
在得到每個位置的特徵向量後,利用一個1024到1的全連線層fa(),得到單一系數,為了更好的比較每個位置的係數,通過softmax函式將其歸一化,得到最終的注意力係數。最後通過注意力係數和特徵向量的加權平均得到帶有語義類別的特徵向量。

2.2 語義互動模組

2.2.1 模組介紹

​ 一旦獲得了對應於所有類別的特徵向量,我們就將這些向量以基於統計標籤共生關係構建的圖的形式進行關聯,並引入圖神經網路來通過圖傳播訊息以探索它們的相互作用。

​ 其實這個模組引用了ICLR2016提出的GGNN(門控圖神經網路)框架,這個框架是在傳統GNN上進行改進的。本篇論文的創新在於將GGNN中的聚合特徵的框架進行了一定的修改,但是其他傳播方式不變。下面將會詳細講解這個模組。

​ 首先得理解圖的結構,圖是由結點和邊組成的,在SSGRL框架中,結點表示類別,邊表示兩個類別之間共現的概率。如下圖。
在這裡插入圖片描述
​ 這裡的圖模型重點在於邊,因為不同的圖中邊的型別是不一樣的,邊也分出度和入度(如圖,bicycle---->person和bicycle<----person是不一樣的)。論文在這裡將圖結構寫作{V,A},V表示不同的類別詞{v0,v1,v2…,v(c-1)},A表示在c類別存在的條件下,c’類別存在的概率,A表示為{a00,a01,a02…,a0(c-1),…a(c-1)(c-1)}。

2.2.2 資訊傳播

​ 在瞭解該框架中圖的結點和邊代表的含義後,利用圖傳播機制進行結點間資訊的傳播與聚合。

​ 在門控圖神經網路中引入了一個隱藏狀態的概念。將某個結點的周圍資訊融合成一個向量表示,我們把這個向量定義為隱藏狀態。論文中將通過語義解耦得到的特徵向量做為t=0時刻的隱藏向量。
在這裡插入圖片描述
​ 整篇論文最重要的點應該在於這個聚集特徵向量,也是與之前GGNN不同的地方。特徵聚合向量是由兩個與共現概率進行加權求和的特徵向量拼接而成的。(注意這裡的a(cc’)和a(c’c)不一定相同,舉例:c為人,c‘為車。訓練集中存在人的照片有1000張,這1000張圖中人車共同出現的圖片有800張,因此a(cc’)=0.8;而存在車的照片有1200張,人車共現的圖片為800張,因此a(c’c)=0.75)
在這裡插入圖片描述
在這裡插入圖片描述
​ 上圖公式表示GGNN的特徵聚合公式,是利用鄰接矩陣來突出邊的型別與傳播方向。相比GGNN的特徵聚合,論文引入了共現概率a(cc’),個人認為目的在於使圖的邊型別更加豐富化,以及豐富了語義資訊,引入了共現機制。

​ 在獲得聚集特徵向量後,就是利用類似於GRU(門控迴圈網路)的演算法去進行隱藏狀態的更新。公式如下
在這裡插入圖片描述
​ 門控迴圈單元的內部情況如下::
在這裡插入圖片描述
​ 這裡以上個迭代的隱藏狀態和這個迭代的特徵聚合向量為輸入。

​ 通過sigmoid函式可以獲得r和z兩個門(向量),各元素集中在[0,1]範圍內。

​ 重置門的作用是控制上一個迭代的隱藏狀態流入當前迭代的隱藏狀態的資訊。例如,r接近於1,上一迭代的隱藏狀態流入當前狀態的資訊多,說明上一迭代的隱藏狀態包含的有用資訊多;r接近於0,上一迭代的隱藏狀態流入當前狀態的資訊少,說明上一迭代隱藏資訊冗餘的資訊多,通過重置門將其捨去。

​ 更新門的作用同時進行選擇資訊和遺忘資訊。例如,z接近於1,則產生的新資訊大部分流入下一迭代狀態,且遺忘了小部分上一迭代隱藏狀態的資訊。反之。

​ 這部分更新機制和傳統的GRU及其相似,可以去搜索相關資料進行理解。
在這裡插入圖片描述
​ 在理解更新機制後,有助於更好理解門控圖神經網路的傳播形式。如上圖,有四個類別,擬定迭代次數為3(T=3),t=1時,隱藏向量為初始的特徵向量;t=2時,隱藏向量聚合了來自周圍結點的資訊,以類別4為例,收集了來自t=1時刻類別2和類別3的隱藏狀態的資訊;t=3時,以類別4為例,收集了t=2時刻類別2和類別3的資訊,但同時,類別2分別收集了t=1時刻來自類別1,類別3,類別4的資訊,類別3收集了t=1時刻來自類別2和類別4的資訊。因此t=3時,類別4收集了來自類別1,類別2,類別3的資訊,即收集結點周圍相關性高的資訊。

​ 論文中的迭代次數T設定為3,結合上圖,可以直觀看出結點在經過三次的迭代後只結合了部分的結點資訊,並沒有將所有的結點資訊進行結合。其實這裡就是GGNN在傳統的GNN上的一個改進,GGNN將迭代次數固定,而GNN是迭代至收斂(不動點)才停止。GNN的迭代機制造成了大量的計算,以及經過多次的迭代後,結點變得過於光滑,即收集了大量的周圍資訊,而自身資訊造成了丟失。具體的差別可以通過研讀論文進行對比。
在這裡插入圖片描述
​ 經多次迭代後得到最終的隱藏狀態,經上圖的過程得到預測得分sc。fo是一個4096到2048的全連線層,fc是一個2048到1的全連線層。得到每個類別的預測得分後,獲得得分向量sic,再經過sigmoid函式處理獲得概率向量pic。
在這裡插入圖片描述
​ 通過損失函式進行端到端的訓練。

3. 實驗

在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述

4. 結論

4.1 本文貢獻

  1. 設計一個語義引導的注意機制來學習語義相關的特徵向量

  2. 引入了一個圖傳播網路來同時探索這些特徵向量在統計標籤共現的指導下的相互作用。

4.2 個人想法

  1. 本篇論文其實有人稱之為水文,因為並沒有提出多創新的思想,只是將之前的思想進行修改發表。但是細節的修改與思想的引用在多個數據集中達到可觀的效果,可以驗證出這篇論文是成功的。

  2. 本篇論文結合了過去提出的圖神經網路的概念,使精度有了可觀的提升。而近年來圖神經網路的思想層出不窮,基於圖神經網路的推理機制絕對是未來的發展趨勢。

  3. 圖神經網路的核心應該還是圖的結構,就是從圖的結點和邊入手,如何找到好的思想結合到邊和結點中,值得思考。