1. 程式人生 > >cvpr 2018 image caption generation論文導讀(含workshop)

cvpr 2018 image caption generation論文導讀(含workshop)

這是之前的一篇部落格,關於影象描述(image caption)的一些看法,現在看來,當時的看法有正確的,也有很多地方有點淺薄,僅供交流,下面是2018cvpr關於這個方向的論文,看看大牛們都是怎麼搞這個方向的。

當時說的第一點,評價現在的確有人用深度開始做了,用基於學習的方法做,不再製定規則。
第二點就有點淺薄了,問題還是有很多,比如多樣性,比如各種角度的attention,比如開創一些新方向(增加風格—這種一般都和資料庫有關)。對演算法要求還是比較高的,這種玩法,目前個人經驗還是不足,只能不斷學習這些人。
第三個的話,視訊的caption也是不斷有人做的,本人沒做過,暫時不發表意見。還有中文的,日文的caption。除了改變後面的語言,圖片角度也有修改的,比如不做自然影象,做遙感影象,甚至醫學影象(本人沒見過,但覺得可以)

搜尋連結(基本的知識搜尋能力我覺得還是必要學習的,拒絕伸手黨。)

Image Caption Generation with Hierarchical Contextual Visual Spatial Attention

這個是workshop研討的一篇論文,雖然沒有中正刊,但是工作量的確是有的。
主要是提出一種基於上下文的注意力機制的網路。使用了雙向的網格LSTM,用特徵圖作為輸入,然後可以學習複雜的空間模式。論文中說這是第一次將網格LSTM用到caption的任務中。另外一個是使用了基於region的caption任務的模型,進行遷移學習(我個人理解,這裡其實就是相當於使用了額外資料庫的資訊作為真是的標註)。最後關於caption的產生,作者提出了一個雙層的雙向LSTM。解釋是:第一層是用來建模場景的上下文。第二層利用基於網格lstm的注意力機制來產生句子。文中說,相比於soft attention,這裡提出的注意力機制考慮了圖片region之間的上下文。最後當然是,實驗證明我們方法最好。
看一下流程圖
這裡寫圖片描述


這裡的圖很草率,感覺是趕cvpr出來的東西。基於region的意思就是圖裡的小框框。網格的LSTM是別人的一個工作。因為有region資訊,所以attention更好是有可能的。

GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints

這是來自廈門大學MAC課題組的一篇論文(18年有四篇cvpr,一篇pami)。
目前大部分的影象描述模型都是集中在一張影象上,也就是一次給一張影象做字幕生成。忽略了相似影象之間的差異,導致最後差異性不夠高,準確率也會下降。目前考慮這種差異性都是瞄準生成句子的部分,但是忽略了在訓練的時候的視覺結構的關係(這句不是特別明白,個人理解應該就是相似影象之間的差異)。本文就提出了一種基於group的caption框架,同時建模影象群之間的相關性和多樣性來生成一個最有的聯合caption。首先,提出了一個VP-樹來建模每張圖當中的語義結構關係。然後,在VP-樹的基礎上,來探究圖片的相關性和多樣性。最後,利用這種相關性最後約束最後知道影象描述的生成。論文采用end-to-end的方式聯合優化VP-樹的解析器,結構相關性和多樣性約束,還有最終的描述生成模型。為了定量評價,作者基於MSCOCO,提出了兩個group的資料集.最後當然是,實驗證明我們方法最好。
流程圖:
這裡寫圖片描述


利用這種樹的結構是一種很厲害的想法,類似一種手動的多樣性attention。

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

這個一看名字就知道做了什麼,兩個方向的attention,兩個任務。簡單來說,就是基於目標檢測(faster r-cnn)確定相對應得影象特徵(這是自下而上),然後利用普遍的attention(自上而下)來確定不同區域的權重。我覺得可能真是因為這種簡單有效,所以提供了兩個不同的任務的實驗結果,分別的是影象描述和視覺問答。最後當然是,實驗證明我們方法最好。
流程圖:
這裡寫圖片描述

Learning to Evaluate Image Captioning

這篇是做評價指標的。這其實一直是影象描述方向一個受人詬病的問題,因為這是一個比較主觀的任務,如何評價生成句子的好壞,一直是一個問題,這篇文章開始就說,之前的評價指標和人類的不吻合,SPICE能夠和人類的吻合,但是句法結構又可能出問題。為了解決這個問題,作者提出訓練一個網路來進行判斷句子的好壞。其實就說做了一個分類任務,準確打分的話,是迴歸任務。就是讓一個分類器來判別資料庫當中的句子和機器生成句子的好快,並提出了一種資料增強的方法(還沒細看)。最後當然是,實驗證明我們方法最好。
流程圖:這裡寫圖片描述

SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text

這個是上海科技大學何旭明老師組的工作,18年英國是兩篇CVPR。這篇工作就是說之前的caption有做語言風格的,也有做提高精度的。這裡提出一個網路,分離了語義和風格。想法很有意思,關鍵是怎麼做。論文當中的大框架沒啥,就是兩組gru單元,一個用來捕捉語義,一個用來捕捉風格。第一個語義,利用了很多自然語言處理裡面的工具,提名詞,動詞以及各種操作,然後風格這一個GRU是基於一本小說訓練的,當然也是有一波預處理,這種預處理,我覺得這篇文章相對講的還是比較詳細的,程式碼說是會公佈,暫時還沒有。總之也是和提出資料庫有一部分的關係。另一個點就是說的無監督,不需要影象和文字配對,因為他這裡分開了,也就不存在配對的問題了,但是思路還是很厲害的。
流程圖:
這裡寫圖片描述

Convolutional Image Captioning

影象描述是一個重要的任務,可以用於虛擬助手,編輯工具,影象檢索和殘疾人輔助。RNN的引入,尤其是LSTM,使得這方面發展很快。儘管減輕了梯度消失的問題,儘管長時依賴性的特徵,LSTM本身很複雜,在時間維度的依賴性太強。為了解決這個問題,在機器翻譯和條件影象生成領域,利用卷積網路可以緩解上述問題。這個文章就是基於此,提出一種卷積的影象描述框架。最後當然是,實驗證明我們方法最好。除此之外,作者還給出了一定的解釋。
流程圖:

這裡寫圖片描述

這個工作我覺得是除了評價之外很有意思的一個工作。借鑑了RNN的整體結構,但是卻用CNN來實現。算是在方法上改進比較大的caption方法。

Regularizing RNNs for Caption Generation by Reconstructing The Past with The Present

近年來,基於encoder-decoder框架的caption方法,火的一批。在很多領域都有用,比如圖片和程式碼的caption等。本文提出了一種新的框架,ARNet,耦合了傳統的編碼解碼器,end-to-end的進行訓練。重點就是當前隱層和之前的隱層之間進行重構,是一個和輸入相關的變換方式。可以更好的保持之前的資訊,幫助正則化RNN(這裡沒有特別懂)。最後當然是,實驗證明我們方法最好。
最後貼出我FORK的程式碼連結

流程圖:
這裡寫圖片描述

正則化的RNN。有沒有很厲害,解釋起來的確很厲害,但是方法很簡單,就是在RNN的每一次重構當前隱層和上一個隱層。

Discriminability objective for training descriptive captions

影象caption中現在存在一個問題:給出描述影象的一個句子,能夠區分出兩張相似的圖。這裡的方法是加入了一個判別性的損失。這個損失並不是作者首次提出,而是在圖文檢索裡面的一個損失,利用這個損失,融入增強學習的方式來優化整個網路。最後當然是,實驗證明我們方法最好。

這個沒有流程圖,主要就是解釋了一下任務,文中是長篇的文字。。。。
這裡寫圖片描述
這個是做判別性的,相似的圖,如何生成準確,能捕捉差異的句子。