cvpr 2018 image caption generation論文導讀(含workshop)

阿新 • • 發佈：2019-02-08

這是之前的一篇部落格，關於影象描述(image caption)的一些看法，現在看來，當時的看法有正確的，也有很多地方有點淺薄，僅供交流，下面是2018cvpr關於這個方向的論文，看看大牛們都是怎麼搞這個方向的。

當時說的第一點，評價現在的確有人用深度開始做了，用基於學習的方法做，不再製定規則。
第二點就有點淺薄了，問題還是有很多，比如多樣性，比如各種角度的attention,比如開創一些新方向（增加風格—這種一般都和資料庫有關）。對演算法要求還是比較高的，這種玩法，目前個人經驗還是不足，只能不斷學習這些人。
第三個的話，視訊的caption也是不斷有人做的，本人沒做過，暫時不發表意見。還有中文的，日文的caption。除了改變後面的語言，圖片角度也有修改的，比如不做自然影象，做遙感影象，甚至醫學影象（本人沒見過，但覺得可以）

搜尋連結(基本的知識搜尋能力我覺得還是必要學習的，拒絕伸手黨。)

Image Caption Generation with Hierarchical Contextual Visual Spatial Attention

這個是workshop研討的一篇論文，雖然沒有中正刊，但是工作量的確是有的。
主要是提出一種基於上下文的注意力機制的網路。使用了雙向的網格LSTM,用特徵圖作為輸入，然後可以學習複雜的空間模式。論文中說這是第一次將網格LSTM用到caption的任務中。另外一個是使用了基於region的caption任務的模型，進行遷移學習（我個人理解，這裡其實就是相當於使用了額外資料庫的資訊作為真是的標註）。最後關於caption的產生，作者提出了一個雙層的雙向LSTM。解釋是：第一層是用來建模場景的上下文。第二層利用基於網格lstm的注意力機制來產生句子。文中說，相比於soft attention,這裡提出的注意力機制考慮了圖片region之間的上下文。最後當然是，實驗證明我們方法最好。
看一下流程圖
這裡寫圖片描述

這裡的圖很草率，感覺是趕cvpr出來的東西。基於region的意思就是圖裡的小框框。網格的LSTM是別人的一個工作。因為有region資訊，所以attention更好是有可能的。

GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints

這是來自廈門大學MAC課題組的一篇論文（18年有四篇cvpr，一篇pami）。
目前大部分的影象描述模型都是集中在一張影象上，也就是一次給一張影象做字幕生成。忽略了相似影象之間的差異，導致最後差異性不夠高，準確率也會下降。目前考慮這種差異性都是瞄準生成句子的部分，但是忽略了在訓練的時候的視覺結構的關係（這句不是特別明白，個人理解應該就是相似影象之間的差異）。本文就提出了一種基於group的caption框架，同時建模影象群之間的相關性和多樣性來生成一個最有的聯合caption。首先，提出了一個VP-樹來建模每張圖當中的語義結構關係。然後，在VP-樹的基礎上，來探究圖片的相關性和多樣性。最後，利用這種相關性最後約束最後知道影象描述的生成。論文采用end-to-end的方式聯合優化VP-樹的解析器，結構相關性和多樣性約束，還有最終的描述生成模型。為了定量評價，作者基於MSCOCO,提出了兩個group的資料集.最後當然是，實驗證明我們方法最好。
流程圖：
這裡寫圖片描述

利用這種樹的結構是一種很厲害的想法，類似一種手動的多樣性attention。

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

這個一看名字就知道做了什麼，兩個方向的attention,兩個任務。簡單來說，就是基於目標檢測（faster r-cnn）確定相對應得影象特徵（這是自下而上），然後利用普遍的attention（自上而下）來確定不同區域的權重。我覺得可能真是因為這種簡單有效，所以提供了兩個不同的任務的實驗結果，分別的是影象描述和視覺問答。最後當然是，實驗證明我們方法最好。
流程圖：
這裡寫圖片描述

Learning to Evaluate Image Captioning

這篇是做評價指標的。這其實一直是影象描述方向一個受人詬病的問題，因為這是一個比較主觀的任務，如何評價生成句子的好壞，一直是一個問題，這篇文章開始就說，之前的評價指標和人類的不吻合，SPICE能夠和人類的吻合，但是句法結構又可能出問題。為了解決這個問題，作者提出訓練一個網路來進行判斷句子的好壞。其實就說做了一個分類任務，準確打分的話，是迴歸任務。就是讓一個分類器來判別資料庫當中的句子和機器生成句子的好快，並提出了一種資料增強的方法（還沒細看）。最後當然是，實驗證明我們方法最好。
流程圖：這裡寫圖片描述

SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text

這個是上海科技大學何旭明老師組的工作，18年英國是兩篇CVPR。這篇工作就是說之前的caption有做語言風格的，也有做提高精度的。這裡提出一個網路，分離了語義和風格。想法很有意思，關鍵是怎麼做。論文當中的大框架沒啥，就是兩組gru單元，一個用來捕捉語義，一個用來捕捉風格。第一個語義，利用了很多自然語言處理裡面的工具，提名詞，動詞以及各種操作，然後風格這一個GRU是基於一本小說訓練的，當然也是有一波預處理，這種預處理，我覺得這篇文章相對講的還是比較詳細的，程式碼說是會公佈，暫時還沒有。總之也是和提出資料庫有一部分的關係。另一個點就是說的無監督，不需要影象和文字配對，因為他這裡分開了，也就不存在配對的問題了，但是思路還是很厲害的。
流程圖：
這裡寫圖片描述

Convolutional Image Captioning

影象描述是一個重要的任務，可以用於虛擬助手，編輯工具，影象檢索和殘疾人輔助。RNN的引入，尤其是LSTM，使得這方面發展很快。儘管減輕了梯度消失的問題，儘管長時依賴性的特徵，LSTM本身很複雜，在時間維度的依賴性太強。為了解決這個問題，在機器翻譯和條件影象生成領域，利用卷積網路可以緩解上述問題。這個文章就是基於此，提出一種卷積的影象描述框架。最後當然是，實驗證明我們方法最好。除此之外，作者還給出了一定的解釋。
流程圖：

這裡寫圖片描述

這個工作我覺得是除了評價之外很有意思的一個工作。借鑑了RNN的整體結構，但是卻用CNN來實現。算是在方法上改進比較大的caption方法。

Regularizing RNNs for Caption Generation by Reconstructing The Past with The Present

近年來，基於encoder-decoder框架的caption方法，火的一批。在很多領域都有用，比如圖片和程式碼的caption等。本文提出了一種新的框架，ARNet，耦合了傳統的編碼解碼器，end-to-end的進行訓練。重點就是當前隱層和之前的隱層之間進行重構，是一個和輸入相關的變換方式。可以更好的保持之前的資訊，幫助正則化RNN（這裡沒有特別懂）。最後當然是，實驗證明我們方法最好。
最後貼出我FORK的程式碼連結

流程圖：
這裡寫圖片描述

正則化的RNN。有沒有很厲害，解釋起來的確很厲害，但是方法很簡單，就是在RNN的每一次重構當前隱層和上一個隱層。

Discriminability objective for training descriptive captions

影象caption中現在存在一個問題：給出描述影象的一個句子，能夠區分出兩張相似的圖。這裡的方法是加入了一個判別性的損失。這個損失並不是作者首次提出，而是在圖文檢索裡面的一個損失，利用這個損失，融入增強學習的方式來優化整個網路。最後當然是，實驗證明我們方法最好。

這個沒有流程圖，主要就是解釋了一下任務，文中是長篇的文字。。。。
這裡寫圖片描述
這個是做判別性的，相似的圖，如何生成準確，能捕捉差異的句子。

cvpr 2018 image caption generation論文導讀(含workshop)

cvpr 2018 image caption generation論文導讀(含workshop)

eccv 2018 image caption generation論文導讀

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention 閱讀筆記

CVPR 2018遷移學習相關論文

Introduction to Image Caption Generation using the Avenger’s Infinity War Characters

CVPR 2018 目標跟蹤相關論文

CVPR 2018 paper list（論文列表）

【翻譯論文】Learning to Estimate 3D Human Pose and Shape from a Single Color Image （CVPR 2018）

CVPR 2018 | 騰訊AI Lab入選21篇論文詳解

Paper Reading - Convolutional Image Captioning ( CVPR 2018 )

Image Caption（一）論文及理解

Image Caption論文合輯2

CVPR 2018值得一看的25篇論文，都在這裡了 | 原始碼 & 解讀

CVPR 2018 | 騰訊AI Lab關注的三大方向與55篇論文

CVPR 2018 MCCT:《Multi-Cue Correlation Filters for Roubust Visual Tracking》論文筆記

CVPR 2018 論文解讀（部分）

論文筆記：Image Caption(Show, attend and tell)

論文筆記：Image Caption(Show and Tell)

[深度學習論文筆記][Image Classification] 影象分類部分論文導讀

用於部分遷移學習的加權對抗網路 | CVPR 2018論文解讀

cvpr 2018 image caption generation論文導讀(含workshop)

相關推薦