1. 程式人生 > >SceneGraph以及ImageCaption文章專案整理

SceneGraph以及ImageCaption文章專案整理

時序不限:

1.Scene Graph Generation from Objects, Phrases and Region Captions

2018ICCV Yikang Li The Chinese University of Hong Kong

https://github.com/yikang-li/MSDN

考慮的問題:1)物體檢測場景圖生成影象標題是不同語義層次的三個場景理解,用場景圖(文字)描述檢測到物件之間的視覺關係

解決:提出了一種新的神經網路模型,稱為多級場景描述網路(表示為MSDN),以端到端的方式聯合解決三個視覺任務該網路細化處理為五個部分,通過VGG16

訓練得出影象特徵1.區域RPN,2. FC層專業化,3.基於ROI構造動態圖, 4.物件精煉,5,生成場景圖

 

 

2.Scene Graph Generation by Iterative Message Passing

CVPR2017Danfei Xu1 Yuke Zhu1 Christopher B. Choy2 Li Fei-Fei1
https://github.com/danfeiX/scene-graph-TF-release

解決的問題1)影象語義理解需要搞清楚object之間的關聯,有個直接的辦法就是生成關係圖來建模relationship

。如何生成scene graph,是從影象構建,還是從影象與語句對來構建?本文采用的是完全從影象中構建。

解決:關於這裡所說的關係往往指主-謂-賓的結構,預測關係就是可以理解為給定主語和賓語時,能夠準確預測謂語。

網路構成:

1.fast-RCNN檢測得到object

2.採用CRF(條件隨機場)來建模,推斷節點和邊的關係

3.使用兩個GRU來表示所有nodeedge

3.graph的推斷迭代問題建模為RNN方式

4.利用message passing提高精度。

5.CRF利用平均場方法來解,(可以認為圖是由頂點和邊構成二分結構,利用平均場,所有對某個定點的影響是由其所連線的所有邊造成的,反過來對於邊也可解釋

 

3.Visual Relationship Detection with Language Priors
https://github.com/Prof-Lu-Cewu/Visual-Relationship-Detection

在視覺模型之外引入了語言模型,將關係對映到一個embedding space(embedding我的理解就是抽象為向量),通過學習關係先驗使得相近的關係向量距離很近,輸出可能性評分。

 

 4.Pixels to Graphs by Associative Embedding
https://github.com/princeton-vl/px2graph

引入Human Pose Estimation中的associative embedding。構造一個畫素級網路輸出object和relationship的熱點圖並匯出畫素級features,將帶有id的features匯入全連線層預測object和relationship。

 

Im2Text:使用100萬張標題照片描述影象

用於視覺識別和描述的長期迴圈卷積網路

展示並演講

顯示和說明:神經影象標題生成器

CNN和LSTM生成影象標題

展示和講述:從2015年MSCOCO影象字幕挑戰中吸取的教訓

學習影象標題生成的週期性視覺表示

  • arxiv:http://arxiv.org/abs/1411.5654

Mind's Eye:影象標題生成的週期性視覺表示

用於生成影象描述的深層視覺語義對齊

多模態迴歸神經網路的深字幕

顯示,出席和講述

顯示,參與和講述:視覺注意的神經影象標題生成(ICML 2015)

自動描述歷史照片


像孩子一樣學習:從影象句子描述學習快速小說視覺概念

明確的高階概念在視覺上對語言問題有什麼價值?

  • arxiv:http://arxiv.org/abs/1506.01144

調整在哪裡看和說什麼:影象標題與基於區域的注意和場景分解

  • arxiv:http://arxiv.org/abs/1506.06272

使用CNN過濾器學習FRAME模型以進行知識視覺化(CVPR 2015)

從注意的字幕生成影象

影象和語言的順序嵌入

DenseCap:用於密集字幕的完全卷積定位網路

用一系列自然句子表達一個影象流

影象標題翻譯的多模態支點

  • 簡介:ACL 2016
  • arxiv:http://arxiv.org/abs/1601.03916

使用深度雙向LSTM的影象字幕

編碼,檢查和解碼:用於生成標題的審閱者模組

檢視網路的標題生成

神經影象標題中的注意正確性

  • arxiv:http://arxiv.org/abs/1605.09553

具有文字條件語義注意的影象標題生成

DeepDiary:終身影象流的自動字幕生成

  • 簡介:ECCV國際自我中心感知,互動和計算研討會
  • arxiv:http://arxiv.org/abs/1608.03819

phi-LSTM:基於短語的影象字幕分層LSTM模型

  • 簡介:ACCV 2016
  • arxiv:http://arxiv.org/abs/1608.05813

用不同的物件標題影象

  • arxiv:http://arxiv.org/abs/1606.07770

學習在影象理解中推廣到新的作品

  • arxiv:http://arxiv.org/abs/1608.07639

生成字幕而不超出物件

  • 簡介:ECCV2016第二屆影象和視訊講故事研討會(VisStory)
  • arxiv:https://arxiv.org/abs/1610.03708

SPICE:語義命題影象標題評估

使用屬性提升影象標題

  • arxiv:https://arxiv.org/abs/1611.01646

Bootstrap,Review,Decode:使用域外文字資料來改進影象字幕

  • arxiv:https://arxiv.org/abs/1611.05321

一種生成描述性影象段落的分層方法

  • 簡介:斯坦福大學
  • arxiv:https://arxiv.org/abs/1611.06607

聯合推理和視覺語境的密集字幕

  • 簡介:Snap Inc.
  • arxiv:https://arxiv.org/abs/1611.06949

使用策略漸變方法優化影象描述指標

  • 簡介:牛津大學和谷歌
  • arxiv:https://arxiv.org/abs/1612.00370

影象標題的注意區域

  • arxiv:https://arxiv.org/abs/1612.01033

知道何時看:通過Visual Sentinel進行影象捕獲的自適應注意

迴圈影象捕獲器:使用空間不變變換和注意過濾描述影象

  • arxiv:https://arxiv.org/abs/1612.04949

具有語言CNN的經常性公路網路用於影象捕獲

  • arxiv:https://arxiv.org/abs/1612.07086

由字幕引導的自上而下的視覺顯著性

MAT:用於影象捕獲的多模態注意轉換器

https://arxiv.org/abs/1702.05658

基於深度強化學習的嵌入獎勵影象標題

  • 簡介:Snap Inc&Google Inc
  • arxiv:https://arxiv.org/abs/1704.03899

參加你:使用上下文序列儲存網路的個性化影象字幕

Punny Captions:影象描述中的Witty Wordplay

https://arxiv.org/abs/1704.08224

展示,改編和講述:跨領域影象捕獲者的對抗性訓練

https://arxiv.org/abs/1705.00930

影象標題的演員 - 評論家序列訓練

  • 簡介:倫敦大學瑪麗皇后學院和楊氏會計諮詢有限公司
  • 關鍵詞:演員評論強化學習
  • arxiv:https://arxiv.org/abs/1706.09601

迴歸神經網路(RNN)在影象標題生成器中的作用是什麼?

  • 簡介:第十屆自然語言世界國際會議論文集(INLG'17)
  • arxiv:https://arxiv.org/abs/1708.02043

Stack-Captioning:用於影象字幕的粗到細學習

https://arxiv.org/abs/1709.03376

自導多模LSTM - 當我們沒有完美的影象字幕訓練資料集時

https://arxiv.org/abs/1709.05038

影象標題的對比學習

  • 簡介:NIPS 2017
  • arxiv:https://arxiv.org/abs/1710.02534

基於分層LSTM模型的基於短語的影象標題

  • 簡介:ACCV2016擴充套件,基於短語的影象字幕
  • arxiv:https://arxiv.org/abs/1711.05557

卷積影象標題

https://arxiv.org/abs/1711.09151

顯示和傻瓜:製作神經影象字幕的對抗性示例

https://arxiv.org/abs/1712.02051

利用對偶語義對齊改進影象標題

  • 簡介:IBM Research
  • arxiv:https://arxiv.org/abs/1805.00063

物件計數!將顯式檢測帶回影象標題

  • 簡介:NAACL 2018
  • arxiv:https://arxiv.org/abs/1805.00314

去除挫敗的影象標題

  • 簡介:NAACL 2018
  • arxiv:https://arxiv.org/abs/1805.06549

SemStyle:學習使用未對齊文字生成程式化影象標題

  • 簡介:CVPR 2018
  • arxiv:https://arxiv.org/abs/1805.07030

用條件生成對抗網改進影象標題

https://arxiv.org/abs/1805.07112

CNN + CNN:用於影象捕獲的卷積解碼器

https://arxiv.org/abs/1805.09019

具有詞性引導的多樣且可控的影象標題

https://arxiv.org/abs/1805.12589

學習評估影象標題

  • 簡介:CVPR 2018
  • arxiv:https://arxiv.org/abs/1806.06422

主題引導注意影象標題

  • 簡介:ICIP 2018
  • arxiv:https://arxiv.org/abs/1807.03514

用於序列級影象捕獲的上下文感知可視策略網路

探索影象標題的視覺關係

  • 簡介:ECCV 2018
  • arxiv:https://arxiv.org/abs/1809.07041

影象字幕作為SOCKEYE中的神經機器翻譯任務

https://arxiv.org/abs/1810.04101

無監督的影象標題

https://arxiv.org/abs/1811.10787

物件描述

無歧義物件描述的生成與理解

視訊字幕/說明

在統一框架中聯合建模深度視訊和合成文字以橋接視覺和語言

使用深度遞迴神經網路將視訊轉換為自然語言

利用時間結構描述視訊

SA-tensorflow:用於生成視訊字幕的軟注意機制

順序到序列 - 視訊到文字

嵌入式翻譯與橋樑視訊與語言的聯合建模

  • arxiv:http://arxiv.org/abs/1505.01861

使用雙向遞迴神經網路的視訊描述

  • arxiv:http://arxiv.org/abs/1604.03390

視訊描述的雙向長短期記憶

  • arxiv:https://arxiv.org/abs/1606.04631

使用人工智慧自動翻譯和標題視訊的3種方法

用於視訊字幕生成的幀級和段級功能以及候選池評估

  • arxiv:http://arxiv.org/abs/1608.04959

影象和視訊的自然語言描述的接地和生成

具有語義注意的視訊字幕和檢索模型

  • 簡介:LSMDC 2016挑戰賽的四項任務中的三項(填空,多項選擇測試和電影檢索)獲勝者(ECCV 2016研討會)
  • arxiv:https://arxiv.org/abs/1610.02947

接地視訊字幕的時空注意模型

  • arxiv:https://arxiv.org/abs/1610.04997

視訊和語言:通過深度學習橋接視訊和語言

用於描述視訊的迴圈記憶體定址

  • arxiv:https://arxiv.org/abs/1611.06492

具有傳輸語義屬性的視訊字幕

  • arxiv:https://arxiv.org/abs/1611.07675

用於將視訊轉換為語言的自適應特徵提取

  • arxiv:https://arxiv.org/abs/1611.07837

視覺字幕的語義組合網路

用於視訊字幕的分層邊界感知神經編碼器

  • arxiv:https://arxiv.org/abs/1611.09312

基於注意力的多模融合視訊描述

  • arxiv:https://arxiv.org/abs/1701.03126

弱監督密集視訊字幕

  • 簡介:CVPR 2017
  • arxiv:https://arxiv.org/abs/1704.01502

用基礎和共同參考的人生成描述

  • 簡介:CVPR 2017.電影描述
  • arxiv:https://arxiv.org/abs/1704.01518

具有視訊和蘊涵生成的多工視訊字幕

  • 簡介:ACL 2017. UNC教堂山
  • arxiv:https://arxiv.org/abs/1704.07489

視訊中的密集字幕事件

具有視訊字幕調整時間注意的分層LSTM

https://arxiv.org/abs/1706.01231

強化視訊字幕與蘊涵獎勵

  • 簡介:EMNLP 2017. UNC教堂山
  • arxiv:https://arxiv.org/abs/1708.02300

用於視訊字幕,檢索和問題回答的端到端概念詞檢測

從確定性到生成性:用於視訊字幕的多模態隨機RNN

https://arxiv.org/abs/1708.02478

用於視訊字幕的接地物件和互動

https://arxiv.org/abs/1711.06354

整合視覺和音訊提示以增強視訊標題

https://arxiv.org/abs/1711.08097

通過分層強化學習的視訊字幕

https://arxiv.org/abs/1711.11135

基於共識的視訊字幕序列訓練

https://arxiv.org/abs/1712.09532

少即是多:為視訊字幕選擇資訊框架

https://arxiv.org/abs/1803.01457

多工強化學習的端到端視訊字幕

https://arxiv.org/abs/1803.07950

具有遮蔽變壓器的端到端密集視訊字幕

  • 簡介:CVPR 2018.密歇根大學和Salesforce Research
  • arxiv:https://arxiv.org/abs/1804.00819

視訊字幕重建網路

  • 簡介:CVPR 2018
  • arxiv:https://arxiv.org/abs/1803.11438

用於密集視訊字幕的雙向注入融合與上下文門控

  • 簡介:CVPR 2018聚光燈紙
  • arxiv:https://arxiv.org/abs/1804.00100

聯合本地化和描述密集視訊字幕的事件

  • 簡介:CVPR 2018 Spotlight,2017年ActivityNet Captions Challenge排名第1
  • arxiv:https://arxiv.org/abs/1804.08274

語境化,顯示和講述:神經視覺講故事者

https://arxiv.org/abs/1806.00738

RUC + CMU:視訊中密集字幕事件的系統報告

  • 簡介:ActivityNet 2018密集視訊字幕挑戰中的獲勝者
  • arxiv:https://arxiv.org/abs/1806.08854

專案

學習用於影象標題生成的CNN-LSTM架構:CNN-LSTM影象標題生成器架構的實現,其在MSCOCO資料集上實現接近最先進的結果。

screengrab-caption:一個openframeworks應用程式,用神經網路為你的桌面螢幕加上字幕

工具

CaptionBot(微軟)