論文筆記 Visual Question Answering with Memory-Augmented Networks（CVPR2018)

阿新 • • 發佈：2018-12-11

這是沈春華老師小組的一篇文章。

這篇文章的出發點是：目前的VQA問題，由於answer數量的有限性，因此轉化為一種分類問題，但由於部分answer出現

的頻次較低（比如上圖中的黃瓜），為了提高整體的分類準確率，往往進行分類的時候，將頻次低的answer進行捨棄，

如取answer出現頻次高的top1000,。基於這種現象，本文提出Memory-Augmented Network來處理這樣一種長尾效應。

方法簡介

這裡寫圖片描述
（1）對於影象與question的分別特徵提取，並沒有太多的新意，對於兩種特徵也採用了sequential co-attention機制，但

這種attention機制也是借鑑的NIPS2016中一篇VQA的方法。

（2）文章主打的Memory-Augmented network是在原來的memory network上進行改進，主要有兩點別：其利用LSTM自

身特性，形成一種天然的internal memory其也設計了一種external memory，使得LSTM成為一種外部記憶機制的控制器

文章由於處理的問題是出現頻次少的answer帶來的長尾效應，因此主要落點放在了memory寫機制的創新上，文中的寫機

制能夠在memory中極少用到的位置與經常用到的位置中達到一種平衡，來緩解長尾效應。具體實現細節，不再贅述，但

是這種memory的讀寫，既借鑑了作業系統記憶體的讀寫，又可與推理引擎中的working memory聯絡，又很好地利用深度

學習的記憶機制來實現，很有參考借鑑意義。

參考原文：Visual Question Answering with Memory-Augmented Networks

論文筆記 Visual Question Answering with Memory-Augmented Networks（CVPR2018)

這是沈春華老師小組的一篇文章。這篇文章的出發點是：目前的VQA問題，由於answer數量的有限性，因此轉化為一種分類問題，但由於部分answer出現的頻次較低（比如上圖中的黃瓜），為了提高整體的分類準確率，往往進行分類的時候，將頻次低的answer進行捨棄，如取answ

論文筆記 A Neural Multi-sequence Alignment TeCHnique (NeuMATCH) （CVPR2018)

這篇文章做的任務是異構序列資料的對齊，針對以視訊文字為例，提出了用LSTM堆疊結構來處理多種對齊任務（one-to-one, one-to-many, skipping unmatched elements，non-monotonic alignment等）。示例這項任務

論文筆記 Learning Visual Knowledge Memory Networks for Visual Question Answering （CVPR2018)

這篇文章的一個出發點也是希望VQA裡面的視覺內容與人的結構化知識相聯絡起來，提出了一種visual knowledge memory network (VKMN)來將結構化知識與視覺特徵融合進端對端的學習框架。在經典VQA 資料集VQA v1.0與v2.0上在與知識推理相關的問題

Semantic Parsing via Staged Query Graph Generation: Question Answering with Knowledge Base【論文筆記】

一、摘要我們對知識庫問答提出一個新穎的語義解析框架。我們定義了一個類似於知識庫子圖的查詢圖，可以直接對映為邏輯形式。語義解析被簡化為查詢圖生成，被表述為分階段搜尋問題。與傳統方法不同，我們的方法在早期就利用知識庫來修剪搜尋空間，從而簡化語義匹配問題。通過應用實體鏈指系統和深度卷

Question Answering with Subgraph Embeddings【論文筆記】

一、摘要這篇論文提出一個系統，在大範圍主題的知識庫中，學習使用較少的手工特徵來回答問題。我們的模型學習單詞和知識庫組成的低維詞向量。這些表示用於根據候選答案對自然語言問題打分。使用成對的問題和對應答案的結構化表示，和成對的問題釋義來訓練系統，在最近的文獻基準中產生有競爭力的結果。 &n

Information Extraction over Structured Data: Question Answering with Freebase【論文筆記】

Information Extraction over Structured Data:Question Answering with Freebase 一、摘要

論文筆記 Multiomdal Learning and Reasoning for Visual Question Answering (NIPS 2017)

文章的主要貢獻點如下：值得學習的是，文章的寫作挺好的。文章的一個主要思想就是modular neural network，通過學習關於question與image的多模態(multimodal)與多方面(multifaceted)的表徵，在VQA1.與VQA2.0上取得不錯效果。

視覺場景理解論文閱讀筆記:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

一、文章相關資料3.發表時間:2018二、閱讀筆記1.論文思想文章提出一種自上而下與自下而上相結合的注意力模型方法，應用於視覺場景理解和視覺問答系統的相關問題。其中基於自下而上的關注模型（一般使用Faster R-CNN）用於提取影象中的興趣區域，獲取物件特徵

論文解讀：A Focused Dynamic Attention Model for Visual Question Answering

這是關於VQA問題的第四篇系列文章。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：A Focused Dynamic Attention Model for Visual Question Answering。 1，主要思想： Focused Dynami

論文解讀：Where To Look: Focus Regions for Visual Question Answering

可能要很久時間開始關注vqa問題，vqa問題就是影象的問答問題，即對影象提問，併產生答案。關於影象問答綜述性文章推薦：Visual Question Answering: Datasets, Algorithms, and Future Challenges。今天開始可能要跟大家分析關於

Visual Question Answering in Tensorflow實戰

主要參考：https://github.com/paarthneekhara/neural-vqa-tensorflow 論文地址：https://arxiv.org/abs/1505.02074 專案百度網盤地址：https://pan.baidu.com/s/1d47Hxu5X

VQA（Visual Question Answering）技術

這是一種涉及計算機視覺和自然語言處理的學習任務。初識—定義： A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image

論文閱讀筆記二十六：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks（CVPR 2016）

論文源址：https://arxiv.org/abs/1506.01497 tensorflow程式碼：https://github.com/endernewton/tf-faster-rcnn 摘要目標檢測依賴於區域proposals演算法對目標的位置進

Attention Model in Visual Question Answering

注意力機制常常用於Visual Question Answering和Image Caption中，此篇主要介紹VQA中的注意力機制。《Recurrent Models of Visual Attention》使用強化學習的方法。模擬人類看東西的方式，從上到下

經典計算機視覺論文筆記——《Going Deeper with Convolutions》

2014年imageNet挑戰賽冠軍，Inception系列的開創者，caffe作者賈揚清，google研發……使這篇論文成為深度學習與視覺領域的必讀論文，兩年時間引用量過千。私以為文中理論部分有點囉嗦，反覆強調sparse structure。但精彩之處還

論文筆記：Long Short-Term Memory

LongShort-Term Memory 摘要通過recurrent BP方式來學著儲存隨時間間隔變化的資訊會花費很長的時間。我們引進了新奇的，有效的，基於梯度的方法：LSTM（至少在1997年的時候這麼評價還算公正）。且能夠解決一些標籤比較長的分

【自然語言處理】--視覺問答（Visual Question Answering，VQA）從初始到應用

一、前述視覺問答（Visual Question Answering，VQA），是一種涉及計算機視覺和自然語言處理的學習任務。這一任務的定義如下： A VQA system takes as input an image and a free-form, open-ended, natural-langua

論文筆記-Personal Recommendation Using Deep Recurrent Neural Networks in NetEase

use clas max onf 一位 url base 輸入 ont 思路：利用RNN對用戶瀏覽順序建模，利用FNN模擬CF，兩個網絡聯合學習 RNN網絡結構：輸出層的state表示用戶瀏覽的某一頁面，可以看做是一個one-hot表示，state0到3是依次瀏覽的

讀書筆記25：Temporal Hallucinating for Action Recognition with Few Still Images（CVPR2018）

openaccess.thecvf.com/content_cvpr_2018/papers/Wang_Temporal_Hallucinating_for_CVPR_2018_paper.pdf 摘要首先介紹背景，從靜態圖片中進行動作識別最近被深度學習方法促進，但是成功的

論文筆記 Co-Attending Free-Form Regions and Detections （AAAI2018)

Co-Attending Free-Form Regions and Detections with Multi-Modal Multiplicative Feature Embedding for Visual Question Answering 現在做VQA的，很多方法都是基

論文筆記 Visual Question Answering with Memory-Augmented Networks（CVPR2018)

方法簡介

相關推薦