視覺問答VQA知識資料全集

阿新 • • 發佈：2018-12-11

Kushal Kafle, and Christopher Kanan. Visual question answering: Datasets, algorithms, and future challenges. Computer Vision and Image Understanding [2017].
- [https://arxiv.org/abs/1610.01465]
Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick, CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning, CVPR 2017.
- [http://vision.stanford.edu/pdf/johnson2017cvpr.pdf]
Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Judy Hoffman, Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick, Inferring and Executing Programs for Visual Reasoning, arXiv:1705.03633, 2017. [https://arxiv.org/abs/1705.03633]
Ronghang Hu, Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Kate Saenko, Learning to Reason: End-to-End Module Networks for Visual Question Answering, arXiv:1704.05526, 2017. [https://arxiv.org/abs/1704.05526]

Adam Santoro, David Raposo, David G.T. Barrett, Mateusz Malinowski, Razvan Pascanu, Peter Battaglia, Timothy Lillicrap, A simple neural network module for relational reasoning, arXiv:1706.01427, 2017. [https://arxiv.org/abs/1706.01427]
Hedi Ben-younes, Remi Cadene, Matthieu Cord, Nicolas Thome: MUTAN: Multimodal Tucker Fusion for Visual Question Answering [https://arxiv.org/pdf/1705.06676.pdf] [https://github.com/Cadene/vqa.pytorch]

Vahid Kazemi, Ali Elqursh, Show, Ask, Attend, and Answer: A Strong Baseline For Visual Question Answering, arXiv:1704.03162, 2016. [https://arxiv.org/abs/1704.03162] [https://github.com/Cyanogenoid/pytorch-vqa]
Kushal Kafle, and Christopher Kanan. An Analysis of Visual Question Answering Algorithms. arXiv:1703.09684, 2017. [https://arxiv.org/abs/1703.09684]
Hyeonseob Nam, Jung-Woo Ha, Jeonghee Kim, Dual Attention Networks for Multimodal Reasoning and Matching, arXiv:1611.00471, 2016. [https://arxiv.org/abs/1611.00471]
Jin-Hwa Kim, Kyoung Woon On, Jeonghee Kim, Jung-Woo Ha, Byoung-Tak Zhang, Hadamard Product for Low-rank Bilinear Pooling, arXiv:1610.04325, 2016. [https://arxiv.org/abs/1610.04325]
Akira Fukui, Dong Huk Park, Daylen Yang, Anna Rohrbach, Trevor Darrell, Marcus Rohrbach, Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding, arXiv:1606.01847, 2016. [https://arxiv.org/abs/1606.01847] [https://github.com/akirafukui/vqa-mcb]
Kuniaki Saito, Andrew Shin, Yoshitaka Ushiku, Tatsuya Harada, DualNet: Domain-Invariant Network for Visual Question Answering. arXiv:1606.06108v1, 2016. [https://arxiv.org/pdf/1606.06108.pdf]
Arijit Ray, Gordon Christie, Mohit Bansal, Dhruv Batra, Devi Parikh, Question Relevance in VQA: Identifying Non-Visual And False-Premise Questions, arXiv:1606.06622, 2016. [https://arxiv.org/pdf/1606.06622v1.pdf]
Hyeonwoo Noh, Bohyung Han, Training Recurrent Answering Units with Joint Loss Minimization for VQA, arXiv:1606.03647, 2016. [http://arxiv.org/abs/1606.03647v1]
Jiasen Lu, Jianwei Yang, Dhruv Batra, Devi Parikh, Hierarchical Question-Image Co-Attention for Visual Question Answering, arXiv:1606.00061, 2016. [https://arxiv.org/pdf/1606.00061v2.pdf] [https://github.com/jiasenlu/HieCoAttenVQA]
Jin-Hwa Kim, Sang-Woo Lee, Dong-Hyun Kwak, Min-Oh Heo, Jeonghee Kim, Jung-Woo Ha, Byoung-Tak Zhang, Multimodal Residual Learning for Visual QA, arXiv:1606.01455, 2016. [https://arxiv.org/pdf/1606.01455v1.pdf]
Peng Wang, Qi Wu, Chunhua Shen, Anton van den Hengel, Anthony Dick, FVQA: Fact-based Visual Question Answering, arXiv:1606.05433, 2016. [https://arxiv.org/pdf/1606.05433.pdf]
Ilija Ilievski, Shuicheng Yan, Jiashi Feng, A Focused Dynamic Attention Model for Visual Question Answering, arXiv:1604.01485. [https://arxiv.org/pdf/1604.01485v1.pdf]
Yuke Zhu, Oliver Groth, Michael Bernstein, Li Fei-Fei, Visual7W: Grounded Question Answering in Images, CVPR 2016. [http://arxiv.org/abs/1511.03416]
Hyeonwoo Noh, Paul Hongsuck Seo, and Bohyung Han, Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction, CVPR, 2016.[http://arxiv.org/pdf/1511.05756.pdf]
Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Dan Klein, Learning to Compose Neural Networks for Question Answering, NAACL 2016. [http://arxiv.org/pdf/1601.01705.pdf]
Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Dan Klein, Deep compositional question answering with neural module networks, CVPR 2016. [https://arxiv.org/abs/1511.02799]
Zichao Yang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Smola, Stacked Attention Networks for Image Question Answering, CVPR 2016. [http://arxiv.org/abs/1511.02274] [https://github.com/JamesChuanggg/san-torch]
Kevin J. Shih, Saurabh Singh, Derek Hoiem, Where To Look: Focus Regions for Visual Question Answering, CVPR, 2015. [http://arxiv.org/pdf/1511.07394v2.pdf]
Kan Chen, Jiang Wang, Liang-Chieh Chen, Haoyuan Gao, Wei Xu, Ram Nevatia, ABC-CNN: An Attention Based Convolutional Neural Network for Visual Question Answering, arXiv:1511.05960v1, Nov 2015. [http://arxiv.org/pdf/1511.05960v1.pdf]
Huijuan Xu, Kate Saenko, Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering, arXiv:1511.05234v1, Nov 2015. [http://arxiv.org/abs/1511.05234]
Kushal Kafle and Christopher Kanan, Answer-Type Prediction for Visual Question Answering, CVPR 2016. [http://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Kafle_Answer-Type_Prediction_for_CVPR_2016_paper.html]
Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, Devi Parikh, VQA: Visual Question Answering, ICCV, 2015. [http://arxiv.org/pdf/1505.00468]
Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, Devi Parikh, VQA: Visual Question Answering, ICCV, 2015. [http://arxiv.org/pdf/1505.00468] [https://github.com/JamesChuanggg/VQA-tensorflow]
Bolei Zhou, Yuandong Tian, Sainbayar Sukhbaatar, Arthur Szlam, Rob Fergus, Simple Baseline for Visual Question Answering, arXiv:1512.02167v2, Dec 2015. [http://arxiv.org/abs/1512.02167]
Hauyuan Gao, Junhua Mao, Jie Zhou, Zhiheng Huang, Lei Wang, Wei Xu, Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering, NIPS 2015. [http://arxiv.org/pdf/1505.05612.pdf]
Mateusz Malinowski, Marcus Rohrbach, Mario Fritz, Ask Your Neurons: A Neural-based Approach to Answering Questions about Images, ICCV 2015. [http://arxiv.org/pdf/1505.01121v3.pdf]
Mengye Ren, Ryan Kiros, Richard Zemel, Exploring Models and Data for Image Question Answering, ICML 2015. [http://arxiv.org/pdf/1505.02074.pdf]
Mateusz Malinowski, Mario Fritz, Towards a Visual Turing Challe, NIPS Workshop 2015. [http://arxiv.org/abs/1410.8027]
Mateusz Malinowski, Mario Fritz, A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input, NIPS 2014. [http://arxiv.org/pdf/1410.0210v4.pdf]

視覺問答VQA知識資料全集

Kushal Kafle, and Christopher Kanan. Visual question answering: Datasets, algorithms, and future challenges. Computer Vision and Image Understanding [2017]

基於深度學習的VQA（視覺問答）技術

mark一下，感謝作者分享！ http://www.sohu.com/a/225043785_99992181 https://blog.csdn.net/sinat_26917383/article/details/73048045 https://blog.csdn.net/A

【自然語言處理】--視覺問答（Visual Question Answering，VQA）從初始到應用

一、前述視覺問答（Visual Question Answering，VQA），是一種涉及計算機視覺和自然語言處理的學習任務。這一任務的定義如下： A VQA system takes as input an image and a free-form, open-ended, natural-langua

視覺表現理論知識

所有 chrom log 導航正常角色替換元素方式限制終於可以知道視覺表現的實現方式，而不是一個一個的具體實現了，突然感到自己能夠把握頁面的整體布局了呢，似乎學到了表現背後的東西？以下是一個突然發現自己見識如此少的女漢子的嘶吼啊啊啊，剛剛註意到width設置

250G偷懶必看資料全集

java spring 視頻資料要想成為一個專業的'偷懶'程序員，沒有點偷懶必看資料怎麽能行，下面小編將無償分享多年私藏的250G資料給大家，文末有獲取資源方式，希望對大家有點幫助，資料都是小編整理來源於網絡，如有侵權請告知小編將第一時間清除 1，面試專屬來源：圖靈

200G免費偷懶必看資料全集（二）

java 資料視頻 spring 在上文小編整理過一大波資料分享出來之後，大家的回應說都不錯（沒有獲取的朋友可以點擊250G偷懶必看資料全集查看），甚至有人後臺給我留言說有沒有xxx的學習資料等等今天小編特意又整理了一波資料分享出來，希望大家喜歡，文末有正確的獲取方式 1，java基礎

【15】視覺化：初識資料視覺化

因為csdn不支援檔案直接顯示，寫ipynb檔案有些難受，所以先把檔案託管到我的github裡面，可從github瀏覽。首先將caffe的根目錄作為當前目錄，然後載入caffe程式自帶的小貓圖片，並顯示。圖片大小為360x480，三通道 import numpy as np impo

使用MongoDB圖表視覺化您的資料

將資料儲存在資料庫中是當今企業的基礎。客戶資訊，訂單歷史記錄，產品定價，物聯網感測器資料等，都以備將來使用。但是，僅儲存資料不足以形成市場競爭優勢，我們也必須能夠分析資料。分析資料有很多選擇，可以通過各種方式實現。如果您有需要在MongoDB中進行視覺化分析的資料，MongoDB圖表是一個很棒的選項

資料視覺化學習--------------------下載資料（二）

上章是講得csv，這節是json 1.如何下載資料：以下程式碼是利用模組urllib函式urlopen()下載資料 #-*-coding:GBK-*- #-*-coding:utf-8-*- from __future__ import (absolute_import,divisio

視覺SLAM常用的資料集

下面列舉幾個視覺SLAM常用的資料集。常用的資料集有：KITTI資料集、EuRoC資料集、TUM資料集、Oxford資料集、ICL-NUIM資料集、RGBD Object資料集等等。 KITTI資料集 KITTI資料集由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合創辦，是目前國際

atitit 讀書與獲取知識資料的attilax的總結與心得 v6

atitit 讀書與獲取知識資料的attilax的總結與心得v61. 前言與序言1.1. 讀書即是獲取知識，獲取資料，獲取資訊的一種方式建立起知識管理，知識圖譜1.2. 閱讀的目的閱讀一般分做三種目的：娛樂消遣、獲取資訊、增進理解力1.3. Why-How-What黃金圈法則

C語言小知識 --- 資料結構 --- 單向連結串列 ...... 嗯 ......未完待續

一、連結串列很簡單，普通的連結串列說白了就是我們之前學過了的結構體作為多個節點連結而成一條資料連出來的，奇怪了，結構體它們怎麼可以一個連著一個呢？以單向連結串列為例子：其實很簡單，之所以說它們連在一起，因為每個結構體（連結串列節點）裡面存放著一種指

【乾貨】一文詳解計算機視覺的廣泛應用：網路壓縮、視覺問答、視覺化、風格遷移等

引言深度學習目前已成為發展最快、最令人興奮的機器學習領域之一，許多卓有建樹的論文已經發表，而且已有很多高質量的開源深度學習框架可供使用。然而，論文通常非常簡明扼要並假設讀者已對深度學習有相當的理解，這使得初學者經常卡在一些概念的理解上，讀論文似懂非懂，十分吃力。另一方面，即使有了簡單易用的深度

最全java學習知識資料，Java學習心得分享

很多人想學習java的朋友在新手上路階段，教學視訊可以在市場上發現的不完美，所以我們特意準備了最java學習資料，好的學習資料齊全！在學習了材料的注意之後，可以編寫私人信件。這裡有一些原始碼和註釋與大家分享。學習資料可以加下Java學習裙：伍柒肆貳伍叄零柒伍小白的入門學習ja

04-python基礎知識-資料型別

資料型別進位制轉換十進位制基數0~9，逢10進1 示例：123 = 1 * 10^2 + 2 * 10^1 + 3 * 10^0 = 100 + 20 + 3 = 123 二進位制基數0和1，逢2進1

大資料視覺化設計，資料圖表的魅力！

大資料時代所有的行為方式被分析成資料並且形成一個龐大的網路系統而各個領域都以資料來分析目前狀態並

R資料視覺化手冊 R資料科學 PDF程式碼學習資料

《R資料視覺化手冊》側重於解決具體問題，是R資料視覺化的實戰祕籍。《R資料視覺化手冊》中絕大多數的繪圖案例都是以強大、靈活製圖而著稱的R包ggplot2實現的，充分展現了ggplot2生動、翔實的一面。從如何畫點圖、線圖、柱狀圖，到如何添加註解、修改座標軸和圖例，再到分面的使用和顏色的選取等，本書都有清晰的講

C++基礎知識--資料型別--常用運算子--常用關鍵字

一 .C++資料型別 1.C++中的資料型別 2.C++中基本資料型別所佔用的位元組數二.常見運算子　　1.運算子：在C++中對常量或變數進行運算或處理的符號稱為運算子，參與運算的物件稱為運算元　　2.常見運算子： &nbs

基於tensorflow的視覺問答系統構建

視覺問答（Visual Question Answering，VQA），是多模態資料探勘的前沿應用之一，裡面涉及計算機視覺和自然語言處理的學習任務。VQA系統需要將圖片和問題作為輸入，結合這兩部分資訊

基本知識--資料結構和C語言

資料元素是資料的基本單位, 資料項是不可分割的最小單位資料項是構成資料元素的最小單位關於資料型別我們可以在資料結構（c語言版）中看到是這麼定義的：　　可分兩類：　　一類是非結構的原子型別，其值是不可分

視覺問答VQA知識資料全集

相關推薦