1. 程式人生 > >論文筆記 Multiomdal Learning and Reasoning for Visual Question Answering (NIPS 2017)

論文筆記 Multiomdal Learning and Reasoning for Visual Question Answering (NIPS 2017)

文章的主要貢獻點如下:值得學習的是,文章的寫作挺好的。
在這裡插入圖片描述
在這裡插入圖片描述
文章的一個主要思想就是modular neural network,通過學習關於question與image的多模態(multimodal)與多方面(multifaceted)的表徵,在VQA1.與VQA2.0上取得不錯效果。

如上圖所示,主要分為6個module
(1)對resnet提出的 7 7

512 7*7*512 做question guided的attention,得到 r v r^v
(2)object detection檢測出的物體做attention,得到 r
o r^o
,pretrained on existing work.
(3)object classification,其類別標籤文字,得到 r c r^c
,pretrained on COCO.
(4)scene classification,其類別標籤文字,得到 r s r^s , pretrained on place365.
(5)face detection做attention,得到 r f r^f , pretrained on existing face work.
(6)face根據gender,emotion,age分類標籤,得到 r a r^a

每個module的輸出分別於question進行bilinear互動,最終拼接成一個向量 g g ,作為分類的輸入。

Ablaion study
在這裡插入圖片描述

Comparing with state of the art
在這裡插入圖片描述