論文筆記 Multiomdal Learning and Reasoning for Visual Question Answering (NIPS 2017)
文章的主要貢獻點如下:值得學習的是,文章的寫作挺好的。
文章的一個主要思想就是modular neural network,通過學習關於question與image的多模態(multimodal)與多方面(multifaceted)的表徵,在VQA1.與VQA2.0上取得不錯效果。
如上圖所示,主要分為6個module
(1)對resnet提出的
7∗7∗512做question guided的attention,得到
rv
(2)object detection檢測出的物體做attention,得到
ro,pretrained on existing work.
(3)object classification,其類別標籤文字,得到
rc,pretrained on COCO.
(4)scene classification,其類別標籤文字,得到
rs, pretrained on place365.
(5)face detection做attention,得到
rf, pretrained on existing face work.
(6)face根據gender,emotion,age分類標籤,得到
ra
每個module的輸出分別於question進行bilinear互動,最終拼接成一個向量 g,作為分類的輸入。
Ablaion study
Comparing with state of the art
相關推薦
論文筆記 Multiomdal Learning and Reasoning for Visual Question Answering (NIPS 2017)
文章的主要貢獻點如下:值得學習的是,文章的寫作挺好的。 文章的一個主要思想就是modular neural network,通過學習關於question與image的多模態(multimodal)與多方面(multifaceted)的表徵,在VQA1.與VQA2.0上取得不錯效果。
論文筆記 Learning Visual Knowledge Memory Networks for Visual Question Answering (CVPR2018)
這篇文章的一個出發點也是希望VQA裡面的視覺內容與人的結構化知識相聯絡起來,提出了一種visual knowledge memory network (VKMN)來將結構化知識與視覺特徵融合進端對端的學習框架。在經典VQA 資料集VQA v1.0與v2.0上在與知識推理相關的問題
論文筆記:Learning Region Features for Object Detection
中心思想 繼Relation Network實現可學習的nms之後,MSRA的大佬們覺得目標檢測器依然不夠fully learnable,這篇文章類似之前的Deformable ROI Pooling,主要在ROI特徵的組織上做文章,文章總結了現有的各種ROI Pooling變體,提出了一個統一的數學表示式
Exploring Models and Data for Image Question Answering 論文翻譯
這項工作旨在解決基於影象的問答(QA)與新模型和資料集的問題。 在我們的工作中,我們建議使用神經網路和視覺語義嵌入,而不需要諸如物件檢測和影象分割之類的中間階段來預測關於影象的簡單問題的答案。 我們的模型比現有影象質量保證資料集上的唯一公佈結果好1.8倍。 我們還提出了一種問題生成演算法,該演算法將
論文解讀:A Focused Dynamic Attention Model for Visual Question Answering
這是關於VQA問題的第四篇系列文章。本篇文章將介紹論文:主要思想;模型方法;主要貢獻。有興趣可以檢視原文:A Focused Dynamic Attention Model for Visual Question Answering。 1,主要思想: Focused Dynami
論文解讀:Where To Look: Focus Regions for Visual Question Answering
可能要很久時間開始關注vqa問題,vqa問題就是影象的問答問題,即對影象提問,併產生答案。關於影象問答綜述性文章推薦:Visual Question Answering: Datasets, Algorithms, and Future Challenges。今天開始可能要跟大家分析關於
論文解讀:Stacked Attention Networks for Image Question Answering
這是關於VQA問題的第二篇系列文章,這篇文章在vqa領域是一篇比較有影響的文章。本篇文章將介紹論文:主要思想;模型方法;主要貢獻。有興趣可以檢視原文:Stacked Attention Networks for Image Question Answering。原論文中附有作者原始碼。
視覺場景理解論文閱讀筆記:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
一、文章相關資料3.發表時間:2018二、閱讀筆記1.論文思想 文章提出一種自上而下與自下而上相結合的注意力模型方法,應用於視覺場景理解和視覺問答系統的相關問題。其中基於自下而上的關注模型(一般使用Faster R-CNN)用於提取影象中的興趣區域,獲取物件特徵
《Fluency Boost Learning and Inference for Neural Grammatical Error Correction》論文總結
核心思想 這篇論文的核心思想其實很簡單,就是通過有效地增加訓練資料,來使模型的推斷結果更加正確。具體就是使用模型推斷的n-best結果來生成新的訓練資料,用於訓練。 增加訓練資料這個步驟是很關鍵的。 傳統的做法 想到增加訓練資料,一個很正
論文筆記之Learning Convolutional Neural Networks for Graphs
本篇論文是2016ICML上的一篇論文,對於如何將cnn應用在graph上提供了一種新的思路。 架構: 總體上講,就是用w個固定size=(k+1)的子圖來表示輸入的graph,再將這w個子圖正
論文筆記-Item2Vec- Neural Item Embedding for Collaborative Filtering
href resource 數據 per con doc 訂單 優化 div 將word2vec思想拓展到序列item的2vec方法並運用到推薦系統中,實質上可以認為是一種cf 在word2vec中,doc中的word是具有序列關系的,優化目標類似在max對數似然函數
【深度學習NLP論文筆記】《Adversarial Example For Natural Language Classification Problems》
一、介紹 圖一:三個在文字分類任務中使用對抗樣本的例子。分別是垃圾郵件分類、情感分析、虛假新聞檢測。全是依靠同義詞替換實現的。 二、背景 分類問題的目標是從輸入和標籤中學習一種對映。其中標籤可能來自K個類,如。 分類器f可能是個深度神經網路或者線性模型,它會為輸入x
論文筆記 Visual Question Answering with Memory-Augmented Networks(CVPR2018)
這是沈春華老師小組的一篇文章。 這篇文章的出發點是:目前的VQA問題,由於answer數量的有限性,因此轉化為一種分類問題,但由於部分answer出現 的頻次較低(比如上圖中的黃瓜),為了提高整體的分類準確率,往往進行分類的時候,將頻次低的answer進行捨棄, 如取answ
論文筆記《Fully Convolutional Networks for Semantic Segmentation》
FCN 的全稱是Fully Convolutional Networks,即全卷積網路。通常的CNN是在若干個卷積層之連線上若干個全連線層,將卷積層產生的特徵圖對映成一個固定長度的特徵向量。例如,AlexNet就是五個卷積層後面連線三個全連線層,它在Imagenet資料集上的輸出就是一個1000
論文筆記:Feature Pyramid Networks for Object Detection
初衷 Feature pyramids are a basic component in recognition systems for detecting objects at different scales. But recent deep
【深度學習論文筆記】Deep Neural Networks for Object Detection
論文:<<Deep Neural Networks for Object Detection>> 作者:Christian Szegedy Al
論文筆記:Is object localization for free?
Is object localization for free? Weakly-supervised learning with convolutional neural networks 摘要 提出一個弱監督卷積神經網路for 分類。主要貢獻有:
學習筆記 -- 斯坦福課程:CNN for Visual Recognition(一)
去年就想聽聽這“接地氣”的課程了,但最終也沒有堅持下來。今年既然有了線上的課程視訊,我也開個筆記系列,好好地從基礎開始學起吧。由於課程內容還是比較基礎,這裡只紀錄一些個人覺得有趣或者有用的點,更多的內容大家直接去網站上看吧,相信會有不少收穫的。 Lectu
論文筆記:Deep neural networks for YouTube recommendations
https://blog.csdn.net/xiongjiezk/article/details/73445835 Download [1] Covington P, Adams J, Sargin E. Deep neural networks for youtube recommen
NLP論文筆記1:Neural Architectures for Named Entity Recognition
看這一篇論文的主要目的是看BILSTM-CRF模型,對於實際應用,CRF看分詞、BILSTM-CRF做NER,接下來通過BILSTM-CNN-CRF做序列標註,NLP幾個基本的應用也差不多了,句法分析貌似比較複雜,留作以後吧。 ****************