對Weakly Supervised Relative Spatial Reasoning for Visual Question Answering的進一步總結

阿新 • • 發佈：2021-12-02

　　作者研究了VQA模型是否能夠解決GQA挑戰中影象中物體之間的空間關係問題。研究結果表明，儘管模型正確地回答了其中一些問題（∼60%），但它們不能真實地解決空間關係問題，這就引出了一個問題：VQA模型是否真的理解了場景的幾何形狀，或者它們是否基於從資料中學習到的虛假相關性來回答空間問題？基於此，作者設計了兩個考慮三維幾何形狀的任務，目標質心估計和相對位置估計。將現有的基於transformer的語言模型的訓練協議與基於場景三維幾何形狀的新型弱監督SR任務相結合，即目標質心估計(OCE)和相對位置估計(RPE)，OCE訓練模型來預測影象中每個物體的質心。RPE被訓練來預測投影的單位歸一化向量空間中每對不同物件之間的距離向量。

　　使用了一種開源的單目深度估計方法AdaBins提取深度z_c，通過給定的物件邊界框[(x₁、y₁)、(x₂、y₂)]計算出物件質心座標(x_c、y_c、z_c)，這些座標對我們下面的空間推理任務起著弱監督的作用，通過質心座標計算相對位置估計，得到預測向量[x₁−x₂，y₁−y₂，z₁−z₂]，將該成對相對距離向量輸入Feedforward Layer

　　模型總體結構如下：

　　FasterRCNN物件檢測器提取的前36個物件的物件特徵作為輸入影象的視覺表示，LXMERT編碼器的交叉模態注意力層產生視覺特徵v∈R^36×H、跨模態特徵x∈R^1×H、文字特徵t∈R^L×H，H是隱藏維數，L是token數量，這些輸出用於微調兩個任務的模型：使用x作為輸入的VQA，以及使用v作為輸入的空間推理任務。為了結合原始影象中的空間特徵來捕獲相對物體的位置和深度資訊，使用空間金字塔patch特徵將給定的影象表示到不同尺度的特徵序列中。模型還使用成對距離作為輸入，並訓練模型來重建成對距離。這使得模型成為迴歸任務的自動編碼器。

對Weakly Supervised Relative Spatial Reasoning for Visual Question Answering的進一步總結

對Weakly Supervised Relative Spatial Reasoning for Visual Question Answering的進一步總結

對Weakly Supervised Human-Object Interaction Detection in Video via Contrastive Spatiotemporal Regions的進一步總結

深度學習論文翻譯解析（九）：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

Counterfactual Generator A Weakly-Supervised Method for Named Entity Recognition

ACGNet Action Complement Graph Network for Weakly-supervised Temporal Action Localization概述

Action Shuffling for Weakly Supervised Temporal Localization概述

【論文筆記】Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition

Long-term Recurrent Convolutional Networks for Visual Recognition and Description

MySQL：MySQL For Visual studio 1.2.9 解除安裝失敗

論文閱讀筆記《A semi-supervised CNN based method for steel surface defect recognition》

Weakly Supervised Semantic Segmentation with Boundary Exploration論文解讀

Weakly Supervised Open-set Domain Adaptation by Dual-domain Collaboration筆記

CREST——Convolutional Residual Learning for Visual Tracking

FreePiano for Visual Studio 2019 日誌

論文閱讀：Weakly-Supervised Semantic Segmentation via Sub-Category Exploration

BoTNet:Bottleneck Transformers for Visual Recognition

【ARXIV2105】Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks

Weakly Supervised Action Localization by Sparse Temporal Pooling Network總結

JavaScript中三種for迴圈語句的使用總結（for、for...in、for...of）

Check It Again: Progressive Visual Question Answeringvia Visual Entailment

對Weakly Supervised Relative Spatial Reasoning for Visual Question Answering的進一步總結

相關推薦