1. 程式人生 > 其它 >對Weakly Supervised Relative Spatial Reasoning for Visual Question Answering的進一步總結

對Weakly Supervised Relative Spatial Reasoning for Visual Question Answering的進一步總結

  作者研究了VQA模型是否能夠解決GQA挑戰中影象中物體之間的空間關係問題。研究結果表明,儘管模型正確地回答了其中一些問題(∼60%),但它們不能真實地解決空間關係問題,這就引出了一個問題:VQA模型是否真的理解了場景的幾何形狀,或者它們是否基於從資料中學習到的虛假相關性來回答空間問題?基於此,作者設計了兩個考慮三維幾何形狀的任務,目標質心估計和相對位置估計。將現有的基於transformer的語言模型的訓練協議與基於場景三維幾何形狀的新型弱監督SR任務相結合,即目標質心估計(OCE)和相對位置估計(RPE),OCE訓練模型來預測影象中每個物體的質心。RPE被訓練來預測投影的單位歸一化向量空間中每對不同物件之間的距離向量。

  使用了一種開源的單目深度估計方法AdaBins提取深度zc,通過給定的物件邊界框[(x1、y1)、(x2、y2)]計算出物件質心座標(xc、yc、zc),這些座標對我們下面的空間推理任務起著弱監督的作用,通過質心座標計算相對位置估計,得到預測向量[x1−x2,y1−y2,z1−z2],將該成對相對距離向量輸入Feedforward Layer

  模型總體結構如下:

  FasterRCNN物件檢測器提取的前36個物件的物件特徵作為輸入影象的視覺表示,LXMERT編碼器的交叉模態注意力層產生視覺特徵v∈R36×H、跨模態特徵x∈R1×H、文字特徵t∈RL×H,H是隱藏維數,L是token數量,這些輸出用於微調兩個任務的模型:使用x作為輸入的VQA,以及使用v作為輸入的空間推理任務。為了結合原始影象中的空間特徵來捕獲相對物體的位置和深度資訊,使用空間金字塔patch特徵將給定的影象表示到不同尺度的特徵序列中。模型還使用成對距離作為輸入,並訓練模型來重建成對距離。這使得模型成為迴歸任務的自動編碼器。