1. 程式人生 > 其它 >Check It Again: Progressive Visual Question Answeringvia Visual Entailment

Check It Again: Progressive Visual Question Answeringvia Visual Entailment

Check It Again: Progressive Visual Question Answeringvia Visual Entailment

Abstract

雖然複雜的視覺問答模型取得了顯著的成功,但它們往往只根據問題和答案之間的表面相關性來回答問題。 最近已經開發了幾種的方法來解決這個語言先驗問題。 然而,他們中的大多數人根據一個最佳輸出預測正確答案,而沒有檢查答案的真實性。 此外,他們只探索影象和問題之間的相互作用,而忽略了候選答案的語義。 在本文中,我們提出了一種基於Visual Entailment的select-and-rerank (SAR) 漸進式框架。 具體來說,我們首先選擇與問題或影象相關的候選答案,然後我們通過視覺蘊涵任務對候選答案重新排序,這驗證影象在語義上是否包含問題和每個候選答案的綜合陳述。 實驗結果表明了我們提出的框架的有效性,它在 VQA-CP v2 上建立了一個新的最先進的準確度,提高了 7.55%

1 Introduction

視覺問答(VQA)任務是一個多模態問題,需要對視覺和文字資訊的全面理解。 面對輸入影象和問題,VQA 系統嘗試在大預測空間中確定正確答案。最近,一些研究(Jabri 等人,2016 年;Agrawal 等人,2016 年;Zhang 等人,2016 年;Goyal 等人,2017 年)表明 VQA 系統存在由答案和問題之間的偶然相關性。結果,傳統的 VQA 模型總是輸出輸入樣本問題類別的最常見答案(Selvaraju et al.,2019),無論給出什麼樣的圖片。為了解決這個語言先驗問題,已經開發了各種方法。然而,通過探索現有方法的特點,我們發現無論是 UpDn(Andersonet al., 2018) 和 LXMERT(Tan and Bansal, 2019) 等通用 VQA 模型還是為語言先驗精心設計的模型,如 LMH(Clark et al., 2019)。 , 2019) 和 SSL(Zhu et al., 2020) 產生了一個不可忽略的問題。 兩種模型都根據一個最佳輸出預測正確答案,而無需檢查答案的真實性。 此外,這些模型沒有很好地利用答案的語義資訊來幫助緩解語言先驗。

如下圖(a)所示,很多正確答案常常出現在top-N中而不是top-1中。同時,如果給出top-N個候選答案,影象可以進一步驗證基於問題和候選答案組合的概念的視覺存在/不存在。如下圖 (b) 所示,問題是關於蝙蝠的顏色,兩個候選答案是“黃色”和“黑色”。 在檢查候選答案的正確性後,可以排除與影象相矛盾的錯誤答案“黃色”,並確認與影象一致的正確答案“黑色”。 減輕語言先驗的語義,尚未得到充分研究。

在本文中,我們提出了一種基於 Visual Entailment 的 select-and-rerank(SAR) 漸進框架。 擬議框架背後的直覺來自兩個觀察結果。 首先,排除與問題和影象無關的答案後,預測空間縮小,我們可以獲得少量候選答案。其次,在一個問題及其候選答案橋接成完整陳述的情況下,該陳述的真實性 可以通過圖片的內容來推斷。 因此,在選擇了幾個可能的答案作為候選後,我們可以利用由影象-文字對組成的視覺蘊涵來驗證影象是否在語義上蘊涵合成語句。 根據蘊涵度,我們可以進一步重新排列候選答案,並給模型另一個機會找到正確的答案。 總而言之,我們的貢獻如下:

  1. 我們提出了一個選擇和重新排序的進步框架來解決語言先驗問題,並對該框架的每個模組的一系列設計選擇進行實證研究。 另外,它是一個通用的框架,可以很容易地與現有的VQA模型結合,進一步提升它們的能力。
  2. 我們強調了文字和影象之間的驗證過程,並將 VQA 任務制定為視覺蘊涵問題。 這個過程充分利用了影象、問題和候選答案的互動資訊。
  3. 實驗結果表明,我們的框架建立了 66.73% 的最新準確率,大大優於現有方法。

Language-Priors Methods

為了解決VQA模型的語言先驗問題,已經提出了很多方法,可以大致分為兩類(1)Designing Specific Debiasing Models to Reduce Biases。該系列的大多數作品都是基於整合的方法(Ramakrishnan 等人,2018 年;Grand 和 Be-linkov,2019 年;Belinkov 等人,2019 年;Cadene 等人,2019 年;Clark 等人,2019 年;Mahabadi 和 Henderson,2019),其中,LMH(Clark 等,2019)通過懲罰可以在不使用影象內容的情況下回答的樣本來減少問答對之間的所有偏差。(2)Data Augmentationto Reduce Biases。這些作品(Zhang et al., 2016; Goyal et al., 2017; Agrawalet al., 2018)的主要思想是仔細構建更平衡的資料集以克服先驗。例如,最近的方法 SSL(Zhu et al., 2020) 首先自動生成一組平衡的問題影象對,然後引入輔助自監督任務來使用平衡資料。CSS(Chen et al., 2020a) 通過新增更多互補樣本來平衡資料,這些樣本是由影象中的掩蔽物件或問題中的一些關鍵字生成的。基於CSS,CL(Liang et al., 2020)強制模型利用互補樣本和原始樣本之間的關係。與不使用任何額外手動註釋的 SSL 和 CSS 不同,MUTANT(Gokhale et al., 2020) 利用額外的物件名稱標籤定點陣圖像中的關鍵物件和問題中的關鍵詞,這直接幫助模型確定在影象中的文字概念。然而,上述方法只探討了影象和問題之間的相互作用,而忽略了候選答案的語義。 在本文中,我們提出了漸進式 VQA 框架 SAR,它實現了問題、影象和答案之間更好的互動。

Answer Re-ranking

儘管 VQA 任務中的 AnswerRe-ranking仍處於起步階段,但它已被廣泛研究用於開放域問答等 QA 任務,其中模型需要基於廣泛的開放域知識源回答問題。最近的工作(Wanget al., 2018b,a; Kratzwald et al., 2019)以兩個階段的方式解決了這個任務:從所有段落中提取候選答案,然後關注這些候選答案並對它們重新排序以獲得最終答案。RankVQA(Qiao et al., 2020)將 AnswerRe-ranking 方法引入到 VQA 任務中。然而,RankVQA 仍然預測來自巨大的預測空間而不是選定的候選答案

3 Method

下圖顯示了所提出的select-and-rerank (SAR) 框架的概述,該框架由候選答案選擇模組和答案重新排序模組組成。在候選答案選擇模組中,給定一個影象和一個問題,我們首先使用當前的 VQA 模型來獲得由 top-N個答案組成的候選答案集。 在這個模組中,可以過濾掉與問題無關的答案。接下來,我們將 VQA 制定為 Answer Re-ranking 模組中的 VE 任務,其中影象是前提,合成密集字幕(Johnson 等人,2016)(答案和問題的組合)是假設。 我們使用跨域預訓練模型 LXMERT(Tanand Bansal, 2019) 作為 VE 評分器來計算每個影象字幕對的蘊含分數,因此得分最高的密集字幕對應的答案就是我們的最終預測。我們使用跨域預訓練模型 LXMERT(Tanand Bansal, 2019) 作為 VE 評分器來計算每個影象字幕對的蘊含分數,因此得分最高的密集字幕對應的答案就是我們的最終預測。

3.1 Candidate Answer Selecting

候選答案選擇器 (CAS) 從所有可能的答案中選擇幾個答案作為候選,從而縮小了巨大的預測空間。給予\(M\)個VQA的資料\(D=\{I_i,Q_i\}_{i=1}^M\)其中\(I_i\in I,Q_i\in Q\)是第\(i\)個樣本的影象和問題資料,\(A\)是包含上千個答案的預測空間。CAS是一個\(|A|\)分類,CAS根據輸入的影象\(I_i\)和輸入的問題\(Q_i\),將會給出迴歸分數:\(P(A|Q_i,I_i)\),網路的結構選擇是自由的,最後候選答案選擇其從\(A\)中選出top-N個分數最高的答案作為候選答案:

\[A_i^*=topN(argsort(P(A|Q_i,I_i))) \]

其中\(N\)為超引數,候選答案\(A_i^*=[A_i^1,A_i^2,...,A_i^N]\)​和每個資料隊將形成包含\(M*N\)個數據的新的資料集

\[D'=\{I_i,Q_i,A_i^n\}_{i=1,n=1}^{M,N} \]

其中\(A_i^n\in A_i^*\),在本文中,我們主要使用 SSL 作為我們的CAS。 我們還進行了實驗來分析不同CAS和不同N的影響。

3.2 Answer Re-ranking

3.2.1 Visual Entailment

Xieet等人提出了 Visual Entailment (VE) 任務。 (2019),前提是真實的世界影象\(P_{image}\),假設為文字\(H_{text}\),給定一個樣本\((P_{image},H_{text})\),VE任務的目標是確定根據資訊\(P_{image}\)能否可以得出結論\(H_{text}\)​。根據以下協議,樣品的標籤被分配給

1.Entailment(蘊含),如果\(P_{image}\)有足夠的證據證明\(H_{text}\)是正確的。

2.Contradiction(矛盾),如果\(P_{image}\)有足夠的證據證明\(H_{text}\)是錯誤的。

3.Neutral(中立的),如果\(P_{image}\)有沒有足夠的證據來得出\(H_{text}\)​​的結論。

3.2.2 VQA As Visual Entailment

每一個候選答案\(A_i^*\)和他的問題都可以橋接成一個完整的陳述,然後影象用來驗證每個陳述的真實性。更具體地說,概念的視覺呈現(例如“黑蝙蝠”/“黃蝙蝠”)基於問題和正確/錯誤候選答案的組合可以被影象內容所包含/矛盾。通過這種方式,我們實現了問題、影象和答案之間更好的互動。

因此,我們將 VQA 表述為一個 VE 問題,其中影象\(I_i\)​是前提,\(A_i^*\)​中的答案\(A_i^n\)​和問題\(Q_i\)​的綜合陳述表示為\((Q_i,A_i^n)\)​是假設。對於同一幅影象,不同問題的綜合陳述描述了同一影象的不同區域。繼約翰遜等人(2016)之後,我們也將合成語句稱為“dense caption”。我們使用\(A_i^+\)​表示是問題\(Q_i\)​的正確答案的\(A_i^n\)​,反之則使用\(A_i^-\)​。\(I_i\)​有足夠的證據證明\((Q_i,A_i^+)\)​為真,即視覺語言寓意蘊含\((Q_i,A_i^+)\)​的。並且\(I_i\)​有足夠的證據證明\((Q_i,A_i^-)\)​是假的,即視覺語言語義上是衝突\((Q_i,A_i^-)\)​的。請注意,我們的 VE 任務中沒有 Neutral標籤,我們只有兩個標籤:Entailment 和 Contradiction。

3.2.3 Re-Ranking based on VE

我們通過對比學習重新排列密集字幕,\((Q_i,A_i^+)\)應該在語義上對於影象\(I_i\)\((Q_i,A_i^-)\)更相似。總體結構的右側部分說明了這個想法。語義上越是想死,視覺蘊含度就越深。我們對每個\((Q_i,A_i^n)\)與影象\(I_i\)的視覺蘊含進行評分,並根據這個分數對候選答案\(A_i^*\)進行排序。排名第一的為我們的最終輸出。

Question-Answer Combination Strategy

只有將答案資訊與問題結合起來時,答案資訊才有意義。 我們對問答文字的組合進行編碼以獲得聯合概念。我們設計了三個問答組合策略:\(R\)\(C\),和\(R\rightarrow C\)去將問答組合合成dense caption\(C_i\)

R:Replace question category prefix with answer

每個問題的字首是問題類別,例如“在那裡”、“什麼顏色”等。例如,給定一個問題“How many flowers inthe vase?”,它的答案是“8”,問題類別是“How many”,得到的密集標題是“8 flow-ers in the vase”。同樣地,“No a crosswalk” 是由問題 “ Is this a crosswalk?” 和答案 “No”生成的。首先建立訓練集所有問題類別的字典,然後採用前向最大匹配演算法確定每個測試樣本的問題類別。

C:Concatenate question and answer directly

在上面的兩個例子中,密集的標題是“8 How many flowers in the vase?”和“No Isthis a crosswalk?”。串聯後產生的密集字幕實際上是反問句。我們特意在問題文字前面添加了答案文字,以避免在將密集字幕修剪為相同長度時刪除答案。

R→C:

我們首先在訓練中使用策略 R,旨在防止模型過度關注問題類別和答案之間的共現關係,然後在測試中使用策略 C 引入更多資訊進行推理。

採用上述的任何策略,我們將\(Q_i\)​​和\(A_i^*\)​​​中的每一個答案結合起來生成密集字幕\(C_i^*\)​​​,因此我們獲得資料量為\(M*N\)的​資料集\(D''=\{I_i,C_i^n\}_{i=1,n=1}^{M,N}\)​​​​為下面的VE任務。

VE Scorer

我們使用預先訓練好的模型LXMERT對\((I_i,C_i^n)\)的視覺蘊涵度進行評分。LXMERT 在兩個流中分別對影象和標題文字進行編碼。接下來,單獨的流通過共同注意的transformer層進行互動。在文字流中,密集字幕被編碼為高階概念。然後來自視覺流的視覺表示可以驗證高階概念的視覺存在/不存在。

我們將第\(i\)​張圖片的第\(n\)​個候選標題的VE分表示為\(sigmoid(Trm(I_i,C_i^n))\)​其中\(Trm()\)​是LXMERT密集層之後的一維輸出。\(\sigma\)​表示sigmoid函式。分值越大,表示的包容度越高。 我們通過最小化多標籤軟損失來優化主函式的引數:

\[L_{VE}=\frac{-1}{M*N}\sum_{i=1}^{M}\sum_{n=1}^N[t_i^nlog(\sigma(Trm(I_i,C_i^n)))+(1-t_i^n)log(1-\sigma(Trm(I_i,C_i^n)))] \]

其中\(t_i^n\)是第n個答案的軟標籤分數。

Combination with Language-Priors Method

候選答案選擇後,候選答案的數量從所有可能的答案減少到topN。雖然過濾掉了一些不相關的答案,VE 系統的資料集\(D''\)​​仍然存在偏差。因此,我們可以選擇性地將現有的語言先驗方法應用於我們的框架,以進一步減少語言先驗。以 SSL 為例,我們通過調整損失函式將其自監督任務的損失函式應用到我們的框架中。

\[L_{ssl}=\frac{α}{M*N}\sum_{i=1}^M\sum_{n=1}^NP(I_i',C_i^n) \]

其中 \((I_i',C_i^n)\)表示不相關的影象-字幕對,\(α\)是下加權係數。 其中的\(P(I_i',C_i^*)\)可以被認為是\((I_i',C_i^*)\)的相關置信度。我們可以重新制定整體損失函式:

\[L=L_{VE}+L_{ssl} \]

3.3 Inference Process

Question Type Discriminator

直觀地,大多數“是/否”問題都可以通過回答“是”或“否”來回答。在測試階段不需要為“是/否”問題提供過多的候選答案。因此,我們提出了一個問題型別鑑別器(QTD)來確定問題型別,然後相應地設定不同數量的候選答案,記為\(N'\)。具體來說,我們粗略地將問題型別(包括“是/否”、“數字”和“其他”)分為是/否和非是/否。使用交叉熵損失訓練 GRU 二元分類器,並在每個資料集的訓練拆分上使用 5 折交叉驗證進行評估。然後,在測試階段,將訓練好的 QTD 模型以大約 97% 的準確率實現為離線模組。 我們將在下一節中進一步研究 N' 對每種問題型別的影響。

Final Prediction

在推理階段,我們在第\(i\)張圖片的所有候選\(C_i^*\)中選擇最好的密集字幕\(\widehat{C_i}\)​​​​。

\[\widehat{C_i}=argmax_{n\in N'}\sigma(Trm(I_i,C_i^n)) \]

對應於\(\widehat{C_i}\)的答案\(\widehat{A_i}\)是最終預測。

4 Experiment

4.1 Setting

Datasets

我們的模型在 VQA-CP v2(Agrawal et al., 2018) 資料集上進行了訓練和評估,該資料集是通過重新組織 VQA v2(Goyal et al., 2017) 訓練和驗證集而精心製作的,以便每個 問題類別(根據問題字首共 65個類別)在訓練集和測試集中有不同的分佈。因此,VQA-CP v2是評估 VQA 模型泛化性的自然選擇。VQA-CP v2 的問題包括 3 種類型:“是/否”、“數量”和“其他”。 請注意,問題型別和問題類別(例如“什麼顏色”)是不同的。此外,我們還在 VQA v2 驗證集上評估我們的模型的完整性,並將兩個資料集之間的準確性差異與標準 VQA 評估指標進行比較(Antolet al., 2015)。

Baselines

我們將我們的方法與以下基線方法進行比較:UpDn(Andersonet al., 2018)、AReg(Ramakrishnan et al., 2018)、RUBi(Cadene et al., 2019)、LMH(Clark et al., 2019)、RankVQA( Qiao et al., 2020)、SSL(Zhuet al., 2020)、CSS(Chen et al., 2020a)、CL(Lianget al., 2020) 和 LXMERT(Tan and Bansal, 2019)。其中大部分是設計的對於語言先驗問題,而 LXMERT 代表了使用具有最佳效能的類 BERT 預訓練模型(Li et al., 2019; Chen et al., 2020b; Li et al., 2020)的最新趨勢 在各種下游視覺和語言任務(包括 VQA-v2)上。 請注意,MUTANT(Gokhale 等人,2020 年)使用額外的物件名稱標籤來確定影象中的文字概念。 為了公平比較,我們不與 MUTANT進行比較。

4.2 Implementation Details

在本文中,我們主要選擇 SSL 作為我們的 CAS 並設定 N=12 和 N=20 進行訓練。 為了提取影象特徵,我們遵循之前的工作並使用預訓練的 Faster R-CNN 將每個影象編碼為一組具有 2048 維特徵向量的固定 36 個物件。 我們使用 LXMERT 的分詞器將每個密集字幕分割成單詞。 所有的問題都被修剪成相同的長度,分別為 15 或 18,分別用於 R 或 C 問答組合策略。 在 Answer Re-ranking模型中,我們分別將 SSL 和 LMH 兩種語言先驗方法結合到我們提出的框架 SAR 中,稱為 SAR+SSL 和 SAR+LMH。 我們的模型在兩個 TITAN RTX 24GB GPU 上訓練。 我們訓練 SAR+SSLfor 20 epochs,批大小為 32,SAR 和 SAR+LMH 訓練 10 epochs,批大小為 64。對於 SAR+SSL,我們遵循與原始論文相同的設定(Zhu et al., 2020),除了 在使用自監督損失對其進行微調之前,我們不需要使用 VQAloss 對模型進行預訓練。 採用 Adam 優化器,學習率為 1e-5。

對於問題型別鑑別器,我們使用 300 維 Glove(Pennington et al., 2014) 向量來初始化詞嵌入並將它們饋送到具有 128 個隱藏單元的單向 GRU。 在 VAQ-CP v2 上進行測試時,\(N'\)範圍為 1-2 對是/否問題和 5-15 對非是/否問題。在 VAQ v2 上進行測試時,\(N'\)範圍為 1-2 對是/否問題和 2-5對非是/否問題。

4.3 Results and Analysis

4.3.1Main Results

在兩個基準 VQA-CP-v2 和 VQA-v2 上的效能如下圖所示。我們分別報告了 SAR、SAR+SSL 和 SAR+LMH 在 3 個問答組合策略中的最佳結果。 “TopN-”表示候選答案(由 CAS 選擇)輸入 Answer Re-ranking 模組進行訓練。 我們的方法是用 N(12 和 20) 的兩種設定進行評估的。

從表中所示的 VQA-CP v2 上的結果,我們可以觀察到: (1) Top20-SAR+LMH 在 VQA-CP v2 上建立了 66.73% 的最新準確率,擊敗了之前表現最好的方法 CL 為 7.55%。 即使沒有在 Answer Re-ranking 模組中結合語言先驗方法,我們的模型 Top20-SAR 也優於 CL 6.26%。 這些顯示了我們提出的 SAR 框架的傑出有效性。 (2) SAR+SSL 和SAR+LMH 實現了比SSL 和LMH 更好的效能,這表明SAR 與當前的語言先驗方法相容並且可以充分發揮其潛力。 (3) 與另一個基於重排序的模型 RankVQA 相比,我們的方法將效能提升了 23.68%。這表明我們提出的漸進式選擇和重排序框架優於僅使用答案重排序的 RankVQA 作為輔助任務。 (4) 以前的模型不能很好地概括所有問題型別。 CL 在“是/否”、“Num”問題和“其他”問題上的 LXMERT 是之前最好的。 相比之下,我們的模型不僅在“是/否”問題上與之前的最佳模型相媲美,而且在“數字”和“其他”問題上的最佳效能提高了 12.45% 和 3.65%。 在所有問題型別上的卓越表現表明,我們的模型在真正全面的 VQA 模型方面取得了重大進展。

我們還在 VQA v2 上評估了我們的方法,該 VQA v2 被認為具有很強的語言偏差。 如上表所示,我們的方法在專門為克服語言先驗而設計的基線中達到了 70.63% 的最佳準確率,並且與 LXMERT 建立的 SOTA 最接近,後者是針對有偏見的資料集進行了明確的訓練。 為了完整性,兩個資料集之間的效能差距也在表格中與 Chen 等人 (2020a)的協議進行了比較。 與之前在 VQA v2 和 VQA-CP v2 之間出現嚴重效能下降的大多數模型(例如,LXMERT 中的 27.93%)相比,Top20-SAR+LMH 的效能下降顯著降低至 2.49%,這證明了我們的框架的有效性 進一步克服語言偏見。 雖然 CSS 實現了更好的效能差距,但它犧牲了 VQA v2 的效能。同時,隨著 N 從 12 增加到 20,我們的模型在兩個資料集上都實現了更好的準確性,同時效能差距更小。 這表明,與以前的方法不同,我們的方法可以減輕語言先驗,同時保持出色的回答問題能力。儘管如此,我們相信如何提高該模型的通用性進一步將語言優先性與回答問題之間的權衡轉化為雙贏的結果是未來一個很有前途的研究方向。

4.3.2 The Effect of N

從下圖 中,我們可以觀察到,隨著 N 的增加,整體效能越來越好。 “Num”和“Other”題的成績提升尤為明顯,“Yes/No”題的成績下降非常小。 我們相信通過適當增加N,SAR可以進一步獲得更好的效能。 由於資源限制,本文我們使用最大的N是20。

4.3.3 The Effect of Different CAS

為了找出 CAS 模型的潛在效能限制,我們在 VQA-CP v2 測試集上展示了 3 個 CAS 模型的準確性。 如圖所示,3個模型的Top3準確率(acc)約為70%,Top6 acc為80%,保證了CAS召回了足夠多的正確答案。因此,CAS的效能限制可以忽略不計。

我們還進行了實驗來研究不同 CAS 對 SAR 的影響。 從下表所示的結果中,我們可以觀察到:(1)選擇更好的 VQA 模型作為 CAS 並不能保證更好的效能,例如 效能基於UpDn 優於基於 LMH 的,但與 UpDn 相比,LMH 在克服語言優先順序方面是更好的 VQA 模型。 這是因為一個好的候選答案選擇器有兩個要求(a) 應該能夠回憶更多的正確答案。(b) 在語言偏見的情況下,CAS 在訓練時回憶的錯誤答案應該與問題具有儘可能強的表面相關性。 然而,整合方法,如 LMH,被訓練為更加關注那些沒有被純問題模型正確回答的樣本。 這嚴重降低了那些語言先驗錯誤答案的召回率,導致 VE 的訓練資料過於簡單,從而損害了模型降低語言先驗的能力。 (2)如果CAS是通用VQA模型UpDn而不是LMH和SSL,在Answer Re-ranking模組中結合語言先驗方法帶來的改進更加明顯。 (3) 即使我們選擇UpDn,一個當前大多數作品的骨幹模型,作為我們的CAS,並且不涉及任何語言先驗方法,SAR仍然比之前的SOTA模型CL獲得了2.53%的更好的準確率,這表明我們的 基礎框架已經具備了出色的減少語言先驗的能力。

4.3.4 The Effect of Question-Answer Combination Strategies

從表 3 所示的結果中,我們可以觀察到:(1)從總體結果來看,R→C 在三個模型上實現或競爭對手的最佳效能。 平均而言,R→C 優於 C 2.02%,這表明在訓練期間避免問題類別和答案的共現可以有效緩解語言先驗。R→C 優於 R 2.41%,這表明問題類別資訊在推理中很有用。(2) 在 SAR 和 SAR+SSL 上,C 始終優於 R,但在 SAR+LMH 上,我們看到相反的結果。 這可能是因為我們的方法和平衡資料方法 SSL 可以學習由問題類別和答案之間的表面相關性導致的正偏差,這有助於泛化,但基於整合的方法 LMH 會在去偏差過程中減弱正偏差。 (3) 即使沒有語言先驗方法,R→C 的 SAR 與 R 或 C 的 SAR+SSL 和 SAR+LMH 競爭或優於 SAR+LMH,這表明 R→C 策略可以幫助模型減輕語言先驗。 因此,與 R 或 C 相比,我們的 R→C 框架在使用相同的語言先驗方法後僅獲得了輕微的效能提升。

4.3.5 Ablation Study

“CAS+”代表我們使用select-and-rerank結構。從表4中我們可以發現:(1)LXM+SSL代表直接將SSL應用到LXMERT。 它的糟糕表現表明我們框架的主要貢獻不是來自語言先驗方法 SSL 和預訓練模型 LXMERT 的組合。 (2) 與 LXM 和 LXM+SSL 相比,CAS+LXM 和 CAS+LXM+SSL 分別獲得了 9.35% 和 6.32% 的顯著效能提升,這證明了我們提出的 select-and- 重新排序程式。 (3) CAS+LXM+QTD(R) 和 CAS+LXM+SSL+QTD(R) 分別優於 CAS+LXM(R) 和 CAS+LXM+SSL(R) 3.93% 和 2.71%, 其中顯示了 QTD 模組的貢獻。 這進一步表明,為不同的問題型別選擇合適的 \(N'\)​是提高模型效能的有用步驟.(4)CAS+LXM+SSL+QTD使CAS+LXM+QTD的效能提高了2.61%,可見當前的語言先驗方法非常適合我們的框架,並且可以進一步提高效能。

4.3.6 The Effect of \(N'\)

從下圖 中,我們可以發現: (1) 由於是/否問題的性質,是/否問題的 最佳\(N'\)小於非是/否問題的最佳\(N'\)。 (2)隨著\(N'\)的增加,“Num”和“Other”問題的準確率先上升後下降。這種現象背後有一個權衡:當\(N'\)太小時,正確答案可能不會被CAS召回; 當\(N'\)太大時,錯誤答案的干擾使模型更難選擇正確答案。

4.3.7 Qualitative Examples

我們定性地評估我們框架的有效性。 如下圖所示,與 SSL 相比,SAR 不僅在問答方面表現更好,而且在視覺接地方面表現更好。 藉助答案語義,SAR 可以關注與候選答案相關的區域,並進一步使用該區域來驗證其正確性。

5 Conclusion

在本文中,我們提出了一種基於 Visual Entailment 的選擇和重新排序 (SAR) 漸進式框架。 具體來說,我們首先選擇候選答案以縮小預測空間,然後通過視覺蘊涵任務對候選答案進行重新排序,該任務驗證影象是否 在語義上包含問題的綜合陳述和每個候選答案。 我們的框架可以充分利用影象、問題和候選答案的互動資訊。 此外,它是一個通用框架,可以很容易地與現有的 VQA 模型結合,進一步提升其能力。 我們通過廣泛的實驗和分析證明了我們的框架在 VQA-CP v2 資料集上的優勢。 我們的方法建立了一個新的最先進的準確度 66.73%,比以前的最佳準確度提高了 7.55%。