1. 程式人生 > 其它 >Beat the AI:Investigating Adversarial Human Annotation for Reading Comprehension論文閱讀筆記

Beat the AI:Investigating Adversarial Human Annotation for Reading Comprehension論文閱讀筆記

論文原文連結:[2002.00293] Beat the AI: Investigating Adversarial Human Annotation for Reading Comprehension (arxiv.org)

來源:TACL2020

使用到的資料集:SQuAD1.1、DROP、NaturalQuestions,以及自己構造的資料集

Abstract

註釋方法的創新已經成為閱讀理解 (RC) 資料集和模型的催化劑。挑戰當前RC 模型的一個趨勢是在註釋過程中使用模型:人類以對抗方式建立問題,使得模型無法正確回答這些問題。在這項工作中,我們研究了這種註釋方法並將其應用於三種不同的設定,在註釋迴圈中使用逐漸增強的模型(progressively stronger models)收集了總共 36,000 個樣本。這使我們能夠探索諸如對抗攻擊效果的可重複性、transfer from data collected with varying model-in-the-loop strengths以及generalization to data collected without a model等問題。我們發現對對抗性收集的樣本進行訓練會導致對非對抗性收集的資料集的強泛化,但隨著模型在迴圈中越來越強大,效能逐漸惡化。此外,我們發現更強的模型仍然可以從使用較弱模型在models-in-the-loop收集的資料集中學習。當在迴圈中使用 BiDAF 模型收集的資料進行訓練時,RoBERTa 在 SQuAD 上訓練時無法回答的問題上達到了 39.9F1——僅略低於使用 RoBERTa 本身收集的資料進行訓練時 (41.0F1)。

1.Introduction

資料收集是基於機器學習的自然語言處理 (NLP) 方法的基本先決條件。資料採集​​方法的創新,例如眾包,在可擴充套件性方面取得了重大突破,並在“深度學習革命”之前,對機器學習任務有重要的影響。註釋方法包括專家註釋例如依靠訓練有素的語言學家、非專家的眾包、遠端監督、以及利用文件結構。選擇的具體資料收集正規化決定了可擴充套件性的程度、註釋成本、精確的任務結構(通常是上述問題的折衷方案)和難度、領域覆蓋率,以及由此產生的資料集偏差和模型盲點。

NLP 資料集建立中最近出現的一個趨勢是在組成樣本時使用model-in-the-loop:現代模型用作過濾器或直接在註釋過程中使用,用於識別模型錯誤預測的樣本。 這種方法的示例在Build It Break It、

The Language Edition、HotpotQA、SWAG、Mechanical Turker Descent、DROP、CODAH、Quoref和 AdversarialNLI中都有使用(model-in-the-loop的思想最早可以追溯到2013年,但是最近廣為使用)。這種方法探測模型的穩健性並確保生成的資料集對當前模型構成挑戰,從而推動研究以解決新的問題。

我們在閱讀理解的背景下研究這種方法,並研究其面向不斷學習的模型時的魯棒性——對抗攻擊構建的資料集是否會隨著模型能力逐漸增強而很快變得過時失去作用?

基於在廣泛使用的 SQuAD 資料集上訓練的模型,並遵循相同的註釋協議,我們研究了註釋設定,其中註釋器必須編寫能讓模型預測錯誤答案的問題。 因此,只有模型未能正確預測的樣本才會保留在資料集中——示例見圖 1。

圖一:迴圈中帶有模型的人工註釋,顯示:i) “Beat the AI”註釋設定,其中僅接受模型未正確回答的問題,ii) 以這種方式生成的問題,註釋迴圈中的模型逐漸增強。

我們將此註釋策略應用於迴圈中的三個不同模型,每個產生具有 12,000 個樣本的資料集。然後,我們研究了使用相同資料重新訓練模型時對抗效應的再現性,以及使用有和沒有對抗模型生成的資料集訓練的模型的泛化能力。模型可以在相當大的程度上學習泛化到更具挑戰性的問題,基於迴圈中的強模型或是弱模型收集的訓練集都成立。與 SQuAD資料集上的訓練相比,在對抗收集問題產生的資料集上的訓練在 SQuAD 和 NaturalQuestions 的非對抗性書面問題的泛化程度相似。此外,它還導致我們收集的model-in-the-loop資料集的總體改進,BERT 和 RoBERTa 在 DROP(另一個基於對抗性構造的資料集) 的提取子集上的改進超過 20.0 F1。在對不同模型無法正確回答的具體問題和非對抗性組成的問題時進行系統分析時,我們看到由此產生的問題的性質發生了變化:由迴圈中的模型構造的問題總體上更加多樣化,使用更多的釋義、多跳推理、比較和背景知識,並且通常不太容易通過從字面上匹配所需資訊的明確陳述來回答。鑑於我們的觀察,我們相信model-in-the-loop註釋方法顯示出前景,並且在建立未來的 RC 資料集時應予以考慮。

總而言之,我們的貢獻如下:首先,基於三個逐漸強大的模型對 RC 資料收集的model-in-the-loop方法進行調查,以及在由不同強度的對抗構建的資料集上訓練時的經驗效能比較 . 其次,對由一系列逐漸強大的模型組成的無法解決的問題的性質進行比較研究。 第三,研究對抗效果的可重複性和在各種環境設定中訓練的模型的泛化能力。

2. Related Work

構建有挑戰性的資料集

最近在資料集構建方面的努力推動RC(reading comprehension閱讀理解)取得了相當大的進步,但資料集結構多樣,註釋方法也各不相同。 SQuAD1.1因其龐大的規模和自由形式的問題、篇章抽取型的答案,已成為一個既定的基準,它激發了一系列類似結構的資料集構建。然而,越來越多的證據表明,模型僅僅依靠表面線索就可以實現強大的泛化效能——例如詞彙重疊、術語頻率或實體型別匹配。因此,構建模型認為具有挑戰性的資料集已成為越來越重要的考慮因素,而且自然語言理解是泛化的必要條件。實現這一重要目標的嘗試通常圍繞對 SQuAD 資料集註釋方法的擴充套件展開。它們包括無法回答的問題,添加了“是”或“否”答案選項,需要對多個句子或文件進行推理的問題 ,需要規則解釋或上下文意識的問題,先通過尋找問題來限制註釋器段落的曝光(limiting annotator passage exposure by sourcing questions first),通過包含日期、數字或問題範圍的選項來控制答案型別,以及具有自由形式答案的問題。

對抗性註釋

最近採用的一種構建具有挑戰性的資料集的方法涉及使用對抗模型來選擇它表現不佳的示例,這種方法從表面上看類似於主動學習。在這裡,我們區分了對抗性註釋的兩個子類:i)對抗性過濾,其中對抗性模型作為一個單獨階段應用,通常在資料生成之後,示例包括 SWAG、ReCoRD、HotpotQA和 HellaSWAG; ii)model-in-the-loop對抗性註釋,其中註釋器可以在註釋過程中直接與對抗模型互動,並使用反饋進一步調整生成過程;示例包括 CODAH、Quoref、DROP、FEVER2.0、AdversarialNLI、以及用於 Quizbowl 任務的工作。

我們主要對後一類(model-in-the-loop對抗性註釋)感興趣,因為這個反饋迴圈創造了一個環境,在這個環境中,註釋器可以直接調整模型以探索其弱點並制定有針對性的對抗性攻擊。 儘管之前也有研究對 RC 使用對抗性註釋,但他們的註釋設定都限制了model-in-the-loop的範圍:在 DROP 中,主要是由於強加了特定的答案型別,而在 Quoref 中,則側重於共指問題,共指問題已經是一個已知的 RC 模型弱點。

相比之下,我們研究了一個場景,其中註釋器在其原始任務設定中與模型互動——因此,註釋器必須探索一系列自然對抗性攻擊,而不是在註釋過程中過濾掉“簡單”的樣本。

3. Annotation Methodology

3.1 註釋原則

資料標註協議基於SQuAD1.1,迴圈中有一個模型,額外說明一下問題應該在文章中只有一個答案,這直接反映了這些模型的訓練環境。

形式上,提供段落 p,人類註釋者生成問題 q 並突出顯示由段落中的相應跨度得到的(人類)答案ah。 然後將輸入 (p,q) 提供給模型,該模型返回預測的(模型)答案 am。 為了比較兩者,計算 ah 和 am之間的詞重疊指數 F1; F1高於閾值為40%的被認為是模型的“勝利”(閾值的設定基於預實驗)。重複此過程,直到人類“獲勝”; 圖 2 給出了該過程的示意圖。 然後保留所有人類成功的 (p,q,ah) 三元組,即模型無法正確回答的三元組,以供進一步驗證。

圖2:使用model-in-the-loop收集人類寫的對抗性書面問題的註釋過程概述。

3.2 註釋細節

迴圈過程中的模型

我們首先訓練三個不同的模型,它們在資料註釋期間用作對抗模型。作為用於訓練模型的種子資料集,我們選擇了廣泛使用的 SQuAD1.1資料集,這是一個大規模資源,各種成熟且效能良好的模型隨時可用。此外,與基於完形填空的資料集不同,SQuAD 對僅通過/問題的對抗性攻擊具有魯棒性。我們將資料集註釋與一系列三個逐漸增強的模型作為迴圈中的對抗模型進行比較,三個模型即 BiDAF、BERTLARGE和 RoBERTaLARGE。這些中的每一個都將在單獨的註釋實驗中充當對抗模型,併產生三個不同的資料集;我們將它們分別稱為 DBiDAF、DBERT 和 DRoBERTa。每個驗證集的示例如表 1 所示。我們依賴於 AllenNLP和 Transformers模型實現,我們的BiDAF、BERT 和 RoBERTa 在 SQuAD1.1 驗證集上分別為65.5%/77.5%、82.7%/90.3% 和 86.9%/93.6%,與其他工作報告的結果一致。

(表格1見原文第5頁)

我們對模型的選擇既反映了從基於 LSTM 的模型過渡到基於預訓練Transformer 的模型,也反映了後者的提升; 我們的研究註釋迴圈中使用這些不同模型收集的資料集也反映這一點。 對於每個模型,我們收集 10,000 個訓練資料、1,000 個驗證資料和 1,000 個測試示例。 資料集的大小受到基於 Transformer 的預訓練模型的資料效率的推動,這提高了用於調查和分析目的的小規模資料收集工作的可行性。

為了記錄held-out測試集的所有結果來確保實驗完整性,我們將現有的 SQuAD1.1 驗證集(因為官方測試集不公開)分成兩半(按文件標題分層)。 我們在所有資料集的訓練、驗證和測試集之間保持段落一致性,以實現同類比較。 最後,我們使用多數投票的答案作為 資料集的ground truth,以確保我們的所有資料集每個問題都有一個有效答案,使我們能夠公平地進行直接比較。 為清楚起見,我們在下文中將 SQuAD1.1 的這個修改版本稱為 DSQuAD

Crowdsourcing眾籌

我們使用通過 Amazon Mechanical Turk (AMT) 提供的定製設計的Human Intelligence Tasks (HIT) 進行所有註釋工作。 員工必須在加拿大、英國或美國工作,HIT 批准率大於 98%,並且之前已成功完成至少 1,000 個 HIT。 我們在有和沒有 AMT Master要求的情況下進行了實驗,發現質量沒有顯著差異,但觀察到吞吐量降低了近 90%。 我們為每個問題生成 HIT 支付 2.00 美元,在此期間,工作人員需要編寫最多五個問題來“擊敗”迴圈中的模型(參見圖 3)。 BiDAF、BERT 和 RoBERTa 的平均 HIT 完成時間為 551.8s、722.4s 和 686.4s。 此外,我們發現人類工作者能夠生成問題,在 BiDAF 的 59.4% 的時間內成功“擊敗”迴圈中的模型,BERT 為 47.1%,RoBERTa 為 44.0%。 這些指標廣泛地反映了模型的相對能力。

圖3:“Beat the AI”問題生成介面。人類標註者的任務是根據提供的文段提出使模型無法正確回答的問題。

3.3 Quality Control

Training and Qualification

我們提供了一個由兩部分組成的工作人員培訓介面,以便 i) 讓工作人員熟悉流程,以及 ii) 根據工作人員的產出進行第一次篩選。 該介面使工作人員熟悉構造問題,並通過篇章抽取來回答這些問題。 工作人員被要求為兩個給定的答案生成問題,突出顯示兩個給定問題的答案,生成一個完整的問答對,最後以 BiDAF 作為迴圈中的模型完成一個問題生成 HIT的過程。 然後(由作者)手動審查每個工作人員的輸出; 通過篩選的人將被新增到合格的註釋者池中。

Manual Worker Validation

在第二個註釋階段,合格的工作人員為“Beat the AI”問題生成任務生成資料。 每個工作人員生成的 HIT 樣本需要根據他們完成的任務總數 n 手動審查的,由 ⌊5⋅log10(n)+1⌋⁠ 確定,該函式是為了方便而選擇。 這是在每個annotation batch之後完成的; 如果工作人員在任何時候低於 80% 的成功閾值,他們的資格將被撤銷,他們的工作將被完全丟棄。

Question Answerability

隨著註釋任務中使用的模型變得更強大,由此產生的問題往往變得更加複雜。然而,這也意味著將資料集質量的度量與原有的問題難度分開變得更具挑戰性。因此,我們對帶註釋的問答對加入人類可回答性的考量,如下所示:如果三個另外的非專家人類驗證者中的至少一個可以提供與原始答案匹配的答案,則它是可回答的。我們對驗證集和測試集進行了可回答性檢查,DBiDAF、DBERT 和 DRoBERTa 的可回答性得分分別為 87.95%、85.41% 和 82.63%。我們從驗證和測試集中丟棄所有被認為無法回答的問題,並進一步丟棄來自任何被認為可以回答的問題少於一半的工人的所有資料。應該強調的是,這個過程的主要目的是為不同對抗模型構建的資料集之間的比較創造一個公平的競爭環境,並且不可避免地導致有效問題被丟棄。工作人員的培訓和資格認證、資料集構建和驗證的總成本約為 27,000 美元。

Human Performance

我們隨機選擇一個驗證者對每個問題的回答來計算與原始的精確匹配 (EM) 和單詞重疊 F1 指數,以計算非專家人類的表現; 結果如表2所示。 我們觀察到一個明顯的趨勢:用於構建資料集的model-in-the-loop中的模型越強,由此產生的問題對人類來說就越難。

表2:隨機選擇的非專家人類在資料集上的表現。

3.4 Data Statistics

表 3 提供了不同資料集拆分中使用的段落和問答對數量的一般詳細資訊。 問題和答案中的平均單詞數,以及段落和問題之間平均最長的 n-gram 重疊如表 4 所示。

我們可以再次觀察到兩個明顯的趨勢:註釋迴圈中使用的模型從弱到強,答案的平均長度增加,最大的 n-gram 重疊從 3 個標記下降到 2 個標記。 也就是說,平均而言,DSQuAD 的段落和問題之間有一個三元組重疊,但 DRoBERTa 只有一個二元組重疊(圖 4)。 這與先前發現的可以作為 SQuAD 中的預測線索的對詞彙重疊的觀察一致; 對於三個模型中的任何一個,重疊較少的問題都更難回答。

圖4:不同資料集段落和問題之間最長的n-gram重疊分佈。μ表示均值,σ表示標準差。

我們進一步根據以wh-word開頭的問題分析問題型別。 我們發現——與 DSQuAD 相比——在註釋迴圈中使用模型收集的資料集中when、how和in問題較少,而更多的是which、where和why問題,以及other類別中的問題,這表明問題的多樣性增加。 在答案型別方面,我們觀察到比 DSQuAD 中更常見的名詞和動詞短語從句,以及更少的日期、名字和數字答案。 這反映了當代 RC 模型強大的答案型別匹配能力。 此分析中使用的訓練和驗證集(⁠DBiDAF⁠、DBERT⁠ 和 DRoBERTa⁠)將公開發布。

4. Experiments

4.1 Consistency of the Model in the Loop

我們從一個關於註釋迴圈中模型對抗性的穩定一致性的實驗開始。 我們的註釋管道旨在拒絕模型正確預測答案的所有樣本。 使用相同的訓練資料重新訓練模型時,這種重現性如何? 為了衡量這一點,我們評估了 BiDAF、BERT 和 RoBERTa 的效能,它們與註釋期間使用的模型僅在訓練期間的隨機初始化和小批量樣本的順序(order of mini-batch samples)上有所不同。 這些結果如表 5 所示。

表5:當用相同的資料和不同的隨機數種子再次訓練模型時對抗效果的穩定一致性,我們記錄了10次不同初始化執行的平均值和標準差(在下標)。

首先,我們觀察到:正如我們的註釋約束所預期的那樣,在註釋迴圈中使用相同的相應模型建立的資料集上的模型效能為 0.0EM。 然而,我們觀察到,重新訓練的模型在這些樣本上的表現並不可靠。 例如,BERT 達到了 19.7EM,而註釋期間使用的原始模型沒有提供正確答案是0.0EM。 這表明隨機模型元件可以顯著影響對抗性註釋過程。 這個結果還可以作為後續模型評估的基線:僅通過重新訓練相同的模型就可以學習到大部分效能範圍。 正如 Grefenstette 等人所調查的那樣,未來使用model-in-the-loop註釋策略的一個可能的收穫是依賴於對抗模型的ensemble並減少對一個特定模型例項的依賴。

4.2 Adversarial Generalization

關注具有挑戰性的問題的一個潛在問題是它們可能彼此非常不同,導致難以learning to generalize to and from them。 我們進行了一系列實驗,在這些實驗中我們在 DBiDAF、DBERT 和 DRoBERTa 進行了訓練,並觀察模型如何能夠很好地學習泛化到這些資料集的各個測試部分。 表6顯示了結果,並且有大量的觀察結果。

(表6見原文第8頁)

首先,我們在所有訓練資料設定中觀察到的一個明顯趨勢是,當針對迴圈中使用更強模型構建的資料集進行評估時,效能會出現負增長。 除了 BiDAF 模型之外,這種趨勢適用於每個訓練配置和每個評估資料集。 例如,在 DRoBERTa 上訓練的 RoBERTa 分別在 DSQuAD、DBiDAF、DBERT 和 DRoBERTa 上進行評估時達到 72.1、57.1、49.5 和 41.0F1。

其次,我們觀察到 BiDAF 模型不能很好地泛化到由迴圈中的模型構建的資料集,這與其訓練設定無關。 特別是,它無法從DBiDAF中學習,因此無法通過對抗性訓練克服自己的一些盲點。 無論訓練資料集如何,BiDAF 在對抗性收集的評估資料集上始終表現不佳,我們還注意到在 DBiDAF、DBERT 或 DRoBERTa 上訓練並在 DSQuAD 上評估時效能大幅下降(根據上下文,應該只是BiDAF資料集)。

相比之下,BERT 和 RoBERTa 能夠通過對迴圈中模型收集的資料進行訓練來部分克服它們的盲點,其程度遠遠超過隨機再訓練的預期(參見表 5)。 例如,在 DBERT 上訓練和評估時,BERT 達到 47.9F1,而在 DRoBERTa 上訓練的 RoBERTa 在 DRoBERTa 上達到 41.0F1,都比隨機再訓練或在非對抗性收集的 DSQuAD(10K) 上訓練好得多,漲幅顯示BERT為 20.6F1,RoBERTa 為 18.9F1。 這些觀察結果表明,在一些更難的問題中存在可學習的結構,某些模型可以選擇出這些問題,但並非全部都這樣,因為 BiDAF 無法實現這一點。 與 BERT 和 RoBERTa 相比,即使是 BERT 也可以泛化推廣到 DRoBERTa,但 BiDAF 不能泛化推廣到 DBERT,這表明 BiDAF 可以從這些新樣本中學到的東西存在固有的侷限性。

更一般地說,我們觀察到在 DS 上的訓練,其中 S 是一個更強的 RC 模型,有助於泛化推廣到 DW,其中 W 是一個較弱的模型——例如,在 DRoBERTa 上訓練和在 DBERT 上測試。 另一方面,在DW上訓練會導致對 DS 的泛化。 例如,在 10,000 個 SQuAD 樣本上訓練的 RoBERTa 在 DRoBERTa (⁠DS⁠) 上達到 22.1F1,而在 DBiDAF 和 DBERT (⁠DW⁠) 上訓練的 RoBERTa 將這個數字分別提高到 39.9F1 和 38.8F1。

第三,當使用迴圈中越來越強大的模型收集的資料進行訓練時,我們在 DSQuAD 上觀察到 BERT 和 RoBERTa 相似的效能下降模式。 例如,在 DSQuAD 上評估的 RoBERTa 分別在 DSQuAD(10K)、DBiDAF、DBERT 和 DRoBERTa 上訓練時達到 82.8、80.0、75.1 和 72.1的F1。 這可能表明隨著迴圈中的模型變得更強大,組合問題的分佈逐漸發生變化。

這些觀察結果表明model-in-the-loop註釋正規化的一個令人鼓舞的結論:即使可能會選擇在某些時候落後於最新的最先進模型的特定模型作為註釋迴圈中的對抗模型 ,這些未來的模型仍然可以從使用較弱模型收集的資料中受益,並且還可以在迴圈中由較強模型組成的樣本上更好地泛化。

我們進一步展示了相同模型和訓練資料集上的實驗結果,但現在將 SQuAD 作為額外的訓練資料包含在表 7 中。在此訓練設定中,我們通常看到越來越強的在 DBiDAF、DBERT 和 DRoBERTa 上的泛化。 有趣的是,當與 SQuAD 結合使用時訓練集 DBiDAF、DBERT 和 DRoBERTa 之間的相對差異大大減少,尤其是在作為(部分)訓練集的 DRoBERTa上訓練的現在泛化得更好。 我們看到 BERT 和 RoBERTa 在新增原始 SQuAD1.1 訓練資料後都表現出一致的效能提升,但與表 6 不同的是,這在 DSQuAD 上沒有任何明顯的效能下降,表明對抗性構建的資料集暴露了原有模型的弱點。

(表7見原文第9頁)

此外,RoBERTa 在對抗性收集的評估集上取得了最強的結果,尤其是在 DSQuAD+DRoBERTa 上訓練時。 這與表 6 中的結果形成對比,表 6 中的 DBiDAF 訓練在幾種情況下比 DRoBERTa 訓練產生更好的泛化效果。 一種可能的解釋是,在 DRoBERTa 上的訓練比在 DBiDAF 上的訓練使得對 DRoBERTa 中特定對抗性示例的過擬合程度更大,並且包含大量標準 SQuAD 訓練樣本可以減輕這種影響。

表8顯示了在所有資料集上訓練的結果(DSQuAD、DBiDAF、DBERT 和 DRoBERTa)。這些結果不僅與之前的觀察相符,而且提供了額外的效能提升。例如,RoBERTa在DSQuAD得分為 86.9,DBiDAF 得分為 74.1,DBERT 得分為 65.1,DRoBERTa 得分為 52.7,超過了之前在所有對抗性資料集上的最佳表現。

表8:在SQuAD 與所有對抗性建立的資料集 DBiDAF、DBERT 和 DRoBERTa 相結合的資料集上訓練模型。 下劃線的結果表示每個模型的最佳結果。 我們報告了使用不同隨機種子執行 10 次的平均值和標準差(下標)。

最後,我們確定了迴圈中使用較弱模型構建的資料集過時的風險。 例如,RoBERTa 在 DBiDAF 上達到 58.2EM/73.2F1,而 BiDAF 為 0.0EM/5.5F1——這與 62.6EM/78.5F1 的非專家人類表現相去不遠(參見表 2)。

值得注意的是,即使在對所有組合資料進行訓練時(參見表 8),BERT 在 DRoBERTa 上的表現也優於 RoBERTa,反之亦然,這表明每個模型類可能存在固有的弱點。

4.3 Generalization to Non-Adversarial Data

與標準註釋相比,model-in-the-loop方法通常會產生新的問題分佈。 因此,在對抗性問題上訓練的模型可能無法推廣到標準(“easy”)問題,從而限制了結果資料的實際用途。 與在標準(“easy”)問題上訓練的模型相比,在model-in-the-loop問題上訓練的模型在多大程度上不同於標準(“easy”)問題?

為了衡量這一點,我們進一步在 DBiDAF、DBERT 或 DRoBERTa 上訓練我們的三個模型中的每一個,並在 DSQuAD 上進行測試,結果在表 6 的 DSQuAD 列中。為了進行比較,這些模型也在SQuAD1.1資料集中10,000從與對抗性資料集相同的段落中選擇的樣本(稱為 DSQuAD(10K)⁠)上進行了訓練,從而消除了作為潛在混淆因素的資料集規模大小和段落選擇。 這些模型在held-out的 DSQuAD 驗證集上針對 EM 進行了微調。 請注意,儘管多數投票 DSQuAD 資料集的效能值低於原始資料,但由於前面描述的原因,這可以在所有資料集上直接比較。

值得注意的是,與在 SQuAD 資料上訓練相比,在 DBiDAF 上訓練時 BERT 和 RoBERTa 都沒有顯著下降(-2.1F1 和 -2.8F1):在迴圈中使用較弱模型的資料集訓練這些模型仍然導致強泛化,即使是與來自原始 SQuAD 分佈的迴圈中的所有模型都對其進行訓練的資料相比。 另一方面,BiDAF 無法從對抗性收集的資料中學習到此類資訊,與 SQuAD 上的訓練相比,每個新訓練集都下降了大於30F1。

我們還觀察到,在 DBiDAF 上訓練到 DRoBERTa 上訓練時,對 SQuAD 的泛化逐漸降低。 這表明模型越強,產生結果資料分佈與原始 SQuAD 分佈的差異越大。 我們後來在定性分析中找到了對這種解釋的進一步支援(第 5 節)。 然而,這也可能是由於 BERT 和 RoBERTa(類似於 BiDAF)在從旨在擊敗這些模型的資料分佈中學習時存在侷限性; 更強大的模型可能會從例如 DRoBERTa 中學到更多。

4.4 Generalization to DROP and NaturalQuestions

最後,我們調查模型可以在多大程度上將使用model-in-the-loop建立的資料集上學到的技能轉移到兩個最近引入的資料集:DROP和 NaturalQuestions。在本實驗中,我們選擇與 SQuAD 的結構約束一致的 DROP 和 NaturalQuestions 子集,以確保進行同類分析。具體來說,我們只在 DROP 中考慮答案是段落中的一個跨度並且只有一個候選答案的問題。對於 NaturalQuestions,我們將所有非表格長答案視為段落,刪除 HTML 標籤並使用簡短答案作為提取的跨度。我們對兩個資料集的驗證集應用此過濾措施。接下來,我們將它們分開,按文件分層(就像我們對 DSQuAD 所做的那樣),這導致 DROP 的驗證和測試集示例分別為 1409/1418 ,NaturalQuestions 的驗證和測試集示例分別為964/982。我們將這些資料集表示為 DDROP 和 DNQ,以便與未過濾版本的區別。我們考慮與以前相同的模型和訓練資料集,但會在 DDROP 和 DNQ 的驗證集上進行微調。表 6 顯示了這些實驗在 DDROP 和 DNQ資料集中的結果。

首先,在 DBiDAF、DBERT 或 DRoBERTa 中的任何一個上進行訓練時,與 DSQuAD(10K) 上的訓練相比,我們觀察到所有模型對 DDROP有明顯泛化效能提升。 也就是說,在訓練資料集的迴圈中包含一個模型可以改善向 DDROP 的知識轉移。 請注意,DROP 在註釋期間也在迴圈中使用了 BiDAF 模型; 這些結果與我們之前在 DSQuAD(10K)上訓練在 DBiDAF、DBERT 和 DRoBERTa 上相同設定測試時的觀察結果一致。

其次,我們觀察到對 DNQ整體強大的轉移效果,在 DBiDAF 上訓練的 BERT 模型高達 69.8的F1。 請注意,此結果類似於使用相同大小的 SQuAD 資料進行模型訓練,甚至略有改進。 也就是說,相對於對 SQuAD 資料的訓練,對對抗收集的資料 DBiDAF 的訓練不會妨礙對 DNQ 資料集的泛化,DNQ是在註釋迴圈中沒有模型的情況下建立的。 然而,我們隨後在 DSQuAD 上測試時看到了與之前觀察到的類似的負面性能進展:構造訓練資料集時註釋迴圈中的模型越強,來自沒有model-in-the-loop的資料分佈組成的測試資料的測試準確度就越低。

5. Qualitative Analysis

在將通用model-in-the-loop方法應用於不同能力的模型後,我們接下來對產生問題的性質進行定性比較。 作為參考點,我們還包括原始 SQuAD 問題,以及 DROP 和 NaturalQuestions問題,在此比較中:這些資料集的構建都是為了克服 SQuAD 中的限制,並且具有與 SQuAD 結構相似的子集,使分析成為可能。 具體來說,我們試圖瞭解每個資料集中的問題在閱讀理解挑戰方面的本質差異。

5.1 Comprehension Requirements

有多種先前的工作試圖瞭解基於文本回答問題所需的知識型別、理解能力或推理型別; 然而,我們不知道有任何普遍接受的形式主義。 我們從這些中汲取靈感,但開發了我們自己的適合分析資料集的理解要求分類法。 我們的分類法包含 13 個標籤,其中大部分在其他工作中常用。 然而,以下三點值得進一步澄清:i)明確的——答案在文章中幾乎是逐字逐句地陳述的,就像在問題中一樣,ii)過濾——一組答案以某些特定的顯著特徵被縮小以選擇一個答案,iii) 隱含的——答案建立在文章所暗示的資訊之上,並且不需要任何其他型別的推理。

我們用這個目錄中的標籤以一種既不相互排斥也不完全全面的方式對問題進行註釋; 開發這樣一個目錄本身就非常具有挑戰性。 相反,我們專注於捕捉每個給定問題的最顯著特徵,並將其分配給我們目錄中的三個標籤。 我們總共分析了每個資料集驗證集中的 100 個樣本; 圖 5 顯示了結果。

圖5:不同資料集中問題的理解型別比較。 標籤型別既不相互排斥也不全面。 列上方的值表示超出軸範圍。

5.2 Observations

初步觀察結果是,SQuAD 問題的大多數 (57%) 答案都是明確陳述的,沒有超出字面水平的理解要求。對於從 SQuAD 派生的任何model-in-the-loop資料集這個數字都顯著下降(例如,DBiDAF 的 8%和),DDROP 的任何model-in-the-loop資料集也下降,但 DNQ 中 42% 的問題共享此屬性)。與 SQuAD 相比,model-in-the-loop問題通常會涉及更多的釋義。它們還需要更多的外部知識和多跳推理(超出co-reference resolution),並且越來越傾向於在註釋迴圈中使用更強大的模型。Model-in-the-loop問題進一步擴充套件為理解所需的更具體型別推理的各種小但不可忽略的比例,例如,空間或時間推理(均超出明確說明的空間或時間資訊) ——SQuAD 問題很少需要這些。這些更特殊的推理型別中的一些是其他兩個資料集的共同特徵,特別是 DROP (60%) 的比較問題,NaturalQuestions在小範圍內也是 。有趣的是,DBiDAF 在我們的model-in*the-loop資料集中擁有最多的比較問題 (11%),而 DBERT 和 DRoBERTa 分別只有 1% 和 3%。這為我們之前在表 6 中的觀察提供瞭解釋,其中 BERT 和 RoBERTa 在 DBiDAF 上訓練時在 DDROP 上的表現比在 DBERT 或 DRoBERTa 上訓練時表現更好。 BiDAF 作為迴圈中的模型很可能在比較問題上比 BERT 和 RoBERTa 差,如表 6 中的結果所示,在 DSQuAD(10K) 上訓練時,BiDAF 達到 8.6F1,BERT 達到 28.9F1,RoBERTa 在 DDROP 上達到 39.4F1。

NaturalQuestions 的分佈包含 SQuAD 和 DBiDAF中分佈的元素,這為在 DSQuAD(10K) 和 DBiDAF 上訓練的模型在 DNQ 上的強大效能提供了一個潛在的解釋。 最後,隨著model-in-the-loop中模型強度的增加,分佈逐漸遠離 SQuAD 和 NaturalQuestions 反映了我們之前對在迴圈中模型逐漸增強的資料集上訓練的模型在 SQuAD 和 NaturalQuestions 上的效能下降的觀察。

6. Discussion and Conclusions

我們研究了一個 RC 註釋正規化,它要求迴圈中的模型被註釋器“擊敗”。 將此方法與迴圈中逐漸增強的模型(BiDAF、BERT 和 RoBERTa)一起應用,我們生成了三個獨立的資料集。 使用這些資料集,我們研究了關於註釋正規化的幾個問題,特別是這些資料集是否隨著更強模型的出現而變得過時,以及它們對標準(非對抗性收集)問題的泛化。 我們發現,更強的模型仍然可以從迴圈中弱對抗模型收集的資料中學習,即使在由更強對抗模型收集的資料集上,它們的泛化能力也有所提高。 使用迴圈中的模型收集的資料訓練的模型進一步泛化到非對抗性收集的資料,無論是在 SQuAD 上還是在 NaturalQuestions 上,但我們觀察到隨著對抗模型逐漸強大,效能逐漸下降。

我們將我們的工作視為對model-in-the-loop註釋的新興正規化的貢獻。儘管本文關注的是 RC,使用 SQuAD 作為用於訓練對抗模型的原始資料集,我們從原則上看不出為什麼使用相同註釋正規化的其他任務的結果不相似,當使用模型中的模型眾包具有挑戰性的樣本時環形。我們希望傳達model-in*the-loop註釋的見解和好處在模型超過人類效能的成熟資料集上是最大的:這裡的結果資料提供了模型效能的放大鏡,尤其是使模型錯誤的樣本在。另一方面,將該方法應用於效能尚未穩定的資料集可能會導致與原始資料更相似的分佈,這對先驗建模具有挑戰性。我們希望關於可複製性的一系列實驗、對使用不同強度模型收集的資料集之間轉移的觀察,以及我們對非對抗性收集的資料的泛化的發現,可以支援併為使用這種正規化的未來研究和註釋工作提供資訊。