1. 程式人生 > 其它 >論文-PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks

論文-PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks

論文地址:https://arxiv.org/abs/2202.12499

程式碼地址:https://github.com/GaryYufei/PromDA

 

0.摘要

  本文主要研究低資源自然語言理解(NLU)任務的資料擴充。我們提出了基於Prompt的資料增強模型(PromDA),該模型僅在凍結的預訓練語言模型(PLMs)中訓練小規模的軟提示(即一組可訓練向量)。這避免了人工收集未標記的in-domain資料,並保持了生成的合成數據的質量。此外,PromDA通過兩種不同的檢視生成合成資料,並使用NLU模型過濾掉低質量的資料。在四個基準上的實驗表明,PromDA生成的合成數據成功地提高了NLU模型的效能,這些模型的效能始終優於幾個競爭性基線模型,包括使用未標記領域內資料的最先進的半監督模型。PromDA的合成數據也與未標記的域內資料互補。當NLU模型結合起來進行訓練時,可以進一步改進它們。

 

 

1.引言

  深度神經網路通常需要大規模高質量的標記訓練資料來實現最先進的效能(Bowman等人,2015)。然而,在許多情況下,構建標記資料可能具有挑戰性(Feng等人,2021年)。在本文中,我們研究了低資源自然語言理解(NLU)任務,包括句子分類和序列標記任務,其中只有少量標記資料可用。以前的工作通常會產生額外的標記資料,供NLU模型學習。

  Wang et al.(2021a)部署了自訓練框架,以從未標記的域內資料中生成偽標記的訓練資料,這可能需要昂貴的獲取成本。徐等人(2021年)研究表明,從通用語料庫中提取特定領域(域內)的未標記資料並非易事。魏和鄒(2019);Dai和Adel(2020)使用自動啟發式規則(如隨機同義詞替換)擴充套件了原始的小訓練資料,有效地建立了新的訓練例項。然而,這些過程可能會扭曲文字,使生成的語法資料在語法和語義上都不正確。

  為了解決上述困境,許多現有的研究(丁等人,2020年;楊等人,2020年;阿納比塔沃等人,2020年)都求助於在低資源環境下應用語言模型(LMs)或預先訓練的語言模型(PLM)進行資料擴充。給定標記的資料,可以直接微調PLM以生成新的合成數據,而無需額外的人力。然而,我們認為,在低資源NLU任務中,使用較小的訓練資料(尤其是當樣本少於100個時)直接微調PLM的所有引數可能會導致過度擬合,PLM只會記住訓練例項。因此,生成的合成數據可能與原始訓練例項非常相似,無法向NLU模型提供新的訓練訊號。最近,一些作品(李斯特等人,2021;李和樑,2021)提出了快速調整,它只向後傳播錯誤到軟提示上(軟提示即一個連續的向量序列的PLMS的輸入)【凍結其他引數,只調整軟提示?】,而不是整個模型。它們表明,快速調整足以與全模型調整競爭,同時顯著減少要調整的引數數量。因此,快速調整非常適合解決上述低資源生成性微調中的過擬合問題,在保證生成質量的前提下,相對於小標記資料生成更多新樣本。

  基於此,我們提出了基於提示的資料擴充模型(PromDA)。具體來說,我們凍結了整個預先訓練的模型,只允許在微調小的標記訓練資料時調整額外的軟提示。此外,我們還觀察到,軟提示的初始化對微調有重大影響,尤其是在資源不足的情況下達到極端程度時。為了更好地初始化資料擴充任務的提示引數,我們提出了“任務不可知同義詞關鍵字語句task-agnostic Synonym Keyword to Sentence”預訓練任務,直接在預訓練語料庫上pre-train PLMs的提示引數。

  此任務模擬從部分片段資訊(例如關鍵字)生成整個訓練樣本的過程。與之前的工作(丁等人,2020年;楊等人,2020年;阿納比·塔弗等人,2020年)類似,我們可以微調PLM,以根據輸出標籤生成完整的合成數據。我們稱之為輸出檢視生成Output View Generation。

  為了提高生成樣本的多樣性,我們引入了另一個微調生成任務“輸入檢視生成Input View Generation”,該任務將從樣本中提取的關鍵字作為輸入,將樣本作為輸出。

  由於從小訓練資料訓練的NLG模型仍然有一定的機會生成低質量樣本,我們利用NLU一致性過濾(Anaby Tavor等人,2020)來過濾生成的樣本。

  我們在四個基準上進行了實驗:序列標記任務CoNLL03(Tjong Kim Sang and De Meulder,2003)和Wikiann(Pan等人,2017),句子分類任務SST-2(Socher等人,2013)和RT(Pang and Lee,2005)。實驗結果表明,基於PromDA合成數據訓練的NLU模型在序列標記任務上始終優於幾種競爭性基線模型,包括最先進的半監督NLU模型MetaST(Wang等人,2021a)。此外,我們發現PromDA的合成數據與未標記的域內資料也是互補的。將兩者結合起來,可以進一步提高NLU模型的效能。最後,我們進行了多樣性分析和案例研究,以進一步確認PromDA的合成數據質量。

 

 

2.相關工作

①Prompt Learning

  基於提示學習的概念始於GPT3模型(Brown等人,2020)。之前的工作設計了不同的提示,以查詢語言模型,以提取知識三元組(Petroni等人,2019年)或在few-shot設定下將句子分類為預定義類別(Schick和Sch tze,2021年)。他們為這些任務手動構建各種離散的提示。為了減少人類在這個選擇過程中的努力,(Gao等人,2021年)建議使用預先訓練過的語言模型來擴充套件提示。然而,離散提示的選擇仍然是一個獨立的過程,很難與下游任務一起以端到端的方式進行優化。Ben David等人(2021年)提出了一個複雜的兩階段模型來連線即時生成和下游任務。為了解決這個問題,(李斯特等人,2021;李和樑,2021)提出使用軟提示,這是可訓練向量的集合,在凍結的預訓練語言模型中。與硬提示不同,這些向量與任何實際單詞都不對應。它允許以端到端的方式對下游任務進行優化。如Li和Liang(2021)所示,帶有軟提示的PLM通常在低資源設定下表現更好。

②Generative Data Augmentation

  Hou等人(2018年)生成不同的話語,以改進對話理解模型。Xia等人(2019)使用雙語詞典和無監督機器翻譯模型來擴充套件低資源機器翻譯訓練資料。吳等(2019);Kumar等人(2020年)在許多PLM預訓練目標函式(例如BERT(Devlin等人,2019年)、BART(Lewis等人,2020年))中使用掩碼機制,並通過掩碼原始訓練例項中隨機選擇的單詞來生成新的合成數據。丁等人(2020);楊等人(2020年);Anaby Tavor等人(2020年)應用LMs和PLM直接學習為NLU任務生成新的合成數據(即,在對相對較大的訓練資料進行訓練(微調)後,序列標記和常識推理任務)。這些工作通常直接應用現成的LMs或PLM生成合成資料。Wang等人(2021b)建議使用未標記的資料作為硬提示,在無需任何訓練的情況下生成合成資料,從而限制了其在複雜NLP任務中的應用。據我們所知,PromDA是第一款帶有軟提示的PLM,專門為資料增強任務而設計。

 

 

3.Prompt-based Data Augmentation

  本節首先闡述了低資源NLU任務的資料擴充。然後,我們介紹了我們提出的基於提示的資料增強方法(PromDA)的三個重要組成部分,包括i)在預先訓練的語言模型中基於提示的學習;ii)雙合成數據生成檢視和iii)一致性過濾。圖1顯示了PromDA的總體結構。

  圖1:PromDA的總體情況。軟提示是預先設定一個可訓練向量序列,凍結PLM的每一層。白色儲物櫃代表凍結的引數。我們有獨立的軟提示集來支援DaulView資料擴充,其中Output View基於output tags和Input View基於輸入句子中的關鍵字。最後,我們使用NLU模型來迭代過濾低質量的合成數據,並使用剩餘的合成數據,結合T來訓練更強的NLU模型。

 

3.1Data Augmentation For NLU tasks

  在低資源NLU任務中,只有一組標記的訓練資料在n相對較小(即小於100)的情況下可用。資料增強生成綜合標記訓練資料來自使用語言模型的原始標記訓練資料T。目標是,使用訓練的NLU模型優於僅使用訓練的NLU模型。

 

3.2Prompt-based learning

  微調是使PLM適應特定下游任務的普遍方式(Devlin等人,2019年)。然而,對於低資源資料擴充,我們期望生成的合成訓練資料不同於,併為NLU模型提供新的學習資訊。微調PLM(偏向於少量訓練例項)可能不是最佳解決方案。

  基於提示的學習,從GPT3中的zero-shot指令開始(Brown et al.,2020),將整個PLMs引數凍結,並且僅在任務輸入之前預先準備離散的自然語言任務指令(例如翻譯成英語)。凍結PLMs引數可能有助於訓練期間的泛化。然而,找到合適的離散任務介紹並不能以端到端的方式輕鬆優化,需要額外的人力。在本文中,靈感來自最近的工作(李斯特等人,2021;李和樑,2021),我們用軟提示替換任務介紹(即,連續和可訓練向量的序列)。在培訓期間,我們只更新此軟提示的引數,並修復所有PLMs引數。我們主要關注使用基於seq2seq Transformer的PLM生成合成訓練資料。

  與Lester等人(2021年)只在輸入層預先設定了軟提示不同,Lester等人(2021年)受Adapter(Houlsby等人,2019年)的啟發,在每個transformer層添加了可訓練多層感知器(MLP Multi-layer Perceptron),我們在每個transformer層預先設定了一系列可訓練向量。我們表示作為第j層的軟提示。transformer模型中第j層的第i個隱藏狀態為,定義如下:

 

 

  其中Trans()是transformer層的前向函式,wi是輸入層的固定字嵌入向量。與(Lester等人,2021年)相比,這允許在每一層更新梯度,更好地完成學習任務。

 

3.3Pre-training for Prompt Initialization

  軟提示P的引數初始化對生成的合成數據質量有重要影響,尤其是在低資源資料擴充任務中。Lester等人(2021年)建議在不使用提示引數的情況下,進一步預訓練完整的PLMs引數,以增強提示能力。然而,這種策略(即,完整的PLM預訓練)引入了大量的計算開銷,並且沒有提供任何關於快速初始化的見解。相反,我們建議用凍結的PLM直接預訓練軟提示的引數。鑑於資料擴充從部分資訊(如輸出標記和關鍵字)生成完整的語法資料,我們提出了同義詞關鍵字來完成句子預訓練任務。給定一段文字,我們使用無監督的關鍵詞提取演算法Rake(Rose等人,2010)提取關鍵詞。我們通過WordNet(Fellbaum,2010)將一些提取的關鍵詞隨機替換為同義詞。給定這些同義詞關鍵字,對軟提示進行預訓練,以重建原始文字塊。當應用此軟提示進行資料擴充時,我們只需要使用標記為data T的few-shot微調軟提示。這種預培訓過程只發生一次。我們只使用任務不可知的通用預訓練語料庫。

 

3.4Dual-View Data Augmentation

  以前的工作通常將編碼器輸入限制為固定關鍵字或有限標籤,例如無條件生成(Yang等人,2020年)和label-conditional生成(Anaby Tavor等人,2020年)。相對較小的輸入空間可能會產生類似的輸出。為了豐富輸入空間,我們提出了雙檢視資料擴充,它從輸入檢視(以輸入句子中的關鍵字為條件)和輸出檢視(以輸出標籤為條件)生成合成資料。表1顯示了這兩種檢視的示例。如演算法1(第2行至第7行)所示,在PLMs中微調軟提示後,PromDA首先分別從輸入檢視和輸出檢視生成。PromDA然後從T1 I中提取輸出標籤,從T1 O中提取關鍵字。這些新的輸出標籤和關鍵字被輸入到MLM的輸出檢視和輸入檢視中,以生成另外兩組新的合成數據T2 O和T2 I。這樣,生成的輸出文字應該保持更高水平的多樣性,幷包含更多新穎的單詞/短語/知識。

 

 

 

 

 

①Dual View via Prompt Ensemble

  通過不同神經模型的快速整合,雙檢視通常可以獲得更好的效能(Hansen和Salamon,1990)。基於Prompt的學習提供了一種有效的整合建模方法。通過訓練K組軟提示,我們建立了K個共享相同凍結PLM的模型。在我們的例子中,經過提示預訓練後,我們將輸入檢視和輸出檢視視為兩個獨立的模型,並使用軟提示引數P初始化Pinput和Poutput的引數。在PromDA微調過程中,來自輸入檢視和輸出檢視訓練例項的梯度僅分別應用於引數。該提示整合允許兩個檢視獨立生成合成資料。因此,最終輸出應該包括各種現實世界的知識。

 

3.5 Consistency Filtering一致性過濾

  由於PromDA是從較小的訓練資料中訓練出來的,因此有可能生成低質量的樣本。我們利用NLU一致性過濾(Anaby Tavor等人,2020年)來過濾生成的樣本。具體地說,給定PromDA生成的帶有標籤的合成數據,我們使用NLU模型再次標記這些資料,並且只保留PromDA和NLU模型輸出一致的例項。如演算法1(第8行至第12行)所示,將原始合成數據過濾成,並與few-shot標記資料T組合,以訓練新的NLU模型。由於通常比更好,我們將此過程迭代N次,以獲得更強的NLU模型。

 

 

4.實驗

  本節首先介紹第4.1節中的實驗設定,然後介紹第4.2節中的主要實驗結果。第4.3節進行消融研究。在第4.4節中,我們比較了PromDA和未標記的資料,給出了多樣性分析和案例研究。

4.1實驗設定

  我們對句子分類任務SST2(Socher等人,2013年)和RT(Pang和Lee,2005年)以及序列標記任務CoNLL03(Tjong Kim Sang和De Meulder,2003年)和Wikiann(Pan等人,2017年)進行了實驗。對於每個基準,我們進行了shot-10、20、50、100實驗。在Shot-K中,我們從完整的訓練資料中為每個輸出標記取樣K個標記例項。我們重複實驗5次,並報告了平均的micro-F1。基線模型是僅使用few-shot訓練資料訓練的基於BERT的模型。給定新生成的合成數據,我們使用相同的超引數集訓練相同的BERT-BASE模型。在序列標記任務中,我們使用基於規則的資料增強方法SDANER(Dai和Adel,2020)和MetaST(Wang等人,2021a),這是一種最先進的自我訓練方法,需要額外的未標記領域內資料。對於句子分類任務,基於規則的EDA(Wei和Zou,2019),反向翻譯(BackT.)採用了基於bert的CBERT方法。我們採用LAMBADA(Anaby Tavor等人,2020年)作為所有任務的基於PLM的方法。

①實施細節

  PromDA建立在T5大型模型的基礎上(Raffel等人,2020年)。PromDA需要對下游任務進行及時的預訓練和微調。在這兩個階段中,我們使用Adafactor優化器(Shazeer和Stern,2018),學習率為1e-3,權重衰減為1e-5,以訓練軟提示引數。對於預訓練,我們使用T5預訓練語料庫C4中的realnewslike分割作為輸入。預訓練批量為72,我們對PromDA進行了10萬步的預訓練。我們將realnewslike資料集拆分為訓練和開發拆分(即10000頁)。我們將每5000步檢查一次dev的PPL。我們以最低的PPL儲存模型。在對few-shot資料T進行微調時,我們將批量大小設定為32,並對PromDA進行1000步的訓練。我們只將Wikiann和CoNLL03的shot50和shot-100的微調步驟升級到5000。更多實驗設定見附錄A部分。

 

4.2實驗結果

①Sequence Labeling Tasks序列標記任務

  表2總結了shot-10和shot-50中的實驗結果。在這兩種情況下,使用PromDA的合成數據訓練的NLU模型的效能都大幅提高(即CoNLL03和Wikiann分別為4.8%和7.5%)。PromDA也優於基於規則的SDANER和完全微調的PLM-LAMBADA方法。總的來說,基於PLM的方法比SDANER產生更好的合成數據。令人驚訝的是,PromDA支援的NLU模型比使用未標記域內資料的MetaST實現的效能稍好。這表明PromDA可能會減少為低資源NLU任務收集未標記域內資料的額外人力。圖2顯示了shot-10、20、50、100設定中的效能。PromDA支援的NLU型號在所有設定中都始終優於其他系統。與Wikiann相比,CoNLL03的改進幅度更小。這可能是因為CoNLL03基線的效能相對較高。

  表2:序列標記任務的實驗結果。結果取自(Wang等人,2021a)。我們執行Dai和Adel(2020)的原始碼。C03指的是CoNLL03,Wiki指的是Wikiann。下劃線是與基線模型相比的顯著結果(配對student's t-test,p<0.05)。

 

 

②Sentence Classification Tasks句子分類任務

  表3顯示了shot-10和shot-50的實驗結果。與序列標記任務中的結果類似,新增來自PromDA的合成數據顯著提高了NLU模型的效能(在shot10的兩個基準測試中都超過10%)。PromDA也優於各種競爭方法,包括BackT, CBERT和LAMBADA。儘管LAMBADA具有更高級別的靈活性,並從輸出標籤生成合成資料,但它的效能與CBERT類似。這可能是因為在使用較小的訓練資料進行微調時存在過度擬合問題。Promp-Empowered PromDA成功地避免了這個問題,並生成高質量的合成數據來支援NLU模型訓練。圖2顯示了shot-10、20、50、100設定中的效能。PromDA支援的NLU型號在所有設定中都始終優於所有其他系統。

  表3:句子分類任務的實驗結果。我們執行Wei和Zou(2019)的原始碼。我們執行Wu等人(2019)的原始碼。下劃線是與基線模型相比的顯著結果(配對student's t-test,p<0.05)。

 

③討論

  LAMBADA的表現一直比PromDA差(例如,在SST2和RT實驗中F1成績差距超過10%)。這是因為完全微調的PLM可以輕鬆記住有限的標記訓練資料,並生成類似的合成數據。相比之下,基於提示的學習允許PromDA保持較高的泛化能力,併為NLU模型提供新的訓練訊號。與基線模型相比,PromDA的結果均具有統計學意義(配對student's t-test,p<0.05)。

 

4.3消融實驗

  我們在SOOT-10環境下對CoNLL03和SST2基準上的元件進行了消融研究,包括Prompt Pre-Training、雙檢視資料增強和一致性過濾。

①Prompt Pre-Training

  在無PT的提示預訓練中,我們直接微調兩個獨立的PLM,以學習輸入檢視和輸出檢視。在無PT預訓練中,我們刪除提示預訓練任務(同義詞到句子)。在完全預訓練中,我們應用提示預訓練任務來微調整個PLMs引數。最後,在LM改編中:我們用Lester等人(2021年)的解決方案取代PromDA。如表4所示,完全微調PLMs(無PT)的效能比我們提出的PromDA方法差(F1分數低4.6%),表明軟提示對低資源NLU資料增強的積極貢獻。此外,取消PT預訓練(無PT預訓練)或應用PT預訓練微調所有PLMs引數(完全預訓練)也會將PT預訓練成績分別委派3.1%和6.0%的F1分數,表明使用PT預訓練學習合理的提示初始化的重要性。同樣,LM Adaption也會對整個PLM進行微調,並實現與完全預訓練類似的效能。建議直接訓練提示引數。

②Dual-View Data Augmentation

  接下來,我們將展示PromDA中雙檢視資料擴充的效果。僅輸入和僅輸出分別通過輸入檢視和輸出檢視生成合成資料。這兩個單檢視模型生成的合成數據數量與PromDA相同。如表4所示,來自這兩個單檢視模型的合成數據成功地提高了NLU模型的效能。然而,它們相應的NLU模型的效能比PromDA支援的模型差。這表明,來自不同檢視的合成數據為NLU模型提供了有意義且不同的訓練訊號。有趣的是,在輸出檢視上訓練的NLU模型比在輸入檢視上訓練的NLU模型表現得更好,這表明輸出標籤是更具表現力的訊號,可以引導PLM生成高質量的合成數據。最後,我們在單個提示中針對相同的提示引數訓練兩個檢視,而不是針對獨立的提示引數訓練兩個檢視。在單一提示合成數據上訓練的NLU模型的效能比PromDA支援的NLU模型差,這表明提示整合對於雙檢視資料增強的重要性

③Consistency Filtering

  最後,我們檢驗了PromDA中一致性過濾的效果。在表5中,我們展示了無任何過濾(w/o過濾)和k迭代(Iter-1、Iter-2和Iter-3)的NLU模型效能。過濾對NLU效能有重要影響。如果不刪除低質量的合成數據,效能差距幾乎消失。迭代過濾對NLU效能也有積極影響。特別是在SST2基準測試中,NLU模型效能在三次迭代後提高了4%的F1分數。

 

 

 

4.4討論

①PromDA與T5 Base

  我們驗證PromDA是否可以與不同的預先訓練的語言模型一起工作。我們用T5基礎模型替換T5大型模型。新的PromDA還可以大幅度改進few-shot的基線模型。在SST2 shot-10設定中,NLU模型的F1分數從66.1提高到76.3,這也優於表3中列出的其他模型。

②PromDA in the high-resource setting

  為了展示PromDA在高資源環境下的優勢,我們用完整的訓練資料替換了few-shot訓練資料。我們發現PromDA仍然可以提高基線模型的效能。在SST2中,新增語法資料後,NLU的F1成績從90.8分提高92.3分。

③Improvement Margin Difference改善差額

  如表2和表3所示,句子分類任務的改進幅度(即F1得分超過15%)一般大於序列標記任務的改進幅度(即F1得分低於10%)。這可能是因為i)序列標記任務比句子分類任務是一個更細粒度和知識密集型的任務;ii)序列標記任務的合成數據包括實體型別和邊界,與句子分類任務相比,plm的生成更具挑戰性,特別是在資源設定較低的情況下。

④PromDA and Unlabeled Data

  上述實驗基於沒有未標記資料的假設。在本節中,我們將探討PromDA與未標記資料之間的聯絡。為了將未標記的資料納入我們的NLU模型,我們將經典的自我訓練框架(Scudder,1965)應用於NLU模型。具體來說,對於每個未標記的例項,我們使用NLU模型對其進行標記,並記錄輸出標記和相應的似然分數。低可能性分數意味著預測的可信度較低。我們根據可能性得分對所有未標記的例項進行排序,並刪除底部20%的例項。表6顯示了四個基準在shot-10設定下的實驗結果。

⑤The Effect of Unlabeled Data Domain未標記資料域的影響

  未標記資料域的影響我們設計了三種設定:未標記的域內資料(UID)、未標記的近域資料(UND)和未標記的通用域資料(UGD),其中未標記的資料來自完全相同、相似和通用的域。我們在CoNLL03和Wikiann之間以及SST2和RT之間交換訓練資料,以模擬類似的域。我們從PLM預訓練語料庫中隨機抽取句子來模擬通用領域。我們注意到,未標記的資料域對自我訓練效能有很大影響。即使是輕微的域轉移(即UND),NLU的效能也會降低2.5%。使用來自通用語料庫的未標記資料訓練的NLU模型的效能甚至比僅使用fewshot標記資料訓練的NLU基線模型低3.2%。序列標記任務和句子分類任務遵循這一趨勢,但序列標記任務對未標記的資料域更敏感。對於半監督學習,仍然需要額外的人力來選擇合適的域來收集未標記的資料。

⑥Combining Unlabeled In-domain Data with PromDA將未標記的域內資料與PromDA相結合

  我們將上述自訓練演算法應用於PromDA支援的具有未標記的域內資料的最終NLU模型(PromDA)。由此產生的NLU模型平均進一步改進了2.0%(最後一行為w\/UID)。更復雜的半監督學習演算法可能會帶來更多的改進。這表明a)來自PromDA和未標記indomain資料的合成數據為NLU模型提供了不同的資訊;b) PromDA成功地提取了PLMs中的嵌入知識,並將其呈現在生成的合成數據中。

⑦多樣性分析

  在表8中,我們展示了PromDA和其他基線模型生成的合成數據的多樣性。我們從每個訓練例項中抽取10個新的合成數據。我們使用新穎提及(實體提及次數或未出現在培訓資料中的關鍵詞)和自我BLEU評分(Zhu等人,2018)來衡量多樣性。一般來說,簡單的生成性資料擴充方法(即BackT.和CBERT)很容易產生新的提及,但它們生成的合成數據缺乏多樣性(相對較低的自我BLEU分數)。基於即時的學習有助於PromDA生成最多樣化的合成數據,並在兩個基準中都有最新穎的提及。由於過度擬合問題,LAMBADA生成的合成數據與其他基線方法相比差異較小或相等。有趣的是,根據這些合成數據訓練的NLU模型取得了第二好的效能。這可能是因為LAMBADA連貫地生成整個合成句子,而其他人則根據隨機和\/或啟發式規則進行回覆。

 

⑧合成數據案例研究

表7顯示了由我們提出的PromDA和方法生成的代表性示例。在序列標籤示例中,基於規則的SDANER會解析原始詞序並建立低質量的文字。LAMBADA模型通過修改原始訓練例項中的三個文字跨度(例如,將語句更改為報紙),生成一個新的合成例項。相比之下,我們的PromDA方法在銀行中生成一個全新且合理的事件,並在生成的合成數據中生成正確且新穎的地理位置。類似地,在句子分類任務中,LAMBADA天真地結合了第二個例子中兩個訓練例項的文字塊。PromDA在訓練資料中提到了一些關鍵字,但在輸出中添加了更多資訊。在另一個例子中,PromDA用一系列連貫的單詞對編劇(沒有出現在培訓資料中)進行評論。最後,PromDA成功地將主題從1952年的電影《西貢》轉移到了70年代的西貢。總之,PromDA可以從PLM中提取嵌入的真實世界知識,並以有效的方式將這些知識引入相對較長的句子中。

  表7:根據我們提出的PromDA和其他基線方法生成的合成數據。紅色文字塊與few-shot訓練資料重複。藍色的文字塊是新穎的單詞\/短語。

 

 

5.結論和未來的工作

  在本文中,我們提出了第一個用於低資源NLU資料擴充的基於提示的預訓練語言模型PromDA。在四個基準上的實驗表明了我們提出的PromDA方法的有效性。未來,我們計劃將PromDA擴充套件到其他NLP任務,包括問答、機器閱讀理解和文字生成任務。