1. 程式人生 > 其它 >AEDA:文字分類資料增強【轉載以學習、回憶】

AEDA:文字分類資料增強【轉載以學習、回憶】

在比賽方案中提到了 AEDA這種針對於文字分類的資料增強技術,遂尋文以學習。

來源:CSDN junjian Li

轉載連結:https://blog.csdn.net/qq_30129009/article/details/122395160

轉載以學習、回憶

論文:

AEDA:AnEasier Data Augmentation Technique for Text Classification

來源於EMNLP 2021

為了讓模型由更好的泛化能力,一般需要更多的更加全面的資料集,但是資料的收集和標註是很費事費力的,所以這個時候資料增強技術就很重要。

在NLP領域,EDA(Easy Data Augmentation Techniques for Boosting Performance on TextClassification Tasks,2019)提出了四種簡單的資料增強操作,包括:

同義詞替換(通過同義詞表將句子中的詞語進行同義詞替換)

隨機交換(隨機交換句子的兩個詞語,改變語序)

隨即插入(在原始句子中隨機插入,句子中某一個詞的同義詞)

隨即刪除(隨機刪除句子中的詞語)

目前,也有一些其他的資料增強方法,例如:同義詞替換不使用詞表,而是使用詞向量或者預訓練語言模型(自注:?用預訓練模型怎麼替換同義詞?);

通過在在文字中插入一些符合或者詞語,來增加噪聲;將句子通過翻譯器翻譯成另外一種語言再翻譯回來的回譯手段等。

AEDA Augmentation

該論文所提出的AEDA方法,主要是在原始文字中隨機插入一些標點符號,屬於增加噪聲的一種,主要與EDA論文對標,突出“簡單”二字。注意:該方法僅適用於

文字分類任務。

Q:插入多少標點符號?

A:從1到三分之一句子長度中,隨機選擇1個數,作為插入標點符號的個數。

Q:為什麼是三分之一的句子長度?

A:每個句子要有標點符號插入,增加句子複雜性,又不想又太多的標點干擾句子的語義資訊,並且太多噪聲對模型有負面影響。

Q:句子插入標點符號的位置如何選取?

A:隨機

Q:標點符號共包含哪些?

A:主要有6種 . ; ? : ! ,

Q:比EDA效果好的理論基礎是什麼?

A:者認為,EDA方法,如論是同義詞替換,還是隨機替換、隨機插入、隨機刪除,都改變了原始文字的序列資訊;而AEDA方法,只是插入標點符號,對於原始資料的序列資訊修改不明顯。個人理解,通過詞語修改的方法,與原始語義改變可以更加負面;而僅插入一些標點符號,雖然增加了噪聲,但是原始文字的語序並沒有改變。

下邊有程式碼實現。