AEDA:文字分類資料增強【轉載以學習、回憶】

阿新 • • 發佈：2022-05-18

在比賽方案中提到了 AEDA這種針對於文字分類的資料增強技術，遂尋文以學習。

來源：CSDN junjian Li

轉載連結：https://blog.csdn.net/qq_30129009/article/details/122395160

轉載以學習、回憶

論文：

AEDA：AnEasier Data Augmentation Technique for Text Classification

來源於EMNLP 2021

為了讓模型由更好的泛化能力，一般需要更多的更加全面的資料集，但是資料的收集和標註是很費事費力的，所以這個時候資料增強技術就很重要。

在NLP領域，EDA（Easy Data Augmentation Techniques for Boosting Performance on TextClassification Tasks，2019）提出了四種簡單的資料增強操作，包括：

同義詞替換（通過同義詞表將句子中的詞語進行同義詞替換）

隨機交換（隨機交換句子的兩個詞語，改變語序）

隨即插入（在原始句子中隨機插入，句子中某一個詞的同義詞）

隨即刪除（隨機刪除句子中的詞語）

目前，也有一些其他的資料增強方法，例如：同義詞替換不使用詞表，而是使用詞向量或者預訓練語言模型（自注：？用預訓練模型怎麼替換同義詞？）；

通過在在文字中插入一些符合或者詞語，來增加噪聲；將句子通過翻譯器翻譯成另外一種語言再翻譯回來的回譯手段等。

AEDA Augmentation

該論文所提出的AEDA方法，主要是在原始文字中隨機插入一些標點符號，屬於增加噪聲的一種，主要與EDA論文對標，突出“簡單”二字。注意：該方法僅適用於

文字分類任務。

Q：插入多少標點符號？

A：從1到三分之一句子長度中，隨機選擇1個數，作為插入標點符號的個數。

Q：為什麼是三分之一的句子長度？

A：每個句子要有標點符號插入，增加句子複雜性，又不想又太多的標點干擾句子的語義資訊，並且太多噪聲對模型有負面影響。

Q：句子插入標點符號的位置如何選取？

A：隨機

Q：標點符號共包含哪些？

A：主要有6種 . ; ? : ! ,

Q：比EDA效果好的理論基礎是什麼？

A：者認為，EDA方法，如論是同義詞替換，還是隨機替換、隨機插入、隨機刪除，都改變了原始文字的序列資訊；而AEDA方法，只是插入標點符號，對於原始資料的序列資訊修改不明顯。個人理解，通過詞語修改的方法，與原始語義改變可以更加負面；而僅插入一些標點符號，雖然增加了噪聲，但是原始文字的語序並沒有改變。

下邊有程式碼實現。

AEDA:文字分類資料增強【轉載以學習、回憶】

AEDA Augmentation

AEDA:文字分類資料增強【轉載以學習、回憶】

關於量化【轉載以學習、回憶】

學習率預熱linear warmup【轉載以學習、回憶】

關於深度學習優化器【轉載以學習、回憶】

關於CRF層的學習率【轉載以學習、回憶】

關於Focal Loss【轉自以學習、回憶】

【影象增強】基於matlab對數影象處理模型+去霧+暗原色先驗影象增強【含Matlab原始碼 1012期】

【影象增強】基於matlab同態濾波+Retinex+模糊技術影象增強【含Matlab原始碼 1013期】

【影象增強】基於matlab直方圖均衡化影象增強【含Matlab原始碼 960期】

【影象增強】基於matlab同態增晰影象增強【含Matlab原始碼 962期】

【語音增強】基於matlab iir帶阻濾波器語音增強【含Matlab原始碼 613期】

【影象邊緣檢測】基於matlab拉普拉斯演算法影象邊緣檢測與增強【含Matlab原始碼 456期】

[轉] 【轉載自明基同事】獅山路268號..

【MySQL資料庫軟體、SQL】

【web概念概述、HTML】

【JVM系統學習之路】JAVA 虛擬機器棧

初始Java【小白學習筆記01】

JVM第一節：類載入機制【熊的學習之路】

JVM第三節：初識垃圾回收機制【熊的學習之路】

【外企測試面試、筆試】分享下歷時8輪、30k+的外企面試全過程

AEDA:文字分類資料增強【轉載以學習、回憶】

AEDA Augmentation

相關推薦