1. 程式人生 > 其它 >基於BERT Adapter的詞彙增強型中文序列標註模型

基於BERT Adapter的詞彙增強型中文序列標註模型

©原創作者 | 瘋狂的Max

論文Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter 解讀

01 背景與動機

近年來,多項研究致力於將詞彙資訊融入中文預訓練模型中以提升命名實體識別、分詞和詞性標註等序列標註類任務的效果。

但其中的大多數方法為都是直接在預訓練模型中加入淺層的且隨機初始化的序列層,其侷限性在於不能在BERT模型的底部的層中加入詞彙資訊,導致BERT的表徵能力得不到充分利用。

因此,本文作者提出Lexicon Enhanced BERT (LEBERT) ,該模型在BERT底部的層中加入一個Lexicon Adapter層來融合文字的詞彙特徵。實驗結果表明該模型在序列標註類任務的10個數據集上的表現超越了業界現有的其他模型。

由於中文詞彙沒有明顯的分界,所以中文的序列標註任務相較英文難度更大,雖然預訓練模型在序列標註任務上的表現超越了傳統的如LSTM,CRF等模型,但由於其仍是基於單個字元的,因此可以很自然的想到在這個基礎上引入詞彙的資訊,更有助於提升模型效果。

目前可以將相關的改進方向分成兩類:

一類是通過在character-level的序列編碼器上融入詞語的資訊,這樣可以顯性的對詞彙特徵建模,也可以看做是通過改進模型結構來融入離散的結構化的外部知識;

另一類則是將詞彙資訊融入到預訓練模型的embedding中去,而這兩類方法是互補的。

最近的研究更多的考慮將詞彙特徵和BERT結合起來,主要的思想就是把BERT獲取到上下文表徵和詞彙特徵融合起來,一起進入一個神經網路的序列標註模型,作者定義為Model-level fusion,如下圖Figure 1(a)所示。

然而這種方法並沒有充分利用BERT的表徵能力,因為詞語特徵沒能融入到BERT模型的底層。

基於以上描述的現有研究的侷限,同時受到BERT Adapter[2]的啟發,本文作者提出LEBERT,直接在BERT的Transformer層之間加入額外的層,也就是作者定義的lexicon adapter來融入詞彙資訊,作者定義為BERT-level fusion,如下圖Figure 1(b)所示。

具體來說,需要先將中文句子轉換為char-words對的序列進入模型,lexicon adapter通過char-to-word的雙線性注意力機制來動態的獲取每個字元的最相關的詞語。

這個lexicon adapter設定在BERT裡的相鄰層之間,使得詞彙特徵和BERT的表徵可以在BERT模型中得到充分的互動。

不同於BERT Adapter在fine-tune的時候固定了BERT模型的引數只更新adapter的引數,LEBERT將兩者同時更新。

 

02 模型方法

LEBERT相較BERT主要有兩點不同:

一是LEBERT通過將中文句子轉換為char-words對序列,把字元和詞彙特徵都作為輸入喂進模型;

二是LEBERT在Transformer層之間加入了lexicon adapter,使得詞彙知識更有效的融入BERT模型。

1.字元-詞語對序列

對於每一個輸入的句子,先找出潛在的所有可能的句子中包含的詞彙,然後將每個字元與對齊所有可能的詞彙。

比如“美國人民”這個句子,所有可能的詞彙有“美國”,“美國人”,“國人”,“人民”,每個字元對應其所在所有可能的詞彙,數量不足的用補齊,如下圖Figure 3所示:

 

2.lexicon adapter結構

把輸入的句子轉換成char-words pair sequence之後,句子中的每個位置都包含了其對應的字元特徵和詞彙特徵。

 

 

 

以上整個計算過程可以參見下圖 Figure 4:

 

3.LEBERT模型整體框架

正如前文描述,lexicon adapter是加在BERT的兩個Transformer層之間的,本質可以看做是Lexicon Adapter 和BERT的組合。可以直觀的表示為下圖,即在第k和k+1層之間加入了lexicon adapter:

 

4.訓練過程和解碼過程

考慮到序列標註任務的前後依賴性,LEBERT在最終的輸出層上加了一個線性變換層和CRF層來進行標籤解碼。

03 實驗結果分析

1.實驗結果

作者將LEBERT與4種baseline模型和6種前沿的運用了詞彙增強的模型進行了比較,4種baseline模型分別是BERT,BERT+word(在BERT預訓練時直接拼接詞向量的基線模型),ERNIE[3],ZEN[4],另外6種模型見下表前6行。

結果表明,在NER,分詞和詞性標註三種類型的序列標註任務上,LEBERT效果都是最好的。實驗結果具體如下面三個表所示:

 

 

 

2.分析與討論

句子長度:無論是BERT,BERT+word這兩個基線模型,還是LEBERT都會隨著輸入句子長度的增長效果有所下降。這是因為隨著更長的句子意味著更復雜的語義,模型的學習難度變大。

但是從下圖的比對結果來看LEBERT相較另外兩個極限模型,隨著句子長度的增加,模型魯棒性更強,也由此證明了LEBERT更充分的利用到了詞彙資訊。

 

不同層新增lexicon adapter:作者實驗了只新增一層lexicon adapter在BERT層的不同位置,和在不同位置新增多層lexicon adapter,以及在每一層都新增lexicon adapter的效果,結果如下表所示:

 

f以上結果表明,在越底層新增lexicon adapter效果越好,新增多層反而導致過擬合。

04 結論和研究思考

LEBERT與傳統的在BERT模型之上新增模型結果以融合詞彙知識的模型改進方法不同,通過改造BERT模型內部結構,實現深層次的詞彙資訊融合。

個人認為這種融合方式也可以擴充套件到詞彙增強以外的外部知識融入的研究。

畢竟詞彙也可以看做一種外部知識,與之相關的序列標註任務使用LEBERT都有所提升的話,同理推斷,將一些知識圖譜的知識通過這種方式進行融合,也可以以提高與知識圖譜相關的下游任務的效果。

參考文獻

[1]中文NER最新屠榜力作——LEBERT

https://zhuanlan.zhihu.com/p/374720213

[2] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin De Laroussilhe, Andrea Gesmundo, Mona Attariyan, and Sylvain Gelly. 2019. Parameter-effificient transfer learning for NLP. In Proceedings of the 36th International Conference on Machine Learning.

[3] Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Xuyi Chen, Han Zhang, Xin Tian, Danxiang Zhu, Hao Tian, and Hua Wu. 2019a. Ernie: Enhanced representation through knowledge integration. arXiv preprint arXiv:1904.09223.

[4] Shizhe Diao, Jiaxin Bai, Yan Song, Tong Zhang, and Yonggang Wang. 2020. ZEN: Pre-training Chinesetext encoder enhanced by n-gram representations. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 4729–4740, Online. Association for Computational Linguistics.