關於CRF層的學習率【轉載以學習、回憶】

阿新 • • 發佈：2022-05-23

面試的時候會有人問你針對BERT+CRF這種模型做出了什麼調參？

這裡其實可以答換用不同的BERT 比說哈工大版本的wwm這種整詞遮蔽的BERT天然適合識別詞級別的任務。

還可以答優化了CRF層的學習率引數，這裡呢是以前看到蘇神的帖子瞭解到的，不過又記不太清了，因此轉載蘇神的文章以學習、回憶。

來源：蘇劍林. (Feb. 07, 2020). 《你的CRF層的學習率可能不夠大》[Blog post]. Retrieved from https://kexue.fm/archives/7196

轉載開始，有刪改。

CRF是做序列標註的經典方法，它理論優雅，實際也很有效，如果還不瞭解CRF的讀者歡迎閱讀舊作

《簡明條件隨機場CRF介紹（附帶純Keras實現）》。在BERT模型出來之後，也有不少工作探索了BERT+CRF用於序列標註任務的做法。然而，很多實驗結果顯示（比如論文《BERT Meets Chinese Word Segmentation》）不管是中文分詞還是實體識別任務，相比於簡單的BERT+Softmax，BERT+CRF似乎並沒有帶來什麼提升，這跟傳統的BiLSTM+CRF或CNN+CRF的模型表現並不一樣。

這兩天給bert4keras增加了用CRF做中文分詞的例子（task_sequence_labeling_cws_crf.py），在除錯過程中發現了CRF層可能存在學習不充分的問題，進一步做了幾個對比實驗，結果顯示這可能是CRF在BERT中沒什麼提升的主要原因，遂在此記錄一下分析過程，與大家分享。

糟糕的轉移矩陣 #

由於筆者用的是自己實現的CRF層，所以為了證明自己的實現沒有錯誤，筆者跑完BERT+CRF的實驗（BERT用的是base版本）後，首先觀察了轉移矩陣，大體數值如下：

其中第 $i$

然而，直觀來看，這並沒有學到一個好的轉移矩陣，甚至可能會帶來負面影響。比如我們看第一行， $S_{s \to b} = - 0.459$

，即

S_{s \to b}

$S_{s \to b} = - 0.459$

這樣不合理的轉移矩陣一度讓筆者覺得是自己的CRF實現得有問題，但經過反覆排查以及對比Keras官方的實現，最終還是確認自己的實現並沒有錯誤。那麼問題出現在哪呢？

學習率的不對等 #

如果我們先不管這個轉移矩陣的合理性，直接按照模型的訓練結果套上Viterbi演算法去解碼預測，然後用官方的指令碼去評測，發現F1有96.1%左右（PKU任務上），已經是當前最優水平了。

轉移矩陣很糟糕，最終的結果卻依然很好，這隻能說明轉移矩陣對最終的結果幾乎沒有影響。什麼情況下轉移矩陣幾乎沒影響呢？可能的原因是模型輸出的每個字的標籤分數遠遠大於轉移矩陣的數值，並且區分度已經很明顯了，所以轉移矩陣就影響不到整體的結果了，換言之這時候直接Softmax然後取argmax就很好了。為了確認，我隨機挑了一些句子，觀察模型輸出的每個字的標籤分佈，確實發現每個字的分數最高的標籤分數基本都在6～8之間，而其餘的標籤分數基本比最高的要低上3分以上，這相比轉移矩陣中的數值大了一個數量級以上，顯然就很難被轉移矩陣影響到了。這就肯定了這個猜測。

一個好的轉移矩陣顯然會對預測是有幫助的，至少能幫助我們排除不合理的標籤轉移，或者說至少能保證不會帶來負面影響。所以值得思考的是：究竟是什麼阻止了模型去學一個好的轉移矩陣呢？筆者猜測答案可能是學習率。

BERT經過預訓練後，針對下游任務進行finetune時，只需要非常小的學習率（通常是 $10^{- 5}$

這說明什麼呢？首先，我們知道，每個字的標籤分佈是直接由BERT模型算出來的，而轉移矩陣是附加的，與BERT沒直接關係。當我們以 $10^{- 5}$

$10^{- 5}$

這樣的轉移矩陣是合理的，量級也是對的，它學習到了正確的標籤轉移，比如 $s \to s, b$

$s \to s, b$

內容簡單彙總 #

本文從給bert4keras新增的CRF例子出發，發現BERT與CRF結合的時候，CRF層可能存在訓練不充分的問題，進而猜測了可能的原因，並通過實驗進一步肯定了猜測，最後提出通過增大CRF層學習率的方式來提升CRF的效果，初步驗證了（在某些任務下）其有效性。

關於CRF層的學習率【轉載以學習、回憶】

糟糕的轉移矩陣 #

學習率的不對等 #

更多的實驗分析 #

內容簡單彙總 #

關於CRF層的學習率【轉載以學習、回憶】

學習率預熱linear warmup【轉載以學習、回憶】

關於量化【轉載以學習、回憶】

關於深度學習優化器【轉載以學習、回憶】

AEDA:文字分類資料增強【轉載以學習、回憶】

關於Focal Loss【轉自以學習、回憶】

【MySQL資料庫軟體、SQL】

【web概念概述、HTML】

【JVM系統學習之路】JAVA 虛擬機器棧

初始Java【小白學習筆記01】

JVM第一節：類載入機制【熊的學習之路】

JVM第三節：初識垃圾回收機制【熊的學習之路】

【外企測試面試、筆試】分享下歷時8輪、30k+的外企面試全過程

[轉] 【轉載自明基同事】獅山路268號..

【轉載】從卷積層、啟用層、池化層到全連線層解析卷積神經網路的原理

Spark學習筆記（一）Spark初識【特性、組成、應用】

【轉載】每天5分鐘用C#學習資料結構（1）線性表基礎

【轉載】每天5分鐘用C#學習資料結構（2）順序表

【轉載】每天5分鐘用C#學習資料結構（3）單鏈表 Part 1

【List、Set】學習筆記

關於CRF層的學習率【轉載以學習、回憶】

糟糕的轉移矩陣 #

學習率的不對等 #

更多的實驗分析 #

內容簡單彙總 #

相關推薦