1. 程式人生 > >論文筆記《Chinese Lexical Analysis with Deep Bi-GRU-CRF Network》

論文筆記《Chinese Lexical Analysis with Deep Bi-GRU-CRF Network》

Chinese Lexical Analysis with Deep Bi-GRU-CRF Network

百度自然語言處理部的一篇論文,提出了一個結合分詞,詞性標註和命名實體識別的工具。
論文指出百度已經開發了各種分詞,詞性標註,實體識別的工具,相互獨立以便各個團隊使用。這種方式有兩個缺點:

  • 重複計算太多,嚴重拖慢了計算速度嗎,浪費計算資源

  • 不同任務之間不能share一些特徵,比如分詞的時候可以用到一些詞性標註的特徵,來更好地優化分詞。

筆者提到在使用百度AI平臺實現一個詞法分析系統時,對於不同的子任務,不僅要寫各種複雜的邏輯結構來保證模型的效能,而且由於子任務的並行使得計算很慢。

由於詞法分析三種任務都可以看做是序列化標註,所以作者想只用單個模型來解決這些問題。作者首先在平臺上用query和news和title收到平行語料(pseudo-annotated 偽標註語料)(這裡收集應該是使用百度原有的一些工具標註出來的)應該標註準確率不夠高,再拿到一些人工標註的語料(質量較高)。合併為訓練語料,使用Bi-GRU-CRF模型訓練,並在訓練過程中使用(oversampled)的方法確保標註的高質量語料對模型訓練起更大的影響。

作者還使用訓練好的標籤轉移來fine-tune微調crf的解碼過程,感覺就是半監督的方法了,
因為原有資料質量並不高。

這裡寫圖片描述
模型的有點:完全的端到端,character-based embedding,沒有任何人工特徵組合。

論文使用IOB2-style decoration的標註體系,應該就是動作標籤中包含分詞,詞性標註中的各種tag。能夠一下就把三個任務都做完,在第三方語言學專家標註的500句新聞語料上得到的結果準確率是95%(應該是三種標籤),速度也變的更快了。(樣本有點小,具體效果得看下)

接下來作者把標籤體系介紹了一些,接下來就介紹stacked Bi-GRU也就是多層雙向GRU提高模型的表示能力,最後介紹CRF的解碼過程。現階段序列化標註高效的做法差不多就是如此。

判斷正確率的方法
分詞詞性標註的準確率,當且僅當詞邊界正確以及詞性標註也正確。
The word is consider “correct” if and only if its boundary and tag (including POS and NER tags) are both correct.
與此同時對於NER(命名實體是吧)還判斷了準確率召回率,以及F1.這裡寫圖片描述