NLP論文筆記1：Neural Architectures for Named Entity Recognition

阿新 • • 發佈：2019-01-12

看這一篇論文的主要目的是看BILSTM-CRF模型，對於實際應用，CRF看分詞、BILSTM-CRF做NER，接下來通過BILSTM-CNN-CRF做序列標註，NLP幾個基本的應用也差不多了，句法分析貌似比較複雜，留作以後吧。

********************開始論文吧****************

一.敘述

命名實體識別一直是更具挑戰性的NLP應用，為什麼更具挑戰呢？原因有兩方面，一方面，可用的已標註的命名實體資料集很少，量也小；另一方面，命名詞的規律性不強，約束很少，組織名稱、地名，隨意性還是很強的，還有一方面是新加入的命名詞、新加入的領域也很多，想從小批量的資料集中提取出完整的特徵，比較難。
這篇論文將命名實體分為兩種：1.多個片語成的命名實體，2.單個片語成的命名實體。對於第一種，實體中的每個詞都很重要，且詞與詞之間的關係也要關注，作者用了兩種模型來對比這種命名的識別效果——BILSTM-CRF和棧式LSTM。
第二種命名有兩個重點：什麼樣的詞更像是實體？一個詞在什麼樣的語境下更容易成為實體。作者採用了字向量來解決第一個問題，採用詞向量來解決第二個問題。
訓練時使用dropout提高泛化。

二. LSTM-CRF模型

1.LSTM輸出到CRF tagging

LSTM和CRF模型都不陌生，之前都單獨看過原理和程式，這裡，笨妞更關心的是BILSTM後的結果如何與CRF結合起來。
作者認為，使用LSTM處理NLP問題最簡單的方式是將輸出LSTM層的輸出作為特徵直接用於tagging決策，這種方式在POS標註上很有效，但是在對外部的標籤依賴性很強的分類問題上侷限性很大，而NER正好是這樣的問題。因為在NER的序列標註“語法”中的那些規則很難用獨立的假設建立模型。
作者將LSTM的輸出作為打分矩陣（稱作P），
對於一個輸入句子
這裡寫圖片描述
P是一個n*k的矩陣，k是輸出標註Y的取值個數，

表示句子中第i個詞被標記為j標註值的概率。
這個句子的預測標註序列表示為
這裡寫圖片描述

定義y矩陣的打分函式為
這裡寫圖片描述

其中，A是轉移打分矩陣，這裡寫圖片描述

代表從標註i轉移到標註j的得分。這裡寫圖片描述

和

分別是新增的start和end結點，所以，標註矩陣實際的size是k+2。
然後，然後一個softmax計算所有可能的標註的概率：
這裡寫圖片描述

訓練時採用極大似然估計作為損失函式，對數似然函式如下：
這裡寫圖片描述

其中，

表示句子X所有可能的標註序列（實際就是規範化因子Z）。
預測輸出序列時通過以下公式的最大得分得到：
這裡寫圖片描述

2.引數和訓練

最後的打分是BILSTM的輸出（每個詞的向量）和類似於二元語法的轉移分數結合計算出來的，整個網路的結構如下：
這裡寫圖片描述

圖1

整個模型的引數是二元轉移打分矩陣A中的各分數和BILSTM中用於計算矩陣P的引數和BILSTM的輸入詞向量。
為了改善結果，作者還在ci層和CRF層添加了一個隱層。以上所有的引數優化的目標都是最大化對數似然函式。

3.Tagging Schemes

作者提到了兩種tagging scheme，一種是IOB標註形式的，這種形式標註集為{B、I、O}，B表示命名實體的開頭詞，I表示命名實體非開始的詞，O表示非命名實體詞。另一箇中是IOBES標註形式，標註集合為{B、I、E、O、S}，新增的E表示命名實體結尾詞，S表示單個詞的命名實體。

三.Stack-LSTM

stack-LSTM在transition-based 依存句法分析被用到，這個模型可以直接構建多詞的命名實體。
模型通過一個堆疊資料結構來構建輸入的分塊。在stack-LSTM中，LSTM通過一個堆疊指標擴充套件。序列化的LSTM是從左到右的，而stack-LSTM確保embedding記錄既可以增加，也可以移除，他的工作原理如同堆疊資料結構。
這個模型的原論文是《Transition-based dependency parsing with stack long-short-term memory》

1.chunking演算法
模型包含兩個元件：transition inventory、存已經處理過的詞的buffer。transition inventory如下圖
這裡寫圖片描述
圖2

如圖所示，transition的動作包含3個：SHIFT、REDUCE、OUT。SHIFT transition將從buffer搬到stack；OUT transition將詞從buffer直接搬到輸出stack；REDUCE transition從stack的top層將所有詞推出來，組成 “chunking”，並將這個chunking的representation壓入到output stack中。當stack和output stack全部為空，這個演算法要做的事情就完了。
模型通過定義每一時刻下的動作的概率分佈來使模型引數化,LSTM的輸出用於計算每一時刻採取的action的個概率分佈，通過最大化整個序列的標準標註的條件概率而使模型得到訓練。
預測過程中，尋找輸入序列每一步概率最大的action。對於對於輸入序列中的每個詞將經歷從buffer直接到輸出，或者從buffer到stack，再從stack到輸出這兩步。對於長度為n的序列，最多了2n個action。
（這個模型真心沒怎麼看懂，後面看看原論文再說吧）

四.輸入Word Embeeding

這一部分主要看基於字母的詞模型，詞向量之前已經看過了。

1.模型

下圖是通過字母生成詞的embedding的結構：
這裡寫圖片描述
圖3

首先，生成一份字母的向量查詢表，每個字母的向量隨機生成，同時還有一份詞自身的向量查詢表。根據LSTM的前向和後向詞順序查詢子母向量表得到基於字母的正序向量和逆序向量，再和詞lookup向量一起組成完整的詞向量輸入到BILSTM。
如圖3所示，詞”Mars”的詞向量生成過程。首先，從Lookup table中查詢出字母”M”,”a”,”r”,”s”這4個字母的向量，然後根據正序和逆序分別組成“M->a->r->s”的向量和“s->r->a->M”的向量，最後詞word的lookup table向量、基於字母的正序向量、基於字母的逆序向量共同組成”Mars”的向量。

2.預訓練
上一部分提到基於字母的lookup向量和詞lookup向量表是隨機生成的，但這樣的效果沒有預訓練的效果好。
作者用word2vec的skip-n-gram訓練詞的lookup向量，然後在模型訓練時只做fine-tuned。

3.dropout
作者發現，用隨機初始化的字母lookup向量也預訓練的詞向量結合，效果並不理想，於是在組合兩方面向量的最後一層加入了一個dropout後，再輸入到BILSTM，這樣效果顯著。

五.實驗

1.模型超引數配置

訓練通過BP演算法更新引數。用SGD以0.01的學習率優化引數，以5.0作為梯度的閾值。
LSTM-CRF模型用前向和後向LSTM各一個獨立層，維度為100，並加入了0.5的dropout。
Stack-LSTM每一個stack用了2個100維的網路層，用16維的向量表示actoion，輸出向量為20維。這個模型也加入了dropout，dropout rate通過除錯，採用最好的那一個（不固定），採用貪婪模型，獲取區域性最優。

2.實驗結果

作者對比了各參考論文的結果和自己的4種模型的結果，結果如下：
這裡寫圖片描述

總體來說帶基於字母的詞向量表示的BILSTM-CRF模型的準確率在4種語言的NER工作準確性最好。

*************************論文看完啦****************
看起來很不錯的樣子，接下來就是跑BILSTM-CRF的時刻啦。程式自帶的程式碼是通過Theano實現的，對於只會用tensorflow的笨妞來說，默默的找一個tensorflow版本的改一改算了。

NLP論文筆記1：Neural Architectures for Named Entity Recognition

一.敘述

二. LSTM-CRF模型

1.LSTM輸出到CRF tagging

2.引數和訓練

3.Tagging Schemes

三.Stack-LSTM

四.輸入Word Embeeding

1.模型

五.實驗

1.模型超引數配置

2.實驗結果

NLP論文筆記1：Neural Architectures for Named Entity Recognition

【深度學習NLP論文筆記】《Adversarial Example For Natural Language Classification Problems》

【深度學習論文筆記】Deep Neural Networks for Object Detection

論文筆記之：Collaborative Deep Reinforcement Learning for Joint Object Search

論文筆記10：ITSEGO: An Ontology for Game-based Intelligent Tutoring Systems

論文筆記6：Increasing the Action Gap: New Operators for Reinforcement Learning

【論文筆記1】RNN在影象壓縮領域的運用——Variable Rate Image Compression with Recurrent Neural Networks

【深度學習：目標檢測】RCNN學習筆記(1):Rich feature hierarchies for accurate object detection and semantic segmentat

計算機視覺論文筆記五：Maximal Linear Embedding for Dimensionality Reduction

Neural Network Toolbox使用筆記1：資料擬合

【ucosii】筆記1：移植

設計模式筆記1：簡單工廠模式

Effictive Java學習筆記1：創建和銷毀對象

論文筆記-Wide & Deep Learning for Recommender Systems

golang學習筆記(1)：安裝&helloworld

《黑客攻防技術寶典Web實戰篇@第2版》讀書筆記1：了解Web應用程序

寒假學習筆記1：結構化程序設計

hibernate框架學習筆記1：搭建與測試

struts2框架學習筆記1：搭建測試

Python學習筆記1：用戶登錄

NLP論文筆記1：Neural Architectures for Named Entity Recognition

一.敘述

二. LSTM-CRF模型

1.LSTM輸出到CRF tagging

2.引數和訓練

3.Tagging Schemes

三.Stack-LSTM

四.輸入Word Embeeding

1.模型

五.實驗

1.模型超引數配置

2.實驗結果

相關推薦