論文閱讀:Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning
題目:使用正-無標籤學習的遠端監督命名實體識別
論文地址:https://aclanthology.org/P19-1231/
論文來源:ACL2019
論文簡介
在該論文中,研究了僅使用無標記的資料和命名實體字典,來進行命名實體識別(NER)的方法。為此,該文將任務定義為一個正無標記(positive-unlabeled, PU)學習問題,並據此提出了一種新的PU學習演算法,可以無偏且一致地估計任務損失,效果如同有全標記資料。
該方法的創新點在於使用半監督的方式進行NER,它不要求詞典標註句子中的每個實體,甚至不要求詞典標註構成一個實體的所有單詞。這大大降低了對詞典質量的要求,使其能夠很好地適用於非常簡單的詞典。
問題的引出
監督方法在NER上取得了巨大的成功。然而,監督方法通常需要大規模的細粒度註釋,使得難以應用於標記較少的領域,如生物/醫學領域。該論文探索了僅使用無標記資料和命名實體字典進行NER的方法。
NER很自然的方法,即使用字典掃描文字,並匹配其中的實體。然而,這種方法需要非常高質量的命名實體字典。如下圖所示,若字典質量較低,則該方法效果很差
為了解決這個問題,一個直觀的方法是使用字典標記的資料進一步進行監督或半監督學習。但是,由於它不能保證詞典涵蓋了一個句子內的所有實體詞(實體的詞),所以不能簡單地將未被詞典標記的單詞視為非實體詞。這時,傳統的監督或半監督學習演算法並不適用,因為它們通常需要所有類的標註資料。
為此,該文提出將任務定義為正無標記(PU)學習問題,並引入一種新的PU學習演算法來進行該任務:有標記的實體詞形成正§資料,其餘的形成無標記(U)資料,用於PU學習。該演算法可以無偏且一致地估計任務損失,前提是標記的P資料可以揭示P類的資料分佈。
由於字典只覆蓋了部分實體,它不能完全揭示實體詞的資料分佈。為了解決這個問題,又基於AdaSampling提出了一種自適應方法來擴充字典。
預備
風險最小化
無偏性
一致性
證明一致性。 一致性即,隨著樣本容量的增大,估計量的值越來越接近被估計的總體引數。
該節內容較難懂,暫且跳過。
使用PU方法,基於字典的NER
定義符號
標記分配機制
在這項工作中,將正負標籤分配機制應用於NER任務,而不是流行的BIO或BIOES機制。實體詞被對映到正類,非實體詞被對映到負類。這是因為,正如之前所討論的,詞典不能保證涵蓋一個句子中的所有實體詞。它只能標記實體中開頭(B)、內部(I)或最後(E)的單詞,因此無法區分標註的實體詞屬於哪一種型別。
使用字典進行資料標記
使用最大匹配演算法以獲得D +,這是一種貪心演算法,遍歷一個句子,從句子中給定的點開始,找到與字典中的一個條目匹配的最長字串。演算法的一般過程如下。
構建PU學習分類器
使用一個基於神經網路的體系結構來實現分類器f,這個體系結構被不同的實體型別共享。
詞表示
上下文無關的詞表示由三部分組成:
- 字元級詞向量
- 普通詞向量(文中使用Glove)
- 人工特徵向量(一個0|1向量)
標籤推理
PU分類器被訓練後,可用它來執行標籤預測。由於為每個實體型別構建了不同的分類器,因此一個實體可能被不同的分類器預測為不同的型別。選擇具有最高預測概率的型別。解決型別衝突後,將同類型分類器預測為正類的連續詞作為一個實體處理,得到最終的實體單詞標籤預測。
擴充詞典
在PU學習中,使用標記正資料的經驗風險,來估計正資料的期望風險,這要求正資料與分佈
P(X∣Y=1)相獨立。若使用一個簡單的字典來進行資料標記,這種要求很難滿足。於是該文提出了一種基於AdaSampling演算法的自適應方法。
該方法的核心思想是自適應地擴充命名實體字典。具體來說,首先訓練一個PU學習分類器f ff,並使用它來標記未標記的資料集。基於預測的標籤,提取所有預測的實體。對於一個被預測的實體,如果它出現超過k次,並且它在未標記資料集中的所有出現都被預測為實體,則將在下一次迭代中將其新增到實體字典中。重複該過程至字典不再改變。
實驗
實證研究以下內容:
- 使用簡單字典的方法的總體效能
- 未標記資料大小的影響
- 字典質量的影響,如字典大小、資料標註精度和查全率
-
對πp的估計的影響
比較方法
該文提出的自適應PU學習(Adapted PU learning, AdaPU)演算法,與5個基線進行比較。
- 字典匹配方法,稱之為Matching。它直接使用構造的命名實體字典來標記測試集,如Algorithm 1所示。
- 監督方法,它使用與f相同的架構,但訓練細粒度註釋(完全標記的Du和D+)此外,還應用了BIOES標籤分配機制進行模型訓練。作為基線BiLSTM。
- uPU演算法,它利用交叉熵損失來實現l
- 有界uPU(buPU)演算法,該演算法實現了平均絕對誤差。與AdaPU相比,它不應用非負約束,也不進行字典適配。
- 有界非負PU學習演算法(bnPU),與AdaPU相比,bnPU不進行字典自適應。
此外,與幾個具有代表性的監督方法進行比較。
- Stanford NER (MEMM) ,一種基於最大熵馬可夫模型的方法;
- Stanford NER (CRF) ,一種基於條件隨機場的方法;
- BiLSTM + CRF,基於神經網路,但另外引入CRF層
資料集
CoNLL(en)
CoNLL(sp)
MUC
Twitter
構建命名實體字典
Table 1列出了使用Algorithm 1對這些字典進行資料標註結果的一些統計資訊。
從表中可以看出,資料標註的精度是可以接受的,但召回率很低。這是預料之內的,也是隻使用字典進行NER的典型問題。
估計π p
Table 2列出了資料集上不同實體型別的π p=(實體詞的#)/(訓練集的#)的真值。
可以看出,不同的資料集π p的變化很小。使用π從現有的標記資料集中獲取的值作為初始化。已標記的資料集可能來自其他域或過期。
在本研究中,首先對PER、LOC、ORG和MISC分別設定π p= 0.04、0.04、0.05、0.03。從這個值開始,訓練了提出的模型,並使用它對未標記的資料集進行預測。根據預測結果,重新估計了π p的值,結果值列在Table 2中.
實驗結果
整體效能
Table 3顯示了按實體型別劃分的模型效能和四個測試資料集上的整體效能,可以觀察到:
與其他模型相比,Matching模型的效能相當差。主要原因是查全率低。這與之前的討論一致,說明使用這種簡單的詞典並不合適。
這些基於PU 學習的方法相對於所有資料集的匹配有了明顯的改進。這證明了PU學習的有效性。
buPU的效能明顯優於uPU。
在大多數資料集和實體型別上,bnPU的效能略優於buPU。這驗證了非負約束的有效性。
該文所提出的AdaPU模型在bnPU的基礎上做了進一步的改善,甚至與一些監督方法擁有相當的效能,特別是對於PER型別。驗證了該方法在擴充命名實體字典方面的有效性。
未標記資料的影響
分別使用CoNLL (en)訓練資料集的20%、40%、60%、80%、100%和300%(使用額外的未標記資料)對AdaPU進行訓練。Figure 2描述了對PER、LOC和ORG的研究結果。可以看出,增加訓練資料的大小一般會提高AdaPU的效能,但這種提高是遞減的。
字典的影響
使用DBpedia擴充套件了字典,Table 4列出了生成字典的統計資訊,Table 5列出了使用該字典的模型效能。對結果的一個值得注意的觀察是,在LOC上,當使用擴充套件字典時,效能下降很多。這意味著在使用擴充套件字典時,它在PU學習中引入了更多的假陽性例子
πp的影響
Table 6列出了AdaPU在使用Table 2中πp的真值或估計值時的效能。從表中可以看出,使用π估計的模型僅略低於使用πp的真值的模型。說明了該模型對πp
的小變化具有魯棒性(),並驗證了π估計方法的有效性。
注:
魯棒性 對應英文單詞為robust,中文為健壯的、強壯的,所以說演算法的魯棒性直白點說就是健壯的、強壯的演算法,具體來說健壯主要體現在以下三點:
1、模型具有較高的精度或有效性,這也是對於機器學習中所有學習模型的基本要求;
2、對於模型假設出現的較小偏差,只能對演算法效能產生較小的影響,比如常說的噪點;
3、對於模型假設出現的較大偏差,不可對演算法效能產生“災難性”的影響,比如離群點;
總結
對該論文中的工作總結如下:
- 提出了一種PU學習演算法,僅使用無標記資料和命名實體字典來進行NER任務。
- 驗證了在假設字典中找到的實體能夠揭示實體分佈的前提下,所提演算法能無偏地、一致地估計任務損失。
- 提出了一種基於AdaSampling演算法的自適應方法來豐富字典。
- 在4個NER資料集上進行了大量的實驗研究,驗證了所提方法的有效性。