論文:BOND: BERT-Assisted Open-Domain Named Entity Recognition with Distant Supervision
題目:BOND:半監督的BERT開放域命名實體識別(2020年6月論文)
原文連結:https://arxiv.org/pdf/2006.15509
程式碼:https://github.com/cliang1453/BOND
測試BOND程式碼:https://github.com/johnson7788/BOND/tree/cosmetic
一些名詞解釋:low-resource: 有標籤或者無標籤的訓練的資料資源不足
Distant supervision: 遠距離監督大多數機器學習技術都需要一組訓練資料。收集訓練資料的傳統方法是讓人們標註一組文件。例如,對於婚姻關係,人類標註者可以將“比爾·克林頓”和“希拉里·克林頓”對標籤為正的訓練樣本。這種方法在時間和金錢上都是昂貴的,並且如果我們的語料庫很大,將無法產生足夠的資料供我們的演算法使用。而且由於人為錯誤,因此產生的訓練資料極有可能是噪音的。生成訓練資料的另一種方法是遠距離監督。在遠距離監督中,我們利用一個已經存在的資料庫來收集要提取的關係的樣本。然後,我們使用這些樣本自動生成我們的訓練資料。例如,包含巴拉克·奧巴馬和米歇爾·奧巴馬已婚的事實。我們考慮到這一事實,然後將出現在同一句子中的每對“巴拉克·奧巴馬”和“米歇爾·奧巴馬”都標籤為我們婚姻關係的一個正例子。這樣,我們可以輕鬆生成大量(可能是噪音的)訓練資料。運用遠距離監督來獲得特定關係的正樣本很容易,但是產生負樣本比較難.
soft label 和hard label: 軟標籤是一個teacher模型預測出來的,類似logits的概率值,是浮點數,硬標籤直接就是整數,就是對應概率最大的位置的索引,例如soft是0.82, hard就是1,
1:簡介
我們研究了在遠距離監督下的開放域命名實體識別(NER)問題。遠距離監督雖然不需要大量的手動標註,但通過外部知識庫會產生高度不完整和有噪聲的遠距離標籤。為了解決這一挑戰,我們提出了一個新的計算框架-BOND,該框架利用了預訓練語言模型(例如BERT和RoBERTa)的能力來提高NER模型的預測效能。具體來說,我們提出了一個兩階段的訓練演算法:在第一階段,我們使用遠距離標籤將預訓練的語言模型適應NER任務,從而可以顯著提高召回率和準確性。在第二階段,我們丟棄遠距離標籤,並提出一種自訓練方法來進一步提高模型效能。在5個基準資料集上進行的全面實驗證明,BOND優於現有的遠距離監督NER方法。程式碼和遠距離標籤的資料已在
命名實體識別(NER)是從文字中檢測對真實世界提及的實體,將其分類為預定型別(例如 locations, persons, organizations)的任務。它是知識提取中的核心任務,對於各種下游應用程式,例如使用者興趣建模(Karatay和Karagoz,2015),問題回答(Khalid等人,2008)和對話系統(Bowden等人,2018),都很重要。傳統的NER方法主要訓練統計順序模型,例如基於手工篩選特徵的隱馬爾可夫模型(HMM)(Zhou and Su,2002)和條件隨機場(CRF)(La ff erty et al。,2001)。為了減輕設計手工篩選特徵的負擔,已經為NER提出了深度學習模型(Ma and Hovy,2016; Huang et al。,2015),並且表現出很強的效能。但是,大多數深度學習方法依賴於大量有標籤的訓練資料。由於NER任務需要token-level級別的標籤,因此標註大量文件可能很昂貴,耗時且容易發生人為錯誤。在許多實際場景中,缺少標籤資料已成為阻止將深度學習模型用於NER任務的最大瓶頸。
為了解決標籤稀缺性問題,一種方法是使用遠距離監督自動生成標籤。在遠距離監督中,打標籤過程是將目標語料庫中的標籤與知識庫中的概念(例如Wikipedia1和YAGO2)相匹配,這些概念通常易於訪問。然而,由匹配過程產生的標籤受到兩個主要挑戰。第一個挑戰是標註不完整,這是由於現有知識庫覆蓋範圍有限所致。以兩個常見的開放域NER資料集為例。從表1中,我們發現兩個資料集上token的覆蓋率都非常低(不到60%)。此問題使許多實體不匹配,併產生許多假正例標籤,這可能嚴重損害後續的NER模型訓練。第二個挑戰是噪音的標註。由於標籤含糊不清,標註通常很嘈雜–同一實體的提及可以對映到知識庫中的多種實體型別。例如,在知識庫中,可以將實體提及“利物浦”對映到“利物浦城市”(型別:LOC)和“利物浦足球俱樂部”(型別:ORG)。儘管現有方法採是基於流行型別的標籤歸納方法,但它們可能會導致對流行型別的匹配偏差。因此,它可能導致許多假正例樣本並損害NER模型的效能。更糟糕的是,標籤的準確性和覆蓋範圍之間常常存在折衷:要生成高質量的標籤,需要設定嚴格的匹配規則,這可能無法很好地適用於所有token,從而降低了覆蓋範圍並引入了假負例標籤。另一方面,由於標籤含糊不清,越來越多的不正確標籤會增加標註的覆蓋範圍。綜上所述,生成對目標語料庫具有較高覆蓋率的高質量標籤仍然非常具有挑戰性。
多項研究試圖解決在遠距離監督的NER中的上述挑戰。為了解決標籤不完整的問題,一些工作採用部分標註,然後用CRF考慮無標籤token的所有可能標籤(Yang等人,2018; Shang等人,2018),但它們仍然需要大量的帶標註的token或外部工具。為了解決標籤噪聲問題,Ni等人(2017)使用啟發式規則篩選出匹配質量較低的句子。但是,這種過濾策略以降低召回率為代價提高了精度。Cao等(2019)嘗試根據在概念分類法中的流行度為實體引入標籤,這可能會導致標籤偏差併產生錯誤標籤資料。此外,大多數方法主要集中在特定領域(例如,生物醫學,化學等)的NER任務,在這些領域中,命名實體的模糊性非常低。當匹配的歧義性問題更加嚴重時,此類方法的效果會較差,尤其是在開放域方案下。到目前為止,在遠距離監督下訓練開放域NER模型仍然是一個具有挑戰性的問題。
我們提出的模型BOND,它是帶有遠距離監督的BERT輔助開放域命名實體識別的縮寫,該模型可從遠距離監督中學習準確的命名實體標籤,而對語料庫的域或內容沒有任何限制。為了解決從遠距離監督中學習所面臨的挑戰,我們的方法利用了預訓練的語言模型(例如ELMo(Peters等,2018),BERT(Devlin等,2019),XLnet(Yang等。 ,2019)),這些模型的以下優點而對這項任務特別有吸引力:首先,它們是非常大型的神經網路,以完全無監督的方式訓練大量無標籤的資料,可以廉價地獲得;其次,由於其龐大的大小(通常具有數億或數十億個引數),它們具有強大的表達能力,可以有效地捕獲一般的語義和句法資訊。這些語言模型已經通過適當的微調在許多流行的NLP基準測試中達到了最先進的效能(Devlin等,2019; Liu等,2019b; Yang等,2019; Lan等, 2020b; Ra ff el et al。,2019),這證明了他們在建模文字資料方面的強大能力。
為了充分利用預訓練語言模型的能力來應對這兩個挑戰,我們提出了一個兩階段的訓練框架。在第一階段,我們使用遠距離匹配的標籤對RoBERTa模型(Liu等人,2019b)進行微調,本質上是轉移RoBERTa中的語義知識,這將改善遠距離監督的預測質量。值得注意的是,我們採取了早停措施,以防止模型過擬合到不完整的帶標註標籤,並顯著改善召回率。然後,我們使用RoBERTa模型為所有資料預測一組偽軟標籤。在第二階段,我們用偽軟標籤替換了遠距匹配的標籤,並設計了一個teacher-student框架以進一步提高召回率。student模型首先由在第一階段學習並使用偽軟標籤訓練的模型初始化。然後,我們使用前一次迭代中的student模型中更新teacher模型,為下一次迭代生成一組新的偽標籤,以繼續訓練student模型。這種teacher-student框架的優點在於,它可以逐步提高模型對資料的置信度。此外,我們根據student模型的預測一致性選擇樣本,以進一步提高軟標籤的質量。這樣,我們可以更好地利用知識庫資訊和語言模型,改善模型擬合。
我們提出的方法與low-resource的NER和半監督學習密切相關。我們將在第5節中討論更多細節。我們總結了我們工作的主要貢獻如下:
•我們證明,經過預訓練的語言模型還可以在訓練過程中提供其他語義資訊,並減少用於遠距離監督的命名實體識別的標籤的噪聲。據我們所知,這是第一項工作,利用了預訓練的語言模型的強大特徵在遠距離監督下完成了開放域NER任務。
•我們設計了一個兩階段的框架來充分利用語言模型在任務中的作用。具體來說,我們在第一階段使用語言模型迭代地定義遠距離標籤,並在第二階段改進teacher-student框架下的模型擬合,從而能夠應對嘈雜和不完整標註的挑戰。
•我們在遠距離監督下對5個數據集進行了針對命名實體識別任務的綜合實驗。我們提出的方法在所有5個數據集中(其中有4個都)遠遠超過了最新的,有監督的NER競爭者。
二、 預備知識
我們簡要介紹了遠距離監督NER問題和預訓練語言模型。
2.1 遠距離監督的NER
NER是將文字中的命名實體定位和分類為預定的實體類別(例如人名,組織,位置等)的過程。形式上,給定一個帶有N個tokens的句子X = [x1,...,xN],一個實體是與實體型別相關聯的tokens = [xi,...,xj](0≤i≤j≤N)的範圍。基於BIO模式(Li等,2012),通常將NER公式化為序列標記任務,即為句子X分配標籤序列Y = [y1,...,yN]。具體來說,第一個標籤型別為X的實體提及的標籤為B-X;該實體提及的其他token被標籤為I-X;並且非實體token被標為O。
對於(完全)監督的NER,我們給了M個已經在token-level進行標註的句子,表示為 。令f(X;θ)表示NER模型,它可以計算N個概率單純形來預測任何新句子X的實體標籤,其中θ是NER模型的引數。我們通過最小化 上的損失來訓練模型:
(1)
其中 是交叉熵損失。
對於遠距離監督的NER,我們無法訪問標註正確的真實標籤,而只能訪問通過將無標籤的句子與外部地名詞典或知識庫(KB)匹配而生成的遠距離標籤。可以通過字串匹配(Giannakopoulos等,2017),正則表示式(Fries等,2017)或啟發式規則(例如POS標籤約束)來實現匹配。因此,我們通過最小化 的公式Eq(1)來替換它們的遠距對應標籤,從而學習NER模型。
挑戰: 遠距離監督產生的標籤通常有噪聲且不完整。對於開放域NER尤其如此,其中對域或語料庫的內容沒有限制。 Fries等人(2017)和Giannakopoulos等人(2017)提出了針對特定域(例如生物醫學域)的遠距離監督NER方法,其中採用的特定於域的地名詞典或知識庫通常具有較高的匹配質量,並且產生高精度和高召回距離標籤。但是,對於開放域,遠距離標籤的質量要差得多,因為在開放域知識庫(KB)中存在更多的歧義和對實體型別的有限覆蓋。表1說明了開放域和生物醫學域資料集上遠距離標籤的匹配質量。可以看出,開放域資料集的遠距離標籤的精度和召回率要低得多。這對訓練準確的NER模型提出了巨大的挑戰。
表1:現有在開放域上的地名詞典匹配效能(Sang和De Meulder,2003; Strauss等人,2016)和生物醫學領域NER資料集(Shang等人,2018)。2.2 預訓練語言模型
訓練過的語言模型,例如BERT及其變體(例如,RoBERTa(Liu等人,2019b),ALBERT(Lan等人,2020b)和T5(Raffel等人,2019))已在許多自然語言理解任務中具有最先進的表現(Jiang等,2019)。這些模型本質上是基於雙向transformer架構的大規模神經網路,並以完全無監督的方式使用開放域資料進行訓練。transformer體系結構的堆疊式self-attention模組可以捕獲深層上下文資訊,它們的非遞迴結構使訓練能夠擴充套件到大量的開放域資料。例如,流行的基於BERT的模型包含1.1億個引數,並使用BooksCorpus(Zhu等人,2015)(8億個單詞)和英語Wikipedia(25億個單詞)進行了訓練。更重要的是,許多預訓練的語言模型已經在網上公開提供。個人不需要從頭開始訓練他們。將預訓練的語言模型應用於下游任務時,只需稍微修改一下模型,然後通過有效且可擴充套件的隨機梯度型別演算法對模型進行調整即可。
三、兩階段框架:BOND
我們介紹我們提議的兩階段框架-BOND。在BOND的第一階段,我們使BERT模型適應遠距離監督的NER任務。在第二階段,我們使用自訓練方法來改進對訓練資料的模型擬合。我們在圖1中總結了BOND框架。