1. 程式人生 > >命名實體識別的難點與現狀

命名實體識別的難點與現狀

命名實體識別(Named Entities Recognition, NER)是自然語言處理(Natural Language Processing, NLP)的一個基礎任務,其目的是識別語料中人名、地名、組織機構名等命名實體,在所有涉及NLP的人工智慧研究中——譬如智慧客服——都是一個必須首先攻克的任務。由於這些命名實體數量不斷增加,通常不可能在詞典中窮盡列出,且其構成方法具有各自的一些規律性,因而,通常把對這些詞的識別從詞彙形態處理(如漢語切分)任務中獨立處理,稱為命名實體識別。

命名實體識別的研究主體一般包括3大類(實體類、時間類和數字類)和7小類(人名、地名、機構名、時間、日期、貨幣和百分比)命名實體。評判一個命名實體是否被正確識別包括兩個方面:實體的邊界是否正確;實體的型別是否標註正確。

從語言分析的全過程來看, 命名實體識別屬於詞法分析中未登入詞識別的範疇。命名實體識別是未登入詞中數量最多、識別難度最大、對分詞效果影響最大的問題,同時它也是資訊抽取、資訊檢索、機器翻譯、問答系統等多種自然語言處理技術必不可少的組成部分。

事件檢測:地點、時間、人物是時間的幾個基本構成部分,在構建事件的摘要時,可以突出相關人物、地點、單位等。在事件搜尋系統中,相關的人物、時間、地點可以作為索引關鍵詞。事件的幾個構成部分之間的關係,從語義層面更詳細的描述了事件。

資訊檢索:命名實體可以用來提高和改進檢索系統的效果,當用戶輸入“重大”時,可以發現使用者更想檢索的是“重慶大學”,而不是其對應的形容詞含義。此外,在建立倒排索引的時候,如果把命名實體切成多個單詞,將會導致查詢效率降低。此外,搜尋引擎正在向語義理解、計算答案的方向發展。

語義網路:語義網路中一般包括概念和例項及其對應的關係,例如“國家”是一個概念,中國是一個例項,“中國”是一個“國家”表達實體與概念之間的關係。語義網路中的例項有很大一部分是命名實體。

機器翻譯:命名實體的翻譯常會有一些特殊翻譯規則,例如中國人民翻譯成英文時要使用名字的拼音來表示,有名在前姓在後的規則,而普通的詞語要翻譯成對應的英文單詞。準確識別出文本中的命名實體,對提高機器翻譯的效果有重要的意義。

問答系統:準確的識別出問題的各個組成部分特別重要,問題的相關領域,相關概念。目前,大部分問答系統都只能搜尋答案,而不能計算答案。搜尋答案進行關鍵詞的匹配,使用者根據搜尋結果人工提取答案,而更加友好的方式是把答案計算好呈現給使用者。問答系統中有一部分問題需要考慮到實體之間的關係,例如“美國第四十五屆總統”,目前的搜尋引擎會以特殊的格式返回答案“特朗普”。

命名實體識別當前並不是一個大熱的研究課題,因為學術界部分認為這是一個已經解決了的問題,但是也有學者認為這個問題還沒有得到很好地解決,原因主要有:命名實體識別只是在有限的文字型別(主要是新聞語料中)和實體類別(主要是人名、地名)中取得了效果;與其他資訊檢索領域相比,實體命名評測預料較小,容易產生過擬合;命名實體識別更側重高召回率,但在資訊檢索領域,高準確率更重要;通用的識別多種型別的命名實體的系統性很差。

同時,中文的命名實體識別與英文的相比,挑戰更大,目前未解決的難題更多。英語中的命名實體具有比較明顯的形式標誌,即實體中的每個詞的第一個字母要大寫,所以實體邊界識別相對容易,任務的重點是確定實體的類別。和英語相比,漢語命名實體識別任務更加複雜,而且相對於實體類別標註子任務,實體邊界的識別更加困難。

漢語命名實體識別的難點主要存在於:(1)漢語文字沒有類似英文文字中空格之類的顯式標示詞的邊界標示符,命名實體識別的第一步就是確定詞的邊界,即分詞;(2)漢語分詞和命名實體識別互相影響;(3)除了英語中定義的實體,外國人名譯名和地名譯名是存在於漢語中的兩類特殊實體型別;(4)現代漢語文字,尤其是網路漢語文字,常出現中英文交替使用,這時漢語命名實體識別的任務還包括識別其中的英文命名實體;(5)不同的命名實體具有不同的內部特徵,不可能用一個統一的模型來刻畫所有的實體內部特徵。

最後,現代漢語日新月異的發展給命名實體識別也帶來了新的困難。

其一,標註語料老舊,覆蓋不全。譬如說,近年來起名字的習慣用字與以往相比有很大的變化,以及各種複姓識別、國外譯名、網路紅人、虛擬人物和暱稱的湧現。

其二,命名實體歧義嚴重,消歧困難。譬如下列句子:

餘則成潛伏在敵後 VS 餘則成潛伏線上

我和你一起唱《我和你》吧。

看完嚇死你:驚悚視訊,膽小勿入。

當前命名實體識別的主要技術方法分為:基於規則和詞典的方法、基於統計的方法、二者混合的方法等。

1基於規則和詞典的方法

基於規則的方法多采用語言學專家手工構造規則模板,選用特徵包括統計資訊、標點符號、關鍵字、指示詞和方向詞、位置詞(如尾字)、中心詞等方法,以模式和字串相匹配為主要手段,這類系統大多依賴於知識庫和詞典的建立。

基於規則和詞典的方法是命名實體識別中最早使用的方法,它們依賴於手工規則的系統, 都使用命名實體庫, 而且對每一個規則都賦予權值。當遇到規則衝突的時候, 選擇權值最高的規則來判別命名實體的型別。一般而言,當提取的規則能比較精確地反映語言現象時,基於規則的方法效能要優於基於統計的方法。但是這些規則往往依賴於具體語言、領域和文字風格,編制過程耗時且難以涵蓋所有的語言現象,特別容易產生錯誤,系統可移植性不好,對於不同的系統需要語言學專家重新書寫規則。

基於規則的方法的另外一個缺點是代價太大,存在系統建設週期長、移植性差而且需要建立不同領域知識庫作為輔助以提高系統識別能力等問題。

2基於統計的方法

基於統計機器學習的方法主要包括:隱馬爾可夫模型(HiddenMarkovMode,HMM)、最大熵(MaxmiumEntropy,ME)、支援向量機(Support VectorMachine,SVM)、條件隨機場(ConditionalRandom Fields,CRF)等。

在這4種學習方法中,最大熵模型結構緊湊,具有較好的通用性,主要缺點是訓練時間複雜性非常高,有時甚至導致訓練代價難以承受,另外由於需要明確的歸一化計算,導致開銷比較大。而條件隨機場為命名實體識別提供了一個特徵靈活、全域性最優的標註框架,但同時存在收斂速度慢、訓練時間長的問題。一般說來,最大熵和支援向量機在正確率上要比隱馬爾可夫模型高一些,但是隱馬爾可夫模型在訓練和識別時的速度要快一些,主要是由於在利用Viterbi演算法求解命名實體類別序列的效率較高。隱馬爾可夫模型更適用於一些對實時性有要求以及像資訊檢索這樣需要處理大量文字的應用,如短文字命名實體識別。

基於統計的方法對特徵選取的要求較高,需要從文字中選擇對該項任務有影響的各種特徵,並將這些特徵加入到特徵向量中。依據特定命名實體識別所面臨的主要困難和所表現出的特性,考慮選擇能有效反映該類實體特性的特徵集合。主要做法是通過對訓練語料所包含的語言資訊進行統計和分析,從訓練語料中挖掘出特徵。有關特徵可以分為具體的單詞特徵、上下文特徵、詞典及詞性特徵、停用詞特徵、核心詞特徵以及語義特徵等。

基於統計的方法對語料庫的依賴也比較大,而可以用來建設和評估命名實體識別系統的大規模通用語料庫又比較少,這是此種方法的又一大制約。

3混合方法

自然語言處理並不完全是一個隨機過程,單獨使用基於統計的方法使狀態搜尋空間非常龐大,必須藉助規則知識提前進行過濾修剪處理。目前幾乎沒有單純使用統計模型而不使用規則知識的命名實體識別系統,在很多情況下是使用混合方法,主要包括:

a.統計學習方法之間或內部層疊融合。

b. 規則、詞典和機器學習方法之間的融合,其核心是融合方法技術。在基於統計的學習方法中引入部分規則,將機器學習和人工知識結合起來。

c. 將各類模型、演算法結合起來,將前一級模型的結果作為下一級的訓練資料,並用這些訓練資料對模型進行訓練,得到下一級模型。

這種方法在具體實現過程中需要考慮怎樣高效地將兩種方法結合起來,採用什麼樣的融合技術。由於命名實體識別在很大程度上依賴於分類技術,在分類方面可以採用的融合技術主要包括如Voting,XVoting,GradingVa,l Grading等。

目前解決命名實體識別問題的主導技術就是監督式學習,這項技術包括Hidden Markov

Models,Decision Trees, Maximun Entropy Models, Support Vector Machines 和Conditional Random Fields.他們都需要一個龐大的註釋語料庫,儲存大量實體列表並根據那些具有區分能力的特徵實際各種用於消除歧義的規則。

半監督式學習是最近興起的一項技術,主要技術成為“bootstrapping",它也包括了一些監督式學習的方法,例如,都需要從一系列種子來開始學習的過程,比如一個主要是別疾病名稱的系統執行之前就需要使用者提供幾個疾病實體的名稱,然後系統就開始搜尋包含這些名稱的文字,並根據上下文的線索和一些其他的規則來找出相同文字中的其他疾病例項的名稱。之後系統再用新找到的實體作為新的種子,重讀的在文字中進行搜尋的過程並尋找新的例項。通過多次的重複,可以從大量的文字中找出大量的疾病名稱實體。近期進行的半監督的命名實體識別實驗的結果顯示,其效能和基線監督方法的效能相比具有很大競爭力。

命名實體識別近年來在多媒體索引、半監督和無監督的學習、複雜語言環境和機器翻譯等方面取得大量新的研究成果。隨著半監督的學習和無監督的學習方法不斷被引入到這個領域, 採用未標註語料集等方法將逐步解決語料庫不足的問題。在複雜語言現象(如借喻等)研究以及命名實體識別系統與機器翻譯的互提高方面, 也有廣闊的發展空間。命名實體識別將在更加開放的領域中, 綜合各方面的發展成果, 為自然語言處理的深層次發展奠定更堅實的基礎。