1. 程式人生 > >NLP之開放式資訊抽取

NLP之開放式資訊抽取

從廣義上講,資訊抽取處理的物件可以是文字、影象、語音和視訊等多種媒體,但隨著文字資訊抽取研究的快速發展,資訊抽取往往被用來專指文字資訊抽取(text information extraction)。

文字資訊抽取指的是這樣一類文字處理技術,它從自然語言文字中自動抽取指定型別的實體(entity)、關係(relation)、事件(event)等事實資訊,並形成結構化資料輸出。例如,從關於自然災害的新聞報道中抽取事件的資訊一般包括如下幾個主要方面:災害型別、時間、地點、人員傷亡情況、經濟損失等。總體來說,文字資訊抽取主要包括三方面的內涵:①自動處理非結構化的自然語言文字;②選擇性抽取文字中指定的資訊;③就抽取的資訊形成結構化資料表示。

與自動文摘相比,資訊抽取一般是有目的地從文字中尋找所要的資訊,並將找到的資訊轉化成結構化格式表示,一般採用類似框架的表示形式。因此,系統不需要生成自然語言的句子。框架表示中包含哪些屬性,需要系統填充哪些槽,都是事先設定好的。

傳統的資訊抽取技術

MUC會議中評測任務有5個:①場景模板填充(scenario template, ST):定義了描述場景的模板及槽填充規範;②命名實體(named entity, NE)識別:識別出文本中出現的專有名稱和有意義的數量短語,並加以歸類;③共指(co-reference, CR)關係確定:識別出給定文字中的參照表達(referring expressions),並確定這些表達之間的共指關係;④模板元素(template element, TE)填充:類似於人名和組織機構名識別,但是,要求系統必須識別出實體的描述和名字,如果一個實體在文字中被提到了多次,使用了幾種可能的描述和不同的名字形式,要求系統都要把它們識別出來,一個文字中的每個實體只有一個模板元素[Grishman and Sundheim, 1996];⑤模板關係(template relation, TR):確定實體之間與特定領域無關的關係。

傳統的資訊抽取系統在實現方法上,與其他自然語言處理問題的研究方法類似,也可以籠統地劃分為基於分析的方法和基於機器學習的統計方法兩種。

不管系統採用什麼樣的實現方法,必須解決的關鍵問題應該包括如下幾個方面:①命名實體識別;②句法分析,尤其是短語或語塊分析等淺層句法分析和依存句法分析;③共指分析和歧義消解;④實體關係識別:確定文字中兩個實體之間在某一時間範圍內所存在的關係;⑤事件識別:識別多個實體之間的存在關係,包括經歷一段時間之後實體狀態以及實體之間關係的改變。另外,語篇的分析,包括語篇的結構分析和邏輯分析也是不可忽視的一個問題。當然,對於漢語文字而言,自動分詞問題始終是一個無法繞過的攔路虎。

開放式資訊抽取

開放式資訊抽取(open information extraction, OIE)技術,目標是從海量、異構、不規範、含有大量噪聲和冗餘的網頁中大規模地抽取開放類別的實體、關係、事件等多層次語義單元資訊,並形成結構化資料格式輸出。

開放式資訊抽取的特點在於:①文字領域開放:處理的文字領域不再限定於規範的新聞文字或者某一領域文字,而是不限定領域的網路文字;②語義單元型別開放:所抽取的語義單元不限定型別,而是自動地從網路中挖掘語義單元的型別,如實體型別、關
系型別和事件型別等;③以“抽取”替代“識別”:相對於傳統的資訊抽取,開放式文字資訊抽取不再拘泥於從文字中精確識別目標資訊的每次出現,而是充分利用網路資料海量、冗餘的特性,以抽取的方式構建面向實際應用的多層次語義單元集合。在這一過程中,不僅需要考慮文字特徵,同時需要綜合考慮網頁結構特徵和使用者行為特徵等。

1.開放式實體抽取

傳統的命名實體識別任務主要是識別出待處理文字中三大類(實體類、時間類和數字類)、七小類(人名、機構名、地名、時間、日期、貨幣和百分比)命名實體,或針對一些特定領域特定型別的命名實體(如產品名稱、基因名稱等)進行研究。開放式實體抽取的任務是在給出特定語義類的若干實體(稱為“種子”)的情況下,找出該語義類包含的其他實體,其中特定語義類的標籤可能是顯式,也可能是隱式給出的。如給出“中國、美國、俄羅斯”這三個實體,要求找出“國家”這個語義類的其他實體諸如“德國、法國、日本”等。從方式上,傳統意義上的實體識別關注的是從文字中識別出實體字串位置以及所屬類別(如人名、地名、組織機構名等),側重於識別,而開放式實體抽取關注的是從海量、冗餘、不規範的網路資料來源上抽取出符合某個語義類的實體列表,側重於抽取。相對而言,抽取比識別在任務上更加底層,實體抽取的結果可以作為列表支撐實體的識別。

開放式實體抽取的目標是根據使用者輸入的種子詞從網路中抽取出同類型的實體,存在初始資訊少、語義類別難以確定和缺乏公認的評測標準及例項集等困難。現有的開放式實體抽取方法的基本假設是:“同類實體在網路上具有相似的網頁結構或者相似的上下文特徵”。因此,在抽取過程中首先要找到這樣的網頁或文字,然後從中抽取未知的同類型實體。抽取過程通常包括兩個步驟:①候選實體獲取;②候選實體置信度計算和排序。具體實現時通常從種子實體出發,通過分析種子實體在語料中的上下文特徵得到模板,根據模板得到更多候選實體,選取置信度高的候選實體作為新種子進行迭代,滿足一定條件後停止迭代,返回歷次置信度高的候選實體作為結果輸出。

2.實體消歧

實體歧義是指一個實體的指稱項可能對應多個真實世界的實體(或稱實體概念)。例如,“華盛頓”可能指美國開國元勳,也可能指美國首都特區或者華盛頓州。與詞義消歧任務相比,實體消歧(entity disambiguation)面臨更多的困難,如消歧目標不明確、指稱項可能存在多樣性(name variation)和指稱項存在歧義性(name ambiguity)等。指稱項多樣性是指一個實體概念可以用多種命名性指稱項指稱,如全稱、別稱、簡稱、拼寫錯誤、多語言名稱等。指稱項歧義性是指一個命名性指稱項在不同的上下文中可以指稱不同的實體概念,如“邁克爾·喬丹”可能指籃球明星Michael Jeffrey Jordan,也可能是University of California, Berkeley的教授Michael I. Jordan。

對於單語言的實體消歧問題,目前採用的主要方法如下。
(1)實體聚類消歧法:對每一個實體指稱項抽取其上下文特徵包括詞、實體等),並將其表示成特徵向量;然後計算實體指稱項之間的相似度;計算基於指稱項之間的相似度時,可採用一定聚類演算法將其聚類,將每個類看作一個實體概念。這種方法的核心任務是計算實體指稱項之間的相似度,傳統的方法是利用上下文的詞資訊建立詞袋模型(bag-of-words, BOW),從而進行實體指稱項相似度計算。針對人名消歧,採用基於圖的演算法,利用社會化關係的傳遞性考慮隱藏的實體關係知識,也是常用的策略。很多研究者也利用知識資源,如Wikipedia、 Web上的連結資訊、命名實體的同現資訊、領域特定語料庫等,來提升實體消歧的效果。

2)實體連結消歧法:實體連結(entity linking)也稱實體分辨或實體解析(entity resolution),或記錄連結(record linkage)。基於實體連結消歧法的目的是解決基於聚類的實體消歧法不能顯式地給出實體語義資訊的問題,其基本任務是:給定一個實體指稱項,將其連結到知識庫中的實體概念上。

實體連結消歧法主要包括兩步:①候選實體的發現:給定實體指稱項,連結系統根據知識、規則等資訊儘可能地找到實體指稱項的所有候選實體;②候選實體的連結:連結系統根據指稱項和候選實體之間的相似度等特徵,選擇實體指稱項的目標實體。

候選實體的發現可以通過挖掘Wikipedia等網路百科得到,如利用Wikipedia中錨文字的超連結關係、消歧頁面(disambiguation page)和重定向頁面(redirection page)獲得候選實體,也可以通過挖掘待消歧實體指稱項的上下文文字得到,這種方法主要用於發現縮略語的候選實體。

實體連結的核心任務仍是計算實體指稱項和候選實體之間的相似度,選擇相似度最大的候選實體作為連結的目標實體。對於單一實體連結的相似度計算,只考慮實體指稱項與目標實體間的語義相似度,如將實體指稱項的上下文與候選實體的上下文分別表示成BOW向量形式,通過計算向量間的餘弦值確定指稱項與候選實體的相似度。對於協同實體連結,可以利用協同式策略綜合考慮多個實體間的語義關聯,建立全域性語義約束,從而更好地對於文字內的多個實體進行消歧。如考慮不同實體的類別資訊,利用實體類別重合度計算目標實體的語義相似度;或採用Pair-Wise策略,將多個目標指稱項分解為多個目標對,計算每個對之間的語義關聯度,然後累加起來作為文字內部多個實體之間的語義一致性度量;或者利用基於圖的方法,充分考慮文字內部目標實體之間的全域性語義一致性、指稱項與目標實體之間的關聯度。

3.開放式實體關係抽取

實體關係抽取是指確定實體之間是否存在某種關係。如對於句子“外交部發言人洪磊昨天就釣魚島問題表明中方立場”,實體關係抽取模組需要識別出句子中的實體“外交部”和“洪磊”之間存在“僱傭”類別的關係。傳統的實體關係抽取大都給定關係類別,要求在限定語料中判別兩個實體之間是否存在給定關係,可以看作一個模板填充或者槽填充過程。

在處理海量網路文字資源時,不同的實體型別具有不同的關係(或屬性)。傳統的實體關係抽取方法受到人工定義關係型別的限制和訓練語料的制約,難以適應網路文字快速增長和變化的需要。因此,開放式實體關係抽取的目標就是要突破封閉的關係型別限制和訓練語料的約束,從海量的網路文字中抽取實體關係。實體關係通常採用採用三元組表示:(Arg1,Pred,Arg2),其中,Arg1表示實體,Arg2表示實體關係值,通常也是實體,Pred表示關係名稱,通常為動詞、名詞或者名詞短語。例如,對於句子“國務院總理溫家寶在人民大會堂做了政府工作報告”,可以抽出如下三元組:(溫家寶,在,人民大會堂)、(溫家寶,做,政府工作報告)。

開放式實體關係抽取的主要任務是抽取實體關係型別和實體關係值。面對開放領域,如何針對每一領域內實體型別確定其關係類別,是非常困難的問題,這種關係不僅包含概念之間的上下位關係、部分與整體的關係、屬主關係等通用關係,也包含不同類別實體概念所特有的語義關係,如“作家”的以下屬性關係:年齡、作品體裁、代表作等。Web上存在著大量結構化知識源,其中蘊含著大量易於獲取的實體語義關係類別(如維基百科的Infobox),挖掘和利用Web知識源中的語義知識,並充分利用資料冗餘性進行知識驗證是可行的解決方案。對於實體關係值抽取,如何利用結構化網路知識與非結構化網路知識的冗餘性,自動構建訓練語料,同時建立自適應的關係抽取演算法,是目前面臨的另一難題。

從傳統給定類別的關係抽取到開放式的關係抽取,是研究思路的一個大轉變。目前還面臨很多實際困難,例如,如何處理含大量不規範資料格式和噪聲,且質量參差不齊的真實網路資料,如何解決單純利用Infobox抽取關係名覆蓋率不高的問題等。

綜上所述,隨著網際網路的迅速發展資訊抽取技術在研究內容上已經從面向限定領域、限定型別的資訊抽取逐漸發展為開放領域、開放類別的資訊抽取,而在技術手段上,從早期基於人工模板的抽取方法,到基於語料庫的統計方法,再到目前Web2.0時代從大規模使用者生成內容(User Generated Content,如網路百科、社群問答等)進行知識挖掘,進而融合知識和統計方法進行開放式資訊抽取,技術手段越來越奏效。