1. 程式人生 > >文字挖掘系列之文字資訊抽取

文字挖掘系列之文字資訊抽取

文字資料探勘的定義

文字資料探勘是一種利用計算機處理技術從文字資料中抽取有價值的資訊和知識的應用驅動型學科。文字資料探勘處理的資料型別是文字資料,屬於資料挖據的一個分支,與機器學習自然語言處理數理統計等學科具有緊密聯絡。文字挖掘在很多應用中都扮演重要角色,例如智慧商務(例如客戶關係管理)、資訊檢索(例如網際網路搜尋)等。
文字資料探勘需要從三個層面進行理解。其一,底層技術,文字挖掘作為資料探勘的一個分支學科,其底層技術包括機器學習、數理統計、自然語言處理等領域的的技術方法。其二,進階技術,也即是文字挖掘的基本技術,面向不同的應用,分為五大類:資訊抽取文字分類文字聚類文字資料壓縮文字資料處理

。其三,應用領域,文字挖掘最終的目的如其定義中所描述的,資訊訪問與知識發現,資訊訪問包括資訊檢索、資訊瀏覽、資訊過濾和資訊報告,知識發現包括資料分析和資料預測。

文字資料探勘的基本技術之文字資訊抽取

文字資訊抽取

文字資訊抽取是從文字資料中抽取特定資訊的一種技術。文字資料是由一些具體的單位構成的,例如句子、段落、篇章,文字資訊正是由一些小的具體的單位構成的,例如字、詞、片語、句子、段落或是這些具體的單位的組合。抽取文字資料中的名詞短語、人名、地名等都是文字資訊抽取,當然,文字資訊抽取技術所抽取的資訊可以是各種型別的資訊。

技術介紹

下面我們從機器學習的角度介紹一下文字資訊抽取這種的文字挖掘技術。我們將文字資訊抽取視為一個標註問題,即將其作為一個監督學習的具體應用。文字資訊抽取可以分為兩個階段:學習階段和抽取階段。其過程如下圖所示:
圖1


在學習階段,首先有一些帶標註的資料集,每一個樣本包含文字單元序列和標註序列組成,如下所示,

(x1,1,x1,2,...,x1,ny1,1,y1,2,...,y1,n)
表示第i個樣本,其中前面x部分表示第i個樣本的文字單元序列,後面y部分表示第i個樣本的標註序列。機器學子系統基於已有的標註構建一個學習模型,並用一個條件概率分佈進行表示。資訊抽取系統則是根據得到的條件概率分佈模型,對新的樣本進行標註,即找到一個標註序列最大化下面這個目標函式:
(ynew,1,ynew,2,...,ynew,n)=argminP(ynew,1,ynew,2,...,ynew,n|xnew,1,xnew,2
,...,xnew,n)

文字單元在具體的實現中可以是一個文字、一個句子、一個詞語,甚至還可以是中文的一個字,標註可能是表示資訊抽取物件的開始、結束以及其他。抽取的資訊將從開始到標註為結束的文字序列。例如,輸入一段英文語句,要抽取這段語句的名詞短語,則輸入樣本為英文句子,文字單元是單詞,標註是名詞短語的開始、結束或其他。

常用模型

文字資訊抽取常用的模型有:隱馬爾科夫模型、最大熵馬爾科夫模型、條件隨機場、表決感知機模型。這些模型是上述一般文字資訊抽取的具體實現。
首先,將每一個標註看作是獨立於序列以及序列的其它標註的,如下式所示,這樣,對於每一個文字單元序列及其標註,可以得到這樣一個條件概率分佈:

P(ynew,1,ynew,2,...,ynew,n|xnew,1,xnew,2,...,xnew,n)=i=1nP(ynew,i|xnew,1,xnew,2,...,xnew,n)
由上式可以發現,這樣的一個條件概率分佈實際上是一個分類器模型,得到樣本序列的各單元序列的最佳標註。
在上式的基礎上,我們利用不同的模型作為分類器,可以得到不同的文字資訊抽取方法。
例如,對於上面的式子,用最大熵模型作為分類器,並且我們假設不同的標註之間具有一階馬爾可夫性,即上式可以寫為:
P(ynew,1,ynew,2,...,ynew,n|xnew,1,xnew,2,...,xnew,n)=i=1nP(ynew,i|ynew,i1,xnew,1,xnew,2,...,xnew,n)
每一個條件概率分佈又是一個新的分類器模型,但是這個分類器是基於前一個標註確定的條件下的分類器,此時模型就成為最大熵馬爾科夫模型。
需要注意的是,最大熵馬爾科夫模型是一個區域性模型,因為標註之間具有一階馬爾可夫性,用區域性資料進行訓練,而在抽取全域性資訊時,效果可能不會很好,會產生標註偏差問題。因此可以用一些複雜的全域性模型來解決標註偏差問題。其中, 最常用的全域性模型就是條件隨機場。條件概率分散式中的各個標註會依賴除自身之外的其他標註,條件隨機場可以精確的描述全域性的標註情況,在精度上由於最大熵馬爾科夫模型,但是訓練時間也更多。
以上就是以詞性標註問題來理解文字資訊抽取的一些簡單介紹,對於一些複雜資訊的抽取問題,還可以將其看做句法分析問題來理解。