1. 程式人生 > >文字挖掘過程及案例

文字挖掘過程及案例

一、文字挖掘概念
    在現實世界中,可獲取的大部資訊是以文字形式儲存在文字資料庫中的,由來自各種資料來源的大量文件組成,如新聞文件、研究論文、書籍、數字圖書館、電子郵件和Web頁面。由於電子形式的文字資訊飛速增漲,文字挖掘已經成為資訊領域的研究熱點。
    文字資料庫中儲存的資料可能是高度非結構化的,如WWW上的網頁;也可能是半結構化的,如e-mail訊息和一些XML網頁:而其它的則可能是良結構化的。良結構化文字資料的典型代表是圖書館資料庫中的文件,這些文件可能包含結構欄位,如標題、作者、出版日期、長度、分類等等,也可能包含大量非結構化文字成分,如摘要和內容。通常,具有較好結構的文字資料庫可以使用關係資料庫系統實現,而對非結構化的文字成分需要採用特殊的處理方法對其進行轉化。
    文字挖掘(Text Mining)是一個從非結構化文字資訊中獲取使用者感興趣或者有用的模式的過程。

其中被普遍認可的文字挖掘定義如下:
    文字挖掘是指從大量文字資料中抽取事先未知的、可理解的、最終可用的知識的過程,同時運用這些知識更好地組織資訊以便將來參考。
    文字挖掘的主要用途是從原本未經處理的文字中提取出未知的知識,但是文字挖掘也是一項非常困難的工作,因為它必須處理那些本來就模糊而且非結構化的文字資料,所以它是一個多學科混雜的領域,涵蓋了資訊科技、文字分析、模式識別、統計學、資料視覺化、資料庫技術、機器學習以及資料探勘等技術 。文字挖掘是從資料探勘發展而來,因此其定義與我們熟知的資料探勘定義相類似。但與傳統的資料探勘相比,文字挖掘有其獨特之處,主要表現在:文件本身是半結構化或非結構化的,無確定形式並且缺乏機器可理解的語義;而資料探勘的物件以資料庫中的結構化資料為主,並利用關係表等儲存結構來發現知識。因此,有些資料探勘技術並不適用於文字挖掘,即使可用,也需要建立在對文字集預處理的基礎之上。
    文字挖掘是應用驅動的。它在商業智慧、資訊檢索、生物資訊處理等方面都有廣泛的應用;例如,客戶關係管理,自動郵件回覆,垃圾郵件過濾,自動簡歷評審,搜尋引擎等等。

二、文字挖掘過程
    有些人把文字挖掘視為另一常用術語文字知識發現(KDD)的同義詞,而另一些人只是把文字挖掘視為文字知識發現過程的一個基本步驟。文字知識發現主要由以下步驟組成:


 


1)文字預處理:選取任務相關的文字並將其轉化成文字挖掘工具可以處理的中間形式。
2)文字挖掘:在完成文字預處理後,可以利用機器學習、資料探勘以及模式識別等方法提取面向特定應用目標的知識或模式。
3)模式評估與表示為最後一個環節,是利用已經定義好的評估指標對獲取的知識或模式進行評價。如果評價結果符合要求,就儲存該模式以備使用者使用;否則返回到前面的某個環節重新調整和改進,然後再進行新一輪的發現。


    如果把文字挖掘視為一個獨立的過程,則上面三個步驟可以細化為下圖表示:
 


三、文字挖掘關鍵技術及文字分類
    文字轉換為向量形式並經特徵選擇以後,便可以進行挖掘分析了。常用的文字挖掘分析技術有:文字結構分析、文字摘要、文字分類、文字聚類、文字關聯分析、分佈分析和趨勢預測等。文字分類是其中一種很關鍵的挖掘任務也是在文字資訊處理領域用得最多的一種技術。下面做個簡要介紹。
    文字分類系統的任務是:在給定的分類體系下,根據文字的內容自動地確定文字關聯的類別。從數學角度來看,文字分類是一個對映的過程,它將未標明類別的文字對映到已有的類別中,該對映可以是一一對映,也可以是一對多的對映,因為通常一篇文字可以同多個類別相關聯。用數學公式表示如下:
f (特徵): A->B A為待分類文字集,B為分類體系中的類別集合
    文字分類的對映規則是系統根據已經掌握的每類若干樣本的資料資訊,總結出分類的規律性而建立的判別公式和判別規則。然後在遇到新文字時,根據總結出的判別規則,確定文字相關的類別。
    一般來講,文字分類需要四個步驟:
1)獲取訓練文字集:訓練文字集由一組經過預處理的文字特徵向量組成,每個訓練文字(或稱訓練樣本)有一個類別標號;
2)選擇分類方法並訓練分類模型:文字分類方法有統計方法、機器學習方 法、神經網路方法等等。在對待分類樣本進行分類前,要根據所選擇的分類方法,利用訓練集進行訓練並得出分類模型;
3)用訓練好的分類模型對其它待分類文字進行分類;
4)根據分類結果評估分類模型。
下圖是一個完整的文字分類過程:
 
四、文字挖掘應用
    主要的應用方向和系統有,詳細應用及發展趨勢見本blog另外一篇文章《文字挖掘研究進展及趨勢》:
1)基於內容的搜尋引擎,代表性的系統有北京大學天網、計算所的“天羅”、百度、慧聰等公司的搜尋引擎;
2)資訊自動分類、自動摘要、資訊過濾等文字級應用,如上海交通大學納訊公司的自動摘要、復旦大學的文字分類,計算所基於聚類粒度原理VSM的智多星中文文字分類器
3)資訊自動抽取,即將Internet上大量的非結構化的資訊,抽取出格式化的資料,以備進一步的搜尋應用。目前是研究熱點,至今還沒有實用的系統;
4)自動問答、機器翻譯等需要更多自然語言處理和理解的應用。

五、文字分類平臺及演示(略)