文字挖掘過程及案例
阿新 • • 發佈:2019-02-07
一、文字挖掘概念 文字挖掘是指從大量文字資料中抽取事先未知的、可理解的、最終可用的知識的過程,同時運用這些知識更好地組織資訊以便將來參考。 文字挖掘的主要用途是從原本未經處理的文字中提取出未知的知識,但是文字挖掘也是一項非常困難的工作,因為它必須處理那些本來就模糊而且非結構化的文字資料,所以它是一個多學科混雜的領域,涵蓋了資訊科技、文字分析、模式識別、統計學、資料視覺化、資料庫技術、機器學習以及資料探勘等技術 。文字挖掘是從資料探勘發展而來,因此其定義與我們熟知的資料探勘定義相類似。但與傳統的資料探勘相比,文字挖掘有其獨特之處,主要表現在:文件本身是半結構化或非結構化的,無確定形式並且缺乏機器可理解的語義;而資料探勘的物件以資料庫中的結構化資料為主,並利用關係表等儲存結構來發現知識。因此,有些資料探勘技術並不適用於文字挖掘,即使可用,也需要建立在對文字集預處理的基礎之上。 文字挖掘是應用驅動的。它在商業智慧、資訊檢索、生物資訊處理等方面都有廣泛的應用;例如,客戶關係管理,自動郵件回覆,垃圾郵件過濾,自動簡歷評審,搜尋引擎等等。 二、文字挖掘過程
三、文字挖掘關鍵技術及文字分類 文字轉換為向量形式並經特徵選擇以後,便可以進行挖掘分析了。常用的文字挖掘分析技術有:文字結構分析、文字摘要、文字分類、文字聚類、文字關聯分析、分佈分析和趨勢預測等。文字分類是其中一種很關鍵的挖掘任務也是在文字資訊處理領域用得最多的一種技術。下面做個簡要介紹。 文字分類系統的任務是:在給定的分類體系下,根據文字的內容自動地確定文字關聯的類別。從數學角度來看,文字分類是一個對映的過程,它將未標明類別的文字對映到已有的類別中,該對映可以是一一對映,也可以是一對多的對映,因為通常一篇文字可以同多個類別相關聯。用數學公式表示如下: f (特徵): A->B A為待分類文字集,B為分類體系中的類別集合 文字分類的對映規則是系統根據已經掌握的每類若干樣本的資料資訊,總結出分類的規律性而建立的判別公式和判別規則。然後在遇到新文字時,根據總結出的判別規則,確定文字相關的類別。 一般來講,文字分類需要四個步驟: 1)獲取訓練文字集:訓練文字集由一組經過預處理的文字特徵向量組成,每個訓練文字(或稱訓練樣本)有一個類別標號; 2)選擇分類方法並訓練分類模型:文字分類方法有統計方法、機器學習方 法、神經網路方法等等。在對待分類樣本進行分類前,要根據所選擇的分類方法,利用訓練集進行訓練並得出分類模型; 3)用訓練好的分類模型對其它待分類文字進行分類; 4)根據分類結果評估分類模型。 下圖是一個完整的文字分類過程: 四、文字挖掘應用 主要的應用方向和系統有,詳細應用及發展趨勢見本blog另外一篇文章《文字挖掘研究進展及趨勢》: 1)基於內容的搜尋引擎,代表性的系統有北京大學天網、計算所的“天羅”、百度、慧聰等公司的搜尋引擎; 2)資訊自動分類、自動摘要、資訊過濾等文字級應用,如上海交通大學納訊公司的自動摘要、復旦大學的文字分類,計算所基於聚類粒度原理VSM的智多星中文文字分類器 3)資訊自動抽取,即將Internet上大量的非結構化的資訊,抽取出格式化的資料,以備進一步的搜尋應用。目前是研究熱點,至今還沒有實用的系統; 4)自動問答、機器翻譯等需要更多自然語言處理和理解的應用。 五、文字分類平臺及演示(略) |