1. 程式人生 > >自然語言處理與中文分詞的難點總結

自然語言處理與中文分詞的難點總結

中文自動分詞

指的是使用計算機自動對中文文字進行詞語的切分,即像英文那樣使得中文句子中的詞之間有空格以標識。中文自動分詞被認為是中文自然語言處理中的一個最基本的環節。

中文分詞的難點

· 未登入詞,基於詞庫的分詞方法往往不能識別新詞、特定領域的專有詞。人名、機構名、地名、產品名、商標名、簡稱、省略語等都是自動分詞的難點。

· 切分歧義,使用基於n-gram的切詞方法往往不能保證詞在切分過程中的語義獨立性。歧義主要包括交集型歧義和組合型歧義,例如:表面的,因為“表面”和“面的”都是詞,那麼這個短語就可以分成“表面|的”和“表|面的”。這種稱為交集型歧義(交叉歧義)。“化妝和服裝”可以分成“化妝|和|服裝”或者“化妝|和服|裝”。

現有方法

· 基於詞典的匹配

· 前向最大匹配

· 後向最大匹配

· 基於字的標註

· 最大熵模型

· 條件隨機場模型

· 感知器模型

· 其它方法

· 與詞性標註結合

· 與句法分析結合

參考來源:維基百科

自然語言處理困難點:

自然語言處理,即實現人機間自然語言通訊,或實現自然語言理解和自然語言生成是十分困難的。造成困難的根本原因是自然語言文字和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性(ambiguity)。

一箇中文文字從形式上看是由漢字(包括標點符號等)組成的一個字串。由字可組成詞,由詞可組成片語,由片語可組成句子,進而由一些句子組成段、節、章、篇。無論在上述的各種層次:字(符)、詞、片語、句子、段,……還是在下一層次向上一層次轉變中都存在著歧義和多義現象,即形式上一樣的一段字串,在不同的場景或不同的語境下,可以理解成不同的詞串、片語串等,並有不同的意義。一般情況下,它們中的大多數都是可以根據相應的語境和場景的規定而得到解決的。

但是一方面,我們也看到,為了消解歧義,是需要極其大量的知識和進行推理的。如何將這些知識較完整地加以收集和整理出來;又如何找到合適的形式,將它們存入計算機系統中去;以及如何有效地利用它們來消除歧義,都是工作量極大且十分困難的工作。這不是少數人短時期內可以完成的,還有待長期的、系統的工作。

以上說的是,一箇中文文字或一個漢字(含標點符號等)串可能有多個含義。它是自然語言理解中的主要困難和障礙。反過來,一個相同或相近的意義同樣可以用多箇中文文字或多個漢字串來表示。

因此,自然語言的形式(字串)與其意義之間是一種多對多的關係。其實這也正是自然語言的魅力所在。但從計算機處理的角度看,我們必須消除歧義,而且有人認為它正是自然語言理解中的中心問題,即要把帶有潛在歧義的自然語言輸入轉換成某種無歧義的計算機內部表示。

如何解決語境的問題:

同時,由於強調了“大規模”,強調了“真實文字”,下面兩方面的基礎性工作也得到了重視和加強。

(1)大規模真實語料庫的研製。大規模的經過不同深度加工的真實文字的語料庫,是研究自然語言統計性質的基礎。沒有它們,統計方法只能是無源之水。

(2)大規模、資訊豐富的詞典的編制工作。規模為幾萬,十幾萬,甚至幾十萬詞,含有豐富的資訊(如包含詞的搭配資訊)的計算機可用詞典對自然語言處理的重要性是很明顯的。

自然語言處理的資料基礎:

自然語言處理的基礎是各類自然語言處理資料集,如tc-corpus-train(語料庫訓練集)、面向文字分類研究的中英文新聞分類語料、以IG卡方等特徵詞選擇方法生成的多維度ARFF格式中文VSM模型、萬篇隨機抽取論文中文DBLP資源、用於非監督中文分詞演算法的中文分詞詞庫、UCI評價排序資料、帶有初始化說明的情感分析資料集等。

參考資料