1. 程式人生 > >詞幹提取(stemming)和詞形還原(lemmatization)比較

詞幹提取(stemming)和詞形還原(lemmatization)比較

詞形還原(lemmatization),是把一個任何形式的語言詞彙還原為一般形式(能表達完整語義),而詞幹提取(stemming)是抽取詞的詞幹或詞根形式(不一定能夠表達完整語義)。詞形還原和詞幹提取是詞形規範化的兩類重要方式,都能夠達到有效歸併詞形的目的,二者既有聯絡也有區別

現將共同點和聯絡總結為以下4方面:
  (1)目標一致。詞幹提取和詞形還原的目標均為將詞的屈折形態或派生形態簡化或歸併為詞幹(stem)
或原形的基礎形式,都是一種對詞的不同形態的統一歸併的過程。
  (2)結果部分交叉。詞幹提取和詞形還原不是互斥關係,其結果是有部分交叉的。一部分詞利用這兩類方法都能達到相同的詞形轉換效果。如“dogs”的詞
幹為“dog”,其原形也為“dog”。
  (3)主流實現方法類似。目前實現詞幹提取和詞形還原的主流實現方法均是利用語言中存在的規則或利用詞典對映提取詞幹或獲得詞的原形。
  (4)應用領域相似。主要應用於資訊檢索和文字、自然語言處理等方面,二者均是這些應用的基本步驟

二者的區別歸納為以下5方面:
  (1)在原理上,詞幹提取主要是採用“縮減”的方法,將詞轉換為詞幹,如將“cats”處理為“cat”,將“effective”處理為“effect”。而詞形還原主要採用“轉變”
的方法,將詞轉變為其原形,如將“drove”處理為“drive”,將“driving”處理為“drive”。
  (2)在複雜性上,詞幹提取方法相對簡單,詞形還原則需要返回詞的原形,需要對詞形進行分析,不僅要進行詞綴的轉化,還要進行詞性識別,區分相同詞形但
原形不同的詞的差別。詞性標註的準確率也直接影響詞形還原的準確率,因此,詞形還原更為複雜。
  (3)在實現方法上,雖然詞幹提取和詞形還原實現的主流方法類似,但二者在具體實現上各有側重。詞幹提取的實現方法主要利用規則變化進行詞綴的去除和縮減,從而達到詞的簡化效果。詞形還原則相對較複雜,有複雜的形態變化,單純依據規則無法很好地完成。其更依賴於詞典,進行詞形變化和原形的對映,生成詞典中的有效詞。

(4)在結果上,詞幹提取和詞形還原也有部分區別。詞幹提取的結果可能並不是完整的、具有意義的詞,而只是詞的一部分,如“revival”詞幹提取的結果為“reviv”,“ailiner”詞幹提取的結果為“airlin”。而經詞形還原處理後獲得的結果是具有一定意義的、完整的詞,一般為詞典中的有效詞。

(5)在應用領域上,同樣各有側重。雖然二者均被應用於資訊檢索和文字處理中,但側重不同。詞幹提取更多被應用於資訊檢索領域,如Solr、Lucene等,用於擴充套件檢索,粒度較粗。詞形還原更主要被應用於文字挖掘、自然語言處理,用於更細粒度、更為準確的文字分析和表達

相對而言,詞幹提取是簡單的輕量級的詞形歸併方式,最後獲得的結果為詞幹,並不一定具有實際意義。詞形還原處理相對複雜,獲得結果為詞的原形,能夠承載一定意義,與詞幹提取相比,更具有研究和應用價值