全文檢索技術與Lucene的使用
阿新 • • 發佈:2019-02-16
需要注意的是,建立索引和進行搜尋都是需要分詞器進行分詞的,而且,為了保證能正確的搜尋到結果,在建立索引與進行搜尋時使用的分詞器應是同一個。
由於中英文的不同,分詞器還分為 英文分詞、中文分詞以及停用詞等。英文分詞的主要流程是,輸入文字 → 關鍵詞切分 → 去除停用詞 → 形態還原 → 轉為小寫 。其中,形態還原是去除單詞詞尾的形態變化,將其還原為詞的原型,例如,worked → work,studies → study 。
中文的分詞比較複雜,因為不是一個字就是一個詞,而且一個詞在另外一個地方就可能不是一個詞,如在“帽子和服裝”中,“和服”就不是一個詞。對於中午分詞,通常有三種方式,單字分詞、二分法分詞、詞典分詞。
有些詞在文字中出現的頻率是非常高的,而且對文字所攜帶的資訊基本不產生影響,比如英文的“a、an、the、of”,或中文的“的、了、著”,以及各種標點符號等,這樣的詞稱為停用詞。文字經過分詞之後,停用詞通常被過濾掉,不會被進行索引。在檢索的時候,使用者的查詢中如果含有停用詞,檢索系統也會將其過濾掉。這也給了我們一些啟示,在檢索的時候,儘量的排除停用詞可以加快搜索的速度。
- 倒排索引