1. 程式人生 > 實用技巧 >ElasticSearch學習系列(七)分詞

ElasticSearch學習系列(七)分詞

分詞裡面有兩個名詞:Analysis、Analyzer

Analysis

文字分析是把全文字轉換一系列單詞的過程,叫成分詞。

Analyzer

分詞器(有內建的分詞器,也有相應的外掛,尤其是針對中文)
由以下三部分組成:
1.Character Filters 過濾特殊字串
2.Tokenizer 單詞切分
3.Token Filters 切分後的加工

二、使用 _analyzer API

1.standard分詞器

可以看到單詞以空格,非字元的方式分割,並轉換小寫。

2.simple分詞器

可以看到,只保留字母。

3.whitespace分詞器

可以看到只是以簡單的空格切分。

4.stop分詞器

可以看到,stop分詞器多了一個token filters環節,把a,the ,in等修飾詞給過濾掉了。

5.keyword分詞器(不分詞)

當不需要分詞時,可以設定為keyword。

6.正則表示式分詞 pattern

預設是 \W+,非字元的符號進行分隔,在Token Filters環節做了小寫轉換,和修飾詞過濾。

7.language分詞器

三、中文分詞

icu_analyzer的安裝

1.因為我是docker for windows則通過如下命令進入docker容器內部。

 bin/elasticsearch-plugin install analysis-icu

安裝好之後,重啟Docker

但還是有一些問題,比如在理。

社群裡面有ik,THULAC中文分詞外掛。