ElasticSearch學習系列(七)分詞
阿新 • • 發佈:2020-11-03
分詞裡面有兩個名詞:Analysis、Analyzer
Analysis
文字分析是把全文字轉換一系列單詞的過程,叫成分詞。
Analyzer
分詞器(有內建的分詞器,也有相應的外掛,尤其是針對中文)
由以下三部分組成:
1.Character Filters 過濾特殊字串
2.Tokenizer 單詞切分
3.Token Filters 切分後的加工
二、使用 _analyzer API
1.standard分詞器
可以看到單詞以空格,非字元的方式分割,並轉換小寫。
2.simple分詞器
可以看到,只保留字母。
3.whitespace分詞器
可以看到只是以簡單的空格切分。
4.stop分詞器
可以看到,stop分詞器多了一個token filters環節,把a,the ,in等修飾詞給過濾掉了。
5.keyword分詞器(不分詞)
當不需要分詞時,可以設定為keyword。
6.正則表示式分詞 pattern
預設是 \W+,非字元的符號進行分隔,在Token Filters環節做了小寫轉換,和修飾詞過濾。
7.language分詞器
三、中文分詞
icu_analyzer的安裝
1.因為我是docker for windows則通過如下命令進入docker容器內部。
bin/elasticsearch-plugin install analysis-icu
安裝好之後,重啟Docker
但還是有一些問題,比如在理。
社群裡面有ik,THULAC中文分詞外掛。