Elasticsearch(ES)分詞器的那些事兒
阿新 • • 發佈:2021-09-26
1. 概述
分詞器是Elasticsearch中很重要的一個元件,用來將一段文字分析成一個一個的詞,Elasticsearch再根據這些詞去做倒排索引。
今天我們就來聊聊分詞器的相關知識。
2. 內建分詞器
2.1 概述
Elasticsearch 中內建了一些分詞器,這些分詞器只能對英文進行分詞處理,無法將中文的詞識別出來。
2.2 內建分詞器介紹
standard:標準分詞器,是Elasticsearch中預設的分詞器,可以拆分英文單詞,大寫字母統一轉換成小寫。
simple:按非字母的字元分詞,例如:數字、標點符號、特殊字元等,會去掉非字母的詞,大寫字母統一轉換成小寫。
whitespace:簡單按照空格進行分詞,相當於按照空格split了一下,大寫字母不會轉換成小寫。
stop:會去掉無意義的詞,例如:the、a、an 等,大寫字母統一轉換成小寫。
keyword:不拆分,整個文本當作一個詞。
2.3 檢視分詞效果通用介面
GET http://192.168.1.11:9200/_analyze
引數:
{ "analyzer": "standard", "text": "I am a man." }
響應:
{ "tokens": [ { "token": "i", "start_offset": 0, "end_offset": 1,"type": "<ALPHANUM>", "position": 0 }, { "token": "am", "start_offset": 2, "end_offset": 4, "type": "<ALPHANUM>", "position": 1 }, { "token": "a", "start_offset": 5,"end_offset": 6, "type": "<ALPHANUM>", "position": 2 }, { "token": "man", "start_offset": 7, "end_offset": 10, "type": "<ALPHANUM>", "position": 3 } ] }
https://www.cnblogs.com/w84422/p/15310917.html
故鄉明