ElasticSearch系列五：掌握ES使用IK中文分詞器

阿新 • • 發佈：2019-01-13

一、內建分詞器的介紹

例：Set the shape to semi-transparent by calling set_trans(5)
standard analyzer（預設）：set, the, shape, to, semi, transparent, by, calling, set_trans, 5
simple analyzer：set, the, shape, to, semi, transparent, by, calling, set, trans
whitespace analyzer：Set, the, shape, to, semi-transparent, by, calling, set_trans(5)
language analyzer：set, shape, semi, transpar, call, set_tran, 5

二、測試分詞器

GET /_analyze
{
"analyzer": "standard",
"text": "Text to analyze"
}

三、IK中文分詞器

1.步驟：
git clone https://github.com/medcl/elasticsearch-analysis-ik
mvn package
將target/releases/elasticsearch-analysis-ik-*.*.*.zip拷貝到es/plugins/ik目錄下
在es/plugins/ik下對elasticsearch-analysis-ik-*.*.*.zip進行解壓縮
重啟es

2.兩種analyzer
ik_max_word

: 會將文字做最細粒度的拆分
ik_smart: 會做最粗粒度的拆分
3.使用
PUT /my_index
{
"mappings": {
"my_type": {
"properties": {
"text": {
"type": "text",
"analyzer": "ik_max_word"
}
}
}
}
}
4.測試
GET /my_index/_analyze
{
"text": " 對於你，我始終只能以陌生人的身份去懷念。",
"analyzer": "ik_max_word"
}
5.配置檔案
IKAnalyzer.cfg.xml：用來配置自定義詞庫
main.dic：ik原生內建的中文詞庫，總共有27萬多條，只要是這些單詞，都會被分在一起
quantifier.dic：放了一些單位相關的詞
suffix.dic：放了一些字尾
surname.dic：中國的姓氏
stopword.dic：英文停用詞
6.新增自定義詞庫

IKAnalyzer.cfg.xml：ext_dict配置項，custom/mydict.dic
新增自定義停用詞庫
IKAnalyzer.cfg.xml：ext_stopwords配置項，custom/ext_stopword.dic
7.熱更新方案

第一種：修改ik分詞器原始碼，然後手動支援從mysql中每隔一定時間，自動載入新的詞庫

①下載原始碼
https://github.com/medcl/elasticsearch-analysis-ik/tree/v6.2.4
②修改原始碼
Dictionary類，169行：Dictionary單例類的初始化方法，在這裡需要建立一個我們自定義的執行緒，並且啟動它
HotDictReloadThread類：就是死迴圈，不斷呼叫Dictionary.getSingleton().reLoadMainDict()，去重新載入詞典
Dictionary類，389行：this.loadMySQLExtDict();
Dictionary類，683行：this.loadMySQLStopwordDict();
③mvn package打包程式碼
target\releases\elasticsearch-analysis-ik-6.2.4.zip
④解壓縮ik壓縮包
將mysql驅動jar，放入ik的目錄下
⑤將mysql驅動jar，放入ik的目錄下
⑥修改jdbc相關配置
⑦重啟es，觀察日誌
⑧在mysql中新增詞庫與停用詞
⑨分詞實驗，驗證熱更新生效
（點選下載已修改好的zip包）

第二種：基於ik分詞器原生支援的熱更新方案，部署一個web伺服器，提供一個http介面，通過modified和tag兩個http響應頭，來提供詞語的熱更新

注：推薦用第一種。第二種ik git社群官方都不建議採用，覺得不太穩定。

ElasticSearch系列五：掌握ES使用IK中文分詞器

一、內建分詞器的介紹

二、測試分詞器

三、IK中文分詞器

ElasticSearch系列五：掌握ES使用IK中文分詞器

搜索引擎系列四：Lucene提供的分詞器、IKAnalyze中文分詞器集成

ElasticSearch搜索引擎安裝配置中文分詞器IK插件

Elasticsearch 5.X為index指定中文分詞器ik

【Elasticsearch】Elasticsearch 6.x 探索之路-中文分詞器IK

Elasticsearch系列---倒排索引原理與分詞器

（五）Lucene——中文分詞器

轉：從頭開始編寫基於隱含馬爾可夫模型HMM的中文分詞器

Linux下ElasticSearch6.4.x、ElasticSearch-Head、Kibana以及中文分詞器IK的安裝配置

ElasticSearch-6.4.1安裝中文分詞器Analysis-ik.

Es學習第五課，分詞器介紹和中文分詞器配置

elasticsearch教程--中文分詞器作用和使用

elasticsearch安裝中文分詞器

Elasticsearch通過docker安裝及安裝中文分詞外掛

Elasticsearch 中文分詞器IK

第二節 Elasticsearch加入中文分詞器IK

java HashMap實現中文分詞器應用：敏感詞過濾實現

elasticsearch 中文分詞器 elasticsearch-analysis-ik

Elasticsearch筆記六之中文分詞器及自定義分詞器

Elasticsearch之中文分詞器

ElasticSearch系列五：掌握ES使用IK中文分詞器

一、內建分詞器的介紹

二、測試分詞器

三、IK中文分詞器

相關推薦