30_ElasticSearch IK分詞器配置檔案 以及自定義詞庫
阿新 • • 發佈:2019-01-24
ElasticSearch IK分詞器配置檔案 以及自定義詞庫
更多幹貨
一、概述
- ik配置檔案
- 如何自己建立詞庫
- 自己建立停用詞庫(不想去建立索引)
二、ik配置檔案
ik配置檔案地址:es/plugins/ik/config目錄
- IKAnalyzer.cfg.xml:用來配置自定義詞庫
- main.dic:ik原生內建的中文詞庫,總共有27萬多條,只要是這些單詞,都會被分在一起
- quantifier.dic:放了一些單位相關的詞
- suffix.dic:放了一些字尾
- surname.dic:中國的姓氏
- stopword.dic:英文停用詞
ik原生最重要的兩個配置檔案
- main.dic:包含了原生的中文詞語,會按照這個裡面的詞語去分詞
- stopword.dic:包含了英文的停用詞
停用詞,stopword 如:
a the and at but
一般,像停用詞,會在分詞的時候,直接被幹掉,不會建立在倒排索引中
三、自定義詞庫
3.1 自己建立詞庫
- 每年都會湧現一些特殊的流行詞,網紅,藍瘦香菇,喊麥,鬼畜,一般不會在ik的原生詞典裡
- 自己補充自己的最新的詞語,到ik的詞庫裡面去
- 補充自己的詞語,然後需要重啟es,才能生效
IKAnalyzer.cfg.xml:ext_dict,custom/mydict.dic
3.2 自己建立停用詞庫
停用詞庫:比如了,的,啥,麼,我們可能並不想去建立索引,讓人家搜尋
custom/ext_stopword.dic,已經有了常用的中文停用詞,可以補充自己的停用詞,然後重啟es