1. 程式人生 > >30_ElasticSearch IK分詞器配置檔案 以及自定義詞庫

30_ElasticSearch IK分詞器配置檔案 以及自定義詞庫

ElasticSearch IK分詞器配置檔案 以及自定義詞庫

更多幹貨

一、概述

  • ik配置檔案
  • 如何自己建立詞庫
  • 自己建立停用詞庫(不想去建立索引)

二、ik配置檔案

ik配置檔案地址:es/plugins/ik/config目錄

  • IKAnalyzer.cfg.xml:用來配置自定義詞庫
  • main.dic:ik原生內建的中文詞庫,總共有27萬多條,只要是這些單詞,都會被分在一起
  • quantifier.dic:放了一些單位相關的詞
  • suffix.dic:放了一些字尾
  • surname.dic:中國的姓氏
  • stopword.dic:英文停用詞

ik原生最重要的兩個配置檔案

  • main.dic:包含了原生的中文詞語,會按照這個裡面的詞語去分詞
  • stopword.dic:包含了英文的停用詞

停用詞,stopword 如:

a the and at but

一般,像停用詞,會在分詞的時候,直接被幹掉,不會建立在倒排索引中

三、自定義詞庫

3.1 自己建立詞庫

  • 每年都會湧現一些特殊的流行詞,網紅,藍瘦香菇,喊麥,鬼畜,一般不會在ik的原生詞典裡
  • 自己補充自己的最新的詞語,到ik的詞庫裡面去
  • 補充自己的詞語,然後需要重啟es,才能生效
IKAnalyzer.cfg.xml:ext_dict,custom/mydict.dic

3.2 自己建立停用詞庫

停用詞庫:比如了,的,啥,麼,我們可能並不想去建立索引,讓人家搜尋

custom/ext_stopword.dic,已經有了常用的中文停用詞,可以補充自己的停用詞,然後重啟es

更多相關文章