1. 程式人生 > >41.分詞器簡單介紹

41.分詞器簡單介紹

won 分別是 set round 索引 大小 sem arc color

主要知識點

1、什麽是分詞器

分詞器就是把一個文檔切分成詞語,也就是es中所做的normalization(提升recall召回率)

recall,召回率:搜索的時候,增加能夠搜索到的結果的數量。

經過分詞器分詞之後,es才能建立倒排索引

2、內置分詞器的介紹

es內置種分詞器,他們分別是、standard analyzersimple analyzerwhitespace analyzerlanguage analyzer。所以如果是中文還要程序員自動手動安裝中文分詞器

假設有如下一段話:

Set the shape to semi-transparent by calling set_trans(5)

  • standard analyzer:結果是 set, the, shape, to, semi, transparent, by, calling, set_trans, 5(默認的是standard
  • simple analyzer:結果是 set, the, shape, to, semi, transparent, by, calling, set, trans
  • whitespace analyzer:結果是 Set, the, shape, to, semi-transparent, by, calling, set_trans(5)
  • language analyzer(特定的語言的分詞器,比如說,
    english,英語分詞器):結果是 set, shape, semi, transpar, call, set_tran, 5

3、其他說明

Elasticsearch中,內置了很多分詞器(analyzers),例如standard (標準分詞器)、english(英文分詞)和chinese (中文分詞)。其中standard 就是無腦的一個一個詞(漢字)切分,所以適用範圍廣,但是精準度低;english 對英文更加智能,可以識別單數負數,大小寫,過濾stopwords(例如"the"這個詞)等;chinese 效果很差,後面會演示。這次主要玩這幾個內容:安裝中文分詞ik,對比不同分詞器的效果,得出一個較佳的配置。關於Elasticsearch,兩篇很有用的文章:

Elasticsearch的安裝,運行和基本配置備份和恢復,需要的可以看下。

41.分詞器簡單介紹