41.分詞器簡單介紹
阿新 • • 發佈:2018-02-25
won 分別是 set round 索引 大小 sem arc color Elasticsearch的安裝,運行和基本配置 和 備份和恢復,需要的可以看下。
主要知識點
1、什麽是分詞器
分詞器就是把一個文檔切分成詞語,也就是es中所做的normalization(提升recall召回率)
recall,召回率:搜索的時候,增加能夠搜索到的結果的數量。
經過分詞器分詞之後,es才能建立倒排索引
2、內置分詞器的介紹
es內置種分詞器,他們分別是、standard analyzer、simple analyzer、whitespace analyzer、language analyzer。所以如果是中文還要程序員自動手動安裝中文分詞器
假設有如下一段話:
Set the shape to semi-transparent by calling set_trans(5)
- standard analyzer:結果是 set, the, shape, to, semi, transparent, by, calling, set_trans, 5(默認的是standard)
- simple analyzer:結果是 set, the, shape, to, semi, transparent, by, calling, set, trans
- whitespace analyzer:結果是 Set, the, shape, to, semi-transparent, by, calling, set_trans(5)
- language analyzer(特定的語言的分詞器,比如說,
3、其他說明
Elasticsearch中,內置了很多分詞器(analyzers),例如standard (標準分詞器)、english(英文分詞)和chinese (中文分詞)。其中standard 就是無腦的一個一個詞(漢字)切分,所以適用範圍廣,但是精準度低;english 對英文更加智能,可以識別單數負數,大小寫,過濾stopwords(例如"the"這個詞)等;chinese 效果很差,後面會演示。這次主要玩這幾個內容:安裝中文分詞ik,對比不同分詞器的效果,得出一個較佳的配置。關於Elasticsearch,兩篇很有用的文章:
41.分詞器簡單介紹