elasticsearch 分詞過程

阿新 • • 發佈：2019-01-11

| analyzer              | logical name  | description                               |

| ----------------------|:-------------:| :-----------------------------------------|

| standard analyzer     | standard      | standard tokenizer, standard filter, lower case filter, stop filter |

| simple analyzer       | simple        | lower case tokenizer                      |

| stop analyzer         | stop          | lower case tokenizer, stop filter         |

| keyword analyzer      | keyword       | 不分詞，內容整體作為一個token(not_analyzed) |

| pattern analyzer      | whitespace    | 正則表示式分詞，預設匹配\W+                 |

| language analyzers    | [lang](http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-lang-analyzer.html)  | 各種語言 |

| snowball analyzer     | snowball      | standard tokenizer, standard filter, lower case filter, stop filter, snowball filter |

| custom analyzer       | custom        | 一個Tokenizer, 零個或多個Token Filter, 零個或多個Char Filter |

tokenizer：ES內建的tokenizer列表。
| tokenizer             | logical name  | description                           |

| ----------------------|:-------------:| :-------------------------------------|

| standard tokenizer    | standard      |                                       |

| edge ngram tokenizer  | edgeNGram     |                                       |

| keyword tokenizer     | keyword       | 不分詞                                 |

| letter analyzer       | letter        | 按單詞分                               |

| lowercase analyzer    | lowercase     | letter tokenizer, lower case filter   |

| ngram analyzers       | nGram         |                                       |

| whitespace analyzer   | whitespace    | 以空格為分隔符拆分                      |

| pattern analyzer      | pattern       | 定義分隔符的正則表示式                  |

| uax email url analyzer| uax_url_email | 不拆分url和email                       |

| path hierarchy analyzer| path_hierarchy| 處理類似`/path/to/somthing`樣式的字串|

token filter：ES內建的token filter列表。
| token filter          | logical name  | description                           |

| ----------------------|:-------------:| :-------------------------------------|

| standard filter       | standard      |                                       |

| ascii folding filter  | asciifolding  |                                       |

| length filter         | length        | 去掉太長或者太短的                      |

| lowercase filter      | lowercase     | 轉成小寫                               |

| ngram filter          | nGram         |                                       |

| edge ngram filter     | edgeNGram     |                                       |

| porter stem filter    | porterStem    | 波特詞幹演算法                            |

| shingle filter        | shingle       | 定義分隔符的正則表示式                  |

| stop filter           | stop          | 移除 stop words                        |

| word delimiter filter | word_delimiter| 將一個單詞再拆成子分詞                   |

| stemmer token filter  | stemmer       |                                        |

| stemmer override filter| stemmer_override|                                     |

| keyword marker filter | keyword_marker|                                        |

| keyword repeat filter | keyword_repeat|                                        |

| kstem filter          | kstem         |                                        |

| snowball filter       | snowball      |                                        |

| phonetic filter       | phonetic      | [外掛](https://github.com/elasticsearch/elasticsearch-analysis-phonetic) |

| synonym filter        | synonyms      | 處理同義詞                              |

| compound word filter  | dictionary_decompounder, hyphenation_decompounder | 分解複合詞  |

| reverse filter        | reverse       | 反轉字串                              |

| elision filter        | elision       | 去掉縮略語                              |

| truncate filter       | truncate      | 截斷字串                              |

| unique filter         | unique        |                                        |

| pattern capture filter| pattern_capture|                                       |

| pattern replace filte | pattern_replace| 用正則表示式替換                        |

| trim filter           | trim          | 去掉空格                                |

| limit token count filter| limit       | 限制token數量                           |

| hunspell filter       | hunspell      | 拼寫檢查                                |

| common grams filter   | common_grams  |                                        |

| normalization filter  | arabic_normalization, persian_normalization |          |

character filter：ES內建的character filter列表
| character filter          | logical name  | description               |

| --------------------------|:-------------:| :-------------------------|

| mapping char filter       | mapping       | 根據配置的對映關係替換字元   |

| html strip char filter    | html_strip    | 去掉HTML元素               |

| pattern replace char filter| pattern_replace| 用正則表示式處理字串    |

四：ES analyzer DSL

http://localhost:11200/search-product/_analyze?analyzer=keywordLowercase&text=筆記本

elasticsearch 分詞過程

| analyzer | logical name | description | | ----------------------|:-------------:| :-------------------------

elasticsearch分詞檢索的match-query匹配過程分析

1. 模擬字串資料儲存localhost:9200/yigo-redist.1/_analyze?analyzer=default&text=全能片(前)---TRW-GDB7891AT剎車片自帶報警線，無單獨報警線號碼,卡仕歐,卡仕歐,乘用車,剎車片索引為`

ElasticSearch分詞器總結

一、ik、pinyin分詞器今天用通訊錄演示ES檢索功能，在對姓名檢索時，想實現中文和拼音均可檢索，於是除之前常用的中文分詞器ik外，又下載了拼音分詞器pinyin,使用情況總結如下： 1、下載 ik：https://github.com/medcl/elasticsearch

elasticsearch分詞外掛安裝

官方地址：https://github.com/medcl/elasticsearch-analysis-ik 兩種安裝方式： 1. 進入elasticsearch-6.5.0/plugins/然後 mkdir ik cd ik wget https://github.com

elasticsearch分詞器

在全文搜尋（Fulltext Search）中，詞（Term）是一個搜尋單元，表示文字中的一個詞，標記（Token）表示在文字欄位中出現的詞，由詞的文字、在原始文字中的開始和結束偏移量、以及資料型別等組成。ElasticSearch 把文件資料寫到倒排索引（Inverted

Elasticsearch——分詞器對String的作用

關於String型別——分詞與不分詞在Elasticsearch中String是最基本的資料型別，如果不是數字或者標準格式的日期等這種很明顯的型別，其他的一般都會優先預設儲存成String。同樣的資料型別，Elasticsearch也提供了多種儲存與分詞的模式，不同的模式應用於不同的場景。很多人在初次使

Elasticsearch 分詞器

pin 文本分析 mail ima 6.5 java正則表達式 lan 6.2 offset 無論是內置的分析器（analyzer），還是自定義的分析器（analyzer），都由三種構件塊組成的：character filters ， tokenizers ， token

Java開發中的Elasticsearch分詞器的定義與用法一

在Java開發中無論是內建的分析器（analyzer），還是自定義的分析器（analyzer），都由三種構件塊組成的：character filters ， tokenizers ， token filters。內建的analyzer將這些構建塊預先打包到適合不同語言和文字型別的anal

elasticsearch 分詞器外掛安裝 windows + Linux

windows下安裝ik分詞器：注意：url中，es的版本需要對應上，例如es版本是6.2.4，url中就寫6.2.4，不要對應不上，否則es啟動不起來下載下來對應的壓縮包，進行解壓

elasticSearch 分詞器踩的坑

elasticSearch 作為搜尋引擎，效率是非常高的。在搜尋引擎的選擇上，一般是solr和es。兩者都是基於lucene的。經簡單調研，目前美團酒旅與外賣使用的都是以elasticSearch為主。 es的預設分詞器對中文的支援非常不好，所以要使用es，分詞器是必須要配置的。以下記錄

python——jieba分詞過程

print -- training 空字符串交通 jieba分詞 imp ini jieba 1 import jieba 2 """函數2：分詞函數""" 3 def fenci(training_data): 4 """-----------

Ubuntu16.04下安裝elasticsearch+kibana實現php客戶端的中文分詞

lba 實例 exc common adding creat 啟動服務 uid dbms 1.下載安裝elasticsearch和kibana wget https://artifacts.elastic.co/downloads/elasticsearch/elasti

elasticsearch之分詞查詢

elasticsearch使用elk時，search時默認帶有分詞功能，搜索關鍵字並不精準，為方便search查詢，將分詞功能禁用：curl -XPUT http://localhost:9200/_template/template_1 -d ‘{"template" : "*","order":0,"se

ElasticSearch 用ik分詞器建立索引（java API）

tle creat analyzer undefined 全文搜索 () map 多用戶 tcl 　　ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分布式多用戶能力的全文搜索引擎，基於RESTful web接口。Elasticsearch是用Ja

elasticsearch中文分詞+全文搜索

分詞器。。中文 search img 版本下載地址源碼包 -i 安裝ik中文分詞器我在百度上搜索了下，大多介紹的都是用maven打包下載下來的源碼，這種方法也行，但是不夠方便，為什麽這麽說？首先需要安裝maven吧？其次需要下載源碼吧？最後需要打包吧？我

搭建ELASTICSEARCH實現中文分詞搜索功能

area 普通 ron too alt 下載 bootstrap arch osi 安裝ELASTICSERARCH yum install bzip2 automake libtool gcc-c++ java-1.8.0-openjdk -y mkdir -p /h

Elasticsearch入門之從零開始安裝ik分詞器

gpo article terms n) rm -rf 從零開始系列 pack 默認起因需要在ES中使用聚合進行統計分析，但是聚合字段值為中文，ES的默認分詞器對於中文支持非常不友好：會把完整的中文詞語拆分為一系列獨立的漢字進行聚合，顯然這並不是我的初衷。我們來看個

記一次結巴分詞.net core 2.0版 nuget發布過程

core param inf 文件 pos 成功搜索 ros uri 最近用到分詞考慮很久，選用了結巴分詞，原因見博客Lucene.net(4.8.0) 學習問題記錄五: JIEba分詞和Lucene的結合，以及對分詞器的思考既然選好了，難就開始行動吧。查了.net

elasticsearch系列三：索引詳解（分詞器、文檔管理、路由詳解）

ces com dex 合並 pda ams 最新 case dbi 一、分詞器 1. 認識分詞器 1.1 Analyzer 分析器在ES中一個Analyzer 由下面三種組件組合而成： character filter ：字符過濾器，對文本進行字符過濾處理，

elasticsearch 中文分詞（elasticsearch-analysis-ik）安裝

star 最好好玩的 failed dex source 在線 3.0 github elasticsearch 中文分詞（elasticsearch-analysis-ik）安裝下載最新的發布版本 https://github.com/medcl/elasticsea

elasticsearch 分詞過程

四：ES analyzer DSL

相關推薦