elasticsearch文件-analysis

阿新 • • 發佈：2019-01-03

analysis

基本概念
===

全文搜尋引擎會用某種演算法對要建索引的文件進行分析， 從文件中提取出若干Token(詞元)， 這些演算法稱為Tokenizer(分詞器)， 這些Token會被進一步處理， 比如轉成小寫等， 這些處理演算法被稱為Token Filter(詞元處理器), 被處理後的結果被稱為Term(詞)， 文件中包含了幾個這樣的Term被稱為Frequency(詞頻)。 引擎會建立Term和原文件的Inverted Index(倒排索引)， 這樣就能根據Term很快到找到源文件了。    文字被Tokenizer處理前可能要做一些預處理， 比如去掉裡面的HTML標記， 這些處理的演算法被稱為Character Filter(字元過濾器)， 這整個的分析演算法被稱為Analyzer(分析器)。 

ES內建了很多Analyzer, 還有很多第三方的Analyzer外掛， 比如一些處理中文的Analyzer(中文分詞)。 

analyzer、 tokenizer、 filter可以在elasticsearch.yml 配置， 下面是配置例子

```
index :
    analysis :
        analyzer :
            standard :
                type : standard
                stopwords : [stop1, stop2]
            myAnalyzer1 :
                type : standard
                stopwords : [stop1, stop2, stop3]
                max_token_length : 500
            # configure a custom analyzer which is
            # exactly like the default standard analyzer
            myAnalyzer2 :
                tokenizer : standard
                filter : [standard, lowercase, stop]
        tokenizer :
            myTokenizer1 :
                type : standard
                max_token_length : 900
            myTokenizer2 :
                type : keyword
                buffer_size : 512
        filter :
            myTokenFilter1 :
                type : stop
                stopwords : [stop1, stop2, stop3, stop4]
            myTokenFilter2 :
                type : length
                min : 0
                max : 2000

```

analyzer
===

ES內建若干analyzer, 另外還可以用內建的character filter, tokenizer, token filter組裝一個analyzer(custom analyzer)， 比如

```
index :
    analysis :
        analyzer :
            myAnalyzer :
                tokenizer : standard
                filter : [standard, lowercase, stop]
```

如果你要使用第三方的analyzer外掛，需要先在配置檔案elasticsearch.yml中註冊, 下面是配置IkAnalyzer的例子

```
index:
  analysis:
    analyzer:      
      ik:
          alias: [ik_analyzer]
          type: org.elasticsearch.index.analysis.IkAnalyzerProvider

```

當一個analyzer在配置檔案中被註冊到一個名字(logical name)下後，在mapping定義或者一些API裡就可以用這個名字來引用該analyzer了，比如

```
"message": {
    "type": "string",
    "indexAnalyzer": "ik",
    "searchAnalyzer": "ik"
}
```

如果沒有指定索引和搜尋用的analyzer，ES會用預設的analyzer來處理，也就是名字(logical name)為`default`, `default_index`, `default_search`的analyzer。 
從名字可以看出來，`default`是索引和搜尋時用的預設的analyzer，`default_index`是索引時用的預設的analyzer， 
`default_search`是查詢時用的預設analyzer。

下面是在elasticsearch.yml中配置預設analyzer的例子

```
index:
  analysis:
    analyzer:
        default_index:
            tokenizer: standard
            filter: [standard, lowercase, my_synonym, my_snow]
        default_search:
            tokenizer: standard
            filter: [standard, lowercase, stop]
```
或者用這種格式

```
index.analysis.analyzer.default.type : "mmseg"

```

一個analyzer可以起若干別名，比如在下面的例子中，standard analyzer可以用alias1或者alias2來引用

```
index :
  analysis :
    analyzer。 :
      standard :
        alias: [alias1, alias2]
        type : standard
        stopwords : [test1, test2, test3]
```

下面是內建的一些analyzer。

| analyzer              | logical name  | description                               |
| ----------------------|:-------------:| :-----------------------------------------|
| standard analyzer     | standard      | standard tokenizer, standard filter, lower case filter, stop filter |
| simple analyzer       | simple        | lower case tokenizer                      |
| stop analyzer         | stop          | lower case tokenizer, stop filter         |
| keyword analyzer      | keyword       | 不分詞，內容整體作為一個token(not_analyzed) |
| pattern analyzer      | whitespace    | 正則表示式分詞，預設匹配\W+                 |
| language analyzers    | [lang](http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-lang-analyzer.html)  | 各種語言 |
| snowball analyzer     | snowball      | standard tokenizer, standard filter, lower case filter, stop filter, snowball filter |
| custom analyzer       | custom        | 一個Tokenizer, 零個或多個Token Filter, 零個或多個Char Filter |

tokenizer
===

ES內建的tokenizer列表。

| tokenizer             | logical name  | description                           |
| ----------------------|:-------------:| :-------------------------------------|
| standard tokenizer    | standard      |                                       |
| edge ngram tokenizer  | edgeNGram     |                                       |
| keyword tokenizer     | keyword       | 不分詞                                 |
| letter analyzer       | letter        | 按單詞分                               |
| lowercase analyzer    | lowercase     | letter tokenizer, lower case filter   |
| ngram analyzers       | nGram         |                                       |
| whitespace analyzer   | whitespace    | 以空格為分隔符拆分                      |
| pattern analyzer      | pattern       | 定義分隔符的正則表示式                  |
| uax email url analyzer| uax_url_email | 不拆分url和email                       |
| path hierarchy analyzer| path_hierarchy| 處理類似`/path/to/somthing`樣式的字串|


token filter
===

ES內建的token filter列表。

| token filter          | logical name  | description                           |
| ----------------------|:-------------:| :-------------------------------------|
| standard filter       | standard      |                                       |
| ascii folding filter  | asciifolding  |                                       |
| length filter         | length        | 去掉太長或者太短的                      |
| lowercase filter      | lowercase     | 轉成小寫                               |
| ngram filter          | nGram         |                                       |
| edge ngram filter     | edgeNGram     |                                       |
| porter stem filter    | porterStem    | 波特詞幹演算法                            |
| shingle filter        | shingle       | 定義分隔符的正則表示式                  |
| stop filter           | stop          | 移除 stop words                        |
| word delimiter filter | word_delimiter| 將一個單詞再拆成子分詞                   |
| stemmer token filter  | stemmer       |                                        |
| stemmer override filter| stemmer_override|                                     |
| keyword marker filter | keyword_marker|                                        |
| keyword repeat filter | keyword_repeat|                                        |
| kstem filter          | kstem         |                                        |
| snowball filter       | snowball      |                                        |
| phonetic filter       | phonetic      | [外掛](https://github.com/elasticsearch/elasticsearch-analysis-phonetic) |
| synonym filter        | synonyms      | 處理同義詞                              |
| compound word filter  | dictionary_decompounder, hyphenation_decompounder | 分解複合詞  |
| reverse filter        | reverse       | 反轉字串                              |
| elision filter        | elision       | 去掉縮略語                              |
| truncate filter       | truncate      | 截斷字串                              |
| unique filter         | unique        |                                        |
| pattern capture filter| pattern_capture|                                       |
| pattern replace filte | pattern_replace| 用正則表示式替換                        |
| trim filter           | trim          | 去掉空格                                |
| limit token count filter| limit       | 限制token數量                           |
| hunspell filter       | hunspell      | 拼寫檢查                                |
| common grams filter   | common_grams  |                                        |
| normalization filter  | arabic_normalization, persian_normalization |          |


character filter
===

ES內建的character filter列表

| character filter          | logical name  | description               |
| --------------------------|:-------------:| :-------------------------|
| mapping char filter       | mapping       | 根據配置的對映關係替換字元   |
| html strip char filter    | html_strip    | 去掉HTML元素               |
| pattern replace char filter| pattern_replace| 用正則表示式處理字串    |


icu plugin
===

[icu analysis 外掛](https://github.com/elasticsearch/elasticsearch-analysis-icu)

http://www.csdn123.com/html/itweb/20131030/195710.htm

elasticsearch文件-analysis

analysis 基本概念 === 全文搜尋引擎會用某種演算法對要建索引的文件進行分析，從文件中提取出若干Token(詞元)，這些演算法稱為Tokenizer(分詞器)，這些Token會被進一步處理，比如轉成小寫等，這些處理演算法被稱為Token Filter(詞元處理器), 被處理後的結果被

IK Analysis for Elasticsearch 文件 —— 安裝、詞典配置、熱載入

IK Analysis for Elasticsearch The IK Analysis plugin integrates Lucene IK analyzer (http://code.google.com/p/ik-analyzer/) into elasticsearch, suppo

elasticsearch 文件資料

1.Function Score Query 自定義查詢評分 https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-function-score-query.html 2.Script h

Elasticsearch文件讀寫模型實現原理

ES系列基於ElasticSearch6.4.x版本。 1、簡介 ElasticSearch，每個索引被分成多個分片（預設每個索引5個主分片primary shard），每個分片又可以有多個

ElasticSearch---文件的增刪改

假如我們以員工物件為例，我們要做的是儲存員工資料，每個文件代表一個員工，在es中儲存資料的行為就叫索引，文件歸屬於一種型別，而這些型別存在於索引中，我們可以簡單的對比下傳統資料庫和es的對應關係：關係資料庫—資料庫db—表table—行row—列column

Elasticsearch 文件更新操作

正如我們提到的，文件不能被修改，它們只能被替換掉。更新API也必須遵循這一法則。從表面看來，貌似是文件被替換了。對內而言，它必須按照找回-修改-索引的流程來進行操作與管理。不同之處在於這個流程是在一個片

ElasticStack學習（四）：ElasticSearch文件使用與操作

一、文件的CRUD介紹 ElasticSearch中存在五種操作，分別如下： 1、Index 該操作表示：如果文件的ID不存在，則建立新的文件。若有相同的ID，先刪除現有文件，然後再建立新的文件，同時版本會增加。語法格式如下： PUT index_name/_doc/100 {"field1

關於Elasticsearch文件的描述以及如何操作文件的詳細總結

文件什麼是文件在大多數應用中，多數實體或物件可以被序列化為包含鍵值對的 JSON 物件。一個鍵可以是一個欄位或欄位的名稱，一個值可以是一個字串，一個數字，一個布林值，另一個物件，一些陣列值，或一些其它特殊型別諸如表示日期的字串，或代表一個地理位置的物件： { "name&qu

ElasticSearch 文件及操作

> **公號：碼農充電站pro** > **主頁：** 本節介紹 ES 文件，索引及其基本操作。 ### 1，ES 中的文件在 ES 中，**文件**（Document）是可搜尋資料的最小儲存單位，相當於關係資料庫中的一條記錄。文件以 **Json** 資料格式儲存在 ES 中，Json 中儲存著

Elasticsearch基本概念及核心配置文件詳解

last log4j 強烈內存文檔 size oca 機制集群　　Elasticsearch5.X,下列的是Elasticsearch2.X系類配置，其實很多配置都是相互兼容的 1. 配置文件 config/elasticsearch.yml 主配置文件

elasticsearch配置文件詳解

配置文件文件夾 master 記錄 elasticsearch的config文件夾裏面有兩個配置文件：elasticsearch.yml和logging.yml，第一個是es的基本配置文件，第二個是日誌配置文件，es也是使用log4j來記錄日誌的，所以logging.yml裏的設置按普通

spring data整合elasticsearch的applicationContext.xml文件模板

col ext sch host sca pre can -s xsd <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/

使用Dockerfile文件制作centos6.8基礎鏡像，基於centos基礎鏡像的ssh遠程登錄鏡像，jdk1.8鏡像，tomcat鏡像，elasticsearch鏡像等等

完整 dont -s chmod IT 需要 sed lib mage 一、首先制作一個centos6.8的裸機鏡像創建一個幹凈的目錄： 1 [root@docker centos6.8]# ls 2 c68-docker.tar.xz Dockerfile

Elasticsearch 學習之配置文件詳解

服務器 elastic 設置 .org settings filter ESS 通用其它 Elasticsearch配置文件##################### Elasticsearch Configuration Example ################

ELK系列三：Elasticsearch的簡單使用和配置文件簡介

stat 創建索引 prop creat .com 索引 mapping 圖片 keyword 1、定義模板創建索引：首先定義好一個模板的例子 { "order":14, "template":"ids-1", "state":"open", "set

ElasticSearch學習文件2018.11

1 Elasticsearch安裝 1.1 ES6.0版本安裝head外掛 1.1 下載head外掛下載地址：https://github.com/mobz/elasticsearch-head

ElasticSearch 學習記錄之分散式文件儲存往ES中存資料和取資料的原理

分散式文件儲存 ES分散式特性遮蔽了分散式系統的複雜性叢集內的原理垂直擴容和水平擴容真正的擴容能力是來自於水平擴容–為叢集新增更多的節點，並且將負載壓力和穩定性分散到這些節點中 ES叢集特點一個叢集擁有相同

ES篇：ElasticSearch教程——建立索引、型別、文件

ES知識彙總：https://blog.csdn.net/gwd1154978352/article/details/82781731 介紹索引是ElasticSearch存放資料的地方，可以理解為關係型資料庫中的一個數據庫。事實上，我們的資料被儲存和索引在分片(shards)中，索

elasticsearch學習之文件分組

GET tmdb/_search { "size": 1, "_source": " ", "query": { "match": { "title": "star trek" } }, "aggs": { "statuses":

第3講 3.2 ElasticSearch建立索引，增刪改查文件

3.寫方法testGet()根據id獲取文件，測試 @Test public void testGet() throws Exception{

elasticsearch文件-analysis

相關推薦