小白學ES 09 - ES如何利用分析器分析索引 + 如何定製分析器

阿新 • • 發佈：2018-12-24

文章目錄

1 索引分析

1.1 分析器的組成
1.2 倒排索引核心原理-normalization

2 ES的預設分析器
3 修改分詞器
4 定製分詞器

4.1 向索引中新增自定義的分詞器
4.2 測試自定義分析器
4.3 向對映中新增自定義的分析器

版權宣告

1 索引分析

索引分析: 將文字塊按照一定的策略分解, 並建立倒排索引的過程. 這個過程由分析器(analyzers)完成.

1.1 分析器的組成

① 字元過濾器(character filter): 去除HTML標籤, 或轉換"&"為"and"等.

② 分詞器(tokenizer): 按照某種規律, 如根據空格、逗號等, 將文字塊進行分解.

③ 標記過濾器(token filter): 所有被分詞器分解的詞都將經過token filters的處理, 它可以修改詞(如小寫化處理)、去掉詞(根據某一規則去掉無意義的詞, 如"a", “the”, “的"等), 增加詞(如同義詞"jump”、"leap"等).

注意: 人們一般將分析器通稱為分詞器, 並不是相等的關係, 而是包含的關係.

1.2 倒排索引核心原理-normalization

建立倒排索引時, 會執行 normalization(正常化)操作 —— 將拆分的各個單詞進行相應的處理, 以提高搜尋時命中相關聯的文件的概率.

normalization的方式有: 時態轉換, 單複數轉換, 同義詞轉換, 大小寫轉換等.

比如: 文件中包含 “mom likes small dogs”, 在建立索引時通過normalization處理, 通過 “mother liked little dog” 也能搜尋到相關的文件.

2 ES的預設分析器

ES中的預設分析器: standard tokenizer, 標準分析器, 以單詞為邊界進行分詞. 具有如下功能:

standard token filter: 去掉無意義的標籤, 如<>, &, - 等.

lowercase token filter: 將所有字母轉換為小寫字母.

stop token filer(預設被禁用): 移除停用詞, 比如"a"、"the"等.

測試預設分析器:

GET _analyze			// ES引擎中已有standard分詞器, 所以可以不指定index
{
    "analyzer": "standard", 
    "text": "There-is a DOG<br/> in house &"
}

3 修改分詞器

建立索引後可以新增新的分詞器, 新增之前必須先關閉索引, 新增之後再開啟:

// 先關閉索引: 
POST address/_close

// 啟用English停用詞token filter
PUT address/_settings
{
    "analysis": {
        "analyzer": {
            "my_token_filter": {		// 自定義的分詞器名稱
                "type": "standard",
                "stopwords": "_english_"
            }
        }
    }
}

// 開啟索引: 
POST address/_open

使用具有停詞功能的分詞器進行分詞:

GET address/_analyze
{
    "analyzer": "my_token_filter", 
    "text": "There-is a DOG<br/> in house &"
}

返回結果減少了停用詞:

{
  "tokens": [
    {
      "token": "dog",
      "start_offset": 11,
      "end_offset": 14,
      "type": "<ALPHANUM>",
      "position": 3
    },
    {
      "token": "br",
      "start_offset": 15,
      "end_offset": 17,
      "type": "<ALPHANUM>",
      "position": 4
    },
    {
      "token": "house",
      "start_offset": 23,
      "end_offset": 28,
      "type": "<ALPHANUM>",
      "position": 6
    }
  ]
}

4 定製分詞器

4.1 向索引中新增自定義的分詞器

注意: 要先關閉索引, 再新增, 然後再開啟索引.

PUT address/_settings
{
    "analysis": {
        "char_filter": {
            "&_to_and": {
                "type": "mapping",
                "mappings": ["&=> and"]
            }
        },
        "filter": {
            "my_stopwords": {
                "type": "stop",
                "stopwords": ["the", "a"]
            }
        },
        "analyzer": {
            "my_analyzer": {			// 自定義的分析器名稱
                "type": "custom",
                "char_filter": ["html_strip", "&_to_and"],	// 跳過HTML標籤, 將&符號轉換為"and"
                "tokenizer": "standard",
                "filter": ["lowercase", "my_stopwords"]		// 轉換為小寫
            }
        }
    }
}

4.2 測試自定義分析器

GET address/_analyze
{
    "analyzer": "my_analyzer", 
    "text": "There-is a DOG<br/> in house &"
}

響應結果中已經對大寫單詞、HTML標籤, 以及"&"做了處理. 鑑於篇幅所限, 這裡省去.

4.3 向對映中新增自定義的分析器

PUT address/_mapping/province
{
    "properties": {
        "content": {
            "type": "text",
            "analyzer": "my_analyzer"
        }
    }
}

此時檢視mapping資訊:

PUT address/_mapping/province
{
    "properties": {
        "content": {
            "type": "text",
            "analyzer": "my_analyzer"
        }
    }
}

發現自定義的分析器已經配置到province上了:

{
  "address": {
    "mappings": {
      "province": {
        "properties": {
          "content": {
            "type": "text",
            "analyzer": "my_analyzer"
          },
          "description": {
            "type": "text"
          }
        }
      }
    }
  }
}

版權宣告

作者: ma_shoufeng(馬瘦風)

出處: CSDN 馬瘦風的部落格

您的支援是對博主的極大鼓勵, 感謝您的閱讀.

本文版權歸博主所有, 歡迎轉載, 但未經博主同意必須保留此段宣告, 且在文章頁面明顯位置給出原文連結, 否則博主保留追究相關人員法律責任的權利.

小白學ES 09 - ES如何利用分析器分析索引 + 如何定製分析器

文章目錄 1 索引分析 1.1 分析器的組成 1.2 倒排索引核心原理-normalization 2 ES的預設分析器 3 修改分詞器 4 定製分詞器 4.1 向索引中新增自定義的分詞器 4.2

小白學ES 01-Elasticsearch的基礎概念

目錄 1 Elasticsearch概述 1.1 Elasticsearch是什麼 1.2 Elasticsearch的優點 1.3 Elasticsearch的相關產品 1.4 Elasticsearch的使用場景 2 Elasticsearch的功

小白學ES 02-Linux中部署Elasticsearch單機服務(5.6.10版本)

目錄 1 前提: 安裝JDK 2 準備安裝包 3 建立ES專用使用者 4 啟動ES服務 5 驗證ES服務是否可用 6 關閉ES服務 7 重啟ES服務 8 常見問題的解決此部署過程以Elasticsearch-5.6.10版本為例, 後續的學習和演示也用此版本.

小白學ES 05 - 通過Kibana管理叢集服務

目錄 1 檢查叢集的健康狀況 2 檢視叢集中的節點個數 3 檢視叢集中的索引 4 簡單的索引操作 4.1 建立索引 4.2 刪除索引前述步驟: ① 啟動Kibana; ② 通過瀏覽器訪問Kibana; ③ 進入Dev Tools(開發

小白學ES 06 - 通過Kibana學習ES的基礎語法

所有 doc 全文檢索 name created 最佳實踐 wan 博客 index 目錄 1 document結構 2 document的常見CRUD操作 2.1 添加商品: 添加文檔並建立索引 2.2 查詢商品: 檢索文檔 2.3 修改商品: 替換文檔 2.4 修改商

小白學ES 07 - Elasticsearch的多種查詢方式

目錄 1 Query String Search 2 Query DSL 3 Query Filter 4 Full Text Search(全文檢索) 5 Phrase Search(短語檢索) 6 Highlight Search(高亮顯示檢索結果) 1 Query St

小白學ES 08 - 對Elasticsearch的索引進行CRUD操作

文章目錄 1 建立索引 2 檢視索引 3 修改索引 4 刪除索引 5 開啟/關閉索引版權宣告 1 建立索引建立語法: PUT index { "settings": { ... any setti

小白學ES 02-Linux中部署Elasticsearch單機服務

目錄此部署過程以Elasticsearch-5.6.10版本為例, 後續的學習和演示也用此版本. 1 前提: 安裝JDK 學習使用ES的前提是成功安裝JDK —— 很基礎的一項步驟, 這裡省略. 此處學習演示所用的JDK版本為: [[email protected] ~]# java -ve

小白學ES 12 - 什麼是Elasticsearch的動態對映 + 如何自定義動態對映

文章目錄 1 動態對映(dynamic mapping) 1.1 什麼是動態對映 1.2 體驗動態對映 1.3 搜尋結果不一致的原因分析 2 開啟dynamic mapping策略 2.1 約束策略

小白學ES 11 - 什麼是Elasticsearch的對映(mapping) + 如何配置對映

文章目錄 1 對映的相關概念 1.1 什麼是對映 1.2 對映的組成 1.3 元欄位 1.4 欄位的型別 2 如何配置mapping 2.1 建立mapping 2.1.1 必讀事

小白學ES 10 - Elasticsearch的索引別名和索引模板

索引模板就是將已經建立好的某個索引引數設定(settings)和索引對映(mapping)儲存下來作為模板, 在建立新索引時, 指定使用某個模板就可以直接使用已經定義好的設定和對映. 1 建立索引模板使用示例: PUT _template/shop_temp

小白學ES 17 - (原理) ES內部操作文件的原理

文章目錄 1 增刪改document的流程 1.1 協調節點 - Coordinating Node 1.2 增刪改document的流程 2 查詢document的流程版權宣告 1 增刪改document

小白學ES 19 - Elasticsearch的檢索API的使用(_search和URI Search)

文章目錄 1 Search API的基本用法 1.1 查詢所有資料 1.2 響應資訊說明 1.3 timeout機制 1.4 查詢多索引和多型別中的資料 2 URI Search的使用 2.1 GET

小白學ES 18 - (原理) ES內部如何寫入document - 優化寫入索引的流程

文章目錄 1 Lucene操作document的流程 1.1 新增document的流程 1.2 刪除document的流程 2 優化寫入流程 - 實現近實時搜尋 2.1 流程的改進 2.2 設定refres

小白學前端06

好的空格 cti 回顧 overflow 目前效率 col over 回顧一下這幾天吧：非常後悔的行為：一口氣看完一遍head first html就一頭開始想著做網頁，實則很多技巧就像剛剛開始學編程就生搬硬套的寫算法，不是這樣不可行，而是這樣的學習曲線很陡峭，很容

小白學前端07

css 寫法什麽實現總結正在 url text pix 2017-05-12 16:02:53：1.小技巧：在<style type="text/css"></style>利用

小白學前端12

人生 nbsp ons hidden 前端創建 vertical tab 輸出 1.var string = "you are";var text = string;string = "best";console.log(text); //輸出"you are"變量為一

小白學前端20

javascrip 感覺空指針 java 自己 struts2 慢慢畢業程序員也許今天都是一個空指針吧1.大致的理解了struts2，因為畢業的需要，不過感覺其實一直都是，啊，java耶。就立馬興致沖沖的去學java,好像學會了java之後自己就會是一個程序員，自己

小白學開發（iOS）OC_ block數據類型（2015-08-08）

main nsobject 改變 char typedef 能夠 div sel 方法 // // main.m // block數據類型 // // Created by admin on 15/8/12. // Copyright (c) 201

小白學ES 09 - ES如何利用分析器分析索引 + 如何定製分析器

文章目錄

1 索引分析

1.1 分析器的組成

1.2 倒排索引核心原理-normalization

2 ES的預設分析器

3 修改分詞器

4 定製分詞器

4.1 向索引中新增自定義的分詞器

4.2 測試自定義分析器

4.3 向對映中新增自定義的分析器

版權宣告

相關推薦