es - elasticsearch自定義分析器 - 內建分詞器

阿新 • • 發佈：2021-01-27

世界上並沒有完美的程式，但是我們並不因此而沮喪，因為寫程式就是一個不斷追求完美的過程。

自定義分析器 :

Character filters :
1. 作用 : 字元的增、刪、改轉換
2. 數量限制 : 可以有0個或多個
3. 內建字元過濾器 :
1. HTML Strip Character filter : 去除html標籤
2. Mapping Character filter : 對映替換
3. Pattern Replace Character filter : 正則替換
Tokenizer :
1. 作用 :
1. 分詞
2. 記錄詞的順序和位置（短語查詢）

3. 記錄詞的開頭和結尾位置（高亮）
4. 記錄詞的型別（分類）
2. 數量限制 : 有且只能有一個
3. 分類 :
1. 完整分詞 :
1. Standard
2. Letter
3. Lowercase
4. whitespace
5. UAX URL Email
6. Classic
7. Thai
2. 切詞 :
1. N-Gram
2. Edge N-Gram
3. 文字 :
1. Keyword
2. Pattern
3. Simple Pattern
4. Char Group
5. Simple Pattern split
6. Path
Token filters :
1. 作用 : 分詞的增、刪、改轉換

2. 數量限制 : 可以有0個或多個

今天演示文字結構的分詞器 :

# keyword tokenizer
# 原樣返回
GET /_analyze
{
  "tokenizer": "keyword",
  "text": ["hello world", "我是中國人"]
}

# 結果
{
  "tokens" : [
    {
      "token" : "hello world",
      "start_offset" 
 : 0,
      "end_offset" : 11,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "我是中國人",
      "start_offset" : 12,
      "end_offset" : 17,
      "type" : "word",
      "position" : 101
    }
  ]
}

# pattern tokenizer
# 基於正則的分詞，取正則匹配為詞
# 配置項 :
#   1. pattern : 正則表示式
#   2. flags
#   3. group   : 組的個數，預設 -1
GET /_analyze
{
  "tokenizer": {
    "type" : "pattern",
    "pattern" : "((?:[a-z0-9])+)",
    "group" : 1
  },
  "text": ["hello 23456"]
}

# 結果
{
  "tokens" : [
    {
      "token" : "hello",
      "start_offset" : 0,
      "end_offset" : 5,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "23456",
      "start_offset" : 6,
      "end_offset" : 11,
      "type" : "word",
      "position" : 1
    }
  ]
}

# simple pattern analyzer
# 使用lucene的正則，取匹配正則的詞
# 必須指定pattern
# 配置項 : pattern
GET /_analyze
{
  "tokenizer": {
    "type" : "simple_pattern",
    "pattern" : "[0-9]{3}" 
  },
  "text": ["3456786544433 fsdfsd"]
}

# 結果
{
  "tokens" : [
    {
      "token" : "345",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "678",
      "start_offset" : 3,
      "end_offset" : 6,
      "type" : "word",
      "position" : 1
    },
    {
      "token" : "654",
      "start_offset" : 6,
      "end_offset" : 9,
      "type" : "word",
      "position" : 2
    },
    {
      "token" : "443",
      "start_offset" : 9,
      "end_offset" : 12,
      "type" : "word",
      "position" : 3
    }
  ]
}

# char group tokenizer
# 基於指定字元分詞
# 配置項 :
#   1. tokenize_on_chars : 分詞的字元
#   2. max_token_length
GET /_analyze
{
  "tokenizer": {
    "type" : "char_group",
    "tokenize_on_chars" : [
        "-", "whitespace", "_"
      ]
  },
  "text": ["sdjflds sdfsd-sdf-7879 fsd_us9098"]
}

# 結果
{
  "tokens" : [
    {
      "token" : "sdjflds",
      "start_offset" : 0,
      "end_offset" : 7,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "sdfsd",
      "start_offset" : 8,
      "end_offset" : 13,
      "type" : "word",
      "position" : 1
    },
    {
      "token" : "sdf",
      "start_offset" : 14,
      "end_offset" : 17,
      "type" : "word",
      "position" : 2
    },
    {
      "token" : "7879",
      "start_offset" : 18,
      "end_offset" : 22,
      "type" : "word",
      "position" : 3
    },
    {
      "token" : "fsd",
      "start_offset" : 23,
      "end_offset" : 26,
      "type" : "word",
      "position" : 4
    },
    {
      "token" : "us9098",
      "start_offset" : 27,
      "end_offset" : 33,
      "type" : "word",
      "position" : 5
    }
  ]
}

# simple pattern split tokenizer
# 以正則分詞
# 配置項 : pattern
GET /_analyze
{
  "tokenizer": {
    "type" : "simple_pattern_split",
    "pattern" : "[0-9]{3}"
  },
  "text": ["sdfsd23243sdfsd890sdfs"]
}

# 結果
{
  "tokens" : [
    {
      "token" : "sdfsd",
      "start_offset" : 0,
      "end_offset" : 5,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "43sdfsd",
      "start_offset" : 8,
      "end_offset" : 15,
      "type" : "word",
      "position" : 1
    },
    {
      "token" : "sdfs",
      "start_offset" : 18,
      "end_offset" : 22,
      "type" : "word",
      "position" : 2
    }
  ]
}

# path hierarchy tokenizer
# 路徑拆分及轉換
# 配置項 :
#   1. delimiter   : 拆分字元
#   2. replacement : 替換字元
#   3. buffer_size : 不建議修改
#   4. reverse     : 預設 false
#       1. 分出的路徑的顯示順序反轉
#       2. skip的位置的反轉
#   5. skip        : 初始位置，預設 0
GET /_analyze
{
  "tokenizer": {
    "type"        : "path_hierarchy",
    "delimiter"   : "-",
    "replacement" : "/",
    "reverse"     : true,
    "skip"        : 1
  },
  "text": ["hello-good-this-is-me"]
}

# 結果
{
  "tokens" : [
    {
      "token" : "hello/good/this/is/",
      "start_offset" : 0,
      "end_offset" : 19,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "good/this/is/",
      "start_offset" : 6,
      "end_offset" : 19,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "this/is/",
      "start_offset" : 11,
      "end_offset" : 19,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "is/",
      "start_offset" : 16,
      "end_offset" : 19,
      "type" : "word",
      "position" : 0
    }
  ]
}

es - elasticsearch自定義分析器 - 內建分詞器

技術標籤：stack - eses 世界上並沒有完美的程式，但是我們並不因此而沮喪，因為寫程式就是一個不斷追求完美的過程。

es - elasticsearch自定義分析器 - 內建分詞過濾器 - 2

技術標籤：stack - eses 世界上並沒有完美的程式，但是我們並不因此而沮喪，因為寫程式就是一個不斷追求完美的過程。

es - elasticsearch自定義分析器 - 內建分詞過濾器 - 6

技術標籤：stack - eses 世界上並沒有完美的程式，但是我們並不因此而沮喪，因為寫程式就是一個不斷追求完美的過程。

es - elasticsearch自定義分析器 - 內建分詞過濾器 - 7

技術標籤：stack - eses 世界上並沒有完美的程式，但是我們並不因此而沮喪，因為寫程式就是一個不斷追求完美的過程。

es - elasticsearch 自定義分析器 - 字元過濾器

技術標籤：stack - eses 世界上並沒有完美的程式，但是我們並不因此而沮喪，因為寫程式就是一個不斷追求完美的過程。

ElasticSearch 自定義模板配置中文分詞

預設情況下，logstash是沒有配置中文分詞的，那要如何解決呢？解放方法：自定義模板配置中文分詞

DRF內建分頁器及自定義分頁類

分頁Pagination REST framework提供了分頁的支援。全域性配置我們可以在 settings.py 配置檔案中設定全域性的分頁方式，如：

ElasticSearch 分詞與內建分詞

1、什麼是分詞把文字轉換為一個個的單詞，分詞稱之為analysis. ES預設只對英文語句做分詞，中文不支援，每個中文漢字都會被拆分

Elasticsearch從入門到放棄：分詞器初印象

Elasticsearch 系列回來了，先給因為這個系列關注我的同學說聲抱歉，拖了這麼久才回來，這個系列雖然叫「Elasticsearch 從入門到放棄」，但只有三篇就放棄還是有點過分的，所以還是回來繼續更新。

elasticsearch(v2.4.6)新增中文分詞器ik

一、參考 ik github文件將maven源改為國內阿里雲映象二、編譯安裝 analysis-ik 2.1 下載原始碼

Djang內建分頁和自定義分頁

內建分頁 views from django.core.paginator import Paginator,Page,PageNotAnInteger def DJs_pages(request):

ES新增elasticsearch-analysis-ik分詞器

1、下載分詞器包 https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v5.4.3 2、將分詞器解壓並放入plugins目錄下。（一定要在plugins下面建立一個ik檔案，然後將解壓的elasticsearch-analysis-ik檔

.NET 自定義使用者控制元件分頁

1 <%if(total>0&&totalPage>0){%> 2 <div class=\"dataTables_info\"> 3共 <strong><%=total %></strong> 條

win10 安裝Elasticsearch(es)和IK分詞器

1 安裝Elasticsearch 7.x 1.1 下載地址 https://www.elastic.co/cn/downloads/elasticsearch 1.2 下載後解壓的目錄結構

Spring Data Elasticsearch自定義方法的各類約定、寫法！

Spring Data 的另一個強大功能，是根據方法名稱自動實現功能。比如：你的方法名叫做：findByTitle，那麼它就知道你是根據title查詢，然後自動幫你完成，無需寫實現類。

Elasticsearch（ES）分詞器的那些事兒

1. 概述分詞器是Elasticsearch中很重要的一個元件，用來將一段文字分析成一個一個的詞，Elasticsearch再根據這些詞去做倒排索引。

自定義element-ui的分頁按鈕樣式

專案中需要用到的分頁按鈕樣式如圖: HTML部分: <el-pagination background layout=\"prev, pager, next, jumper\"

ES之分析器(Analyzer)及拼音分詞器

把輸入的文字塊按照一定的策略進行分解，並建立倒排索引。在Lucene的架構中，這個過程由分析器(analyzer)完成。

ES簡介和環境搭建 Elasticsearch使用系列-ES簡介和環境搭建Elasticsearch使用系列-ES簡介和環境搭建Elasticsearch使用系列-ES增刪查改基本操作+ik分詞Elasticsearch使用系列-基本查詢和聚合查詢+sql外掛Elasticsearch使用系列-Docker搭建Elasticsearch叢集

Elasticsearch使用系列-ES簡介和環境搭建 Elasticsearch使用系列-ES簡介和環境搭建 Elasticsearch使用系列-ES增刪查改基本操作+ik分詞

Elasticsearch入門(1)-倒排索引和分詞器

這部分檔案主要包含：倒排索引 Analyzer分詞倒排索引舉例類比做個類比，看書時，我們看到了哪個章節，根據章節標題去目錄中檢索具體的內容。但是當我們回憶起一些隻言片語，一些句子，一些情節時，去定位它出

es - elasticsearch自定義分析器 - 內建分詞器

相關推薦