elasticsearch分詞檢索的match-query匹配過程分析

阿新 • • 發佈：2019-02-17

1. 模擬字串資料儲存

localhost:9200/yigo-redist.1/_analyze?analyzer=default&text=全能片(前)---TRW-GDB7891AT剎車片自帶報警線，無單獨報警線號碼,卡仕歐,卡仕歐,乘用車,剎車片

索引為`yigo-redist.1`
使用了索引`yigo-redist.1`中的分詞器(`analyzer`) `default`
解析的字串(`text`)為"全能片(前)---TRW-GDB7891AT剎車片自帶報警線，無單獨報警線號碼,卡仕歐,卡仕歐,乘用車,剎車片"

如果結果為:

{
  "tokens" : [ {
    "token" : "全能",
    "start_offset" : 0,
    "end_offset" : 2,
    "type" : "CN_WORD",
    "position" : 1
  }, {
    "token" : "片",
    "start_offset" : 2,
    "end_offset" : 3,
    "type" : "CN_CHAR",
    "position" : 2
  }, {
    "token" : "前",
    "start_offset" : 4,
    "end_offset" : 5,
    "type" : "CN_CHAR",
    "position" : 3
  }, {
    "token" : "trw-gdb7891at",
    "start_offset" : 9,
    "end_offset" : 22,
    "type" : "LETTER",
    "position" : 4
  }, {
    "token" : "剎車片",
    "start_offset" : 22,
    "end_offset" : 25,
    "type" : "CN_WORD",
    "position" : 5
  }, {
    "token" : "自帶",
    "start_offset" : 25,
    "end_offset" : 27,
    "type" : "CN_WORD",
    "position" : 6
  }, {
    "token" : "報警",
    "start_offset" : 27,
    "end_offset" : 29,
    "type" : "CN_WORD",
    "position" : 7
  }, {
    "token" : "線",
    "start_offset" : 29,
    "end_offset" : 30,
    "type" : "CN_CHAR",
    "position" : 8
  }, {
    "token" : "無",
    "start_offset" : 31,
    "end_offset" : 32,
    "type" : "CN_WORD",
    "position" : 9
  }, {
    "token" : "單獨",
    "start_offset" : 32,
    "end_offset" : 34,
    "type" : "CN_WORD",
    "position" : 10
  }, {
    "token" : "報警",
    "start_offset" : 34,
    "end_offset" : 36,
    "type" : "CN_WORD",
    "position" : 11
  }, {
    "token" : "線",
    "start_offset" : 36,
    "end_offset" : 37,
    "type" : "CN_CHAR",
    "position" : 12
  }, {
    "token" : "號碼",
    "start_offset" : 37,
    "end_offset" : 39,
    "type" : "CN_WORD",
    "position" : 13
  }, {
    "token" : "卡",
    "start_offset" : 40,
    "end_offset" : 41,
    "type" : "CN_CHAR",
    "position" : 14
  }, {
    "token" : "仕",
    "start_offset" : 41,
    "end_offset" : 42,
    "type" : "CN_WORD",
    "position" : 15
  }, {
    "token" : "歐",
    "start_offset" : 42,
    "end_offset" : 43,
    "type" : "CN_WORD",
    "position" : 16
  }, {
    "token" : "卡",
    "start_offset" : 44,
    "end_offset" : 45,
    "type" : "CN_CHAR",
    "position" : 17
  }, {
    "token" : "仕",
    "start_offset" : 45,
    "end_offset" : 46,
    "type" : "CN_WORD",
    "position" : 18
  }, {
    "token" : "歐",
    "start_offset" : 46,
    "end_offset" : 47,
    "type" : "CN_WORD",
    "position" : 19
  }, {
    "token" : "乘用車",
    "start_offset" : 48,
    "end_offset" : 51,
    "type" : "CN_WORD",
    "position" : 20
  }, {
    "token" : "剎車片",
    "start_offset" : 52,
    "end_offset" : 55,
    "type" : "CN_WORD",
    "position" : 21
  } ]
}

2. 關鍵詞查詢

localhost:9200//yigo-redist.1/_analyze?analyzer=default_search&text=gdb7891

索引為`yigo-redist.1`
使用了索引`yigo-redist.1`中的分詞器(`analyzer`) `default_search`
解析的字串(`text`)為"gdb7891"

返回結果：

{
  "tokens" : [ {
    "token" : "gdb7891",
    "start_offset" : 0,
    "end_offset" : 7,
    "type" : "LETTER",
    "position" : 1
  } ]
}

3. 關鍵詞使用儲存的分詞器查詢

localhost:9200//yigo-redist.1/_analyze?analyzer=default&text=gdb7891

索引為`yigo-redist.1`
使用了索引`yigo-redist.1`中的分詞器(`analyzer`) `default_search`
解析的字串(`text`)為"gdb7891"

返回結果：

{
  "tokens" : [ {
    "token" : "gdb7891",
    "start_offset" : 0,
    "end_offset" : 7,
    "type" : "LETTER",
    "position" : 1
  }, {
    "token" : "",
    "start_offset" : 0,
    "end_offset" : 7,
    "type" : "LETTER",
    "position" : 1
  }, {
    "token" : "gdb7891",
    "start_offset" : 0,
    "end_offset" : 7,
    "type" : "LETTER",
    "position" : 1
  }, {
    "token" : "",
    "start_offset" : 0,
    "end_offset" : 3,
    "type" : "ENGLISH",
    "position" : 2
  }, {
    "token" : "gdb",
    "start_offset" : 0,
    "end_offset" : 3,
    "type" : "ENGLISH",
    "position" : 2
  }, {
    "token" : "gdb",
    "start_offset" : 0,
    "end_offset" : 3,
    "type" : "ENGLISH",
    "position" : 2
  }, {
    "token" : "7891",
    "start_offset" : 3,
    "end_offset" : 7,
    "type" : "ARABIC",
    "position" : 3
  }, {
    "token" : "7891",
    "start_offset" : 3,
    "end_offset" : 7,
    "type" : "ARABIC",
    "position" : 3
  }, {
    "token" : "",
    "start_offset" : 3,
    "end_offset" : 7,
    "type" : "ARABIC",
    "position" : 3
  } ]
}

總結

通過步驟1可以看出,儲存的資料"全能片(前)---TRW-GDB7891AT剎車片自帶報警線，無單獨報警線號碼,卡仕歐,卡仕歐,乘用車,剎車片",被拆分成了很多片語碎片,然後儲存在了索引資料中
通過步驟2可以看出,當關鍵詞輸入"gdb7891",這個在檢索分詞器(`default_search`)下,沒有拆分,只一個可供查詢的碎片就是"gdb7891",但是步驟1,拆分的碎片裡不存在"gb7891"的片語碎片,唯一相近的就是"trw-gdb7891at",所以使用普通的match-query是無法匹配步驟1輸入的索引資料
通過步驟3,可以看出如果使用相同的分詞器,"gdb7891"能夠拆分成"gdb","7891"等等,通過這2個碎片都能找到步驟1輸入的索引資料,但是因為關鍵詞被拆分了,所以會查詢到更多的匹配的資料,比如:與"gdb"匹配的,與"7891"匹配的,與"gdb7891"匹配的
如果說想通過分詞器(`default_search`)檢索出步驟1的資料,需要使用wildcard-query,使用"*gdb7891*",就可以匹配

{
      "query": {
            "wildcard" : { "description" : "*gdb7891*" }
      }
}

elasticsearch分詞檢索的match-query匹配過程分析

1. 模擬字串資料儲存localhost:9200/yigo-redist.1/_analyze?analyzer=default&text=全能片(前)---TRW-GDB7891AT剎車片自帶報警線，無單獨報警線號碼,卡仕歐,卡仕歐,乘用車,剎車片索引為`

elasticsearch 分詞過程

| analyzer | logical name | description | | ----------------------|:-------------:| :-------------------------

中文分詞--逆向最大匹配

res 最長 java 搜索字符串 name ++ san imp 匹配上一篇文章中介紹了正向最大匹配。能夠看到有時候效果不是非常好。這裏在介紹一種逆向最大匹配的算法。詞典和匹配的字符串都和上一篇文章同樣僅僅是本算法是從後到前搜索字符串。然後找到最長的

中文分詞--最大正向匹配算法python實現

命中 col odin app () 切分 -- \n 多個最大匹配法：最大匹配是指以詞典為依據，取詞典中最長單詞為第一個次取字數量的掃描串，在詞典中進行掃描（為提升掃描效率，還可以跟據字數多少設計多個字典，然後根據字數分別從不同字典中進行掃描）。例如：詞典中最長詞為“中

ElasticSearch分詞器總結

一、ik、pinyin分詞器今天用通訊錄演示ES檢索功能，在對姓名檢索時，想實現中文和拼音均可檢索，於是除之前常用的中文分詞器ik外，又下載了拼音分詞器pinyin,使用情況總結如下： 1、下載 ik：https://github.com/medcl/elasticsearch

elasticsearch分詞外掛安裝

官方地址：https://github.com/medcl/elasticsearch-analysis-ik 兩種安裝方式： 1. 進入elasticsearch-6.5.0/plugins/然後 mkdir ik cd ik wget https://github.com

Atitit 核心程式碼包括哪些重要部分壓縮分類影象處理部分爬蟲分詞檢索部分多媒體基礎設施程式碼非功能性類庫框架源到源的語言翻譯跨語言整合互操作通訊 算

Atitit 核心程式碼包括哪些重要部分壓縮分類影象處理部分爬蟲分詞檢索部分多媒體基礎設施程式碼非功能性類庫框架源到源的語言翻譯跨語言

elasticsearch分詞器

在全文搜尋（Fulltext Search）中，詞（Term）是一個搜尋單元，表示文字中的一個詞，標記（Token）表示在文字欄位中出現的詞，由詞的文字、在原始文字中的開始和結束偏移量、以及資料型別等組成。ElasticSearch 把文件資料寫到倒排索引（Inverted

Elasticsearch——分詞器對String的作用

關於String型別——分詞與不分詞在Elasticsearch中String是最基本的資料型別，如果不是數字或者標準格式的日期等這種很明顯的型別，其他的一般都會優先預設儲存成String。同樣的資料型別，Elasticsearch也提供了多種儲存與分詞的模式，不同的模式應用於不同的場景。很多人在初次使

Elasticsearch 分詞器

pin 文本分析 mail ima 6.5 java正則表達式 lan 6.2 offset 無論是內置的分析器（analyzer），還是自定義的分析器（analyzer），都由三種構件塊組成的：character filters ， tokenizers ， token

Java開發中的Elasticsearch分詞器的定義與用法一

在Java開發中無論是內建的分析器（analyzer），還是自定義的分析器（analyzer），都由三種構件塊組成的：character filters ， tokenizers ， token filters。內建的analyzer將這些構建塊預先打包到適合不同語言和文字型別的anal

基於spring boot架構和word分詞器的分詞檢索，排序，分頁實現

本文不適合Java初學者，適合對spring boot有一定了解的同學。文中可能涉及到一些實體類、dao類、工具類文中沒有這些類大家不必在意，不影響本文的核心內容，本文重在對方法的梳理。 word分詞器maven依賴<dependency>

elasticsearch 分詞器外掛安裝 windows + Linux

windows下安裝ik分詞器：注意：url中，es的版本需要對應上，例如es版本是6.2.4，url中就寫6.2.4，不要對應不上，否則es啟動不起來下載下來對應的壓縮包，進行解壓

elasticSearch 分詞器踩的坑

elasticSearch 作為搜尋引擎，效率是非常高的。在搜尋引擎的選擇上，一般是solr和es。兩者都是基於lucene的。經簡單調研，目前美團酒旅與外賣使用的都是以elasticSearch為主。 es的預設分詞器對中文的支援非常不好，所以要使用es，分詞器是必須要配置的。以下記錄

中文分詞——正向最大匹配法

中文分詞應用很廣泛，網上也有很多開源專案。我在這裡主要講一下中文分詞裡面演算法的簡單實現，廢話不多說了，現在先上程式碼 package com; import java.util.ArrayList; import java.util.List; public cl

中文分詞一席談之難點分析

什麼是分詞？分詞就是利用計算機識別出文本中詞彙的過程。比如句子“內塔尼亞胡說的確實在理” 分詞作用網際網路絕大多數應用都需要分詞，典型應用例項漢字處理：拼音輸入法、手寫識別、簡繁轉換 …

【資料彙編】結巴中文分詞官方文件和原始碼分析系列文章

作者：白寧超 2016年11月23日16:49:36 摘要：結巴中文分詞的特點如下：支援三種分詞模式：（精確模式，試圖將句子最精確地切開，適合文字分析；全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合

elasticsearch全域性檢索多分詞器匹配

在es全域性檢索的需求中，需要進行多個分詞器同時匹配關鍵詞，例如：在商品名稱、品牌名稱和類目名稱中匹配含有“西”關鍵字的查詢結果，當一個欄位匹配時即加入查詢結果用sql語句表達為：select * from item where item_name like '

ElasticSearch最佳入門實踐（四十一）query string 的分詞以及 mapping 引入案例遺留問題的大揭祕

1、query string分詞 query string必須以和index建立時相同的analyzer進行分詞 query string對exact value和full text的區別對待 date：exact value _all：full text

Elasticsearch 之（12）query string的分詞，修改分詞器以及自定義分詞器

query string分詞query string必須以和index建立時相同的analyzer進行分詞query string對exact value和full text的區別對待（第10節中詳細闡述過）date：exact value_all：full text比如我

elasticsearch分詞檢索的match-query匹配過程分析

1. 模擬字串資料儲存

2. 關鍵詞查詢

3. 關鍵詞使用儲存的分詞器查詢

總結

相關推薦