elasticsearch筆記_近似匹配_部分匹配(七)

阿新 • • 發佈：2019-01-01

短語匹配

一個被認定為和短語 quick brown fox 匹配的文件，必須滿足以下這些要求：

quick 、 brown 和 fox 需要全部出現在域中。

brown 的位置應該比 quick 的位置大 1 。

fox 的位置應該比 quick 的位置大 2 。

如果以上任何一個選項不成立，則該文件不能認定為匹配。

match_phrase查詢

GET /my_index/my_type/_search
{
    "query": {
        "match_phrase": {
            "title": "quick brown fox" 

        }
    }
}

類似 match 查詢， match_phrase 查詢首先將查詢字串解析成一個詞項列表，然後對這些詞項進行搜尋，但只保留那些包含全部搜尋詞項，且位置與搜尋詞項相同的文件。

當一個字串被分詞後，這個分析器不但會返回一個詞項列表，而且還會返回各詞項在原始字串中的位置或者順序關係.
GET /_analyze?analyzer=standard Quick brown fox
返回結果 : 

{
   "tokens": [
      {
         "token": "quick",
         "start_offset 
": 0,
         "end_offset": 5,
         "type": "<ALPHANUM>",
         "position": 1  //詞條在短語中的位置.
      },
      {
         "token": "brown",
         "start_offset": 6,
         "end_offset": 11,
         "type": "<ALPHANUM>",
         "position": 2 
      },
      {
         "token": "fox" 
,
         "start_offset": 12,
         "end_offset": 15,
         "type": "<ALPHANUM>",
         "position": 3 
      }
   ]
}

match_phrase查詢(slop 引數)

如果想要包含 “quick brown fox” 的文件也能夠匹配“quick fox,” 。需要用到slop引數,slop引數的意思是告訴 match_phrase 查詢詞條相隔多遠時仍然能將文件視為匹配 .
GET /my_index/my_type/_search
{
    "query": {
        "match_phrase": {
            "title": {
                "query": "quick fox",
                "slop":  1
            }
        }
    }
}

match_phrase查詢(多值欄位的小問題)

假設現在有一個文件如下:
{
    "names": [ "John Abraham", "Lincoln Smith"]
}
執行下面這個查詢
GET /my_index/groups/_search
{
    "query": {
        "match_phrase": {
            "names": "Abraham Lincoln"
        }
    }
}
即使 Abraham 和 Lincoln 在 names 數組裡屬於兩個不同的人名，我們的文件也匹配了查詢。這一切的原因在Elasticsearch陣列的索引方式。

在分析 John Abraham 的時候，產生了如下資訊：
Position 1: john
Position 1: john
Position 2: abraham

然後在分析 Lincoln Smith 的時候，產生了：
Position 3: lincoln
Position 4: smith

Elasticsearch對以上陣列分析生成了與分析單個字串 John Abraham Lincoln Smith 一樣幾乎完全相同的語彙單元。我們的查詢示例尋找相鄰的 lincoln 和 abraham ，而且這兩個詞條確實存在，並且它們倆正好相鄰，所以這個查詢匹配了。解決這個問題的技巧使用position_increment_gap引數 .

position_increment_gap

DELETE /my_index/groups/ 

PUT /my_index/_mapping/groups 
{
    "properties": {
        "names": {
            "type":                "string",
            "position_increment_gap": 100
        }
    }
}

position_increment_gap 設定告訴 Elasticsearch 應該為陣列中每個新元素增加當前詞條 position 的指定值。所以現在當我們再索引 names 陣列時，會產生如下的結果：

Position 1: john
Position 2: abraham
Position 103: lincoln
Position 104: smith

現在我們的短語查詢可能無法匹配該文件因為 abraham 和 lincoln 之間的距離為 100 。為了匹配這個文件你必須新增值為 100 的 slop 。

slop引數的設定會影響對文件的評分,短語的詞條離的越近,評分越高.

例如 : 對 quick dog 的鄰近查詢匹配以下兩個文件 :

{
  "hits": [
     {
        "_id":      "3",
        "_score":   0.75, 
        "_source": {
           "title": "The quick brown fox jumps over the quick dog"
        }
     },
     {
        "_id":      "2",
        "_score":   0.28347334, 
        "_source": {
           "title": "The quick brown fox jumps over the lazy dog"
        }
     }
  ]
}

可以看到文件1的評分要高於文件2 , 因為文件1裡面的quick 和 dog 離更近一些 .

小技巧

有時候可能會遇見這樣的情況 : 如果七個詞條中有六個匹配，那麼這個文件對使用者而言就已經足夠相關了，但是 match_phrase 查詢可能會將它排除在外。

可以這樣做 :

將一個簡單的 match 查詢作為一個 must 子句。這個查詢將決定哪些文件需要被包含到結果集中。我們可以用 minimum_should_match 引數去除長尾。然後我們可以以 should 子句的形式新增更多特定查詢。每一個匹配成功的都會增加匹配文件的相關度。

GET /my_index/my_type/_search
{
  "query": {
    "bool": {
      "must": {
        "match": { 
          "title": {
            "query":                "quick brown fox",
            "minimum_should_match": "30%"
          }
        }
      },
      "should": {
        "match_phrase": { 
          "title": {
            "query": "quick brown fox",
            "slop":  50
          }
        }
      }
    }
  }
}

尋找相關詞

上面所有的查詢都沒法解決這樣一個問題:兩個子句 I’m not happy I’m working 和 I’m happy I’m not working 包含相同的單詞，也擁有相同的鄰近度，但含義截然不同。

解決思路 :
對句子 Sue ate the alligator ，不僅要將每一個單詞（或者 unigram ）作為詞項索引:
["sue", "ate", "the", "alligator"]
也要將每個單詞以及它的鄰近詞作為單個詞項索引：
["sue ate", "ate the", "the alligator"]
這些單詞對（或者 bigrams ）被稱為 shingles 。

Shingles 不限於單詞對；你也可以索引三個單詞（ trigrams ）
["sue ate the", "ate the alligator"]
Trigrams 提供了更高的精度，但是也大大增加了索引中唯一詞項的數量。在大多數情況下，Bigrams 就夠了。
DELETE /my_index
PUT /my_index
{
    "settings": {
        "number_of_shards": 1,  
        "analysis": {
            "filter": {
                "my_shingle_filter": {
                    "type":             "shingle",
                    "min_shingle_size": 2,  //預設最小/最大的 shingle 大小是 2 ，所以實際上不需要設定。
                    "max_shingle_size": 2, 
                    "output_unigrams":  false   //shingle 語彙單元過濾器預設輸出 unigrams ，但是我們想讓 unigrams 和 bigrams 分開。
                }
            },
            "analyzer": {
                "my_shingle_analyzer": {
                    "type":             "custom",
                    "tokenizer":        "standard",
                    "filter": [
                        "lowercase",
                        "my_shingle_filter"    //my_shingle_analyzer 使用我們常規的 my_shingles_filter 語彙單元過濾器。
                    ]
                }
            }
        }
    }
}

部分匹配

    WHERE text LIKE "%quick%" AND text LIKE "%brown%" AND text LIKE "%fox%"

為了實現上述sql語句的功能 , elasticsearch提供了三種方式:

prefix字首查詢

GET /my_index/address/_search
{
    "query": {
        "prefix": {
            "postcode": "W1"
        }
    }
}

萬用字元

GET /my_index/address/_search
{
    "query": {
        "wildcard": {
            "postcode": "W?F*HW" 
        }
    }
}
//它使用標準的 shell 萬用字元查詢： ? 匹配任意字元， * 匹配 0 或多個字元。
//? 可以匹配 1 和 2 ， * 可以與空格及 7 和 8 匹配。

正則表達regexp

GET /my_index/address/_search
{
    "query": {
        "regexp": {
            "postcode": "W[0-9].+" 
        }
    }
}

//這個正則表示式要求詞必須以 W 開頭，緊跟 0 至 9 之間的任何一個數字，然後接一或多個其他字元。

C#正則表示式的完全匹配、部分匹配及忽略大小寫的問題

問題的提出根據使用者給定表示式，裡面含有各種數學函式，如求絕對值，三角函式，平方、開方等，分別以類似ABS(表示式)，Sin(表示式),ASin(表示式),POW(表示式)等形式表述。由於使用者輸入的可能是不區分大小寫，而且可能用Sin,Asin,Tan,Tanh等（具體見下

elasticsearch筆記_近似匹配_部分匹配(七)

短語匹配一個被認定為和短語 quick brown fox 匹配的文件，必須滿足以下這些要求： quick 、 brown 和 fox 需要全部出現在域中。 brown 的

[Elasticsearch] 部分匹配 (四) - 索引期間優化ngrams及索引期間的即時搜索

upd 並不是 _id plain 配置 n) -c 如果例子本章翻譯自Elasticsearch官方指南的Partial Matching一章。索引期間的優化(Index-time Optimizations) 目前我們討論的所有方案都是在查詢期間的。它們不

萬用字元匹配_講解和python3實現

題目描述給定一個字串 (s) 和一個字元模式 § ，實現一個支援 ‘?’ 和 ‘*’ 的萬用字元匹配。 ‘?’ 可以匹配任何單個字元。 ‘*’ 可以匹配任意字串（包括空字串）。兩個字串完全匹配才算匹配成功。說明: s 可能為空，且只包含從 a-z 的小寫字母。 p 可能

Elasticsearch搜尋中的部分匹配

本文絕大部分內容來自http://www.cnblogs.com/richaaaard/p/5254285.html，其中部分內容做了新增和修改。摘要到目前為止，我們介紹的所有查詢都是基於完整術語的，為了匹配，最小的單元為單個術語，我們只能查詢反向索引中存在的術語。但

elasticsearch筆記_全文搜尋_query(五)

全文搜尋(Query) 全文搜尋最重要的兩個方面就是”相關性(Relevance)”和”分析(Analysis)” . 相關性（Relevance）每個文件都有相關性評分，用一個正浮點數字段 _score 來表示。_score 評分越高 ,

模板匹配_從圖片到視訊流

還是先上我的程式吧，實現了對視訊流的匹配，在視訊中標出目標物體的位置並計算出物體所在的中心座標： #include <opencv2/core/core.hpp> #include <opencv2/highgui/highgui.hpp&g

OpenCV_區域性影象特徵的提取與匹配_原始碼

OpenCV的feature2d module中提供了從區域性影象特徵（Local image feature）的檢測、特徵向量（feature vector）的提取，到特徵匹配的實現。其中的區域性影象特徵包括了常用的幾種區域性影象特徵檢測與描述運算元，如FAST、SUR

elasticsearch 搜尋不支援單詞的部分進行匹配

zjtest7-frontend:/usr/local/logstash-2.3.4/config# curl -XGET http://192.168.32.80:9200/logstash-2015.06.21/testlog/_search?q=fir {"took"

Shader學習筆記_基礎知識_分量

spa 例如 string 不知道坐標 nbsp pre 表示設置分量矢量的分量名稱：{x,y,z,w}表示頂點； {r,g,b,a}表示顏色；{s,t,p,q}表示紋理坐標。每個分量用點號連接（例如v2.x（一個float變量），v3.rg(一個vec2變量)）

工作流筆記第三天_流程實例

asc etc 一個 can helloword time system sel inpu 0、流程實例的表 -- 流程實例，執行對象，任務-- 1、解析.bpmn後得到的流程定義規則的信息，工作流系統就是按照流程定義的規則執行的。select * FROM act_ru_

Python筆記_第一篇_童子功_0.內存詳解(含位運算)

臨時解決 har 內存鏈計算器它的影響 con 封裝　　Python的很多教材中並沒有講內存方面的知識，但是內存的知識非常重要，對於計算機工作原理和方便理解編程語言是非常重要的，尤其是小白，因此需要把這一方面加上，能夠更加深入的理解編程語言。這裏引用了C語言關於內

Python筆記_第一篇_童子功_3.進制和位運算

我們方式三方計算相對原理進制數據結構什麽　　通過對內存這一個部分的講解，對編程會有一個相對深入的認識。數據結構是整個內存的一個重要內容，那麽關於數據結構這方面的問題還需要對進制、位運算、編碼這三個方面再進行闡述一下。前面說將的數據結構是從邏輯上進行這方面

《質量全面管理—從項目管理到容災測試》_性能測試部分

緩沖區啟動調優狀況定性並發數保留磁盤處理　　僅作記錄，以備後續方便翻閱。一、性能測試方法歸納測試方法測試方法簡述測試目的和關註點負載測試通過模擬系統所承載的並發用戶或請求流量的

Python第十周學習筆記（2）_多線程

學習筆記多線程並發 concurrency 同一時間內出現多個請求，高並發就是短時間內出現大量請求並行 parallel 並行是解決並發的一個方法並發的解決食堂打飯模型 1、隊列、緩沖區 queue（或LifoQueue、PriorityQueue）先進先出緩沖區（排隊打飯），可以

Python學習筆記二十二_繼承

類的方法 elf 重寫它的 smi 基礎上調用新功能廣度優先　　上一篇“面向對象”中簡單介紹了繼承，即一個類可以派生出子類，在這個父類裏定義的屬性、方法自動被子類繼承。子類可以重寫父類方法。繼承是為了代碼重用。這篇重點寫一下重寫父類的方法及經典類與新式類在多繼承時

Python學習筆記二十二_多線程與多進程

方法很多問題 quest 磁盤結果 gil 解鎖 ems 一、什麽是線程&進程 1、進程 (Process) 　　是資源的集合。其實就是程序（qq進程）。對於操作系統來說一個任務就是一個進程，例如打開瀏覽器就啟動了一個瀏覽器進程，打開word就啟動了一個wo

線性迴歸_邏輯迴歸_廣義線性模型_斯坦福CS229_學習筆記

前言之前學習過視訊版本的吳恩達老師CS229的機器學習課程，但是覺得並不能理解很好。現在結合講義，對於之前的內容再次進行梳理，仍然記錄下自己的思考。圖片來源於網路或者講義。話不多說，進入正題吧。 Part I Regression and Linear Regression

C 正則表示式的完全匹配部分匹配及忽略大小寫的問題

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

統計學習方法_李航_筆記

統計學習方法_李航因本人剛開始寫部落格，學識經驗有限，如有不正之處望讀者指正，不勝感激；也望藉此平臺留下學習筆記以溫故而知新。這一篇文章介紹的是李航的統計學習方法一書的第一遍學習筆記。統計學習方法概論統計學習方法概論統計學習的物件是資

elasticsearch筆記_近似匹配_部分匹配(七)

短語匹配

match_phrase查詢

match_phrase查詢(slop 引數)

match_phrase查詢(多值欄位的小問題)

尋找相關詞

部分匹配

相關推薦