查詢還是過濾

Elasticsearch 的檢索一般來講我們分為2種：過濾（filtering context）和查詢（query context）

過濾

當使用於過濾情況時，查詢被設定成一個 “不評分”或者“過濾”查詢。 即，這個查詢只是簡單的問一個問題：“這篇文件是否匹配？”。回答也是非常的簡單，yes 或者 no ，二者必居其一。

created 時間是否在 2013 與 2014 這個區間？
status 欄位是否包含 published 這個單詞？
lat_lon 欄位表示的位置是否在指定點的 10km 範圍內？

查詢

當使用於查詢情況時，查詢就變成了一個“評分”的查詢。 和不評分的查詢類似，也要去判斷這個文件是否匹配，同時它還需要判斷這個文件匹配的有多好（匹配程度如何）。此查詢的典型用法是用於查詢以下文件：

查詢與 full text search 這個詞語最佳匹配的文件
包含 run 這個詞，也能匹配runs 、 running 、 jog 或者 sprint
包含 quick 、 brown 和 fox 這幾個詞 — 詞之間離的越近，文件相關性越高
標有 lucene 、 search 或者 java 標籤 — 標籤越多，相關性越高

一個評分查詢計算每一個文件與此查詢的相關程度，同時將這個相關程度分配給表示相關性的欄位 _score，並且按照相關性對匹配到的文件進行排序。這種相關性的概念是非常適合全文搜尋的情況，因為全文搜尋幾乎沒有完全 ``正確’’ 的答案。

自 Elasticsearch 出現以來，查詢與過濾（queries and filters）就獨自成為 Elasticsearch 的元件。但從 Elasticsearch 2.0 開始，過濾（filters）已經從技術上被排除了，同時所有的查詢（queries）擁有變成不評分查詢的能力。

一般來講，我們用 filter 這個詞表示不評分、只過濾情況下的查詢。即過濾查詢。相似的，如果單獨地不加任何修飾詞地使用 query 這個詞，我們指的是評分查詢。

查詢和過濾效能差異

過濾查詢（Filtering queries）只是簡單的檢查包含或者排除，這就使得計算起來非常快。考慮到至少有一個過濾查詢（filtering query）的結果是 “稀少的”（很少匹配的文件），並且經常使用不評分查詢（non-scoring queries），結果會被快取到記憶體中以便快速讀取，所以有各種各樣的手段來優化查詢結果。

相反，評分查詢（scoring queries）不僅僅要找出匹配的文件，還要計算每個匹配文件的相關性，計算相關性使得它們比不評分查詢費力的多。同時，查詢結果並不快取。

多虧倒排索引（inverted index），一個簡單的評分查詢在匹配少量文件時可能與一個涵蓋百萬文件的filter表現的一樣好，甚至會更好。但是在一般情況下，一個filter 會比一個評分的query效能更優異，並且每次都表現的很穩定。

過濾（filtering）的目標是減少那些需要通過評分查詢（scoring queries）進行檢查的文件。

通常的規則是，使用查詢（query）語句來進行全文搜尋或者其它任何需要影響相關性得分的搜尋。除此以外的情況都使用過濾（filters)。

查詢API

match_all

match_all 查詢簡單的匹配所有文件。在沒有指定查詢方式時，它是預設的查詢：

"query": {
    "match_all": {}
  }

match

無論你在任何欄位上進行的是全文搜尋還是精確查詢，match 查詢是你可用的標準查詢。

如果你在一個全文欄位上使用 match 查詢，在執行查詢前，它將用正確的分析器去分析查詢字串：

{ "match": { "tweet": "About Search" }}

如果在一個精確值的欄位上使用它，例如數字、日期、布林或者一個 not_analyzed 字串欄位，那麼它將會精確匹配給定的值：

{ "match": { "age":    26           }}
{ "match": { "date":   "2014-09-01" }}
{ "match": { "public": true         }}
{ "match": { "tag":    "full_text"  }}

對於精確值的查詢，你可能需要使用 filter 語句來取代 query，因為 filter 將會被快取。

multi_match

multi_match 查詢可以在多個欄位上執行相同的 match 查詢：

{
    "multi_match": {
        "query":    "full text search",
        "fields":   [ "title", "body" ]
    }
}

range

range 查詢找出那些落在指定區間內的數字或者時間：

{
    "range": {
        "age": {
            "gte":  20,
            "lt":   30
        }
    }
}

被允許的操作符如下：

操作	說明
gt	大於
gte	大於等於
lt	小於
lte	小於等於

term

term 查詢被用於精確值匹配，這些精確值可能是數字、時間、布林或者那些 not_analyzed 的字串：

{ "term": { "age":    26           }}
{ "term": { "date":   "2014-09-01" }}
{ "term": { "public": true         }}
{ "term": { "tag":    "full_text"  }}

term 查詢對於輸入的文字不分析，所以它將給定的值進行精確查詢。

terms

terms 查詢和 term 查詢一樣，但它允許你指定多值進行匹配。如果這個欄位包含了指定值中的任何一個值，那麼這個文件滿足條件：

{ "terms": { "tag": [ "search", "full_text", "nosql" ] }}

和 term 查詢一樣，terms 查詢對於輸入的文字不分析。它查詢那些精確匹配的值（包括在大小寫、重音、空格等方面的差異）。

exists missing

exists 查詢和 missing 查詢被用於查詢那些指定欄位中有值 (exists) 或無值 (missing) 的文件。這與SQL中的 IS_NULL (missing) 和 NOT IS_NULL (exists) 在本質上具有共性：

{
    "exists":   {
        "field":    "title"
    }
}

這些查詢經常用於某個欄位有值的情況和某個欄位缺值的情況。

深入分析

此時我們插入一條tweet資訊

PUT tweet/tweet/1
{
    "tweet":    "What is Elasticsearch?",
    "date":     "2014-09-14",
    "name":     "Mary Jones",
    "about":["es","elasticsearch"],
    "topic":"elasticsearch",
    "user_id":  1,
    "comments": [
      {
        "content":  "very good",
        "date":  "2014-09-14",
        "user_id":  1
      },
      {
        "content":  "good question",
        "date":  "2014-09-15",
        "user_id":  2
      }
    ]
}

elasticsearch自動建立的索引對映如下

{
  "tweet": {
    "mappings": {
      "tweet": {
        "properties": {
          "about": {
            "type": "text",
            "fields": {
              "keyword": {
                "type": "keyword",
                "ignore_above": 256
              }
            }
          },
          "comments": {
            "properties": {
              "content": {
                "type": "text",
                "fields": {
                  "keyword": {
                    "type": "keyword",
                    "ignore_above": 256
                  }
                }
              },
              "date": {
                "type": "date"
              },
              "user_id": {
                "type": "long"
              }
            }
          },
          "date": {
            "type": "date"
          },
          "name": {
            "type": "text",
            "fields": {
              "keyword": {
                "type": "keyword",
                "ignore_above": 256
              }
            }
          },
          "topic": {
            "type": "text",
            "fields": {
              "keyword": {
                "type": "keyword",
                "ignore_above": 256
              }
            }
          },
          "tweet": {
            "type": "text",
            "fields": {
              "keyword": {
                "type": "keyword",
                "ignore_above": 256
              }
            }
          },
          "user_id": {
            "type": "long"
          }
        }
      }
    }
  }
}

這裡可以看出現，在我們沒有為索引指明對映的時候，elasticsearch會自動建立對映有一下特點：

字串都被索引為text 全文檢索型別並且又自動添加了keyword精確詞第2種類型。

   	 "about": {
           "type": "text",
           "fields": {
             "keyword": {
               "type": "keyword",
               "ignore_above": 256
             }
           }
         }

資料自動識別為首元素型別
物件陣列已經自動巢狀物件處理

	"comments": {
            "properties": {
              "content": {
                "type": "text",
                "fields": {
                  "keyword": {
                    "type": "keyword",
                    "ignore_above": 256
                  }
                }
              }

此時假如我們希望查詢一下Jones發的tweet，此時我們只關心名字包含Jones，所以此時很明顯我們需要match查詢。

GET tweet/tweet/_search
{
  "query": {
    "match": {
      "name": "Jones"
    }
  }
}

我們可以明顯拿到自己的結果：

{
  "took": 0,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0.2876821,
    "hits": [
      {
        "_index": "tweet",
        "_type": "tweet",
        "_id": "1",
        "_score": 0.2876821,
        "_source": {
          "tweet": "What is Elasticsearch?",
          "date": "2014-09-14",
          "name": "Mary Jones",
          "about": [
            "es",
            "elasticsearch"
          ],
          "topic": "elasticsearch",
          "user_id": 1,
          "comments": [
            {
              "content": "very good",
              "date": "2014-09-14",
              "user_id": 1
            },
            {
              "content": "good question",
              "date": "2014-09-15",
              "user_id": 2
            }
          ]
        }
      }
    ]
  }
}

假設我們嘗試精確過濾呢

GET tweet/tweet/_search
{
  "query": {
    "bool": {
      "filter": {
        "term": {
          "name": "Jones"
        }
      }
    }
  }
}

結果什麼都沒有查詢出來

{
  "took": 0,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 0,
    "max_score": null,
    "hits": []
  }
}

假如我們精確匹配全部名稱呢

GET tweet/tweet/_search
{
  "query": {
    "bool": {
      "filter": {
        "term": {
          "name": "Mary Jones"
        }
      }
    }
  }
}

結果如下：

{
  "took": 0,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 0,
    "max_score": null,
    "hits": []
  }
}

很神奇，我們還是沒有精確匹配。仔細想想就會明白其中的端倪，這裡的問題在於我們的name是text域文字，elasticsearch預設會對它進行分析索引，而我們的term 查詢將給定的值進行精確查詢對於輸入的文字不分析，所以它會和name分析後的結果不匹配。那麼這個問題應該怎麼解決呢？

我們前面說過的name還又一個keyword對映

GET tweet/tweet/_search
{
  "query": {
    "bool": {
      "filter": {
        "term": {
          "name.keyword": "Mary Jones"
        }
      }
    }
  }
}

結果如下：

{
  "took": 0,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0,
    "hits": [
      {
        "_index": "tweet",
        "_type": "tweet",
        "_id": "1",
        "_score": 0,
        "_source": {
          "tweet": "What is Elasticsearch?",
          "date": "2014-09-14",
          "name": "Mary Jones",
          "about": [
            "es",
            "elasticsearch"
          ],
          "topic": "elasticsearch",
          "user_id": 1,
          "comments": [
            {
              "content": "very good",
              "date": "2014-09-14",
              "user_id": 1
            },
            {
              "content": "good question",
              "date": "2014-09-15",
              "user_id": 2
            }
          ]
        }
      }
    ]
  }
}

但是是不是隻有term精確匹配可以呢?我們知道如果在一個精確值的欄位上使用match，那麼它將會精確匹配給定的值：

GET tweet/tweet/_search
{
  "query": {
    "match": {
      "name.keyword": "Mary Jones"
    }
  }
}

結果如下：

{
  "took": 0,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0.2876821,
    "hits": [
      {
        "_index": "tweet",
        "_type": "tweet",
        "_id": "1",
        "_score": 0.2876821,
        "_source": {
          "tweet": "What is Elasticsearch?",
          "date": "2014-09-14",
          "name": "Mary Jones",
          "about": [
            "es",
            "elasticsearch"
          ],
          "topic": "elasticsearch",
          "user_id": 1,
          "comments": [
            {
              "content": "very good",
              "date": "2014-09-14",
              "user_id": 1
            },
            {
              "content": "good question",
              "date": "2014-09-15",
              "user_id": 2
            }
          ]
        }
      }
    ]
  }
}

組合多查詢

現實的查詢需求從來都沒有那麼簡單；它們需要在多個欄位上查詢多種多樣的文字，並且根據一系列的標準來過濾。為了構建類似的高階查詢，你需要一種能夠將多查詢組合成單一查詢的查詢方法。

你可以用 bool 查詢來實現你的需求。這種查詢將多查詢組合在一起，成為使用者自己想要的布林查詢。它接收以下引數：

引數	說明
must	文件必須匹配這些條件才能被包含進來。
must_not	文件必須不匹配這些條件才能被包含進來。
should	如果滿足這些語句中的任意語句，將增加 _score ，否則，無任何影響。它們主要用於修正每個文件的相關性得分。
filter	必須匹配，但它以不評分、過濾模式來進行。這些語句對評分沒有貢獻，只是根據過濾標準來排除或包含文件。

由於這是我們看到的第一個包含多個查詢的查詢，所以有必要討論一下相關性得分是如何組合的。每一個子查詢都獨自地計算文件的相關性得分。一旦他們的得分被計算出來， bool 查詢就將這些得分進行合併並且返回一個代表整個布林操作的得分。

下面的查詢用於查詢 title 欄位匹配 how to make millions 並且不被標識為 spam 的文件。那些被標識為 starred 或在2014之後的文件，將比另外那些文件擁有更高的排名。如果兩者都滿足，那麼它排名將更高：

{
    "bool": {
        "must":     { "match": { "title": "how to make millions" }},
        "must_not": { "match": { "tag":   "spam" }},
        "should": [
            { "match": { "tag": "starred" }},
            { "range": { "date": { "gte": "2014-01-01" }}}
        ]
    }
}

如果沒有 must 語句，那麼至少需要能夠匹配其中的一條 should 語句。但，如果存在至少一條 must 語句，則對 should 語句的匹配沒有要求。

增加帶過濾器（filtering）的查詢如果我們不想因為文件的時間而影響得分，可以用 filter 語句來重寫前面的例子：

{
    "bool": {
        "must":     { "match": { "title": "how to make millions" }},
        "must_not": { "match": { "tag":   "spam" }},
        "should": [
            { "match": { "tag": "starred" }}
        ],
        "filter": {
          "range": { "date": { "gte": "2014-01-01" }}
        }
    }
}

通過將 range 查詢移到 filter 語句中，我們將它轉成不評分的查詢，將不再影響文件的相關性排名。由於它現在是一個不評分的查詢，可以使用各種對 filter 查詢有效的優化手段來提升效能。

所有查詢都可以借鑑這種方式。將查詢移到 bool 查詢的 filter 語句中，這樣它就自動的轉成一個不評分的 filter 了。

如果你需要通過多個不同的標準來過濾你的文件，bool 查詢本身也可以被用做不評分的查詢。簡單地將它放置到 filter 語句中並在內部構建布林邏輯：

{
    "bool": {
        "must":     { "match": { "title": "how to make millions" }},
        "must_not": { "match": { "tag":   "spam" }},
        "should": [
            { "match": { "tag": "starred" }}
        ],
        "filter": {
          "bool": {
              "must": [
                  { "range": { "date": { "gte": "2014-01-01" }}},
                  { "range": { "price": { "lte": 29.99 }}}
              ],
              "must_not": [
                  { "term": { "category": "ebooks" }}
              ]
          }
        }
    }
} 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    ElasticSearch學習筆記十五 深入檢索
      
							
							
							
查詢還是過濾
Elasticsearch 的檢索一般來講我們分為2種：
過濾（filtering context）和查詢（query context）
過濾
當使用於 過濾情況 時，查詢被設定成一個 “不評分”或者“過濾”查詢。 即，這個查詢只是簡單的問一個問 

  
 

    

    
    深入理解JVM學習筆記(十五、物件的建立)
      
                下圖是JAVA虛擬機器物件的建立過程：



現在我們就以下幾點說明物件的建立：

1、給物件分配記憶體

給物件分配記憶體有指標碰撞和空閒列表兩種方式。具體描述如下圖所示。按時

2、執行緒安全性問題

        無論是指標碰撞還是空閒列表，在高併發情況下都有可能存線 

  
 

    

    
    python學習筆記(十五)-異常處理
      nbsp   gpo   calc   pre   異常   AC   pan   必須   ror   
money = input(‘輸入多少錢：‘)
months = input(‘還幾個月：‘)
try:
    res = calc(int(money),int(months))
except Ze 

  
 

    

    
    Python學習筆記十五_開發接口
      mock   con   n)   clas   reg   都是   upper   建立   insert   1、mock接口，模擬一些接口，在別的接口沒有開發好的時候，你需要用它 假的支付接口，模擬支付成功
2、
3、查看數據，避免直接操作數據庫flask web開發框架


實例化server


 

  
 

    

    
    Java學習筆記十五:Java中的成員變量和局部變量
      auto   描述   nbsp   方法   同名   -a   todo   generated   bsp   Java中的成員變量和局部變量
 
 

一：成員變量；

成員變量在類中定義，用來描述對象將要有什麽
成員變量可以被本類的方法使用，也可以被其他類的方法使用，成員變量的作用域在整個類內部都是 

  
 

    

    
    IOS開發學習筆記十五 為UITableView控制元件新增Header和Footer
       
 
  
  
 效果圖：專案地址 
  
  
  新增圖片素材，新增plist檔案，新增名為CZGoods的module檔案 
  
 @implementation CZGoods

- (instancetype)initWithDict:(NSDictionary *)dict
{
    if 

  
 

    

    
    ElasticSearch學習筆記十七 文件更新及版本控制
      
							
							
							
文件更新
在 Elasticsearch 中文件是 不可改變 的，不能修改它們。相反，如果想要更新現有的文件，需要 重建索引。但是我們不需要自己來完成操作，Update API 會幫我們完成。
例如我們新插入一條紀錄
PUT /website/blog/1
{ 

  
 

    

    
    機器學習筆記(十五)規則學習
      
                

15.規則學習
15.1基本概念
機器學習中的規則（rule）通常是指語義明確、能描述資料分佈所隱含的客觀規律或領域概念、可寫成若…則…形式的邏輯規則。規則學習（rulelearning）是從訓練資料中學習出一組能用於對未見示例進行判別的規則。


顯然，規則集合中的每天 

  
 

    

    
    Go語言學習筆記(十五)之異常處理
      22.異常處理 
error介面定義如下：
  1: type error interface {
  2: 	Error() string
  3: } 
Go語言的標準庫程式碼包errors為使用者提供如下方法：
  1: package errors
  2: 
  3: type errorStrin 

  
 

    

    
    UnityShader入門精要學習筆記(十五):渲染紋理
      
							
							
							一.簡介 
現代GPU允許我們把整個三維場景渲染到一箇中間緩衝中，即渲染目標紋理(Render Target Texture,RTT)。與之相關的是多重渲染目標(Multiple Render Target,MRT)，這種技術指的是GPU允許我們把場景同時渲染到 

  
 

    

    
    fs4412開發板學習筆記(十五)
      
							
							
							音效卡驅動dts.
======
    wm8960:[email protected]1a{
            compatible="wlf,wm8960";
            reg = <0x1a>;
    };

 

  
 

    

    
    Java學習筆記 (十五) 自動拆箱與自動裝箱
      
							
							
							什麼是自動拆裝箱


自動裝箱: 就是將基本資料型別自動轉換成對應的包裝類. 
自動拆箱：就是將包裝類自動轉換成對應的基本資料型別。




For example :



  Integer a=1;  //自動裝箱
  int b=a;     //自動拆 

  
 

    

    
    設計模式學習筆記十五：裝飾模式（Decorator Pattern）
      
     1.概述
     將表現與邏輯分離，是應用設計的一重要原則，在WEB應用中顯得尤為重要，因為使用者對介面形式的要求是易變的，並且是非常苛刻的。如果應用邏輯與顯示糾纏在一起，就會導致對介面上既是很小的一點改動，都會牽扯到邏輯的變化。在這種情況下，我們可以繼承來擴充套件物件的功能，但是由於繼承為型別 

  
 

    

    
    【D3D11遊戲程式設計】學習筆記十五：混合（Blending）
      
                
        （注：【D3D11遊戲程式設計】學習筆記系列由CSDN作者BonChoix所寫，轉載請註明出處：http://blog.csdn.net/BonChoix，謝謝~）

       在D3D11中，“混合”發生在畫素著色器階段的下一階段，即Output Me 

  
 

    

    
    struts2學習筆記十五（第15講.Struts2的檔案上傳和下載續三）
      
                [/code][b][size=xx-large]Struts2的檔案上傳和下載續三[/size][/b][color=red]功能：[/color]使用者可以自定義上傳檔案的個數，如果新增的個數多了的話，還可以進行刪減。一、修改之前根目錄下的upload.jsp檔案：[co 

  
 

    

    
    學習筆記十五--python3.6+pycharm2017.2.3+pyqt5的配置與使用
      
							
							
							近期準備學習一下將python程式按照GUI格式以視窗形式示人，查閱網上諸多部落格，各部落格之間相互引用的現象驚人，天下文章一大抄本不是什麼稀奇的事，但坑人的是按照諸位大咖的說明幾乎沒有成功的，究其原因，因為我安裝的均為最新版本的軟體，大咖們的都是以前的版本，而 

  
 

    

    
    tensorflow學習筆記(十五): variable scope
      
							
							
							variable scope

tensorflow 為了更好的管理變數,提供了variable scope機制 
官方解釋: 
Variable scope object to carry defaults to provide to get_variable 

  
 

    

    
    Linux學習筆記十五：nmcli 實現bind，team和bridge
      分享圖片   bin   命令   src   兼容性   server2   color   sha   顯示   nmcli命令在centos7上是一個很好用的命令，是一個管理網絡的命令行工具。主要有這些功能：下面用nmcli實現標題說的三個功能。
BOND：保證子接口使用在同一網絡，比如都用vnet10 

  
 

    

    
    ElasticSearch學習筆記之二十五 索引詞聚合
       
  
  
 
 
  ElasticSearch學習筆記之二十五 索引詞聚合
  
   Terms Aggregation(索引詞聚合)
   
    Size
    Document counts are approximate（文件計數是近似值）
    Shard Size
    Calc 

  
 

    

    
    Elasticsearch學習筆記（十）批量查詢mget、批量增刪改bulk
      出錯   color   body   換行   nor   test   增刪   doc   document   
一、批量查詢  mget

            GET 
/_mget


{


  "docs":[


      {


        "_index":"ecommerce

ElasticSearch學習筆記十五深入檢索

查詢還是過濾

過濾

查詢

查詢和過濾效能差異

查詢API

match_all

match

multi_match

range

term

terms

exists missing

深入分析

組合多查詢

ElasticSearch學習筆記十五深入檢索

深入理解JVM學習筆記(十五、物件的建立)

python學習筆記(十五)-異常處理

Python學習筆記十五_開發接口

Java學習筆記十五:Java中的成員變量和局部變量

IOS開發學習筆記十五為UITableView控制元件新增Header和Footer

ElasticSearch學習筆記十七文件更新及版本控制

機器學習筆記(十五)規則學習

Go語言學習筆記(十五)之異常處理

UnityShader入門精要學習筆記(十五):渲染紋理

fs4412開發板學習筆記(十五)

Java學習筆記 (十五) 自動拆箱與自動裝箱

設計模式學習筆記十五：裝飾模式（Decorator Pattern）

【D3D11遊戲程式設計】學習筆記十五：混合（Blending）

struts2學習筆記十五（第15講.Struts2的檔案上傳和下載續三）

學習筆記十五--python3.6+pycharm2017.2.3+pyqt5的配置與使用

tensorflow學習筆記(十五): variable scope

Linux學習筆記十五：nmcli 實現bind，team和bridge

ElasticSearch學習筆記之二十五索引詞聚合

Elasticsearch學習筆記（十）批量查詢mget、批量增刪改bulk

ElasticSearch學習筆記十五 深入檢索

查詢還是過濾

過濾

查詢

查詢和過濾效能差異

查詢API

match_all

match

multi_match

range

term

terms

exists missing

深入分析

組合多查詢

相關推薦

ElasticSearch學習筆記十五深入檢索