Elasticsearch 資料搜尋篇

阿新 • • 發佈：2019-03-29

curl 'localhost:9200/_cat/indices?v'
health index pri rep docs.count docs.deleted store.size pri.store.size
yellow bank    5   1       1000            0    424.4kb        424.4kb

搜尋API

ES提供了兩種搜尋的方式：請求引數方式 和 請求體方式。

請求引數方式

curl 'localhost:9200/bank/_search?q=*&pretty'

其中bank是查詢的索引名稱，q後面跟著搜尋的條件：q=*表示查詢所有的內容

請求體方式（推薦這種方式）

curl -XPOST 'localhost:9200/bank/_search?pretty' -d '
{
  "query": { "match_all": {} }
}'

這種方式會把查詢的內容放入body中，會造成一定的開銷，但是易於理解。在平時的練習中，推薦這種方式。

返回的內容

{
  "took" : 26,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "failed" : 0
  },
  "hits" : {
    "total" : 1000,
    "max_score" : 1.0,
    "hits" : [ {
      "_index" : "bank",
      "_type" : "account",
      "_id" : "1",
      "_score" : 1.0, "_source" : {"account_number":1,"balance":39225,"firstname":"Amber","lastname":"Duke","age":32,"gender":"M","address":"880 Holmes Lane","employer":"Pyrami","email":"[email protected]","city":"Brogan","state":"IL"}
    }, {
      "_index" : "bank",
      "_type" : "account",
      "_id" : "6",
      "_score" : 1.0, "_source" : {"account_number":6,"balance":5686,"firstname":"Hattie","lastname":"Bond","age":36,"gender":"M","address":"671 Bristol Street","employer":"Netagy","email":"[email protected]","city":"Dante","state":"TN"}
    }, {
      "_index" : "bank",
      "_type" : "account",
      "_id" : "13",

返回的內容大致可以如下講解：

took：是查詢花費的時間，毫秒單位

time_out：標識查詢是否超時

_shards：描述了查詢分片的資訊，查詢了多少個分片、成功的分片數量、失敗的分片數量等

hits：搜尋的結果，total是全部的滿足的文件數目，hits是返回的實際數目（預設是10）

_score是文件的分數資訊，與排名相關度有關，參考各大搜索引擎的搜尋結果，就容易理解。

由於ES是一次性返回所有的資料，因此理解返回的內容是很必要的。它不像傳統的SQL是先返回資料的一個子集，再通過資料庫端的遊標不斷的返回資料（由於對傳統的資料庫理解的不深，這裡有錯還望指正）。

查詢語言DSL

ES支援一種JSON格式的查詢，叫做DSL，domain specific language。這門語言剛開始比較難理解，因此通過幾個簡單的例子開始：

下面的命令，可以搜尋全部的文件：

{
  "query": { "match_all": {} }
}

query定義了查詢，match_all聲明瞭查詢的型別。還有其他的引數可以控制返回的結果：

curl -XPOST 'localhost:9200/bank/_search?pretty' -d '
{
  "query": { "match_all": {} },
  "size": 1
}'

上面的命令返回了所有文件資料中的第一條文件。如果size不指定，那麼預設返回10條。

下面的命令請求了第10-20的文件。

curl -XPOST 'localhost:9200/bank/_search?pretty' -d '
{
  "query": { "match_all": {} },
  "from": 10,
  "size": 10
}'

下面的命令指定了文件返回的排序方式：

curl -XPOST 'localhost:9200/bank/_search?pretty' -d '
{
  "query": { "match_all": {} },
  "sort": { "balance": { "order": "desc" } }
}'

執行搜尋

上面瞭解了基本的搜尋語句，下面就開始深入一些常用的DSL了。

之前的返回資料都是返回文件的所有內容，這種對於網路的開銷肯定是有影響的，下面的例子就指定了返回特定的欄位：

curl -XPOST 'localhost:9200/bank/_search?pretty' -d '
{
  "query": { "match_all": {} },
  "_source": ["account_number", "balance"]
}'

再回到query，之前的查詢都是查詢所有的文件，並不能稱之為搜尋引擎。下面就通過match方式查詢特定欄位的特定內容，比如查詢餘額為20的賬戶資訊：

curl -XPOST 'localhost:9200/bank/_search?pretty' -d '
{
  "query": { "match": { "account_number": 20 } }
}'

查詢地址為mill的資訊：

curl -XPOST 'localhost:9200/bank/_search?pretty' -d '
{
  "query": { "match": { "address": "mill" } }
}'

查詢地址為mill或者lane的資訊：

curl -XPOST 'localhost:9200/bank/_search?pretty' -d '
{
  "query": { "match": { "address": "mill lane" } }
}'

如果我們想要返回同時包含mill和lane的，可以通過match_phrase查詢：

curl -XPOST 'localhost:9200/bank/_search?pretty' -d '
{
  "query": { "match_phrase": { "address": "mill lane" } }
}'

ES提供了bool查詢，可以把很多小的查詢組成一個更為複雜的查詢，比如查詢同時包含mill和lane的文件：

curl -XPOST 'localhost:9200/bank/_search?pretty' -d '
{
  "query": {
    "bool": {
      "must": [
        { "match": { "address": "mill" } },
        { "match": { "address": "lane" } }
      ]
    }
  }
}'

修改bool引數，可以改為查詢包含mill或者lane的文件：

curl -XPOST 'localhost:9200/bank/_search?pretty' -d '
{
  "query": {
    "bool": {
      "should": [
        { "match": { "address": "mill" } },
        { "match": { "address": "lane" } }
      ]
    }
  }
}'

也可以改寫為must_not，排除包含mill和lane的文件：

curl -XPOST 'localhost:9200/bank/_search?pretty' -d '
{
  "query": {
    "bool": {
      "must_not": [
        { "match": { "address": "mill" } },
        { "match": { "address": "lane" } }
      ]
    }
  }
}'

bool查詢可以同時使用must, should, must_not組成一個複雜的查詢：

curl -XPOST 'localhost:9200/bank/_search?pretty' -d '
{
  "query": {
    "bool": {
      "must": [
        { "match": { "age": "40" } }
      ],
      "must_not": [
        { "match": { "state": "ID" } }
      ]
    }
  }
}'

過濾查詢

之前說過score欄位指定了文件的分數，使用查詢會計算文件的分數，最後通過分數確定哪些文件更相關，返回哪些文件。

有的時候我們可能對分數不感興趣，就可以使用filter進行過濾，它不會去計算分值，因此效率也就更高一些。

filter過濾可以巢狀在bool查詢內部使用，比如想要查詢在2000-3000範圍內的所有文件，可以執行下面的命令：

curl -XPOST 'localhost:9200/bank/_search?pretty' -d '
{
  "query": {
    "bool": {
      "must": { "match_all": {} },
      "filter": {
        "range": {
          "balance": {
            "gte": 20000,
            "lte": 30000
          }
        }
      }
    }
  }
}'

ES除了上面介紹過的範圍查詢range、match_all、match、bool、filter還有很多其他的查詢方式，這裡就先不一一說明了。

聚合

聚合提供了使用者進行分組和數理統計的能力，可以把聚合理解成SQL中的GROUP BY和分組函式。在ES中，你可以在一次搜尋查詢的時間內，即完成搜尋操作也完成聚合操作，這樣就降低了多次使用REST API造成的網路開銷。

下面就是通過terms聚合的簡單樣例：

curl -XPOST 'localhost:9200/bank/_search?pretty' -d '
{
  "size": 0,
  "aggs": {
    "group_by_state": {
      "terms": {
        "field": "state"
      }
    }
  }
}'

它類似於SQL中的下面的語句：

SELECT state, COUNT(*) FROM bank GROUP BY state ORDER BY COUNT(*) DESC

返回的資料：

"hits" : {
    "total" : 1000,
    "max_score" : 0.0,
    "hits" : [ ]
  },
  "aggregations" : {
    "group_by_state" : {
      "buckets" : [ {
        "key" : "al",
        "doc_count" : 21
      }, {
        "key" : "tx",
        "doc_count" : 17
      }, {
        "key" : "id",
        "doc_count" : 15
      }, {
        "key" : "ma",
        "doc_count" : 15
      }, {
        "key" : "md",
        "doc_count" : 15
      }, {
        "key" : "pa",
        "doc_count" : 15
      }, {
        "key" : "dc",
        "doc_count" : 14
      }, {
        "key" : "me",
        "doc_count" : 14
      }, {
        "key" : "mo",
        "doc_count" : 14
      }, {
        "key" : "nd",
        "doc_count" : 14
      } ]
    }
  }
}

由於size設定為0，它並沒有返回文件的資訊，只是返回了聚合的結果。

比如統計不同賬戶狀態下的平均餘額：

curl -XPOST 'localhost:9200/bank/_search?pretty' -d '
{
  "size": 0,
  "aggs": {
    "group_by_state": {
      "terms": {
        "field": "state"
      },
      "aggs": {
        "average_balance": {
          "avg": {
            "field": "balance"
          }
        }
      }
    }
  }
}'

聚合支援巢狀，舉個例子，先按範圍分組，在統計不同性別的賬戶餘額：

curl -XPOST 'localhost:9200/bank/_search?pretty' -d '

{
  "size": 0,
  "aggs": {
    "group_by_age": {
      "range": {
        "field": "age",
        "ranges": [
          {
            "from": 20,
            "to": 30
          },
          {
            "from": 30,
            "to": 40
          },
          {
            "from": 40,
            "to": 50
          }
        ]
      },
      "aggs": {
        "group_by_gender": {
          "terms": {
            "field": "gender"
          },
          "aggs": {
            "average_balance": {
              "avg": {
                "field": "balance"
              }
            }
          }
        }
      }
    }
  }
}'

聚合可以實現很多複雜的功能，而且ES也提供了很多複雜的聚合，這裡作為引導篇，也

Elasticsearch 資料搜尋篇·【入門級乾貨】

ES即簡單又複雜，你可以快速的實現全文檢索，又需要了解複雜的REST API。本篇就通過一些簡單的搜尋命令，幫助你理解ES的相關應用。雖然不能讓你理解ES的原理設計，但是可以幫助你理解ES，探尋更多的特性。樣例資料為了更好的使用和理解ES，沒有點樣例資料還是不好模擬的。這裡提供了一份官網上

Elasticsearch 資料搜尋篇

開發十年，就只剩下這套架構體系了！ >>>

TM-Elasticsearch一款強大的資料搜尋整合工具

Elastic Search於2018年10月在美國紐約證券交易所上市了，其股票發行價為 36 美元，最高漲至 74.20 美元，最終收盤價為 70.00 美元，漲幅 94.44%，達到近翻倍的漲幅。從公司成立到上市僅用了 8 年，超過 3.5+ 億的產品下載，100萬+ 名

大資料求索（10）：解決ElasticSearch中文搜尋無結果------ik分詞器的安裝與使用

大資料求索（10）：解決ElasticSearch中文搜尋無結果-----IK中文分詞器的安裝與使用問題所在在中文情況下，ES預設分詞器會將漢字切分為一個一個的漢字，所以當搜尋詞語的時候，會發現無法找到結果。解決辦法有很多其他的分詞器外掛可以替代，這裡使用最常用

使用Java呼叫ElasticSearch提供的相關API進行資料搜尋完整例項演示

package org.dennisit.elastic.process; import java.util.ArrayList; import java.util.List; import org.dennisit.entity.DataFactory; import org.dennisit.entit

python下建立elasticsearch索引實現大資料搜尋——之環境搭建（一）

目錄 1.需求闡述 1）資料儲存在阿里雲內網的Mysql伺服器上，需要通過一臺伺服器SSH隧道穿透取得資料。 2）首先明確，一張設計圖需要多種素材來構成。資料量很大，需要操作的有兩個表，稱為stylepatternshow表，目前資料3w行（

Elasticsearch 第八篇：資料型別 Array、Nested、Object 的設計與應用

在我的上一篇《Elasticsearch 第七篇：父子結構mapping設計以及相關查詢》中，通過建立電影索引庫，將電影 film 與演員 actor 做了父子關係的聯結，並做了相關查詢，但是實際上，父子關聯查詢並不是最推薦的設計方式。在實際應用中，通常要設計比較

elasticsearch-查詢基礎篇

cor 結構 one and string 以及 sco 高級 posit elasticsearch的查詢有兩部分組成：query and filter。兩者的主要區別在於：filter是不計算相關性的，同時可以cache。因此，filter速度要快於query。先

elasticsearch 第四篇(API約定)

aml cas jsonp har 計算 pre 只需要 cal use 對多個indices進行操作 es中大多resetapi支持請求多個index, 例如”test1,test2,test3”，index也可以使用通配符, 例如”test*“, 還可以使用+,-來包含

軟件測試_資料收集篇

info 再看測試 .com 層次 span 收集經典平臺 JMETER jmeter的擴展性實在是太強大了，涉及到各種數據庫，各種服務器，各種類型的接口，甚至是大數據平臺。想要吃透真的不是一兩年時間能做到的。 Selenium selenium的經典文檔不多，但是

ElasticSearch入門第一篇：Windows下安裝ElasticSearch

host 打開分段類型安裝程序 tex EDA body 腳本 https://www.elastic.co/downloads/past-releases/elasticsearch-2-4-4 這是ElasticSearch 2.4 版本系列的第一篇： Ela

elasticsearch資料型別

Elasticsearch自帶的資料型別是Lucene索引的依據，也是我們做手動對映調整到依據。對映中主要就是針對欄位設定型別以及型別相關引數。 1.JSON基礎型別如下：字串：string 數字：b

AutoCompleteTextView+Okhttp3+ListView實現簡單的網路資料搜尋展示

首先用OKHttp3獲取網路上的資料，並儲存到Serializeable的Bean類集合 OkHttpClient client = new OkHttpClient(); Request request = new Request.Builder()

異數OS TCP協議棧測試（一）--資料傳輸篇

異數OS TCP協議棧測試（一）--資料傳輸篇本文來自異數OS社群 github： https://github.com/yds086/HereticOS 異數OS社群QQ群： 652455784 異數OS-織夢師（訊息中介軟體）群： 4

verilog學習（二）語法之資料基礎篇

一、關於模組 Verilog 的基本設計單元是“模組” （block）。一個模組是由兩部分組成的，一部分描述接口，另一部分描述邏輯功能，即定義輸入是如何影響輸出的。

【ArcGIS操作】3 資料製圖篇

本內容整理自湯國安、錢柯健、熊禮陽等教授編著的《地理資訊系統基礎實驗操作100例》。感謝！文章目錄 1、資料框投影變換 2、建立點、線、面符號 3、由圖片建立點符號 4、建立統計圖符號 5、按欄位調整點符號方向 *6、

B-樹和B+樹的應用資料搜尋和資料庫索引

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Tensorflow Object Detection API之MaskRCNN-資料處理篇

TensorFlow官網介紹：Run an Instance Segmentation Model 要求將資料處理為PNG Instance Segmentation Masks格式以下部分為處理單張Mask圖片的方式： from PIL import Image, ImageDr

elasticsearch php 搜尋開發

elasticseach安裝 elasticseach 官方文件 https://www.elastic.co/webinars/getting-started-elasticsearch elasticseach 下載後 windows 下直接執行 ela

java查詢 elasticsearch資料

獲取elasticsearch資料一環境本次使用java語言 maven專案 bboss操作es 檢視本地ES中index索引資訊如果對於ES head啟動不會請看之前部落格 ES 啟動：https://blog.csdn.net/qq_36819281/article/details

Elasticsearch 資料搜尋篇

搜尋API

查詢語言DSL

執行搜尋

過濾查詢

聚合

相關推薦