ES 13 - Elasticsearch的元字段（_index、_type、_source、_routing等）

阿新 • • 發佈：2019-04-10

1.0 copy less 不包含 resource elastics 人員 sort enc

1 標識元字段
- 1.1 _index - 文檔所屬的索引
- 1.2 _uid - 包含_type和_id的復合字段
- 1.3 _type - 文檔的類型
- 1.4 _id - 文檔的id
2 文檔來源元字段
- 2.1 _source - 文檔原始JSON內容
  - 2.1.1 關閉_source功能
  - 2.1.2 查詢時指定返回字段
- 2.2 _size - _source字段占用的字節數
3 索引元字段
- 3.1 _all - 文檔所有字段的值
- 3.2 _field_names - 文檔所有非空字段名
4 路由元字段
- 4.1 ~~[過期]_parent - 在type間創建父子關系~~
- 4.2 _routing - 自定義的路由值
5 其他元字段

元字段是ES為每個文檔配置的內置字段, 主要用於ES內部相關操作.

1 標識元字段

1.1 _index - 文檔所屬的索引

_index標註document屬於哪個index, 是一個虛擬字段, 不會被添加到Lucene索引中.

將類似的文檔 (也就是具有相同field的文檔) 存放到同一個index中, 是一種良好的數據建模思想.
提供大量查詢的index, 最好不要同時提供大量的統計、聚合等操作——通過把特定的index路由到指定的shard上, 便於系統的優化.

註意: 索引名稱必須是小寫的字母, 不能以下劃線"_"開頭, 不能包含逗號 ",".

在term或者terms查詢, 聚合、腳本以及排序時, 可以訪問_index字段的值.

在多個索引中執行查詢時, 可以通過添加查詢子句來關聯特定的索引文檔, 使用示例——同時查詢多種index:

GET website,book_shop/_search
{
    "query": {
        "terms": {    // 查詢_index是website和book_shop的文檔
            "_index": [ "website", "book_shop"] }
    },
    "aggs": {
        "indices": {  // 對_index字段進行聚合操作
            "terms": { "field": "_index", "size": 10 }
        }
    },
    "sort": {         // 對_index字段進行排序操作
        "_index": { "order": "asc" }
    },
    "script_fields": {  // 使用腳本, 顯示_index字段
        "index_name": {
            "script": { 
                "lang": "painless",
                "source": "doc['_index']"
            }
        }
    }
}

1.2 _uid - 包含_type和_id的復合字段

_uid是_type和_id的組合, 形式為{type}#{id}. 可以用於查詢、聚合、腳本和排序.

(1) 添加文檔:

PUT website/blog/4
{
    "text": "blog with ID 4"
}

PUT website/blog/5?refresh=true
{
    "text": "blog with ID 5"
}

(2) 檢索文檔:

說明: 對_uid字段的訪問API已經過期, 需要使用_id替換.
#! Deprecation: Fielddata access on the _uid field is deprecated, use _id instead

GET website/_search
{
    "query": { 
        "terms": {       // 通過_uid查詢_type和_id的復合字段
            "_uid": ["blog#4", "blog#5"]
        }
    },
    "aggs": {
        "uid_aggs": {
            "terms": {    // 這裏通過_uid聚合的操作已經過期
                "field": "_id", "size": 10
              }
        }
    }, 
    "sort": {             // 這裏通過_uid排序的操作已經過期
        "_id": { "order": "desc"}
    }, 
    "script_fields": {
        "uid_script": {
            "script": {   // 這裏對_uid的腳本操作已經過期
                "lang": "painless", 
                "source": "doc['_id']" 
            }
        }
    }
}

1.3 _type - 文檔的類型

_type元字段用來標註document屬於哪個類型, 也被稱作映射類型.

註意: type的名稱可以是大寫或小寫字母, 但不能以下劃線"_"開頭, 不能包含逗號",".

在Elasticsearch 6.0之前的版本中, 一個index可能會被劃分為多個type, 例如: 商品中有電子商品, 服裝商品, 生鮮商品...

但在Elasticsearch 6.0之後, 一個index只能包含一個type, 否則將出現錯誤.

每一個索引文檔都包含_type和_id字段, _type字段的目的是通過類型名加快搜索速度.

_type字段可以在查詢、聚合、排序以及腳本中訪問到.

關於type的底層數據結構, 可參見ES XX - Elasticsearch對索引類型(_type)的處理方式.

1.4 _id - 文檔的id

_id代表document的唯一標識, 與_index和_type一起, 唯一標識和定位一個document.

註意: 可以手動指定document的id(PUT index/type/id), 也可以不指定, Elasticsearch在添加文檔時會自動為其創建id.

可以在查詢、腳本中訪問, 查詢示例:

GET website/_search
{
    "query": {
        "terms": {"_id" : ["1", "2"]}
    },
    "aggs": {
        "id_aggs": {
            "terms": {
                "field": "_id", "size": 10
            }
        }
    }, 
    "script_fields": {
        "id_script": {
            "script": {
                "lang": "painless", 
                "source": "doc['_id']"
            }
        }
    }
}

2 文檔來源元字段

2.1 _source - 文檔原始JSON內容

文檔的原始JSON內容將索引到_source字段中, 該字段本身不建立索引, 但是會被存儲.

搜索文檔時默認返回該字段及其內容, 但無法用於搜索.

2.1.1 關閉_source功能

_source功能默認是開啟的, 它會產生額外的存儲開銷, 可以關閉:

PUT website
{
    "mappings": {
        "blog": {
            "_source": {"enabled": false}
        }
    }
}

// 或者:
PUT website/_mapping/blog
{
    "_source": {"enabled": false}   
}

註意: 必須在創建索引時關閉, 創建之後不允許修改, 否則將會發生如下錯誤:

{
  "error": {
    "root_cause": [
      {
        "type": "resource_already_exists_exception",
        "reason": "index [website/zIUdhInBQsOUi_4Tt2SSkQ] already exists",
        "index_uuid": "zIUdhInBQsOUi_4Tt2SSkQ",
        "index": "website"
      }
    ],
    "type": "resource_already_exists_exception",
    "reason": "index [website/zIUdhInBQsOUi_4Tt2SSkQ] already exists",
    "index_uuid": "zIUdhInBQsOUi_4Tt2SSkQ",
    "index": "website"
  },
  "status": 400
}

2.1.2 查詢時指定返回字段

_source功能被禁止, 將造成大量功能無法使用:

partial update 功能基於_source實現;
hilight 高亮顯示功能基於_source實現;
reindex 重建索引功能基於_source實現, 不需要從其他外部存儲中獲取數據, 再index;
基於_source定制返回field;
調試query時更容易, 因為可以很直觀地看到_source內容……

可以在創建index時, 在mapping中通過includes/excludes參數來減少_source字段的內容:

PUT logs
{
    "mappings": {
        "event": {
            "_source": {
                "includes": ["*.count", "meta.*"],         // 包含的字段
                "excludes": ["meta.desc", "meta.other.*"]  // 不包含的字段
            }
        }
    }
}

移除的字段不會被存儲在_source中, 但仍然可以搜索到這些字段.

可以在檢索時, 禁止返回原始內容:

GET website/blog/1?_source=false

如果只想獲取_source的部分內容, 可以使用_source_includes或_source_excludes參數:

GET website/blog/1?_source_includes=title,content
GET website/blog/1?_source_excludes=post_date,author_id

Elasticsearch 6.0之前的版本中: 使用_source_include和_source_exclude用來指定檢索的結果中是否包含_source中的某個字段;
Elasticsearch 6.0之後的版本中: 相關的API修改為: _source_includes和_source_excludes——多加了s.

2.2 _size - _source字段占用的字節數

記錄_source字段占用的字節數, 由插件mapper-size提供.

3 索引元字段

3.1 _all - 文檔所有字段的值

(1) ES 6.0之後的方法:

在Elasticsearch 6.0版本中, _all字段已經被禁用了. 若要開啟, 官方建議是:

"Enabling [_all] is disabled in 6.0. As a replacement, you can use [copy_to] on mapping fields to create your own catch all field."
——大致意思是: _all已經不允許使用了, 作為替換, 我們可以使用copy_to關鍵字來創建需要獲取的所有字段的內容.

copy_to的使用方法如下:

PUT logs
{
    "mappings": {
        "event": {
            "properties": {
                "event_id": {
                    "type": "text",
                    "copy_to": {"enabled": true}    
                },
                  "event_desc": {
                    "type": "text",
                    "copy_to": {"enabled": true},
                    "analyzer": "english"
                },
                "time": {
                    "type": "date",
                    "copy_to": {"enabled": true},
                    "format": "strict_date_optional_time||epoch_millis"
                }
            }
        }
    }
}

(2) ES 6.0以前的方法:

在Elasticsearch 6.0之前, _all字段的使用方式如下:

_all字段包含1個文檔的全部field的內容: 用一個大字符串關聯其他所有字段的值, 用空格作為分隔符.
_all字段可以被分析和索引, 但不會被存儲 —— 默認的搜索field.
通過_all字段可以對文檔的值進行搜索而不必知道相關的字段名.
_all字段丟失了長字段(低相關性)和短字段(高相關性)之間的區別 —— 在相關性搜索要求比較高的時候, 應該明確指出要查詢的字段.

① **_all字段需要額外的處理器周期, 且耗費更多的磁盤空間, 若不需要, 建議禁用此功能:**

PUT website/_mapping/blog
{
    "_all": {"enabled": false}
}

② 或在field中設置include_in_all —— 是否要將field的值包含在_all中:

PUT website/_mapping/blog
{
    "properties": {
        "test_field": {
            "type": "text",
            "include_in_all": false
        }
    }
}

3.2 _field_names - 文檔所有非空字段名

該字段可以用在查詢、聚合以及腳本中 —— 用於查找指定字段的值非空的文檔是否存在.

使用示例:

GET website/_search
{
    "query": {
        "terms": {"_field_names": ["content"]}
    }
}

4 路由元字段

4.1 [過期]_parent - 在type間創建父子關系

(1) 創建映射:

PUT store
{
    "mappings": {
        "book": {},
        "it_book": {
            "_parent": {"type": "book"}     // 指定其父類
        }
    }
}

(2) 插入父文檔:

PUT store/book/1
{ "desc": "this is parent book"}

(3) 插入子文檔, 並指出其父文檔:

PUT store/it_book/2?parent=1
{ "desc": "this is child it_book"}

(4) 父子文檔的限制:

① 父type和子type必須不同.
② _parent的type的值只能是不存在的類型 —— 一個type被創建後就不能稱為父類型了.

(5) 其他說明:

父子文檔必須索引在同一個分片上:
① parent的編號用於子文檔的路由值, 確保子文檔被索引到父文檔所在的分片中.
② 查詢、更新、刪除子文檔時, 也需要提供相同的parent值.

4.2 _routing - 自定義的路由值

用於將文檔路由到指定的分片上. 通過如下公式將文檔路由到特定的分片:

shard_num = hash(_routing) % num_primary_shards

如果不指定_routing的值, 默認使用文檔的_id字段. 如果存在父文檔則使用其_parent的編號.

可以通過為某些文檔都指定相同的路由值, 來實現對這些文檔的自定義路由功能:

// 此文檔使用'user_5220'作為其路由值, 在查詢、更新、刪除時同樣需要提供此路由值
PUT website/blog/1?routing=user_5220
{
    "title": "xxx"
}

_routing字段可以在查詢、聚合、腳本以及排序的時候訪問. 比如直接指定路由值來搜索相關的文檔:

GET website/_search
{
    "query": {
        "terms": {"_routing": [ "user_5220" ] }
    }
}

5 其他元字段

_meta - 應用特定的元字段: 每個type都可以擁有自定義的元數據 —— ES並不會使用, 但可以用來存儲應用程序的特定信息.

使用示例:

PUT website
{
    "mappings": {
        "user": {
            "_meta": {
                "class": "com.healchow.website.pojo.User",
                "version": {"min": "1.0", "max": "1.3"}
            }
        }
    }
}

參考資料

Elasticsearch官方文檔 - Meta-Fields

版權聲明

作者: ma_shoufeng(馬瘦風)

出處: 博客園馬瘦風的博客

您的支持是對博主的極大鼓勵, 感謝您的閱讀.

本文版權歸博主所有, 歡迎轉載, 但請保留此段聲明, 並在文章頁面明顯位置給出原文鏈接, 否則博主保留追究相關人員法律責任的權利.

ES 13 - Elasticsearch的元字段（_index、_type、_source、_routing等）

1.0 copy less 不包含 resource elastics 人員 sort enc 目錄 1 標識元字段 1.1 _index - 文檔所屬的索引 1.2 _uid - 包含_

elasticsearch 特殊字段

elasticsearch 特殊字段Lucene中，高亮功能和store屬性是否存儲息息相關，因為需要根據偏移位置到原始文檔中找到關鍵字才能加上高亮的片段。在Elasticsearch，因為_source中已經存儲了一份原始文檔，可以根據_source中的原始文檔實現高亮，在索引中再存儲原始文檔就多余了，所以

HTTP使用 multipart/form-data 上傳多個字段（包括文件字節流 octet-stream）

sprintf logs pcs cer lpstr struct written all normal 自己用到的一個向服務器上傳多個字段的實例，代碼不全，僅做參考。用的是WinINet，上傳的字段中包括文件字節流 /* PHttpRequest中自行組裝body

elasticsearch analysed字段長度

elasticsearch analysed字段長度elasticsearch 中analysed的字段，存儲的是一個數組，比如"建築圓鋼" => [ "建築" , "圓鋼", "建築圓鋼"]此時如果調用doc[‘pm_name‘].values.size() 返回值為3（數組長度），而不是4.可以通過

配置字段（居左，居中，居右，高度自適應）

居中 visible ext 高度自適應高度 value one rim tex var style = (lis.visible*1 === 0 ? ‘display: none;‘ : ‘‘); var abbrStyle = ‘‘;// style +=‘whit

Elasticsearch 多字段搜索

查詢語句指南 .html cross 數據 ros 匹配 ren 布爾查詢很少是對一個字段做 match 查詢，通常都是一個 query 查詢多個字段，比如一個 doc 有 title、content、pagetag 等文本字段，要在這些字段查詢含多個 term 的 q

ArcGIS自定義工具箱-自增字段（可以設置初始值和步長）

image 步長工具分類增加 ack 工具箱 alt family ArcGIS自定義工具箱-自增字段（可以設置初始值和步長）聯系方式：謝老師，135-4855-4328，xiexiaokui#qq.com 目的：字段值初始值為設定值（默認為0），每次增加一個

Python正則表達式的元字符（錨字符（邊界字符））

空格 ont print 正則 pri 意思 [] nbsp -- print("---------錨字符（邊界字符）--------")‘‘‘^ 行首匹配，和在[]裏的^不是一個意思$ 行尾匹配\A 匹配字符串的開始，和^的區別是：\A只匹配整個字符

elasticsearch 欄位別名（建立索引並指定索引型別的mapping）

ES預設是動態建立索引和索引型別的mapping的。這就相當於無需定義Solr中的Schema，無需指定各個欄位的索引規則就可以索引檔案，很方便。但有時方便就代表著不靈活。比如，ES預設一個欄位是要做分詞的，但我們有時要搜尋匹配整個欄位卻不行。如有統計工作要記錄每個城市出現

宿主機系統 Deepin 15.4，解決 Virtualbox 5.1 中 XP虛擬機無法使用 USB設備（如：U盤、羅技優聯接收器等）的問題

rdquo brush 完成後 usb 5.4 extension user network ron 軟件環境宿主機系統：Deepin 15.4.1，虛擬機軟件：VirtualBox 5.1 虛擬機系統：XP 操作步驟如下： (1) 安裝 Virtu

微服務框架學習收錄鏈接（包括服務搭建中用到mybatis-plus等）

oot pos rbo HR http 框架 ref quick 收錄 1、基於Spring Boot和Spring Cloud實現微服務架構學習(一)-Spring框架介紹 https://blog.csdn.net/zeb_perfect/article/details

Lightning Experience 基本操作（創建app 修改filter page layout等）

uicontrol auto fig PC refresh AD upload mic filter 1，Lightning Experience app管理打開setup 在setup中輸入app manager如下圖所示可以進行新建app 等操作 app

Squid緩存服務器（緩存機制、代理模式、ACL訪問控制、squid用戶認證功能等）

數量 connect ren tun nes 瀏覽器本機安全措施 path squid代理服務器概述： Squid是Linux系統中最常用的一款開元代理服務軟件（官方網站：http://www.squid-cache.org) ，可以很好的實現HTTP、FTP、DNS

spring-boot 多環境化配置（如：開發，測試，生產等）

sring cloud中可以搭建配置中心，可以從本地電腦或者git上讀取配置，而且還可以選擇配置的版本（開發，測試，生產） spring boo

HTML5 - 用CSS3動畫製作場景切換效果（移動，旋轉，淡入淡出等）

1 <!DOCTYPE html> 2 <html> 3 <head> 4 <meta charset="utf-8"> 5 <title>HTML5-頁面切換動畫</title> 6 <l

教你如何選擇適合自己的以太坊ETH挖礦模式（也適合BCD/VTC/DASH挖礦等）

還記得2017年年底，比特幣瘋狂暴漲嗎？不知造就了多少百萬富翁，千萬富翁。區塊鏈近兩年發展如日中天，人們對數字貨幣的投資熱情日益高漲。當然投資數字貨幣（所謂的炒幣）的收益確實很高，但也面臨著同樣高的風險。所以衍生出低風險的行業，那就是挖礦，越來越多的人們開始湧入這一行列，成為一名辛勤的礦工

python監控系統資源最終版（CPU，內存，磁盤等）

ase 變量 timestamp [] net open art tran pytho #!/usr/bin/env python3 #-*- coding:utf-8 -*- #create at 2018-12-07 ‘this is a system monitor

python3基礎07（程序操作及執行系統級命令等）

#subprocess 建立子程序連線輸入輸出管道錯誤，及獲取他們的狀態，可執行作業系統級的命令# subprocess.run(args, *, stdin=None, input=None, stdout=None, stderr=None, shell=False,#

R語言實戰--隨機產生服從不同分佈函式的資料（正態分佈，泊松分佈等），並將資料寫入資料框儲存到硬碟

隨機產生服從不同分佈的資料均勻分佈——runif（） > x1=round(runif(100,min=80,max=100)) > x1 [1] 93 100 98 98 92 98 98 89 90 98 100 89

spring-boot 多環境化配置（如：開發，測試，生產等）

sring cloud中可以搭建配置中心，可以從本地電腦或者git上讀取配置，而且還可以選擇配置的版本（開發，測試，生產） spring boot專案在resource下預設只有application.properties，但還可以

ES 13 - Elasticsearch的元字段（_index、_type、_source、_routing等）

1 標識元字段

1.1 _index - 文檔所屬的索引

1.2 _uid - 包含_type和_id的復合字段

1.3 _type - 文檔的類型

1.4 _id - 文檔的id

2 文檔來源元字段

2.1 _source - 文檔原始JSON內容

2.1.1 關閉_source功能

2.1.2 查詢時指定返回字段

2.2 _size - _source字段占用的字節數

3 索引元字段

3.1 _all - 文檔所有字段的值

3.2 _field_names - 文檔所有非空字段名

4 路由元字段

4.1 [過期]_parent - 在type間創建父子關系

4.2 _routing - 自定義的路由值

5 其他元字段

參考資料

版權聲明

相關推薦