Elasticsearch資料建模筆記

阿新 • • 發佈：2020-03-16

資料建模

資料建模是建立資料模型的過程

資料模型是對真實世界進行抽象描述的一種工具和方法，實現對現實世界的對映
三個過程：概念模型=》邏輯模型=》資料模型

資料模型：結合具體的資料庫，在滿足業務讀寫效能等需求的前提下，確定最終定義

資料建模：功能需求+效能需求

邏輯模型（功能需求）

實體屬性
實體之間的關係
搜尋相關的配置

物理模型（效能需求）

索引模版

分片數量

索引Mapping

欄位配置
關係處理

對欄位進行建模

欄位型別：

Text vs Keyword

Text

用於全文字欄位，文字會被Analyzer分詞

預設不支援聚合分析及排序。需要設定fielddata為true

Keyword

用於id,列舉及不需要分詞的文字。例如電話號碼，email地址，手機號碼，郵政編碼，性別等
適用於Filter(精確匹配)，Sorting和Aggregations

設定多欄位型別

預設會為文字型別設定成text,並且設定一個keyword的子欄位
在處理人類語言時，通過增加“英文”，“拼音”和“標準”分詞器，提高搜尋結果

結構化資料

數值型別

儘量選擇貼近的型別。例如可以用byte,就不要用long

列舉型別

設定為keyword。即便是數字，也應該設定成keyword,獲取更加好的效能

其他

日期/布林/地理資訊

檢索

如不需要檢索

Enable設定成false

如不需要檢索

Index設定成false

對需要檢索的欄位，可以通過如下配置，設定儲存粒度

Index_options/Norms：不需要歸一化資料時，可以關閉

聚合及排序

如不需要排序和聚合分析

Enable設定成false

如不需要排序或者聚合分析

Doc_value/fielddata設定成false

更新頻繁，聚合查詢頻繁的keyword型別的欄位

推薦eager_global_ordinals設定為true

額外的儲存

是否需要專門儲存當前欄位資料
Disable _source:節約磁碟；適用於指標型資料

一般建議考慮增加壓縮比
無法看到_source欄位，無法ReIndex 無法Upadte
Kibana中無法做discovery

最佳實踐

建模建議一：如何處理關聯關係

建模建議二：避免過多欄位

一個文件中，最好避免大量的欄位

過多的欄位數不容易維護
Mapping資訊儲存在Cluster State中，資料量過大，對叢集效能會有影響（Cluster State資訊需要和所有的節點同步）
刪除或者修改資料需要reindex

預設最大欄位數是1000，可以設定index.mapping.tatal_fields.limt限定最大欄位數
Dynamic vs Strict
- Dynamic（生產環境中，儘量不用開啟Dynamic）
  - true-未知欄位會被自動加入
  - false-新欄位不會被索引。但是會儲存在_source
  - strict-新欄位不會被索引，文件寫入失敗
- Strict
  - 可以控制道欄位級別　　
當Dynamic設定為True,同時採用扁平化的設計且鍵值對過多會導致欄位數量的膨脹，通過Nested物件儲存key/value可以減少欄位數量。

建模建議三：避免正則查詢
- 通過 Inner Object避免低效能的正則匹配

{
  "version":{
  "display_name":"7.1.0",
  "marjor":7,
  "minor":1,
  "hot_fix":0  
  }
}

建模建議四：避免空值引起的聚合不準確

使用Null_Value解決空值的問題

建模建議五：為索引的Mapping加入Meta資訊便於管理

{
  "mappings": {
    "_meta": {
      "software_version_mapping": "1.0"
    }
  }
}

Mapping欄位的相關設定 https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-params.html &nbs

Elasticsearch資料建模筆記

資料建模資料建模是建立資料模型的過程資料模型是對真實世界進行抽象描述的一種工具和方法，實現對現實世界的對映三個過程：概念模型=》邏輯模型=》資料模型資料模型：結合具體的資料庫，在滿足業務讀寫效能等需求的前提下，確定最終定義資料建模：功能需求+效能需求邏輯模型（功能需求）實體屬性

乾貨 | 論Elasticsearch資料建模的重要性

1、什麼是資料模型？資料模型是抽象描述現實世界的一種工具和方法，是通過抽象的實體及實體之間聯絡的形式，用圖形化的形式去描述業務規則的過程，從而表示現實世界中事務的相互關係的一種對映。核心概念：實體：現實世界中存在的可以相互區分的事務或概念稱為實體。

ES 32 - Elasticsearch 資料建模的探索與實踐

目錄 1 什麼是資料建模? 2 如何對 ES 中的資料進行建模 2.1 欄位型別的建模方案 2.2 檢索、聚合及排序的建模方案 2.3 額外儲存的建模方案 3

elasticsearch(20) 資料建模

1、檔案系統資料構造 PUT /fs { "settings": { "analysis": { "analyzer": { "paths": { "tokenizer": "path_hierarchy"

《Python資料分析與挖掘實戰》筆記（五）：資料建模

分類與預測主要分類與預測演算法迴歸分析確定預測值與其他變數關係。線性、非線性、Logistic、嶺迴歸、主成分迴歸等決策樹自頂向下分類人工神經網路用神經網路表示輸入與輸出之間的關係貝葉斯網路又稱信度網路，是不確定知識表達和推理領域最有效的理論模

數學建模筆記（一）

技術兩種方法 tex 我們問題 gin 根據分解什麽問題：全國大學生數學建模競賽2012年A題第一題第一小問——分析附件1中兩組評酒員的評價結果有無顯著性差異。工具：Excle、SPSS19中文版以兩組紅葡萄酒的評分為例，綜合運用t檢驗、方差分析、χ2檢驗，符

[elasticsearch]ES遷移筆記

lte last gin earch des 查找 mini IT sort ES在更改分詞器或更改已有mapping結構後需要重新重新索引，當然復制也是一樣的，相當於重新生成索引信息 //es的head插件地址：http://localhost:9200/_plugin/

Elasticsearch 使用技巧筆記

elastic ble style pre routing nbsp code assign ear 1.重新分片當出現Unassigned分片時，我們可以通過分片重分配解決這個問題 curl -X PUT http://192.168.0.37:9200/_cl

建模筆記１

自己 3.1 nan long 撤銷 ear ima 建模 src 關鍵詞（不能自己用來當作變量）: ans i,j：復數 Inf：無限大 >> x = 1/0 eps：很小很小的數 >> x

【阿里巴巴大資料實踐筆記】第13章：計算管理

計算平臺追求目標：目前內部 MaxCompute 叢集上有 200 多萬個任務，每天儲存資源、計算資源消耗都很大。如何降低計算資源的消耗，提高任務執行的效能，提升任務產出的時間。 1.系統優化（1）HBO (History-Based Optimiz町，基於歷史的優化器

elasticsearch資料型別

Elasticsearch自帶的資料型別是Lucene索引的依據，也是我們做手動對映調整到依據。對映中主要就是針對欄位設定型別以及型別相關引數。 1.JSON基礎型別如下：字串：string 數字：b

mysql 資料型別筆記

一. varchar儲存規則： 4.0版本以下，varchar(20)，指的是20位元組，如果存放UTF8漢字時，只能存6個（每個漢字3位元組） 5.0版本以上，varchar(20)，指的是20字元，無論存放的是數字、字母還是UTF8漢字（每個漢字3位元組），都可以存放20個，最大大小是6553

大話資料結構筆記_線性表

線性表的定義 : 　　簡而言之 : 0 個或多個元素(型別相同)的有限序列( 有順序 ) ，第一個元素無前驅 , 最後一個元素無後繼 , 其他元素與有唯一的前驅和唯一的後繼　　數學語言定義 : 若將線性表記為 ( a1 , a2 , ..... , ai - 1 , ai , ai+1 , ..

資料結構筆記---緒論

資料三要素邏輯結構（線性，非線性）儲存結構（物理結構）資料運算演算法的特性有窮性，可行性，確定性，輸入，輸出正確性，可讀性，健壯性（杭電17年考過的）演算法度度量演算

此文獻給正打算入門大資料的朋友：大資料學習筆記1000條（1）

1、Zookeeper用於叢集主備切換。 2、YARN讓叢集具備更好的擴充套件性。 3、Spark沒有儲存能力。 4、Spark的Master負責叢集的資源管理，Slave用於執行計算任務。 5、Hadoop從2.x開始，把儲存和計算分離開來，形成兩個相對獨立的子叢集：HDF

此文獻給正打算入門大資料的朋友：大資料學習筆記1000條（2）

501、MapReduce計算框架中的輸入和輸出的基本資料結構是鍵-值對。 502、Hadoop神奇的一部分在於sort和shuffle過程。 503、Hive驅動計算的“語言”是一XML形式編碼的。 504、Hive通過和Jobtracker通訊來初始化MapReduce任務（Job）。 505、M

資料結構筆記：程式演算法的選擇

如果兩個演算法都滿足功能性需求，那工程中最關心的其他特性是什麼？如何比較評判呢？ ps：價效比（效率）是工程中最關注的演算法附加特性！事後統計法 -比較不同演算法對同一組輸入資料的執行處理時間 -缺陷 ·為了獲得不同演算法的執行時間必須編寫相應程式 ·執行時間嚴重依賴硬體以

資料結構筆記：程式的靈魂

資料結構靜態的描述了資料元素之間的掛你高效的程式需要在資料結構的基礎上設計和選擇演算法演算法是特定問題求解步驟的描述在計算機中表現為指令的有限序列算是獨立存在的一種解決問題的方法和思想，對於演算法而言，語言並不重要，重要的是思想。演算法的特性： -輸入：演算法具有0

資料結構筆記：資料的藝術

資料的概念 -程式的操作物件，用於描述客觀事物資料的特點 -可以輸入到計算機 -可以被計算機程式處理資料中的新概念 -資料元素 ·組成資料的基本單位 -資料項 ·一個數據元素由若干資料項組成 -資料物件 ·性質相同的資料元素的結合資料結構指資料物

資料結構筆記：線性表的順序儲存結構

順序儲存的定義線性表的順序儲存結構，指的是用一段地址連續的儲存單元一次儲存線性表中的資料元素。順序儲存結構的元素插入操作 -判斷目標位置是否合法 -將目標位置之後的所有元素後移一個位置 -將新元素插入目標位置 -線性長度加1 順序儲存結構的元素插入示例 bool

Elasticsearch資料建模筆記

相關推薦