HBase 常用優化策略

阿新 • • 發佈：2019-02-14

什麼導致HBase效能下降？

jvm記憶體分配和GC回收策略
與HBase執行機制相關配置不合理（hbase-site.xml配置優化）
表結構設計不合理以及使用者使用方式不合理

HBase資料儲存過程

HBase寫入的時候會先寫入memstore達到一定大小，會flush到磁碟儲存成HFile，當HFile小檔案太多會執行compact操作進行合併。對HBase來說，當每一個store，僅僅包含一個檔案的時候查詢效率才是最高的，因為如果小檔案太多了，查詢的時候需要的定址時間就越長，因此HBase會合並小檔案，從而減少磁碟尋道時間，從而提高讀取速度，這個過程就成為compact。但是執行compact器間，可能會阻塞資料的寫入和讀取，那麼合適執行compact是一個複雜的操作，compat的時候選擇哪些檔案，選擇哪些合適執行緒池才能達到最大的效能，是一個很重要的決策。

如果region太大，會將region進行split，分配到不同的region進行管理。這裡其實也是非常耗費效能的操作，可能會造成當前的region不能讀取，也不能寫入。

split概念

split：將一個region，且分為兩個region

compact概念

minor compaction：
選取一些小的，相鄰的storefile將他們合併成一個更大的storefile。
major compaction：
將所有的storefile合併成一個storefile，清理無意義的資料：
（1）被刪除的資料（被刪除的資料只是被標記刪除，並沒有真正的刪除）。
（2）TTL過期的資料。
（3）版本號超過設定版本號的資料。

HBase Compact檢查

當MemStore 被flush到磁碟
使用者執行shell命令compact，major_compact或者呼叫相應的API
HBase後臺執行緒週期性觸發檢查

HBase 優化

常用服務端配置優化

jvm設定與GC設定
可以適當增加regionserver記憶體，regionserver記憶體設定大一些，可以有效避免full gc，
並且對block cache 支援也會好一點。
hbase-site.xml部分屬性配置

HBase properties	簡介
hbase.regionserver.handler.count	rpc請求的執行緒數量，預設值是10，提升handler大小，可以有效提升regionserver接收請求的能力，但是也不是越大越好，取決於硬體效能
hbase.hregion.max.filesize	當region的大小大於設定值後hbase就開始split，預設大小是10G，可以根據儲存的內容，合理配置，建議手動進行split操作
hbase.hregion.majorcompaction	major compaction的執行週期，預設為1天，建議設定為0，禁止major compaction，生產環境中，進行major compaction可能會執行一天之久，可以在業務低峰的時候，進行手動合併，或者通過指令碼，定期執行合併操作。
hbase.hstore.compaction.min	任何一個store，裡面的storefile超過該值，會觸發預設的合併操作，預設值是3
hbase.hstore.compaction.max	一次最多合併多少個storefile，如果storefile比較大，應該把這個值，設定小一點，避免記憶體溢位
hbase.hstore.blockingStoreFiles	一個region中的store內有超過XXX個storefile時候，則block所有的寫請求進行compaction
hbase.hregion.memstore.flush.size	memstore 超過該值會被flush，根據記憶體大小，可以適當調整大一點
hbase.hregion.memstore.block.multiplier	如果memstore記憶體大小超過flush.size*multiplier，會阻塞該memstore的寫操作，建議將這個值設定為5，如果設定太大，可能會出現記憶體溢位
hbase.block.cache.size	regionserver的block cache的記憶體大小限制，在偏向讀的業務中可以適當調大一些

一般我們會手動執行split和compact，以降低這些操作可能對正常業務造成的不必要的影響，我們也可以開發指令碼，來在業務低峰，定時執行split和compact 操作。

常用優化策略（以實際需求為主）

預先分割槽
HBase在建表的時候，預設在一個regionserver自動建立一個region，當region太大的時候，會執行split操作，將一個region split 成兩個region，併發送到不同的regionserver進行維護以實現負載均衡，但是split又是一個比較耗時的操作。
建立HBase表的時候預先建立一些空的Regions，並指定Region的儲存範圍，這樣資料會被寫入到指定的region裡面，我們可以減少很多的IO操作，通過預先分割槽，還可以有效解決資料傾斜的問題，我們可以把頻繁訪問的資料，放到多個region中，把不常訪問資料，放入到一個或者幾個region中。
RowKey的優化
1.可以根據三維對資料快速定位rowkey+cf:qualifer+timestamp
rowkey可以快速定位一條記錄，兩種方式，get 根據rowkey獲取某一條記錄，也可以scan 通過startrow 和stoprow進行範圍查詢
2.利用HBase預設排序的特點，將一起訪問的資料放到一起
3.防止熱點問題，避免使用時序或者單調遞增或者遞減等。
熱點問題，就是在分散式系統中，大量的client去訪問叢集中的一個或者極少數的幾臺機器，造成熱點機器，超出自身處理能力，從而造成整個叢集出現問題。
如果解決熱點問題呢？可以通過加鹽，也就是加隨機數，或者hash，反轉等方式，來解決rowkey可能存在的熱點問題。
4.rowkey的長度應該儘可能短，過長對regionserver的磁碟，記憶體都會過大的消耗。
Column的優化
1.列明和列描述名稱儘可能短
2.HBase對多個cf的支援並不好，建議一個表中的cf 最好不要超過三個
Schema的優化
HBase表在設計的時候，很可能根據業務設定成寬表（一種“列多行少的設計”）或者高表（一種“行少列多”的設計）
高表：查詢效能高，吞吐量大，快取更多的行，元資料開銷更大（rowkey多，region多）
寬表：事務性更好，HBase事務是建立在行上的，寬表，一個行有多個列，可以有效保證事務性。
設計表的時候，沒必要追求高表，寬表，要根據業務進行選擇。

HBase 讀寫效能優化

HBase寫優化策略

同步批量提交 or 非同步批量提交
預設是同步提交，要麼全部成功，要麼丟擲異常，非同步提交，有可能會丟失資料，如果為了提高效能，又能夠忍受異常情況下部分資料丟失，可以使用非同步提交方式，可以大大提升，寫入效能。
WAL優化，是否必須，持久化等級
WAL有兩個作用，一個是防止memstore中資料丟失了，可以根據memstore中的資料進行恢復，另一個就是叢集中不同HBase節點間的非同步複製，預設是開啟WAL的。如果業務允許，對於異常情況下的部分資料丟失可以忍受，更關係寫入的吞吐量，這個時候可以考慮關閉掉WAL，或者採用非同步寫入WAL，這些都能夠提升寫入效能，但是對於寫入資料的完整性無法保證。

HBase讀優化策略

客戶端：Scan快取設定，批量獲取
客戶端在讀取的時候，可以設定快取大小，通常來說，一次讀取，會返回大量的資料，客戶端在通過scan檢索資料的時候，實際上不會一次就返回所有的資料，而是會多次通過rpc請求載入，這樣設計一方面是因為大量的io請求，可以會導致網路頻寬嚴重消耗，進而影響其他，業務，另一方面，一次返回太多的資料，導致客戶端發生記憶體溢位。客戶端首先載入一部分資料到本地，然後遍歷，然後再去載入一部分資料，然後遍歷。。。
如果資料量非常大，可以適當調大一點cache的大小，減少rpc請求的次數。
檢索的時候，我們需要指定列簇，因為一個表，可能有多個列簇，每一個列簇儲存在不同的region中，如果不指定列簇，那麼檢索的資料量就比較大了。
服務端：BlockCache配置是否合理，HFile是否過多
如果BlcokCache 如果不能夠命中，那麼HFile 如果過多，那麼又會非常影響效能，因為多個HFile會增加磁碟定址時間，因此需要執行compact，對檔案進行合併。
表結構設計問題：根據具體業務，對錶結構進行設計優化。

HBase 常用優化策略

什麼導致HBase效能下降？ jvm記憶體分配和GC回收策略與HBase執行機制相關配置不合理（hbase-site.xml配置優化）表結構設計不合理以及使用者使用方式不合理 HBase資料儲存過程 HBase寫入的時候會先寫入memstore達到一

Hbase常用優化、Hbae效能優化、Hbase優化經驗總結

Hbase優化 1.預先分割槽預設情況下，在建立 HBase 表的時候會自動建立一個 Region 分割槽，當匯入資料的時候，所有的 HBase 客戶端都向這一個 Region 寫資料，直到這個 Region 足夠大了才進行切分。一種可以加快批量寫入速度的方法是通過預先建立一些空的 Reg

HBase入庫優化策略

在實際生產中使用到的HBase優化策略一、優化Region拆分合並以及與拆分Region 1）hbase.hregion.max.filesize預設為256M（在hbase-site.xml中進行配置），當region達到這個閾值時，會自動拆分。可以把這個值設的無限大，則可以關閉

CUDA學習筆記（LESSON7）——常用優化策略&動態並行化

常用優化策略下面讓我們來看看一些常用的優化策略，這些策略我們之前已經談過，現在只是對它進行一個總結。資料佈局變換（Data layout transformation）第一部分就是我們之前所說的coalescing存取模式，當相鄰執行緒訪問記憶體的相鄰位置的時

uva 1608 不無聊的序列（附帶常用算法設計和優化策略總結）

設計 cnblogs 高效基於復雜時間復雜度出現一次去除算法設計 uva 1608 不無聊的序列（附帶常用算法設計和優化策略總結）紫書上有這樣一道題：如果一個序列的任意連續子序列中都至少有一個只出現一次的元素，則稱這個序列時不無聊的。輸入一個n個元素的序列

常用算法設計和優化策略（本蒟蒻不定期更新）

遞歸還要定期兩個順序結構等價狀態 logs 常用算法設計和優化策略（本蒟蒻不定期更新）下面是紫書上講的常用算法設計策略和優化策略：分治法：將問題分成相同的獨立子問題求解。拆分出的問題必須有最優子結構性質（子問題求出的是最優解）動態規劃。本質是：對於一個

HBase最佳實踐－HBase中的寫效能優化策略

2016年12月10日 14:37:03 ourpush 閱讀數：1452 上一篇文章主要介紹了HBase讀效能優化的基本套路，本篇文章來說道說道如何診斷HBase寫資料的異常問題以及優化寫效能。和讀相比，HBase寫資料流程倒是顯得很簡單

HBase最佳實踐－HBase中的讀效能優化策略

任何系統都會有各種各樣的問題，有些是系統本身設計問題，有些卻是使用姿勢問題。HBase也一樣，在真實生產線上大家或多或少都會遇到很多問題，有些是HBase還需要完善的，有些是我們確實對它瞭解太少。總

HBase優化策略及協處理器

服務端優化什麼導致HBase效能下降 Jvm記憶體分配與GC回收策略 HBase執行機制相關的配置分配不合理表結構設計及使用者使用方式不合理 HBase資料儲存過程 HBase寫入時當memstore達到一定大小會flush到磁碟儲存成HFile，

IOS經常使用的性能優化策略

art ng- data ios 及其 insert zip 查找 ray 1、用ARC管理內存 2、對於UITableView使用重用機制 3、UIView及其子類設置opaque=true 4、主進程是用來繪制UI的，所以不要堵塞 5、慎用XIB,由

數據庫性能優化策略

維護什麽影響長度 bsp 好的都沒有垂直 arch 有數據表明：用戶可以承受的最大等待時間為8秒。之前曾見過某個產品的一個列表頁，40秒左右才能加載出來，幾乎沒有進行任何優化措施。沒有索引，沒有緩存機制，沒有進行sql優化(sql語句很長，並且各種left j

常見性能優化策略的總結（轉）

觸發 air 技術敏捷返回好的依賴 pan 支付看到一篇好文，轉過來好好學習閱讀目錄代碼數據庫緩存異步 NoSQL JVM調優多線程與分布式度量系統（監控、報警、服務依賴管理）案例一：商家與控制區關系的刷新job 案例二：POI緩存設計與實現

SEO之網站頁面優化策略

網站層次 css代碼排名算法什麽較高的自己的指標就是網站的頁面優化，也即網頁優化是對網頁的程序、內容、版塊、布局等多方面的優化調整，使其適合搜索引擎檢索，滿足搜索引擎排名的指標，從而在搜索引擎檢索中獲得的排名提升，增強搜索引擎營銷的效果使網站的產品相關的關鍵

SEO之網站內鏈優化策略

內部應該分頁個數字最好的 www. 體驗網站導航穩定內部鏈接的首要目的就是提高網站的整體收錄，提升鏈接目的頁面的排名，對網站整體的流量能起到顯著的優化。一個網站的收錄量如果穩定並且持續增加，則意味著至少這個網站的內部鏈接處理得較為到位。　　內鏈優化的方法和原

【Hive】優化策略

nap set 進行類型命令 part ado http 計劃 Hive對於表的操作大部分都是轉換為MR作業的形式，為了提高OLAP[online analysis process 在線分析處理]的效率，Hive自身給出了很多的優化策略 1. explain[解釋執行計

mysql 優化策略（如何利用好索引）

i/o 建立索引 lar .net https 壓縮 oracle 包括 analyze 命名規則：表名_字段名1、需要加索引的字段，要在where條件中2、數據量少的字段不需要加索引3、如果where條件中是OR關系，加索引不起作用4、符合最左原則https://segm

Mysql優化策略

整型 time nbsp lai explain 性別 lec myisam length 一、建表原則： 1、表的優化與類型選擇　　（1）定長與變長相分離。　　（2）根據使用頻率建立主表及副表（將不常用的字段放入副表中：比如用戶表，將用戶家庭地址等詳細信息放入附表，當

MySQL的SQL執行性能分析以及性能優化策略和步驟

itl com pos url sql href class 分析 www. MySQL 的性能（下篇）—— 性能優化方法MySQL的SQL執行性能分析以及性能優化策略和步驟

HBase 常用java api獲得客戶端，創建表，查詢，刪除

size 列族 war pen 需要 java pool 數據類型 init 1，前期準備 (1) 本文采用的hbase是采用三臺服務器搭建的集群，zookeeper也是相同服務器搭建的集群，集群ip分別是192.168.183.101； 192.168.183.102；

前端性能優化（一）：桌面瀏覽器前端優化策略

data lan ucc 靜態 sync 怎樣拆分打包成 pan 摘要: 前端性能優化是一個很寬泛的概念，本書前面的部分也多多少少提到一些前端優化方法，這也是我們一直在關註的一件重要事情。配合各種方式、手段、輔助系統，前端優化的最終目的都是提升用戶體驗，改善頁面性能，我

HBase 常用優化策略

什麼導致HBase效能下降？

HBase資料儲存過程

split概念

compact概念

HBase Compact檢查

HBase 優化

常用服務端配置優化

常用優化策略（以實際需求為主）

HBase 讀寫效能優化

HBase寫優化策略

HBase讀優化策略

相關推薦