hbase架構原理之region、memstore、hfile、hlog、columm-family、colum、cell

阿新 • • 發佈：2018-11-01

Hbase的頂級儲存結構是表，Hbase的表可以理解成是行的集合，行（記錄）是列族的集合，列族是列的集合。這裡有重點介紹幾個容易混爻的幾個感念！

HBase採用Master/Slave架構搭建叢集，它隸屬於Hadoop生態系統，由一下型別節點組成：HMaster節點、HRegionServer節點、ZooKeeper叢集，而在底層，它將資料儲存於HDFS中，因而涉及到HDFS的NameNode、DataNode等，總體結構如下：

HMaster節點用於：

管理HRegionServer，實現其負載均衡；

管理和分配HRegion，比如在HRegion split時分配新的HRegion；

在HRegionServer退出時遷移其內的HRegion到其他HRegionServer上。實現DDL操作（Data Definition Language，namespace和table的增刪改，column familiy的增刪改等）。

管理namespace和table的元資料（實際儲存在HDFS上）。

許可權控制（ACL）。

HRegion

假設我們有100億條資料，這麼大的資料無法儲存到一臺機器上，這時hbase水平切分成不同的分片，分片就是region,一個regionServer包含若干region,由於是水平切分，一條完整的資料一定是隻屬於一個region,其實hbase底層存儲存結構是key-value形式的,key就是row-key!

HBase使用RowKey將表水平切割成多個HRegion，從HMaster的角度，每個HRegion都紀錄了它的StartKey和EndKey（第一個HRegion的StartKey為空，最後一個HRegion的EndKey為空），由於RowKey是排序的，因而Client可以通過HMaster快速的定位每個RowKey在哪個HRegion中。HRegion由HMaster分配到相應的HRegionServer中，然後由HRegionServer負責HRegion的啟動和管理，和Client的通訊，負責資料的讀(使用HDFS)。

列族column family

它是column的集合，在建立表的時候就指定，不能頻繁修改。值得注意的是，列族的數量越少越好，因為過多的列族相互之間會影響，生產環境中的列族一般是一個到兩個

。資料的持久化檔案HFile中是按照Key-Value儲存的，同一個列族的所有列儲存在同一個底層儲存檔案裡。每個列族在物理上有自己的Hfile集合，Hbase的資料在HDFS中的路徑結構如下：

hdfs://h201:8020/hbase/data/${名字空間}/${表名}/${區域名稱}/${列族名稱}/${檔名}

舉例：/hbase/data/ns1/t1/a4d63a61a8da24a863bff3c8d7cd20de/f1/c2a7fa8c41304b9e9b8b24b4a89171ce

其中{區域名稱}是t1的region, 由每張表切割形成，一張表由若干個region組成，不同的region分到不同的region server以便均衡負載

列column

和列族的限制數量不同，列族可以包含很多個列，前面說的“幾十億行*百萬列”就是這個意思。

列的值cell

存在單元格(cell)中。每一列的值允許有多個版本，由timestamp來區分不同版本。多個版本產生原因：向同一行下面的同一個列多次插入資料，

每插入一次就有一個對應版本的value。

MemStore Flush

MemStore是一個In Memory Sorted Buffer，在每個HStore中都有一個MemStore，即它是一個HRegion的一個Column Family對應一個例項。它的排列順序以
RowKey、Column Family、Column的順序以及Timestamp的倒序，如下所示：

每一次Put/Delete請求都是先寫入到MemStore中，當MemStore滿後會Flush成一個新的StoreFile(底層實現是HFile)，即一個HStore(Column Family)可以有0個或多個StoreFile(HFile)。

有以下三種情況可以觸發MemStore的Flush動作，需要注意的是MemStore的最小Flush單元是HRegion而不是單個MemStore。據說這是Column Family有個數限制的其中一個原因，估計是因為太多的Column Family一起Flush會引起效能問題？具體原因有待考證。
1、當一個HRegion中的所有MemStore的大小總和超過了hbase.hregion.memstore.flush.size的大小，預設128MB。此時當前的HRegion中所有的MemStore會Flush到HDFS中。

2、當全域性MemStore的大小超過了hbase.regionserver.global.memstore.upperLimit的大小，預設40％的記憶體使用量。此時當前HRegionServer中所有HRegion中的MemStore都會Flush到HDFS中，Flush順序是MemStore大小的倒序（一個HRegion中所有MemStore總和作為該HRegion的MemStore的大小還是選取最大的MemStore作為參考？有待考證），直到總體的MemStore使用量低於hbase.regionserver.global.memstore.lowerLimit，預設38%的記憶體使用量。

3、當前HRegionServer中WAL的大小超過了hbase.regionserver.hlog.blocksize * hbase.regionserver.max.logs的數量，當前HRegionServer中所有HRegion中的MemStore都會Flush到HDFS中，Flush使用時間順序，最早的MemStore先Flush直到WAL的數量少於hbase.regionserver.hlog.blocksize * hbase.regionserver.max.logs。這裡說這兩個相乘的預設大小是2GB，查程式碼，hbase.regionserver.max.logs預設值是32，而hbase.regionserver.hlog.blocksize是HDFS的預設blocksize，32MB。但不管怎麼樣，因為這個大小超過限制引起的Flush不是一件好事，可能引起長時間的延遲，因而這篇文章給的建議：“Hint: keep hbase.regionserver.hlog.blocksize * hbase.regionserver.maxlogs just a bit above hbase.regionserver.global.memstore.lowerLimit * HBASE_HEAPSIZE.”。並且需要注意，這裡給的描述是有錯的(雖然它是官方的文件)。http://hbase.apache.org/book.html#_memstore_flush

在MemStore Flush過程中，還會在尾部追加一些meta資料，其中就包括Flush時最大的WAL sequence值，以告訴HBase這個StoreFile寫入的最新資料的序列，那麼在Recover時就直到從哪裡開始。在HRegion啟動時，這個sequence會被讀取，並取最大的作為下一次更新時的起始sequence。

HFile格式

HBase的資料以KeyValue(Cell)的形式順序的儲存在HFile中，在MemStore的Flush過程中生成HFile，由於MemStore中儲存的Cell遵循相同的排列順序，因而Flush過程是順序寫，我們直到磁碟的順序寫效能很高，因為不需要不停的移動磁碟指標。

HFile參考BigTable的SSTable和Hadoop的TFile實現，從HBase開始到現在，HFile經歷了三個版本，其中V2在0.92引入，V3在0.98引入。首先我們來看一下
V1的格式：

V1的HFile由多個Data Block、Meta Block、FileInfo、Data Index、Meta Index、Trailer組成，其中Data Block是HBase的最小儲存單元，在前文中提到的BlockCache就是基於Data Block的快取的。

一個Data Block由一個魔數和一系列的KeyValue(Cell)組成，魔數是一個隨機的數字，用於表示這是一個Data Block型別，以快速監測這個Data Block的格式，防止資料的破壞。

Data Block的大小可以在建立Column Family時設定(HColumnDescriptor.setBlockSize())，預設值是64KB，大號的Block有利於順序Scan，小號Block利於隨機查詢，因而需要權衡。Meta塊是可選的，FileInfo是固定長度的塊，它紀錄了檔案的一些Meta資訊，例如：AVG_KEY_LEN, AVG_VALUE_LEN, LAST_KEY, COMPARATOR, MAX_SEQ_ID_KEY等。Data Index和Meta Index紀錄了每個Data塊和Meta塊的起始點、未壓縮時大小、Key(起始RowKey？)等。

Trailer紀錄了FileInfo、Data Index、Meta Index塊的起始位置，Data Index和Meta Index索引的數量等。其中FileInfo和Trailer是固定長度的。

HFile裡面的每個KeyValue對就是一個簡單的byte陣列。但是這個byte數組裡麵包含了很多項，並且有固定的結構。我們來看看裡面的具體結構：

開始是兩個固定長度的數值，分別表示Key的長度和Value的長度。緊接著是Key，開始是固定長度的數值，表示RowKey的長度，緊接著是 RowKey，然後是固定長度的數值，表示Family的長度，然後是Family，接著是Qualifier，然後是兩個固定長度的數值，表示Time Stamp和Key Type（Put/Delete）。

Value部分沒有這麼複雜的結構，就是純粹的二進位制資料了。隨著HFile版本遷移，KeyValue(Cell)的格式並未發生太多變化，只是在V3版本，尾部添加了一個可選的Tag陣列。

HFile V1版本的在實際使用過程中發現它佔用記憶體多，並且Bloom File和Block Index會變的很大，而引起啟動時間變長。其中每個HFile的Bloom Filter可以增長到100MB，這在查詢時會引起效能問題，因為每次查詢時需要載入並查詢Bloom Filter，100MB的Bloom Filer會引起很大的延遲；

另一個，Block Index在一個HRegionServer可能會增長到總共6GB，HRegionServer在啟動時需要先載入所有這些Block Index，因而增加了啟動時間。為了解決這些問題，在0.92版本中引入HFileV2版本：

在這個版本中，Block Index和Bloom Filter新增到了Data Block中間，而這種設計同時也減少了寫的記憶體使用量；另外，為了提升啟動速度，在這個版本中還引入了延遲讀的功能，即在HFile真正被使用時才對其進行解析。

FileV3版本基本和V2版本相比，並沒有太大的改變，它在KeyValue(Cell)層面上添加了Tag陣列的支援；並在FileInfo結構中添加了和Tag相關的兩個欄位。關於具
體HFile格式演化介紹，可以參考其它資料

對HFileV2格式具體分析，它是一個多層的類B+樹索引，採用這種設計，可以實現查詢不需要讀取整個檔案：

Data Block中的Cell都是升序排列，每個block都有它自己的Leaf-Index，每個Block的最後一個Key被放入Intermediate-Index中，Root-Index指向
Intermediate-Index。在HFile的末尾還有Bloom Filter用於快速定位那麼沒有在某個Data Block中的Row；TimeRange資訊用於給那些使用時間查詢的參考。
在HFile開啟時，這些索引資訊都被載入並儲存在記憶體中，以增加以後的讀取效能。

Hlog

hlog是為容錯存在的，大型分散式系統中硬體故障很常見，HBase也不例外，如果MemStore還沒有刷寫到hfile，伺服器就崩潰了，記憶體中沒有寫到硬碟的資料就丟失了。hbase的應對辦法是在寫動作完成之前，先寫入hlog,Hbase叢集中每臺伺服器維護一個hlog,直到hlog新記錄成功寫入後，寫動作才被認為是成功完成。
也就是說每個寫入到作需要同時得到memstore和hlog的確認，如果在memstore沒有寫到hfile之前宕機，資料就可以從hlog恢復！

總結一：

hbase首先按照row-key按行切分資料，每一份就是一個region(會在適當的時機合併)，然後再按照列族切分，每個列族對應硬碟上的一個資料夾。所以說hbase是面向列儲存的，key-value形式的資料庫

總結二：

在查詢資料時，hbase首先根據row-key找到對應的region,然後再根據需要的列族到硬碟上找到對應的資料夾讀取資料
---------------------
作者：亞當-adam
來源：CSDN
原文：https://blog.csdn.net/zhaojianting/article/details/78480329
版權宣告：本文為博主原創文章，轉載請附上博文連結！

hbase架構原理之region、memstore、hfile、hlog、columm-family、colum、cell

Hbase的頂級儲存結構是表，Hbase的表可以理解成是行的集合，行（記錄）是列族的集合，列族是列的集合。這裡有重點介紹幾個容易混爻的幾個感念！ HBase採用Master/Slave架構搭建叢集，它隸屬於Hadoop生態系統，由一下型別節點組成：HMaster節點、HRegionServer節

HBase最佳實踐之Region數量&大小

Region數量通常較少的region數量可使群集執行的更加平穩，官方指出每個RegionServer大約100個regions的時候效果最好，理由如下： HBase的一個特性MSLAB，它有助於防止堆記憶體的碎片化，減輕垃圾回收Full GC的問題，預設是開啟的。但是每個MemS

HBase最佳實踐之Region數量&大小

Region數量通常較少的region數量可使群集執行的更加平穩，官方指出每個RegionServer大約100個regions的時候效果最好，理由如下： HBase的一個特性MSLAB，它有助於防止堆記憶體的碎片化，減輕垃圾回收Full GC的問題，預設是開啟的。

hbase架構原理

架構原理 1、每個region由一個RegionServer負責，一個RegionServer負責多個region 2、 StandbyHMaster 是HMaster的一個備份，如果HMaster宕掉，Standby HMaster會變成HMaster 3、主節

詳解HBase架構原理

一、什麼是HBase HBase 是一個高可靠、高效能、面向列、可伸縮的分散式儲存系統，利用Hbase技術可在廉價PC Server上搭建大規模結構化儲存叢集。　HBase 是Google Bigtable 的開源實現，與Google Bigtable 利用G

spark架構原理之Driver,Master,Worker,Executor,Task執行流程！粗略的見解！

先從執行的spark程式開始講吧！ 1.一般來講我們編寫的Spark程式就是在Driver上由Driver程序執行Driver程序啟動以後就會做一些初始化操作，在這個過程中，就會發送請求到Master上進行Spark應用程式的註冊，其實就是告訴Master,有一個新的S

Hbase架構及工作原理、資料及物理模型、Hbase優化

一、HBase 簡介 1.HBase 概述 HBase 是一個構建在HDFS之上的，分散式的、面向列的開源資料庫 HBase 是 Google BigTable的開源實現，它主要用於儲存海量資料個人理解：

hadoop、hbase、hive、spark分散式系統架構原理

全棧工程師開發手冊（作者：欒鵬）機器學習、資料探勘等各種大資料處理都離不開各種開源分散式系統，hadoop使用者分散式儲存和map-reduce計算，spark用於分散式機器學習，hive是分散式資料庫，hbase是分散式kv系統，看似互不相關的他們卻

HBase 架構與工作原理4 - 壓縮、分裂與故障恢復

zookeepe 但是 write 選擇刪除 book mst 並行 enc 本文系轉載，如有侵權，請聯系我：[email protected] Compacation HBase 在讀寫的過程中，難免會產生無效的數據以及過小的文件，比如：MemStore 在未達

系統架構師之Java虛擬機、OSGi—JVM高級性能架構項目實戰開發

JVM系統架構師之Java虛擬機、OSGi—JVM高級性能架構項目實戰開發分享網盤下載地址：https://pan.baidu.com/s/1hs3pz1M 密碼: g2wa 本課程由淺入深，全面、系統地介紹了JAVA 虛擬機基礎、應用、管理、性能優化、數據庫的架構，環境搭建實例，編程實例等內容

編譯原理之LL(1) 、LR(0)、SLR、LR(1)、LALR文法的對比

考完編譯原理有一段時間了，記得當時都被以上這五種文法搞懵了，所以希望寫篇文章幫助那些正在學習的人。以下內容是依據龍書中文版講解的，由於老師不同可能某些地方大同小異，如有什麼紕漏之處還請指出，多謝~ 以下文章參考了：LL LR SLR LALR 傻傻分不清。首先來看張圖，上圖是四種文法的包含

kafka系列四、kafka架構原理

一、概述　　Kakfa起初是由LinkedIn公司開發的一個分散式的訊息系統，後成為Apache的一部分，它使用Scala編寫，以可水平擴充套件和高吞吐率而被廣泛使用。目前越來越多的開源分散式處理系統如Cloudera、Apache Storm、Spark等都支援與Kafka整合。

架構應用之高可用、高複用

架構應用之高可用、高複用。一、儲存高可用儲存的高可用，主要是通過資料冗餘的方式來實現高可用，複雜性主要是在如何保持資料一致性，複製延遲和網路中斷都會帶來資料不一致。主要考慮的就是，資料如何複製，如何應對複製延遲，如何應對複製中斷，各個節點的職責是什麼。

【 58沈劍架構師之路】TCP接入層的負載均衡、高可用、擴充套件性架構

一、web-server的負載均衡網際網路架構中，web-server接入一般使用nginx來做反向代理，實施負載均衡。整個架構分三層：上游呼叫層，一般是browser或者APP 中間反向代理層，nginx 下游真實接入叢集，web-server，常見web-server的

【 58沈劍架構師之路】InnoDB七種鎖——記錄鎖、間隙鎖、臨鍵鎖

MySQL的InnoDB的細粒度行鎖，是它最吸引人的特性之一。但是，如《InnoDB，5項最佳實踐》所述，如果查詢沒有命中索引，也將退化為表鎖。 InnoDB的細粒度鎖，是實現在索引記錄上的。一，InnoDB的索引 InnoDB的索引有兩類索引，聚集

【 58沈劍架構師之路】InnoDB七種鎖——共享/排它鎖、意向鎖、插入意向鎖

今天，將要介紹InnoDB另外三種：共享/排他鎖，意向鎖，插入意向鎖。一，共享/排它鎖(Shared and Exclusive Locks) 《InnoDB併發為何這麼高？》一文介紹了通用的共享/排它鎖，在InnoDB裡當然也實現了標準的行級鎖(row-level locking)，共

Android Jetpack架構元件之 Paging（使用、原始碼篇）

1、前言最近簡單看了下google推出的框架Jetpack，感覺此框架的內容可以對平時的開發有很大的幫助，也可以解決很多開發中的問題，對程式碼的資料邏輯和UI介面深層解耦，實現資料驅動型的ui。 Android Architecture元件是Android Jetpac

架構師之路--伺服器叢集搭建、管理、與快速部署

今天的目標是有4臺Linux的伺服器架設一個小規模的叢集 1、我們可以隨時的擴充套件我們的伺服器叢集，就像牲口乾活一樣，一匹馬拉不動，可以由多匹馬來拉 2、在Linux中有一個hosts 檔案，每一臺機器都會有IP地址，搭建叢集的第一個工作

計算機組成原理之原碼、補碼、反碼和移碼

在討論之前，先說一下無符號數和有符號數的概念，計算機的數均存放在暫存器中，通常稱暫存器的位數為機器字長，所謂無符號數，即沒有符號的數，在暫存器中的每一位均可用來存放數值，有符號數是首位不用來表示數值，

Java高架構師、分散式架構、高可擴充套件、高效能、高併發、效能優化、Spring boot、Redis、ActiveMQ、Nginx、Mycat、Netty、Jvm大型分散式專案實戰學習架構師之路

工作1-5年開發經驗，當你們提出漲工資的時候，或者要offer的時候底氣怎麼樣，是不是底氣十足，不給漲工資就辭職，是不是有自信提出來主管、或者是專案經理都能同意，他們相當設法把你留住。如果這樣你才是成功。什麼技術都沒有何談工資！給你分析一下這些技術，給大家羅列一些技術，看