hbase 讀寫過程

阿新 • • 發佈：2019-01-17

　　HBase中的每張表都通過行鍵按照一定的範圍被分割成多個子表（HRegion），預設一個HRegion超過256M就要被分割成兩個，由HRegionServer管理，管理哪些HRegion由HMaster分配。

　　HRegionServer存取一個子表時，會建立一個HRegion物件，然後對表的每個列族(Column Family)建立一個Store例項，每個Store都會有0個或多個StoreFile與之對應，每個StoreFile都會對應一個HFile， HFile就是實際的儲存檔案。因此，一個HRegion有多少個列族就有多少個Store。另外，每個HRegion還擁有一個MemStore例項

。memStore儲存在記憶體中，StoreFile儲存在HDFS上。

技術分享

　　Region雖然是分散式儲存的最小單元，但並不是儲存的最小單元。Region由一個或者多個Store組成，每個store儲存一個columns family；每個Store又由一個memStore和0至多個StoreFile組成，StoreFile包含HFile；memStore儲存在記憶體中，StoreFile儲存在HDFS上。

　　HBase是基於BigTable的面向列的分散式儲存系統，其儲存設計是基於Memtable / SSTable設計的，主要分為兩部分，一部分為記憶體中的MemStore (Memtable)，另外一部分為磁碟(這裡是HDFS)上的HFile (SSTable)。還有就是儲存WAL的log，主要實現類為HLog.

　　本質上MemStore就是一個記憶體裡放著一個儲存KEY/VALUE的MAP，當MemStore（預設64MB）寫滿之後，會開始刷磁碟操作。

HBase儲存在HDFS上的主要包含兩種檔案型別：　　1. HFile， HBase中KeyValue資料的儲存格式，HFile是Hadoop的二進位制格式檔案，實際上StoreFile就是對HFile做了輕量級包裝，即StoreFile底層就是HFile 　　2. HLog File，HBase中WAL（Write Ahead Log）的儲存格式，物理上是Hadoop的Sequence File

HFile結構：

　　　　技術分享

Data Block：儲存表中的資料，這部分可以被壓縮

Meta Block：（可選）儲存使用者自定義的kv對，可以被壓縮。

File Info ：Hfile的meta元資訊，不被壓縮，定長。

Data Block Index ：Data Block的索引。每個Data塊的起始點。

Meta Block Index：（可選的）Meta Block的索引，Meta塊的起始點。

Trailer：定長。儲存了每一段的偏移量，讀取一個HFile時，會首先讀取Trailer，Trailer有指標指向其他資料塊的起始點，儲存了每個段的起始位置(段的Magic Number用來做安全check)，然後，DataBlock Index會被讀取到記憶體中，這樣，當檢索某個key時，不需要掃描整個HFile，而只需從記憶體中找到key所在的block，通過一次磁碟io將整個block讀取到記憶體中，再找到需要的key。DataBlock Index採用LRU機制淘汰。

HFile的Data Block，Meta Block通常採用壓縮方式儲存。Data Block是HBase I/O的基本單元，為了提高效率，HRegionServer中有基於LRU的Block Cache機制。每個Data塊的大小可以在建立一個Table的時候通過引數指定，大號的Block有利於順序Scan，小號Block利於隨機查詢。每個Data塊除了開頭的Magic以外就是一個個KeyValue對拼接而成, Magic內容就是一些隨機數字，目的是防止資料損壞。

HFile中的Key-Value結構

HFile中的每個Key-Value對就是一個簡單的byte陣列。但這個byte陣列包含了很多項資訊，並含有固定的結構。（有點類似資料流）

技術分享

　　開始是兩個長度固定的數值，分別表示Key的長度和Value的長度。緊接著是Key，開始是固定長度的數值，表示RowKey的長度，緊接著是RowKey，然後是固定長度的數值，表示Family的長度，然後是Family（列族），接著是Qualifier（小列），然後是兩個固定長度的數值，表示Time Stamp和Key Type（Put/Delete）。Value部分則相對簡單，是純粹的二進位制資料。

　　HBase 為每個值維護了多級索引，即：<key, column family, column name（qualifer）, timestamp>

Hbase寫資料流程

a) Client發起了一個HTable.put(Put)請求給HRegionServer

b) HRegionServer會將請求匹配到某個具體的HRegion上面

c) 決定是否寫WAL log。WAL log檔案是一個標準的Hadoop SequenceFile，檔案中儲存了HLogKey，這些Keys包含了和實際資料對應的序列號，主要用於崩潰恢復。

d) Put資料儲存到MemStore中，同時檢查MemStore狀態，如果滿了，則觸發Flush to Disk請求。

e) HRegionServer處理Flush to Disk的請求，將資料寫成HFile檔案並存到HDFS上，並且儲存最後寫入的資料序列號，這樣就可以知道哪些資料已經存入了永久儲存的HDFS中。

由於不同的列族會共享region，所以有可能出現，一個列族已經有1000萬行，而另外一個才100行。當一個要求region分割的時候，會導致100行的列會同樣分佈到多個region中。所以，一般建議不要設定多個列族。

hbase 讀寫過程

Hbase寫資料流程

Hbase讀寫過程

hbase學習教程（二）：HBase容錯性和Hbase使用場景、Hbase讀寫過程詳解

hbase 讀寫過程

HBASE系統架構圖以及各部分的功能作用，物理儲存，HBASE定址機制，讀寫過程，Region管理，Master工作機制

Hbase結構和讀寫過程

ceph學習筆記之六數據讀寫過程

hbase讀寫流程

關於HBase讀寫數據的方法

MapReduce程式的讀寫過程

Hbase讀寫流程和定址機制

hbase讀寫原理（2）

HDFS資料的讀寫過程

hbase 讀寫資料流程----文字簡介

HDFS資料儲存與讀寫過程

Ceph中糾刪碼的讀寫過程與快取分層

HBase-讀寫流程及JavaAPI

從核心檔案系統看檔案讀寫過程

hbase讀寫效能測試調優_初稿

linux0.11字元裝置的讀寫過程分析

Hadoop之HDFS檔案讀寫過程

hbase 讀寫過程

Hbase寫資料流程

相關推薦