HBase(七): HBase體系結構剖析（下)

阿新 • • 發佈：2018-12-11

HBase(七): HBase體系結構剖析（下)

Posted on 2016-09-10 22:18 天戈朱閱讀(1019) 評論(0) 編輯收藏

目錄：

write
Compaction
splite
read

Write：

當客戶端發起一個Put請求時，首先根據RowKey定址，從hbase:meta表中查出該Put資料最終需要去的HRegionServer
客戶端將Put請求傳送給相應的HRegionServer，在HRegionServer中它首先會將該Put操作寫入WAL日誌檔案中(Flush到磁碟中)，如下圖：

寫完WAL日誌檔案後，HRegionServer根據Put中的TableName和RowKey找到對應的HRegion，並根據Column Family找到對應的HStore
將Put資料寫入到該HStore的MemStore中。此時寫成功，並返回通知客戶端
上一節介紹過，MemStore是一個In Memory Sorted Buffer，在每個HStore中都有一個MemStore，即它是一個HRegion的一個Column Family對應一個例項。
它的排列順序以RowKey、Column Family、Column的順序以及Timestamp的倒序，如下示意圖：

每一次Put請求都是先寫入到MemStore中，當MemStore滿後會Flush成一個新的StoreFile(底層實現是HFile)，即一個HStore(Column Family)可以有0個或多個StoreFile(HFile)
注意：MemStore的最小Flush單元是HRegion而不是單個MemStore，這就是建議使用單列族的原因，太多的Column Family一起Flush會引起效能問題
MemStore觸發Flush動作的時機：

1. 當一個MemStore的大小超過了hbase.hregion.memstore.flush.size的大小，此時當前的HRegion中所有的MemStore會Flush到HDFS中
2. 當全域性MemStore的大小超過了hbase.regionserver.global.memstore.upperLimit的大小，預設40％的記憶體使用量。此時當前HRegionServer中所有HRegion中的MemStore都會Flush到HDFS中，Flush順序是MemStore大小的倒序，直到總體的MemStore使用量低於hbase.regionserver.global.memstore.lowerLimit，預設38%的記憶體使用量
3. 待確認：一個HRegion中所有MemStore總和作為該HRegion的MemStore的大小還是選取最大的MemStore作為參考？
4. 當前HRegionServer中WAL的大小超過了hbase.regionserver.hlog.blocksize * hbase.regionserver.max.logs的數量，當前HRegionServer中所有HRegion中的MemStore都會Flush到HDFS中，Flush使用時間順序，最早的MemStore先Flush直到WAL的數量少於hbase.regionserver.hlog.blocksize * hbase.regionserver.max.logs
5. 注意：因為這個大小超過限制引起的Flush不是一件好事，可能引起長時間的延遲

在MemStore Flush過程中，還會在尾部追加一些meta資料，其中就包括Flush時最大的WAL sequence值，以告訴HBase這個StoreFile寫入的最新資料的序列，那麼在Recover時就直到從哪裡開始。在HRegion啟動時，這個sequence會被讀取，並取最大的作為下一次更新時的起始sequence，如下圖：

Compaction:

MemStore每次Flush會建立新的HFile，而過多的HFile會引起讀的效能問題，HBase採用Compaction機制來解決這個問題
HBase中Compaction分為兩種：Minor Compaction和Major Compaction

1. Minor Compaction: 是指選取一些小的、相鄰的StoreFile將他們合併成一個更大的StoreFile，在這個過程中不會處理已經Deleted或Expired的Cell。一次Minor Compaction的結果是更少並且更大的StoreFile, 如下圖:
3. Major Compaction: 是指將所有的StoreFile合併成一個StoreFile，在這個過程中，標記為Deleted的Cell會被刪除，而那些已經Expired的Cell會被丟棄，那些已經超過最多版本數的Cell會被丟棄。一次Major Compaction的結果是一個HStore只有一個StoreFile存在
4. Major Compaction可以手動或自動觸發，然而由於它會引起很多的IO操作而引起效能問題，因而它一般會被安排在週末、凌晨等叢集比較閒的時間, 如下示意圖：

修改Hbase配置檔案可以控制compaction行為

1. hbase.hstore.compaction.min :預設值為 3，(老版本是：hbase.hstore.compactionThreshold)，即store下面的storeFiles數量減去正在compaction的數量 >=3是，需要做compaction
2. hbase.hstore.compaction.max 預設值為10，表示一次minor compaction中最多選取10個store file
3. hbase.hstore.compaction.min.size 表示檔案大小小於該值的store file 一定會加入到minor compaction的store file中
4. hbase.hstore.compaction.max.size 表示檔案大小大於該值的store file 一定會被minor compaction排除

splite:

最初，一個Table只有一個HRegion，隨著資料寫入增加，如果一個HRegion到達一定的大小，就需要Split成兩個HRegion，這個大小由hbase.hregion.max.filesize指定
split時，兩個新的HRegion會在同一個HRegionServer中建立，它們各自包含父HRegion一半的資料，當Split完成後，父HRegion會下線，而新的兩個子HRegion會向HMaster註冊上線
處於負載均衡的考慮，這兩個新的HRegion可能會被HMaster分配到其他的HRegionServer,示意圖如下：

在zookeeper上建立ephemeral的znode指示parent region正在splitting
HMaster監控父Regerion的region-in-transition znode
在parent region的資料夾中建立臨時split目錄
關閉parent region（會flush 所有memory store（memory file），等待active compaction結束），從現在開始parent region 不可服務。同時從本地server上offline parent region，每個region server都維護了一個valid region的list，該步將parent region從該list中移除
Split所有的store file，這一步為每個檔案做一個reference file，reference file由兩部分組成
1. 第一部分是原始檔的路徑，第二部分是新的reference file引用原始檔split key以及引用上半截還是下半截
2. 舉個例子：原始檔是Table1/storefile.11，split point 是key1, 則split 成兩個子檔案可能可能是Table1/storefile.11.bottom.key1，Table1/storefile.11.up.key1，表示從key1切開storefile.11後，兩個引用檔案分別引用原始檔的下半部分和上半部分
建立child region
1. 設定各種屬性，比如將parent region的訪問指標平分給child region，每人一半
2. 將上面在parent 資料夾中生成的臨時資料夾（裡面包含對parent region的檔案reference）move到表目錄下，現在在目錄層次上，child region已經跟parent region平起平坐了
向系統meta server中寫入parent region split完畢的資訊，並將child region的名字一併寫入（split狀態在meta層面持久化）
分別Open 兩個child region，主要包含以下幾個步驟：
1. 將child region資訊寫入meta server
2. Load 所有store file，並replay log等
3. 如果包含reference檔案，則做一次compaction（類似merge），直到將所有的reference檔案compact完畢，這裡可以看到parent region的檔案是會被拆開寫入各個child regions的
將parent region的狀態由SPLITTING轉為SPLIT，zookeeper會負責通知master開始處理split事件，master開始offline parent region，並online child regions
Worker等待master處理完畢之後，確認child regions都已經online，split結束

read:

根據Rowkey定址（詳情見上一節定址部分），如下圖：
獲取資料順序規則，如下圖：

參考資料：

分類: HBase

標籤: HBase

重新整理評論重新整理頁面返回頂部

註冊使用者登入後才能發表評論，請登入或註冊，訪問網站首頁。

HBase(七): HBase體系結構剖析（下)

HBase(七): HBase體系結構剖析（下) Posted on 2016-09-10 22:18 天戈朱閱讀(1019) 評論(0) 編輯收藏目錄： write Compaction splite re

HBase(六): HBase體系結構剖析（上)

Posted on 2016-09-10 19:37 天戈朱閱讀(3591) 評論(2) 編輯收藏 HBase隸屬於hadoop生態系統，它參考了谷歌的Big

20172310 2017-2018《程序設計與數據結構》（下）第七周學習總結

列表改進詳細運行知識 null left 阻止但我 20172310 2017-2018《程序設計與數據結構》（下）第七周學習總結教材學習內容總結本章學習的是二叉查找樹 11.1 概述二叉查找樹(binay scarch tree)是種帶有附加屬性的二叉

C++智能指針剖析（下）boost::shared_ptr&其他

剖析 smart_ptr mage open log gin 內部使用聲明虛基類 1. boost::shared_ptr 前面我已經講解了兩個比較簡單的智能指針，它們都有各自的優缺點。由於 boost::scoped_ptr 獨享所有權，當我們真真需要復制智能指針時，

OO真經——關於面向對象的哲學體系及科學體系的探討（下）

解釋直接 borde 好運多個做什麽 trac 都得 cnblogs 真經第六章——運作 Moving “運動是絕對的——牛頓” 6.1、導言在前五章中，我們從世界觀的這話題開始，逐步引出了抽象、層次、繼承和耦合。這些內容，形成了對象論中關

大數據入門第七天——MapReduce詳解（下）

nbsp targe input pre 切片入門技術 log 過程一、mapTask並行度的決定機制　　　1.概述　　一個job的map階段並行度由客戶端在提交job時決定　　而客戶端對map階段並行度的規劃的基本邏輯為：　　　　將待處理數據執行邏輯

產融結合的七個進階形態（下）

產融結合產融互動產業與金融做到了真正的聯動，不再是單一的版塊，利用創投,並購,存量整合形成資本放大,以核心產業強化帶動短中長線投資的乘數效應，實現金融板塊的升值。在這一階段，產與融做到了真正的聯動，不再是各自獨立不發生關系的業務板塊。利用創投,並購,存量整合形成資本放大,以核心產業強化帶動短中長線投資的乘數效

20172310 2017-2018《程序設計與數據結構》（下）第四周學習總結

自己 yun class 插入 adt 調試數組清晰增加學號 2017-2018-2 《程序設計與數據結構》第四周學習總結教材學習內容總結第六章主要研究了列表的概念以及某些管理列表的方法。列表集合鏈表與列表集合之間的差別：鏈表是一種實現策略，使用引用來在對

計算機網路體系結構綜述（上）【轉】

（轉自：https://blog.csdn.net/justloveyou_/article/details/69611328）摘要：　　計算機網路體系結構標準的制定使得兩臺計算機能夠像兩個知心朋友那樣能夠互相準確理解對方的意思並做出優雅的迴應。本文首先概述了計算機網路體系結構的提出動機

20172310 2017-2018《程式設計與資料結構》（下）第八週學習總結

20172310 2017-2018《程式設計與資料結構》（下）第八週學習總結教材學習內容總結 1.1、堆堆(heap)：是具有兩個附加屬性的二叉樹。一是堆是一顆完全樹（如果一棵二叉樹是平衡的，即所有葉子都位於h或h-1層，其中h為log2n, 且n是樹中的元素數目，且所有h層中的葉子都位於該

20172310 2017-2018《程式設計與資料結構》（下）第五週學習總結

20172310 2017-2018《程式設計與資料結構》（下）第五週學習總結教材學習內容總結第九章_排序與查詢學習幾種排序演算法，並討論這些演算法的複雜度 9.1查詢（線性查詢與二分查詢演算法）查詢(searching) 是在某個專案組中尋找某一指定目標元素，或者確定該組中並不存在

20172310《程式設計與資料結構》（下）實驗二：二叉樹實驗報告

20172310《程式設計與資料結構》（下）實驗二：二叉樹實驗報告報告封面課程：《軟體結構與資料結構》班級： 1723 姓名：仇夏學號：20172310 實驗教師：王志強老師實驗日期：2018年11月3日-2018年11月9日必修選修：必修實驗二-1-

GDB體系結構介紹（二）

4.7 符號方面 GDB的符號端主要負責讀取可執行檔案，提取它找到的任何符號資訊，並將其構建到符號表中。讀取過程從BFD庫開始。 BFD是一種用於處理二進位制檔案和目標檔案的通用庫;在任何主機上執行，它可以讀取和寫入原始的Unix a.out格式，COFF（用於System V Unix和

GDB體系結構介紹（一）

GNU偵錯程式GDB是最早為自由軟體基金會編寫的程式之一，從那以後它一直是免費和開源軟體系統的主要部分。它最初設計為普通的Unix原始碼級偵錯程式，後來擴充套件到廣泛的用途，包括與許多嵌入式系統一起使用，並且從幾千行C增加到超過五十萬。本章將深入研究GDB的整體內部結構，展示隨著新使用者需求和新功

Eclipse體系結構介紹（四）

6.4 Eclipse 4.0 必須不斷檢查架構以評估它是否仍然合適。它能夠融入新技術嗎？它是否鼓勵社群的成長？吸引新的貢獻者是否容易？在2007年末，Eclipse專案提交者決定這些問題的答案是否定的，他們著手設計Eclipse的新願景。與此同時，他們意識到有數千個Eclipse應用程式依賴於

20172310 2017-2018《程式設計與資料結構》（下）第九周學習總結

20172310 2017-2018《程式設計與資料結構》（下）第九周學習總結教材學習內容總結這一章又要學習一個新的體系了——圖無向圖、有向圖和網路接下來的例子都是使用這兩個圖一些共同的基礎概念：頂點：結點，一般用名字和標籤來表示，如A、B等。邊：節點之間的連線，用結點對

【TeeChart Pro ActiveX教程】（七）：使用函式（下）

下載TeeChart Pro ActiveX最新版本在上一篇文章中，我們介紹到了在Teechart Pro ActiveX中的功能特點和新增功能，今天我們接著講定義資料來源、功能期間和週期樣式（一）定義資料來源上一節中的示例重點介紹如何使用Datasource通過程式碼填充Function.S

【Unity Shader】（七） ------ 複雜的光照（下）

筆者使用的是 Unity 2018.2.0f2 + VS2017，建議讀者使用與 Unity 2018 相近的版本，避免一些因為版本不一致而出現的問題。目錄前言二. 陰影四. 總結前言本文承接上文【Unity Shader】（六） ------ 複雜的光照（上），

JVM體系結構概述（一）

http col 分享圖片 tro 技術分享 bubuko 分享概覽硬件一、JVM位置 JVM是運行在操作系統之上的，它與硬件沒有直接的交互二、JVM體系結構概覽三、JVM位置四、JVM位置五、JVM位置六、JVM位置七、JVM

經典軟體體系結構風格（二）

1.基於事件的隱式呼叫風格基本元件：物件或過程，並分類為以下更小的元件 –過程或函式，充當事件源或事件處理器的角色 –事件連線件：事件-過程繫結 –過程(事件處理器，事件的接收和處理方) 向特定的事件進行註冊; –元件(事件源) 釋出事件; –當某

HBase(七): HBase體系結構剖析（下)

相關推薦