1、Hbase原理分析

阿新 • • 發佈：2020-05-09

一、Hbase介紹

1.1、對Hbase的認識

HBase作為面向列的資料庫執行在HDFS之上，HDFS缺乏隨機讀寫操作，HBase正是為此而出現。
HBase參考 Google 的 Bigtable 實現，以鍵值對的形式儲存。專案的目標就是快速在主機內數十億行資料中定位所需的資料並訪問它。
HBase是建立在HDFS之上的分散式面向列的資料庫；屬於KV結構資料（V可以隨便存，結構化資料和非結構化資料都可以），原生不支援標準SQL。
HBase可以提供快速隨機訪問海量結構化資料。
它利用了Hadoop的檔案系統（HDFS）提供的容錯能力。
Hive 和 Hbase都是作用在hdfs之上的。
- Hive ：適合統計分析。Hive 執行的是mapreduce任務，延遲高。
- Hbase：適合大資料量查詢，不適合統計分析。Hbase是鍵值對儲存，可以快速返回資料。

1.2、Hbase資料單元

RowKey：是Byte array，是表中每條記錄的“主鍵”，按照字典順序排序，唯一，方便快速查詢，Rowkey的設計非常重要；
Column Family：列族，擁有一個名稱(string)，包含一個或者多個相關列；
Column：屬於某一個columnfamily，familyName:columnName，每條記錄可動態新增；
Version Number：版本號，型別為Long，預設值是系統時間戳Timestamp，可由使用者自定義；用於標記同一份資料的不同版本。

Value(Cell)：具體的值，Byte array；
總之，在一個HBase：
- 表是行的集合。
- 行是列族的集合。
- 列族是列的集合。
- 列是鍵值對的集合。
- 建表時：指定表的列族，列自己插入資料時動態建立

1.3、Hbase物理儲存結構

每個column family儲存在HDFS上的一個單獨檔案中，空值不會被儲存；
Key 和 Version number在每個 column family中均有一份；
HBase 為每個值維護了多級索引，即：<key, column family, column name, timestamp>；
在物理層面上，表格的資料是通過StoreFile來儲存的，每個StoreFile相當於一個可序列化的Map,Map的key和value都是可解釋型字元陣列；
Column Family是一組Column的組合，在HBase中，Schema的定義主要為Column Family的定義，同大多數nosql資料庫一樣，HBase也是支援自由定義Schema，但是前提要先定義出具體的Column Family，而在隨後的column定義則沒有任何約束；其次，HBase的訪問許可權控制，磁碟及記憶體統計等功能都是基於Column Family層面完成的；
HBase提供基於Cell的版本管理功能，版本號預設通過timestamp來標識，並且呈倒序排列；

二、Hbase原理分析

HBase採用Master/Slave（主僕結構）架構搭建叢集，它隸屬於Hadoop生態系統，由以下型別節點組成：

HMaster節點
HRegionServer節點
ZooKeeper叢集
而在底層，它將資料儲存於HDFS中，因而涉及到HDFS的NameNode、DataNode等

總體結構如下:

2.1、Client

使用HBase RPC機制與HMaster和HRegionServer進行通訊；
Client與HMaster進行通訊進行管理類操作；
Client與HRegionServer進行資料讀寫類操作；

2.2、HMaster

HMaster沒有單點問題，HBase中可以啟動多個HMaster，通過Zookeeper保證總有一個Master在執行。
HMaster主要負責Table和Region的管理工作：

管理使用者對錶的增刪改查操作DDL；
管理HRegionServer的負載均衡，調整Region分佈；
Region Split後，負責新Region的分佈；
在HRegionServer停機後，負責失效HRegionServer上Region 的遷移；

2.3、HRegionServer

HBase中最核心的模組；

維護region，處理對這些region的IO請求；
Regionserver負責切分在執行過程中變得過大的region；
一個HRegionServer包括多個HRegion和一個Hlog

HRegion介紹

HBase使用RowKey將表水平切割成多個HRegion，從HMaster的角度，每個HRegion都紀錄了它的StartKey和EndKey（第一個HRegion的StartKey為空，最後一個HRegion的EndKey為空），由於RowKey是排序的，因而Client可以通過HMaster快速的定位每個RowKey在哪個HRegion中。（通俗理解：就是通過StartKey和Endkey將rowkey按照順序儲存）

檢視web UI

HregionServer詳解

HRegionServer一般和DataNode在同一臺機器上執行，實現資料的本地性。
HRegionServer內部管理了一系列HRegion物件，每個HRegion對應了Table中的一個Region。
一個Table可以有一個或多個Region，他們可以在一個相同的HRegionServer上，也可以分佈在不同的HRegionServer上，一個HRegionServer可以有多個HRegion，他們分別屬於不同的Table。
HRegion由多個Store(HStore)構成，每個HStore對應了一個Table在這個HRegion中的一個Column Family，即每個Column Family就是一個集中的儲存單元，因而最好將具有相近IO特性的Column儲存在一個Column Family，以實現高效讀取。
每個HRegionServer中都會有一個HLog物件。HLog是一個實現Write Ahead Log的類，每次使用者操作寫入Memstore的同時，也會寫一份資料到HLog檔案，HLog檔案定期會滾動出新，並刪除舊的檔案(已持久化到StoreFile中的資料)。
引入HLog原因：
- 災難恢復。在分散式系統環境中，無法避免系統出錯或者宕機，一旦HRegionServer意外退出，MemStore中的記憶體資料就會丟失，引入HLog就是防止這種情況。
一個HStore由一個MemStore 和0個或多個StoreFile組成。
MemStore：
- 是一個寫快取(In Memory Sorted Buffer)，所有資料的寫在完成WAL日誌寫後，會寫入MemStore中，由MemStore根據一定的演算法將資料Flush到底層HDFS檔案中(HFile)，通常每個HRegion中的每個 Column Family有一個自己的MemStore。
StoreFile：
- 用於儲存HBase的資料(Cell/KeyValue)。在HFile中的資料是按RowKey、Column Family、Column排序，對相同的Cell(即這三個值都一樣)，則按timestamp倒序排列。

2.4、Zookeeper

ZooKeeper為HBase叢集提供協調服務，它管理著HMaster和HRegionServer的狀態(available/alive等)，並且保證叢集中只有一個HMaster，會在它們宕機時通知給其他HMaster，從而可以實現HMaster之間的故障轉移；
實時監控HRegionServer的上線和下線資訊，並實時通知給HMaster；
儲存HBase的Meta Table(hbase:meta)的位置，Meta Table表儲存了叢集中所有使用者HRegion的位置資訊，且不能split；
Zookeeper的引入使得Master不再是單點故障；

在zookeeper的節點中：
/hbasae/master：來表示Active的HMaster；
如果當前Active的HMaster宕機，則該節點消失，因而其他HMaster得到通知，而將自身轉換成Active的HMaster，在變為Active的HMaster之前，它會建立在/hbase/back-masters/下建立自己的Ephemeral節點；

&n

1、Hbase原理分析

一、Hbase介紹 1.1、對Hbase的認識 HBase作為面向列的資料庫執行在HDFS之上，HDFS缺乏隨機讀寫操作，HBase正是為此而出現。 HBase參考 Google 的 Bigtable 實現，以鍵值對的形式儲存。專案的目標就是快速在主機內數十億行資料中定位所需的資料並訪問它。 HBase是建

【HBase基礎教程】1、HBase之單機模式與偽分布式模式安裝(轉)

service 4.2 zookeepe .tar.gz class href base mem 創建在這篇blog中，我們將介紹Hbase的單機模式安裝與偽分布式的安裝方式，以及通過瀏覽器查看Hbase的用戶界面。搭建hbase偽分布式環境的前提是我們已經搭建好了had

基於Android 7.1的AsyncTask原理分析

對比一下AsyncTask在子執行緒和在主執行緒初始化的區別 public class MainActivity extends AppCompatActivity { private static final String TAG = M

SpringBoot學習筆記一之【Idea下建立springboot示例、啟動原理分析與兩種部署啟動方式】

1、使用背景首先說下我們為什麼使用springboot，原因有以下幾點 1、快速建立獨立執行的spring專案以及與主流框架繼承 2、使用嵌入式的Servlet容器，無需打成war包 3、starters自動依賴於版本控制 4、大量的自動配置，簡化開發，也可修改預設值 5、

【HBase基礎教程】1、HBase之單機模式與偽分散式模式安裝

在這篇blog中，我們將介紹Hbase的單機模式安裝與偽分散式的安裝方式，以及通過瀏覽器檢視Hbase的使用者介面。搭建hbase偽分散式環境的前提是我們已經搭建好了hadoop完全分散式環境，搭建hadoop環境請參考：【Hadoop基礎教程】4、Hadoop

storm入門簡介、架構原理分析

一、 Storm簡介 Storm是由Nathan Marz開發的，一個免費並開源的分散式實時計算系統。 Storm是基於資料流的實時處理系統，提供了大吞吐量的實時計算能力。通過資料入口獲取每條到來的資料，在一條資料到達系統的時候，立即會在記憶體中進行相應的計

Spring3.1.0實現原理分析(十四).MVC之處理器對映

大家好，今天我們分析下處理器對映，這個功能是MVC框架所應具備的基本功能。那麼，什麼是處理器對映呢，是指根據一套規則獲取處理本次request請求的執行鏈物件，它是連線url請求和執行鏈物件的橋樑。執行鏈又是什麼東東呢？無論是spring mvc還是stru

Spring3.1.0實現原理分析(二十二).Dao事務分析之事務管理器DataSourceTransactionManager

大家好，開篇先來談談spring事務的優點吧，即spring事務的存在價值。首先它提供了非侵入式編碼的事務實現，這個是通過aop實現的，具體的實現過程之前也寫部落格分析了。另外，spring還提供了一套標準的事務管理工作流程。簡單的說，事務管理

isMemberOfClass、isKindOfClass原理分析

isMemberOfClass - 呼叫者必須是傳入的類的例項物件才返回YES- 判斷呼叫者是否是傳入物件的例項，別弄反了，如 [s1 isMemberOfClass:p1] ，意思是s1是否是p1的例項物件- 去去父類遞迴查詢判斷原始碼： + (BOOL)isMemberOfClass:(Cla

1、Spring原始碼分析1之讀取配置檔案

1、XMLBeanFcatory BeanFactory bf = new XmlBeanFactory(new ClassPa

1.JVM原理、java記憶體分析

目錄 JVM原理記憶體分析共享獨有 JVM原理 JVM生命週期：一個執行中的Java虛擬機器有著一個清晰的任務：執行Java程式。你在同一臺機器上執行三個程式，就會有三個執行中的Java虛擬機器。 Main()方法是程式的起點，程式中其他的

SELECT TOP 1 比不加TOP 1 慢的原因分析以及SELECT TOP 1語句執行計劃預估原理

create p s 總結字段不用 value tar 再次 char 　　現實中遇到過到這麽一種情況：　　在某些特殊場景下:進行查詢的時候，加了TOP 1比不加TOP 1要慢（而且是慢很多）的情況，　　也就是說對於符合條件的某種的數據，查詢1條（符合該條件）數據比

1、Android項目框架搭建（分析需求、整理資料）

res 菜單 master sliding pan mos 時間 nes oid 閑來無事、想搭個框架試試分析一般應用將資料整理整理粗略統計須要下面資料 1、android-pulltorefresh 一個強大的拉動刷新開源項目，支持各種控

調試大叔V1.0.1(2017.09.01)|http/s接口調試、數據分析程序員輔助開發神器

分享開發 ges 下載地址 unicode 保存 nic 常用符號 src 2017.09.01 - 調試大叔 V1.0.1*支持http/https協議的get/post調試與反饋；*可保存請求協議的記錄；*內置一批動態參數，可應用於URL、頁頭、參數；*可自由管理co

[精華] RDMA技術原理分析、主流實現對比和解析

RDMA RoCE iWARP 替換高清大圖請點擊此處輸入圖片描述摘要: 遠程直接內存訪問(即Remote Direct Memory Access)是一種直接內存訪問技術，它將數據直接從一臺計算機的內存傳輸到另一臺計算機，無需雙方操作系統的介入，本文旨在技術引導，詳細內容請通過文末“

HashMap底層原理分析（put、get方法）

return sta rec oca ati 技術分享 AI TP load 1、HashMap底層原理分析（put、get方法） HashMap底層是通過數組加鏈表的結構來實現的。HashMap通過計算key的hashCode來計算hash值，只要hashCode一樣

Android系統的智能指針（輕量級指針、強指針和弱指針）的實現原理分析【轉】

其中 sin 類的定義 reason ava tab eas file 現在 Android系統的運行時庫層代碼是用C++來編寫的，用C++ 來寫代碼最容易出錯的地方就是指針了，一旦使用不當，輕則造成內存泄漏，重則造成系統崩潰。不過系統為我們提供了智能指針，避免出現上述問題

小象學院Python入門基礎課程-四、案例1 匯率兌換案例分析

匯率兌換 1.0（只考慮一種外幣情況）案例描述案例分析上機實驗 """ 作者：xpt 功能：匯率兌換版本號：1.0 日期：05/11/2018 """ # 人名幣的輸入 rmb_str_value = in

2.1索引的使用原理分析

索引的使用原理分析基本說明首先建立一個簡單的表建立一個b,c,d的一個聯合索引注意點：使用的表的結構為堆表形式，這也是Oracle/DB2/PostgreSQL等資料庫採用的表組織形式，而不是InnoDB引擎所採用的聚簇索引表。沒有包括t1表的主鍵索

編譯原理之LL(1) 、LR(0)、SLR、LR(1)、LALR文法的對比

考完編譯原理有一段時間了，記得當時都被以上這五種文法搞懵了，所以希望寫篇文章幫助那些正在學習的人。以下內容是依據龍書中文版講解的，由於老師不同可能某些地方大同小異，如有什麼紕漏之處還請指出，多謝~ 以下文章參考了：LL LR SLR LALR 傻傻分不清。首先來看張圖，上圖是四種文法的包含