Hbase基礎(一)

阿新 • • 發佈：2018-05-22

速查 src 定時 del family sig 系統 datanode 滿足

Hbase基礎

Hbase基礎
- Hbase定義
- 行存儲 v s 列存儲
- Hbase數據模型
- Hbase物理模型
- Hbase系統架構
- Hbase的容錯
- Hbase特殊的表
- 合並
- Hbase的Compaction和Split

Hbase定義

HBase是一個開源的非關系型分布式數據庫（NoSQL），它參考了谷歌的BigTable建模，實現的編程語言為 Java。
是Apache軟件基金會的Hadoop項目的一部分，運行於HDFS文件系統之上，因此可以容錯地存儲海量稀疏的數據

行存儲 v s 列存儲

行存儲：
– 優點：寫入一次性完成，保持數據完整性
– 缺點：數據讀取過程中產生冗余數據，若有少量數據可以忽略
列存儲
– 優點：讀取過程，不會產生冗余數據，特別適合對數據完整性要求不高的大數據領域
– 缺點：寫入效率差，保證數據完整性方面差

Hbase數據模型

技術分享圖片

RowKey：是Byte array，是表中每條記錄的“主鍵”，方便快速查找，Rowkey的設計非常重要。
Column Family：列族，擁有一個名稱(string)，包含一個或者多個相關列
Column：屬於某一個columnfamily，familyName:columnName，每條記錄可動態添加
Version Number：類型為Long，默認值是系統時間戳，可由用戶自定義
Value(Cell)：Byte array

Hbase物理模型

Hbase一張表由一個或多個Hregion(Region)組成
記錄之間按照Row Key的字典序排列

如圖
Region按大小分割的，每個表一開始只有一個region，隨著數據不斷插入表，region不斷增大，當增大到一個閥值的時候，Hregion就會等分會兩個新的Hregion。當table中的行不斷增多，就會有越來越多的Hregion。
如圖:
Region配置，默認大小10GB，如果在沒有自定義配置的情況下，超過10GB就會自動分裂
當對某一行進行修改時，會鎖定一整行數據，也就是對這一樣進行加鎖，當對某一行的某一個字段進行讀操作時，其他字段也不允許被操作，
一個RegionServer可以包含多個Region，內部管理了一系列的HRegion
如圖：
saf
表 -> HTable
? 按RowKey範圍分的Region-> HRegion ->Region Servers
? HRegion按列族（Column Family） ->多個HStore
? HStore -> memstore(默認128M，超過128M就會自動往磁盤上split) + HFiles(均為有序的KV)
? HFiles -> HDFS
HRegion是Hbase中分布式存儲和負載均衡的最小單元，最小單元就表示不同的
Hregion可以分布在不同的HRegion server上，但一個Hregion是不會拆分到
多個server上的
如圖：
HRegion雖然是分布式存儲的最小單元，但並不是存儲的最小單元
如圖：

Hbase系統架構

技術分享圖片

Client
– 訪問Hbase的接口，並維護Cache加速Region Server的訪問
Master(主)
– 負載均衡，分配Region到RegionServer
– DLL,增刪查改 -> table,cf,namespace
– 類似namenode,管理一些元數據
– ACL權限控制
HRegionServer(從)
1. 維護Region，負責Region的IO請求
2. 管理和存放本地的HRegion
3. 讀寫HDFS，提供IO操作
4. 本地化：HRegion的數據盡量和數據所屬的DataNode在一起，但是這個本地化不能夠總是滿足和實現
Zookeeper
– 保證集群中只有一個Master
– 存儲所有Region的入口（ROOT）地址
– 實時監控Region Server的上下線信息，並通知Master

技術分享圖片

Hbase的容錯

ZooKeeper協調集群所有節點的共享信息，在HMaster和HRegionServer連接到ZooKeeper後創建Ephemeral節點，並使用Heartbeat機制維持這個節點的存活狀態，如果某個Ephemeral節點實效，則HMaster會收到通知，並做相應的處理。

技術分享圖片

除了HDFS存儲信息，HBase還在Zookeeper中存儲信息，其中的znode信息：

/hbase/root-region-server ，Root region的位置
/hbase/table/-ROOT-，根元數據信息
/hbase/table/.META.，元數據信息
/hbase/master，當選的Mater
/hbase/backup-masters，備選的Master
/hbase/rs ，Region Server的信息
/hbase/unassigned，未分配的Region

Master容錯：
Zookeeper重新選擇一個新的Master
1. 無Master過程中，數據讀取仍照常進行；
2. 無master過程中，region切分、負載均衡等無法進行
Region Server容錯：
定時向Zookeeper匯報心跳，如果一旦時間內未出現心跳Master將該RegionServer上的Region重新分配到其他RegionServer上，失效服務器上“預寫”日誌由主服務器進行分割並派送給新的RegionServer
Zookeeper容錯：
Zookeeper是一個可靠地服務，一般配置3或5個Zookeeper實例
WAL(Write-Ahead-Log)預寫
日誌
是Hbase的RegionServer在處理數據插入和刪除的過程中用來記錄操作內容的一種日誌
在每次Put、 Delete等一條記錄時，首先將其數據寫入到RegionServer對應的HLog文
件的過程
客戶端往RegionServer端提交數據的時候，會寫WAL日誌，只有當WAL日誌寫成功以後，客戶端才會被告訴提交數據成功，如果寫WAL失敗會告知客戶端提交失敗
數據落地的過程
在一個RegionServer上的所有的Region都共享一個HLog，一次數據的提交是先寫WAL，寫入成功後，再寫memstore。當memstore值到達一定閾值，就會形成一個個StoreFile（理解為HFile格式的封裝，本質上還是以HFile的形式存儲的）

技術分享圖片

Hbase特殊的表

ROOT- 表和.META.表是兩個比較特殊的表
.META.記錄了用戶表的Region信息，.META.可以有多個regoin。
-ROOT-記錄了.META.表的Region信息，-ROOT-只有一個region，Zookeeper中記錄了-ROOT-表的location
Hbase 0.96之後去掉了-ROOT- 表，因為：

三次請求才能直到用戶Table真正所在的位置也是性能低下的
即使去掉-ROOT- Table，也還可以支持2^17(131072)個Hregion，對於集群來說，存儲空間也足夠

所以目前流程為：

從ZooKeeper(/hbase/meta-region-server)中獲取hbase:meta的位置（HRegionServer的位置），緩存該位置信息【沒有圖中綠色的部分】
從HRegionServer中查詢用戶Table對應請求的RowKey所在的HRegionServer，緩存該位置信息
從查詢到HRegionServer中讀取Row。

技術分享圖片

合並

region的合並：盡量把小的region合並到一個大的，理想情況下，每個region的請求量是一樣的(不能保證數據量一樣)
storefile的合並
如果Hbase當做MapReduce的輸入源的話，一個map對應一個region

Hbase的Compaction和Split

問題：隨著寫入不斷增多，flush次數不斷增多，Hfile文件越來越多,所以Hbase需要對這些文件進行合並
Compaction會從一個region的一個store中選擇一些hfile文件進行合並。合並說來原理很簡單，先從這些待合並的數據文件中讀出KeyValues，再按照由小到大排列後寫入一個新的文件中。之後，這個新生成的文件就會取代之前待合並的所有文件對外提供服務
Minor Compaction：是指選取一些小的、相鄰的StoreFile將他們合並成一個更大的StoreFile，在這個過程中不會處理已經Deleted或Expired的Cell。一次Minor Compaction的結果是更少並且更大的StoreFile
Major Compaction：是指將所有的StoreFile合並成一個StoreFile，這個過程還會清理三類無意義數據：被刪除的數據、 TTL過期數據、版本號超過設定版本號的數據
Major Compaction時間會持續比較長，整個過程會消耗大量系統資源，對上層業務有比較大的影響
因此線上業務都會將關閉自動觸發Major Compaction功能，改為手動在業務低峰期觸發
Compaction本質：使用短時間的IO消耗以及帶寬消耗換取後續查詢的低延遲
compact的速度遠遠跟不上HFile生成的速度，這樣就會使HFile的數量會越來越多，導致讀性能急劇下降。為了避免這種情況，在HFile的數量過多的時候會限制寫請求的速度
Split
當一個Region太大時，將其分裂成兩個Region
Split和Major Compaction可以手動或者自動做

此筆記僅用於作者記錄復習使用，如有錯誤地方歡迎留言指正，作者感激不盡，如有轉載請指明出處

Hbase基礎(一)

速查 src 定時 del family sig 系統 datanode 滿足 Hbase基礎 Hbase基礎 Hbase定義行存儲 v s 列存儲 Hbase數據模型 Hbase物理模型 Hbase系統架構 Hbase的容錯 Hbase特殊的表合並 Hbase的

大資料生態系統基礎： HBASE（一）：HBASE 介紹及安裝、配置

一、介紹 Apache HBase是Hadoop資料庫，一個分散式的、可伸縮的大型資料儲存。當您需要隨機的、實時的讀/寫訪問您的大資料時，請使用Apache HBase。這個專案的目標是承載非常大的表——數十億行X百萬列的列——執行在在商用硬體

HBase學習之路（一）HBase基礎介紹

產生背景自 1970 年以來，關係資料庫用於資料儲存和維護有關問題的解決方案。大資料的出現後，好多公司實現處理大資料並從中受益，並開始選擇像 Hadoop 的解決方案。Hadoop 使用分布式檔案系統，用於儲存大資料，並使用 MapReduce 來處理。Hadoop 擅長

TP5學習基礎一：增刪改查小demo

表單 arr 處理 php req 學習 model類浪費新手 ①TP5--增刪改查簡單的demo 我先吐槽一下：因為工作需要研究tp5，去官網看了一下哎呦，資源挺多挺全啊！然後下載唯一免費的官方教程，我曹pdf打開533頁。講的很細但是開發能等看完才做嗎？看到精簡版快

python基礎一 ------如何獲取多個字典相同的鍵

class dom 集合 pre app wke 生成參數 tool 需求：足球賽第一場進去統計 {"A":3,"B":2,"C":1}足球賽第二場進去統計 {"A":3,"C":1}足球賽第二場進去統計 {"A":2,"B":2}統計每場都有進球的人----&g

python基礎一 ------簡單隊列用作歷史記錄

但是猜字遊戲 history 無限制 tor except exc rom [] #需求：測試歷史記錄，一個猜字遊戲，能在重新進入遊戲時查看輸入歷史# 1 #-*-coding:utf-8-*- 2 from random import randint 3 fro

LINQ基礎(一)

延遲執行 turn {0} public net 名稱 predicate 方法 ear 　　LINQ(Language Integrated Query,語言集成查詢)，在C#語言中集成了查詢語法，可以用相同的語法訪問不同的數據源。　　LINQ提供了不同數據源的抽象層，

python基礎一 ------順序結構隊列的python實現

尾插 style 插入允許 nbsp 隊列 python實現 odin app 隊列：先進先出的線性表（FIFO）,只允許在一段插入並在另一端取出以下是python實現 1 #-*-coding:utf-8-*- 2 #順序存儲隊列的python實現 3 4

python基礎一 ------可叠代類型的連接

bsp pre rto 基礎 tools zip() 技術 mage python 對可叠代叠代進行連接,返回一個可叠代對象兩種方式：　　並行連接 zip()　　串行連接 itertools.chain 1 from itertools import chain

python基礎一 ------Python 的編碼

網絡歷史用兩個解決辦法等價編碼 default abc odin 首先了解一下歷史，但是本篇文章冗雜，如老太太裹腳布----------又臭又長編碼歷史： 1. 計算機只能處理數字，文本文件只有轉換為數字才能處理。8bit==1字節所以

Linux基礎一

name 情況 local ctrl+ sort 時有 color 詳細選項基本命令 useradd xxx 創建一個用戶 uname 查看系統架構信息 uname -a 顯示詳細信息 uname -r 顯示內核信息 date 顯示當前網絡時間 c

Javascript基礎(一)

color fine 新的單引號 bject 瀏覽器對象模型 ava ber array Javascript的組成: ECMAScript BOM:瀏覽器對象模型 DOM:文檔對象模型 Javascript的語法: Javascr

MYSQL 基礎一

比較連表 community error 字符串 code python3 index ref html,body,div,span,applet,object,iframe,h1,h2,h3,h4,h5,h6,p,blockquote,pre,a,abbr,acrony

Python基礎一

nal 不可變規則沒有 ber put you name class 一、介紹 python部分以python3為基礎進行闡述 print("Hello World!") 二、變量 python沒有常量的概念，一切皆可以是變量，但習慣性的用全大寫字母組成

JS基礎---->javascript的基礎(一)

concat 字符串表位置時間操作符 exe 以及構造 varname 　　記錄一些javascript的基礎知識。只是一起走過一段路而已，何必把懷念弄的比經過還長。 javascript的基礎一、在檢測一個引用類型值和 Object 構造函數時， i

SuperSocket基礎一

command 動態語言建立 nds ext mage 平臺服務器 tor SuperSocket基礎(一)——————基本概念項目中之前一直使用TCP socke

c#基礎(一)

開始部署整數格式化等待進行但是 bool rda 一、 C#與.Net的關系 C#是一種相當新的編程語言。C#的重要性體現在以下兩個方法： 1)、它是專門為Microsoft的.net FrameWork一起使用而設計的

Django基礎(一)

用戶 special res sta key） home 實際應用業務邏輯 page Django基礎（一）一什麽是web框架？框架，即framework，特指為解決一個開放性問題而設計的具有一定約束性的支撐結構，使用框架可以幫你快速開發特定的

Eclipse4.7使用基礎一次刪除所有的斷點

deb http bug .cn 所有刪除 debug 界面 eclipse os ：windows7 x64 jdk：jdk-8u131-windows-x64 ide：Eclipse Oxygen Release (4.7.0) 好多的斷點

Oracle基礎(一)

orace基礎數據庫系統: 微軟的SQL server , IBM的DB2，甲骨文公司的Oracle, Mysql等，是比較知名的數據庫管理軟件。現在咱們先來學習一下oracle數據庫。

Hbase基礎(一)

Hbase基礎

Hbase定義

行存儲 v s 列存儲

Hbase數據模型

Hbase物理模型

Hbase系統架構

Hbase的容錯

Hbase特殊的表

合並

Hbase的Compaction和Split

相關推薦