大數據之HBase基礎

阿新 • • 發佈：2018-06-12

科技；大數據

HBase簡介
1.1. 什麽是HBase
HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統，利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。

HBase的目標是存儲並處理大型的數據，更具體來說是僅需使用普通的硬件配置，就能夠處理由成千上萬的行和列所組成的大型數據。

HBase是Google Bigtable的開源實現，但是也有很多不同之處。
比如：
Google Bigtable利用GFS作為其文件存儲系統，HBase利用Hadoop HDFS作為其文件存儲系統；
Google運行MAPREDUCE來處理Bigtable中的海量數據，HBase同樣利用Hadoop MapReduce來處理HBase中的海量數據；

Google Bigtable利用Chubby作為協同服務，HBase利用Zookeeper作為對應。
想了解大數據的學習路線，想學習大數據知識以及需要免費的學習資料可以加群：784789432.歡迎你的加入。每天下午三點開直播分享基礎知識，晚上20:00都會開直播給大家分享大數據項目實戰。

1.2. 與傳統數據庫的對比
1、傳統數據庫遇到的問題：

1）數據量很大的時候無法存儲

2）沒有很好的備份機制

3）數據達到一定數量開始緩慢，很大的話基本無法支撐

2、HBase優勢：

1）線性擴展，隨著數據量增多可以通過節點擴展進行支撐

2）數據存儲在hdfs上，備份機制健全

3）通過zookeeper協調查找數據，訪問速度塊。

1.3. HBase集群中的角色
1、一個或者多個主節點，Hmaster

2、多個從節點，HregionServer

hbase數據模型
2.1. hbase數據模型

2.1.1. Row Key
與nosql數據庫們一樣,row key是用來檢索記錄的主鍵。訪問HBASE table中的行，只有三種方式：

1.通過單個row key訪問

2.通過row key的range（正則）

3.全表掃描

Row key行鍵 (Row key)可以是任意字符串(最大長度是 64KB，實際應用中長度一般為 10-100bytes)，在HBASE內部，row key保存為字節數組。存儲時，數據按照Row key的字典序(byte order)排序存儲。設計key時，要充分排序存儲這個特性，將經常一起讀取的行存儲放到一起。(位置相關性)

2.1.2. Columns Family
列簇：HBASE表中的每個列，都歸屬於某個列族。列族是表的schema的一部分(而列不是)，必須在使用表之前定義。列名都以列族作為前綴。例如 courses:history，courses:math都屬於courses 這個列族。

2.1.3. Cell
由{row key, columnFamily, version} 唯一確定的單元。cell中的數據是沒有類型的，全部是字節碼形式存貯。

關鍵字：無類型、字節碼

2.1.4. Time Stamp
HBASE 中通過rowkey和columns確定的為一個存貯單元稱為cell。每個 cell都保存著同一份數據的多個版本。版本通過時間戳來索引。時間戳的類型是 64位整型。時間戳可以由HBASE(在數據寫入時自動 )賦值，此時時間戳是精確到毫秒的當前系統時間。時間戳也可以由客戶顯式賦值。如果應用程序要避免數據版本沖突，就必須自己生成具有唯一性的時間戳。每個 cell中，不同版本的數據按照時間倒序排序，即最新的數據排在最前面。

為了避免數據存在過多版本造成的的管理 (包括存貯和索引)負擔，HBASE提供了兩種數據版本回收方式。一是保存數據的最後n個版本，二是保存最近一段時間內的版本（比如最近七天）。用戶可以針對每個列族進行設置。

hbase命令
3.1. 命令的進退
1、hbase提供了一個shell的終端給用戶交互

#$HBASE_HOME/bin/hbase shell

2、如果退出執行quit命令

#$HBASE_HOME/bin/hbase shell

……

quit

3.2. 命令
名稱

命令表達式

創建表

create ‘表名‘, ‘列族名1‘,‘列族名2‘,‘列族名N‘

查看所有表

list

描述表

describe ‘表名’

判斷表存在

exists ‘表名‘

判斷是否禁用啟用表

is_enabled ‘表名‘
is_disabled ‘表名’

添加記錄

put ‘表名’, ‘rowKey’, ‘列族 : 列‘ , ‘值‘

查看記錄rowkey下的所有數據

get ‘表名‘ , ‘rowKey‘

查看表中的記錄總數

count ‘表名‘

獲取某個列族

get ‘表名‘,‘rowkey‘,‘列族‘

獲取某個列族的某個列

get ‘表名‘,‘rowkey‘,‘列族：列’

刪除記錄

delete ‘表名’ ,‘行名’ , ‘列族：列‘

刪除整行

deleteall ‘表名‘,‘rowkey‘

刪除一張表

先要屏蔽該表，才能對該表進行刪除
第一步 disable ‘表名’ ，第二步 drop ‘表名‘

清空表

truncate ‘表名‘

查看所有記錄

scan "表名"

查看某個表某個列中所有數據

scan "表名" , {COLUMNS=>‘列族名:列名‘}

更新記錄

就是重寫一遍，進行覆蓋，hbase沒有修改，都是追加

hbase依賴zookeeper
1、保存Hmaster的地址和backup-master地址

hmaster：

a) 管理HregionServer

b) 做增刪改查表的節點

c) 管理HregionServer中的表分配

2、保存表-ROOT-的地址

hbase默認的根表，檢索表。

3、 HRegionServer列表

表的增刪改查數據。

和hdfs交互，存取數據。

hbase原理
5.1. 體系圖

5.1.1. 寫流程
1、 client向hregionserver發送寫請求。

2、 hregionserver將數據寫到hlog（write ahead log）。為了數據的持久化和恢復。

3、 hregionserver將數據寫到內存（memstore）

4、反饋client寫成功。

5.1.2. 數據flush過程
1、當memstore數據達到閾值（默認是64M），將數據刷到硬盤，將內存中的數據刪除，同時刪除Hlog中的歷史數據。

2、並將數據存儲到hdfs中。

3、在hlog中做標記點。

5.1.3. 數據合並過程
1、當數據塊達到4塊，hmaster將數據塊加載到本地，進行合並

2、當合並的數據超過256M，進行拆分，將拆分後的region分配給不同的hregionserver管理

3、當hregionser宕機後，將hregionserver上的hlog拆分，然後分配給不同的hregionserver加載，修改.META.

4、註意：hlog會同步到hdfs

5.1.4. hbase的讀流程
1、通過zookeeper和-ROOT- .META.表定位hregionserver。

2、數據從內存和硬盤合並後返回給client

3、數據塊會緩存

5.1.5. hmaster的職責
1、管理用戶對Table的增、刪、改、查操作；

2、記錄region在哪臺Hregion server上

3、在Region Split後，負責新Region的分配；

4、新機器加入時，管理HRegion Server的負載均衡，調整Region分布

5、在HRegion Server宕機後，負責失效HRegion Server 上的Regions遷移。

5.1.6. hregionserver的職責
HRegion Server主要負責響應用戶I/O請求，向HDFS文件系統中讀寫數據，是HBASE中最核心的模塊。

HRegion Server管理了很多table的分區，也就是region。

5.1.7. client職責
Client

HBASE Client使用HBASE的RPC機制與HMaster和RegionServer進行通信

管理類操作：Client與HMaster進行RPC；

數據讀寫類操作：Client與HRegionServer進行RPC。

大數據之HBase基礎

科技；大數據HBase簡介1.1. 什麽是HBaseHBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統，利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。 HBase的目標是存儲並處理大型的數據，更具體來說是僅需使用普通的硬件配置，就能夠處理由成千上萬的行和列所組成的大

大數據之HBase基礎

大數據之HBase基礎

大數據處理入門基礎之python

十八掌大數據之zk總結

大數據之華為與思科

大數據之ETL工具Kettle的--1功能介紹

大數據-04-Hbase入門

【大數據之數據倉庫】kudu性能測試報告分析

大數據之高可用Mongodb集群部署

大數據之---hadoop偽分布式部署(HDFS)全網終極篇

大數據之---hadoop常用命令大全終極篇

大數據之---hadoop問題排查匯總終極篇---持續更新中

大數據之---官方文檔使用大全終極篇----持續更新中

大數據之---Yarn偽分布式部署和MapReduce案例

大數據之---Hive全網最詳細的編譯tar及部署終極篇

大數據之----hadoop中各pid進程號之快速定位

學習大數據需要Java基礎嗎？

大數據之數據采集

大數據之hiveSQL

大數據之hadoop

大數據之搭建HDP環境，以三個節點為例

大數據之HBase基礎

相關推薦