HBase(2.1)-HBase介紹

阿新 • • 發佈：2019-01-15

1. HBase介紹
1.1 HBase簡介
Hbase是一個非關係型的、持久的、分散式的、強一致性的儲存結構、面向列的開源資料庫，是一個適合於非結構化資料儲存的資料庫。
Hbase是Hadoop生態系統的一部分，Hbase資料最終是儲存到HDFS檔案系統當中；
Hbase是基於列儲存的資料庫,具有負載均衡和故障恢復功能，同時可以自動擴充套件，具有高效的讀寫功能。

（1）對於定義當中的幾個名詞的解釋：
非關係型的：儲存的資料格式是非結構化的資料
持久的：資料是存放到磁碟（Hbase是儲存在基於HDFS檔案系統的檔案裡面），而不是存於記憶體分散式的：主要是關係型資料庫做對比，不是僅有一個伺服器，資料儲存的方式是分散式的，資料是分佈在多臺伺服器；
強一致性：
一致性查到的概念如下：保證資料庫客戶端操作的正確性，資料庫必須保持每一步操作都是從一個一致的狀態到下一個一致的狀態。
一致性又分為很多級別，強一致性的概念是資料的變化是原子的，一經改變立即生效。
我的理解是放到高併發的場景，資料的狀態的固定的，根據高併發的採取的措施的不同有不同的效果，而出現了不同級別的一致性特徵。
列式儲存：
列式儲存是以列為單位聚合資料，然後將列值順序地存入磁碟；與此相對應的是行式儲存，行式儲存我們腦海當中有一定的印象，列式儲存可以形象的理解為矩陣轉置。
列式儲存自帶的優勢： 1.方便壓縮 2.減少I/O
無模式：每行都有一個可排序的主鍵和任意多的列，列可以根據需要動態的增加，同一張表中不同的行可以有截然不同的列；
面向列：面向列（族）的儲存和許可權控制，列（族）獨立檢索；
稀疏：空（null）列並不佔用儲存空間，表可以設計的非常稀疏；
資料多版本：每個單元中的資料可以有多個版本，預設情況下，版本號自動分配，版本號就是單元格插入時的時間戳。
資料型別單一：HBase中的資料都是字串，沒有型別。

1.2 HBase相關名詞解釋
Hbase位於結構化儲存層，Hadoop HDFS為hbase提供了高可靠性的底層儲存支援，hadoop MapReduce為HBase提供了高效能的計算能力，Zookeeper為HBase提供了穩定服務和failover機制。
1）行鍵(RowKey)
– 行鍵是位元組陣列, 任何字串都可以作為行鍵（”主鍵”)；
– 表中的行根據行鍵進行排序，資料按照Row key的位元組序(byte order)排序儲存；
– 所有對錶的訪問都要通過行鍵（單個RowKey訪問，或RowKey範圍訪問，或全表掃描) （二級索引）
2）列族（ColumnFamily）
– CF必須在表定義時給出
– 每個CF可以有一個或多個列成員(ColumnQualifier)，列成員不需要在表定義時給出，新的列族成員可以隨後按需、動態加入
– 資料按CF分開儲存，HBase所謂的列式儲存就是根據CF分開儲存（每個CF對應一個Store），這種設計非常適合於資料分析的情形
3）時間戳（TimeStamp）
– 每個Cell可能又多個版本，它們之間用時間戳區分
4）單元格（Cell）
– Cell 由行鍵，列族:限定符，時間戳唯一決定，資料全部以位元組碼形式儲存
5）區域(Region）
– HBase自動把表水平（按Row）劃分成多個區域(region)，每個region會儲存一個表裡面某段連續的資料；
– 每個表一開始只有一個region，隨著資料不斷插入表，region不斷增大，當增大到一個閥值的時候，region就會等分會兩個新的region；
– 當table中的行不斷增多，就會有越來越多的region。這樣一張完整的表被儲存在多個Region 上。
– HRegion是HBase中分散式儲存和負載均衡的最小單元（預設256M）。最小單元表示不同的HRegion可以分佈在不同的HRegionServer上。但一個HRegion不會拆分到多個server上。

1.3 HBase在Hadoop生態圈中的作用
Hbase在Hadoop生態系統當中結構圖如下：
這裡寫圖片描述

1） HDFS為Hbase 提供了檔案儲存支援，Hbase最終的資料是儲存在HDFS檔案系統當中；
2） HBase是Hadoop 資料庫，儲存了海量資料；
3） MapReduce 提供分析、處理資料的能力；
4） Zookeeper 提供了對穩定的服務和failover機制（對Hbase來說主要是為Master伺服器管理Region）
5） Sqoop可以將關係型資料庫匯入到Hbase裡面
6） Hbaes底層是用Java語言實現，Pig和Hive可以提供其他語言的支援，是操作資料更加的方便。

HBase(2.1)-HBase介紹

HBase(2.1)-HBase介紹

hbase-2.1.0 原始碼閱讀

hbase-2.1.0 程式設計，缺少 hadoop-auth-2.7.4.jar ?

hive-2.1.1整合hbase-2.1.0

十、CentOS7安裝HBase-2.1.0偽分散式

redis3.2.1叢集介紹及在Linux作業系統上安裝

HBase(2)：hbase物理模型結構

【HBase-2】HBase的原理和架構

spark(2.1.0) 操作hbase(1.0.2)

hive1.2.1整合hbase遇到的坑

使用Hbase協作器(Coprocessor)同步資料到ElasticSearch（hbase 版本 1.2.0-cdh5.8.0, es 2.4.0 版本）

HBase叢集的搭建（版本：2.1.0）

從hbase表1中讀取資料，最終結果寫入到hbase表2 ，如何通過MapReduce實現？

Apache Phoenix 4.8.1 + HBase 1.2.3 整合

phoenix-4.8.1-HBase-1.2安裝(詳細圖文)

使用HBase Indexer建立二級索引(整合最新版本的HBase1.2.6及Solr 7.2.1)

hadoop2.7.2叢集hive-1.2.1整合hbase-1.2.1

大資料研發（2Hbase）2.1：hbase和傳統資料庫的區別

Hadoop-1.2.1安裝HBase(偽分佈模式)

HBase之二【HBase基礎】hbase介紹（2）

HBase(2.1)-HBase介紹

相關推薦