HBase之二【HBase基礎】hbase介紹(2)
一、簡介
history
started by chad walters and jim
2006.11 G release paper on BigTable
2007.2 inital HBase prototype created as Hadoop contrib
2007.10 First useable Hbase
2008.1 Hadoop become Apache top-level project and Hbase becomes subproject
2008.10 Hbase 0.18,0.19 released
hbase是bigtable的開源山寨版本。是建立的hdfs之上,提供高可靠性、高效能、列儲存、可伸縮、實時讀寫的資料庫系統。
它介於nosql和RDBMS之間,僅能通過主鍵(row key)和主鍵的range來檢索資料,僅支援單行事務(可通過hive支援來實現多表join等複雜操作)。主要用來儲存非結構化和半結構化的鬆散資料。
與hadoop一樣,Hbase目標主要依靠橫向擴充套件,通過不斷增加廉價的商用伺服器,來增加計算和儲存能力。
HBase中的表一般有這樣的特點:
1 大:一個表可以有上億行,上百萬列
2 面向列:面向列(族)的儲存和許可權控制,列(族)獨立檢索。
3 稀疏:對於為空(null)的列,並不佔用儲存空間,因此,表可以設計的非常稀疏。
下面一幅圖是Hbase在Hadoop Ecosystem中的位置。
二、邏輯檢視
HBase以表的形式儲存資料。表有行和列組成。列劃分為若干個列族(row family)
Row
Key
與nosql資料庫們一樣,row key是用來檢索記錄的主鍵。訪問hbase table中的行,只有三種方式:
1 通過單個row key訪問
2 通過row key的range
3 全表掃描
Row key行鍵 (Row key)可以是任意字串(最大長度是 64KB,實際應用中長度一般為 10-100bytes),在hbase內部,row key儲存為位元組陣列。
儲存時,資料按照Row key的字典序(byte order)排序儲存。設計key時,要充分排序儲存這個特性,將經常一起讀取的行儲存放到一起。(位置相關性)
注意:
字典序對int排序的結果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的自然序,行鍵必須用0作左填充。
行的一次讀寫是原子操作 (不論一次讀寫多少列)。這個設計決策能夠使使用者很容易的理解程式在對同一個行進行併發更新操作時的行為。
列族
hbase表中的每個列,都歸屬與某個列族。列族是表的chema的一部分(而列不是),必須在使用表之前定義。列名都以列族作為字首。例如courses:history,courses:math
都屬於courses這個列族。
訪問控制、磁碟和記憶體的使用統計都是在列族層面進行的。實際應用中,列族上的控制權限能幫助我們管理不同型別的應用:我們允許一些應用可以新增新的基本資料、一些應用可以讀取基本資料並建立繼承的列族、一些應用則只允許瀏覽資料(甚至可能因為隱私的原因不能瀏覽所有資料)。
時間戳
HBase中通過row和columns確定的為一個存貯單元稱為cell。每個 cell都儲存著同一份資料的多個版本。版本通過時間戳來索引。時間戳的型別是 64位整型。時間戳可以由hbase(在資料寫入時自動 )賦值,此時時間戳是精確到毫秒的當前系統時間。時間戳也可以由客戶顯式賦值。如果應用程式要避免資料版本衝突,就必須自己生成具有唯一性的時間戳。每個
cell中,不同版本的資料按照時間倒序排序,即最新的資料排在最前面。
為了避免資料存在過多版本造成的的管理 (包括存貯和索引)負擔,hbase提供了兩種資料版本回收方式。一是儲存資料的最後n個版本,二是儲存最近一段時間內的版本(比如最近七天)。使用者可以針對每個列族進行設定。
Cell
由{row
key, column(=<family> + <label>), version}唯一確定的單元。cell中的資料是沒有型別的,全部是位元組碼形式存貯。
三、物理儲存
1 已經提到過,Table中的所有行都按照row key的字典序排列。
2 Table 在行的方向上分割為多個Hregion。
3 region按大小分割的,每個表一開始只有一個region,隨著資料不斷插入表,region不斷增大,當增大到一個閥值的時候,Hregion就會等分會兩個新的Hregion。當table中的行不斷增多,就會有越來越多的Hregion。
4 HRegion是Hbase中分散式儲存和負載均衡的最小單元。最小單元就表示不同的Hregion可以分佈在不同的HRegion server上。但一個Hregion是不會拆分到多個server上的。
5 HRegion雖然是分散式儲存的最小單元,但並不是儲存的最小單元。
事實上,HRegion由一個或者多個Store組成,每個store儲存一個columns family。
每個Strore又由一個memStore和0至多個StoreFile組成。如圖:
StoreFile以HFile格式儲存在HDFS上。
HFile的格式為:
HFile分為六個部分:
Data Block 段–儲存表中的資料,這部分可以被壓縮
Meta Block 段 (可選的)–儲存使用者自定義的kv對,可以被壓縮。
File Info 段–Hfile的元資訊,不被壓縮,使用者也可以在這一部分新增自己的元資訊。
Data Block Index 段–Data Block的索引。每條索引的key是被索引的block的第一條記錄的key。
Meta Block Index段 (可選的)–Meta Block的索引。
Trailer–這一段是定長的。儲存了每一段的偏移量,讀取一個HFile時,會首先讀取Trailer,Trailer儲存了每個段的起始位置(段的Magic Number用來做安全check),然後,DataBlock
Index會被讀取到記憶體中,這樣,當檢索某個key時,不需要掃描整個HFile,而只需從記憶體中找到key所在的block,通過一次磁碟io將整個block讀取到記憶體中,再找到需要的key。DataBlock Index採用LRU機制淘汰。
HFile的Data Block,Meta Block通常採用壓縮方式儲存,壓縮之後可以大大減少網路IO和磁碟IO,隨之而來的開銷當然是需要花費cpu進行壓縮和解壓縮。
目標Hfile的壓縮支援兩種方式:Gzip,Lzo。
HLog(WAL log)
WAL 意為Write ahead log(http://en.wikipedia.org/wiki/Write-ahead_logging),類似mysql中的binlog,用來做災難恢復只用,Hlog記錄資料的所有變更,一旦資料修改,就可以從log中進行恢復。
每個Region Server維護一個Hlog,而不是每個Region一個。這樣不同region(來自不同table)的日誌會混在一起,這樣做的目的是不斷追加單個檔案相對於同時寫多個檔案而言,可以減少磁碟定址次數,因此可以提高對table的寫效能。帶來的麻煩是,如果一臺region
server下線,為了恢復其上的region,需要將region server上的log進行拆分,然後分發到其它region server上進行恢復。
HLog檔案就是一個普通的Hadoop Sequence File,Sequence File 的Key是HLogKey物件,HLogKey中記錄了寫入資料的歸屬資訊,除了table和region名字外,同時還包括
sequence number和timestamp,timestamp是”寫入時間”,sequence number的起始值為0,或者是最近一次存入檔案系統中sequence number。HLog Sequece File的Value是HBase的KeyValue物件,即對應HFile中的KeyValue,可參見上文描述。
四、系統架構
Client
1 包含訪問hbase的介面,client維護著一些cache來加快對hbase的訪問,比如regione的位置資訊。
Zookeeper
1 保證任何時候,叢集中只有一個master
2 存貯所有Region的定址入口。
3 實時監控Region Server的狀態,將Region server的上線和下線資訊實時通知給Master
4 儲存Hbase的schema,包括有哪些table,每個table有哪些column family
Master
1 為Region server分配region
2 負責region server的負載均衡
3 發現失效的region server並重新分配其上的region
4 GFS上的垃圾檔案回收
5 處理schema更新請求
Region
Server
1 Region server維護Master分配給它的region,處理對這些region的IO請求
2 Region server負責切分在執行過程中變得過大的region
可以看到,client訪問hbase上資料的過程並不需要master參與(定址訪問zookeeper和region server,資料讀寫訪問regione server),master僅僅維護者table和region的元資料資訊,負載很低。
五、關鍵演算法/流程
region定位
系統如何找到某個row key (或者某個 row key range)所在的region
bigtable 使用三層類似B+樹的結構來儲存region位置。
第一層是儲存zookeeper裡面的檔案,它持有root region的位置。
第二層root region是.META.表的第一個region其中儲存了.META.z表其它region的位置。通過root region,我們就可以訪問.META.表的資料。
.META.是第三層,它是一個特殊的表,儲存了hbase中所有資料表的region 位置資訊。
說明:
1 root region永遠不會被split,保證了最需要三次跳轉,就能定位到任意region 。
2.META.表每行儲存一個region的位置資訊,row key 採用表名+表的最後一樣編碼而成。
3 為了加快訪問,.META.表的全部region都儲存在記憶體中。
假設,.META.表的一行在記憶體中大約佔用1KB。並且每個region限制為128MB。
那麼上面的三層結構可以儲存的region數目為:
(128MB/1KB) * (128MB/1KB) = = 2(34)個region
4 client會將查詢過的位置資訊儲存快取起來,快取不會主動失效,因此如果client上的快取全部失效,則需要進行6次網路來回,才能定位到正確的region(其中三次用來發現快取失效,另外三次用來獲取位置資訊)。
讀寫過程
上文提到,hbase使用MemStore和StoreFile儲存對錶的更新。
資料在更新時首先寫入Log(WAL log)和記憶體(MemStore)中,MemStore中的資料是排序的,當MemStore累計到一定閾值時,就會建立一個新的MemStore,並且將老的MemStore新增到flush佇列,由單獨的執行緒flush到磁碟上,成為一個StoreFile。於此同時,系統會在zookeeper中記錄一個redo
point,表示這個時刻之前的變更已經持久化了。(minor compact)
當系統出現意外時,可能導致記憶體(MemStore)中的資料丟失,此時使用Log(WAL log)來恢復checkpoint之後的資料。
前面提到過StoreFile是隻讀的,一旦建立後就不可以再修改。因此Hbase的更新其實是不斷追加的操作。當一個Store中的StoreFile達到一定的閾值後,就會進行一次合併(major compact),將對同一個key的修改合併到一起,形成一個大的StoreFile,當StoreFile的大小達到一定閾值後,又會對StoreFile進行split,等分為兩個StoreFile。
由於對錶的更新是不斷追加的,處理讀請求時,需要訪問Store中全部的StoreFile和MemStore,將他們的按照row key進行合併,由於StoreFile和MemStore都是經過排序的,並且StoreFile帶有記憶體中索引,合併的過程還是比較快。
寫請求處理過程
1 client向region server提交寫請求
2 region server找到目標region
3 region檢查資料是否與schema一致
4 如果客戶端沒有指定版本,則獲取當前系統時間作為資料版本
5 將更新寫入WAL log
6 將更新寫入Memstore
7 判斷Memstore的是否需要flush為Store檔案。
region分配
任何時刻,一個region只能分配給一個region server。master記錄了當前有哪些可用的region server。以及當前哪些region分配給了哪些region server,哪些region還沒有分配。當存在未分配的region,並且有一個region
server上有可用空間時,master就給這個region server傳送一個裝載請求,把region分配給這個region server。region server得到請求後,就開始對此region提供服務。
region
server上線
master使用zookeeper來跟蹤region server狀態。當某個region server啟動時,會首先在zookeeper上的server目錄下建立代表自己的檔案,並獲得該檔案的獨佔鎖。由於master訂閱了server目錄上的變更訊息,當server目錄下的檔案出現新增或刪除操作時,master可以得到來自zookeeper的實時通知。因此一旦region
server上線,master能馬上得到訊息。
region
server下線
當region server下線時,它和zookeeper的會話斷開,zookeeper而自動釋放代表這臺server的檔案上的獨佔鎖。而master不斷輪詢server目錄下檔案的鎖狀態。如果master發現某個region
server丟失了它自己的獨佔鎖,(或者master連續幾次和region server通訊都無法成功),master就是嘗試去獲取代表這個region server的讀寫鎖,一旦獲取成功,就可以確定:
1 region server和zookeeper之間的網路斷開了。
2 region server掛了。
的其中一種情況發生了,無論哪種情況,region server都無法繼續為它的region提供服務了,此時master會刪除server目錄下代表這臺region server的檔案,並將這臺region server的region分配給其它還活著的同志。
如果網路短暫出現問題導致region server丟失了它的鎖,那麼region server重新連線到zookeeper之後,只要代表它的檔案還在,它就會不斷嘗試獲取這個檔案上的鎖,一旦獲取到了,就可以繼續提供服務。
master上線
master啟動進行以下步驟:
1 從zookeeper上獲取唯一一個程式碼master的鎖,用來阻止其它master成為master。
2 掃描zookeeper上的server目錄,獲得當前可用的region server列表。
3 和2中的每個region server通訊,獲得當前已分配的region和region server的對應關係。
4 掃描.META.region的集合,計算得到當前還未分配的region,將他們放入待分配region列表。
master下線
由於master只維護表和region的元資料,而不參與表資料IO的過程,master下線僅導致所有元資料的修改被凍結(無法建立刪除表,無法修改表的schema,無法進行region的負載均衡,無法處理region上下線,無法進行region的合併,唯一例外的是region的split可以正常進行,因為只有region
server參與),表的資料讀寫還可以正常進行。因此master下線短時間內對整個hbase叢集沒有影響。從上線過程可以看到,master儲存的資訊全是可以冗餘資訊(都可以從系統其它地方收集到或者計算出來),因此,一般hbase叢集中總是有一個master在提供服務,還有一個以上的’master’在等待時機搶佔它的位置。
六、訪問介面
- HBase Shell
- Java clietn API
-
HBase non-java access
-
languages talking to the JVM
- Jython interface to HBase
- Groovy DSL for HBase
- Scala interface to HBase
-
languages with a custom protocol
- REST gateway specification for HBase
- 充分利用HTTP協議:GET POST PUT DELET
- text/plain
- text/xml
- application/json
- application/x-protobuf
-
Thrift gateway specification for HBase
- java
- cpp
- rb
-
相關推薦
【C#基礎】關於類(繼承)
1、繼承:面向物件程式設計中提供的子類可以沿用父類某些行為和特徵的一種方式。 當一個類繼承另一個類時,被繼承的類稱為父類或基類;該類被稱為子類或派生類。 【特點】: ⑴、傳遞性;(即類B繼承類A,類C繼承類B,故類C同時擁有類A和類
【C++基礎】----運算子過載(01)
一方面,在C++中,運算子過載( operator overloading)允許把標準運算子(如+ - * / % 等)應用於自定義資料型別的物件。 這樣可以直觀自然地看出自定義資料型別間的運算,並且提高程式的可讀性。 另一方面,運算子過載僅僅是一種語法上的方便。
HBase之二【HBase基礎】hbase介紹(2)
一、簡介 history started by chad walters and jim 2006.11 G release paper on BigTable 2007.2 inital HBase prototype created as Hadoop cont
【JavaScript動畫基礎】學習筆記(一)-- 旋轉箭頭
-- turn 我們 math class pla document new lose 隨著鼠標的移動旋轉箭頭。 requestAnimationFrame 在requestAnimationFrame之前我們可以用setInterval來實現動畫的循環:
【PHP基礎】PHP教程(錯誤處理、異常處理)
檢測 pen 沒有 border adding The 16px 之前 family 1、錯誤處理 在 PHP 中,默認的錯誤處理很簡單。一條消息會被發送到瀏覽器,這條消息帶有文件名、行號以及一條描述錯誤的消息。 在創建腳本和 web 應用程序時,錯誤處理是一個重要
【Redis學習】Redis筆記(一)——特點、基礎命令和資料結構
更新時間:2018-10-13 Redis的特性 速度快 持久化(斷電不丟資料) 多種資料結構 支援多種客戶端語言 功能豐富 操作簡單 主從複製 高可用,分散式 Redis的通用命令 key
【註冊碼】Matlab7.0(R14)註冊碼
.com power baidu spf 註冊 word kdt iyu https Matlab 7 (R14) 註冊碼1:14-13299-56369-16360-32789-51027-35530-39910-50517-56079-43171-43696-14148
【Python初學者】合並(拼接)字符串
Python【Python初學者】合並(拼接)字符串
【總結整理】地圖投影(轉)
相對 十分 body 角度 投影 解析 經緯度坐標 福特 曲面 1.地球橢球體 地球是一個表面很復雜的球體,人們以假想的平均靜止的海水面形成的“大地體”為參照,推求出近似的橢球體,理論和實踐證明,該橢球體近似一個以地球短軸為軸的橢園而旋轉
Day22 【小程序】Credit Card(ATM),購物程序調用信用卡程序接口支付
logger nts 實現 管理 加載 相關 actions bin 目錄 程序介紹: 實現信用卡(ATM)常用功能:(支持多賬戶登陸)1.取款;2.還款;3.轉賬;4.查詢余額;5.查詢賬單(流水,支持按年月日時分秒記錄); 程序結構:ATM/├── README├─
【Absible學習】Ansible playbook (一)
tags 列表 最好 test list playbook ppi -m color * 簡介 執行一些簡單的任務,使用ad-hoc命令可以方便的解決問題,但是有時一個設施過於復雜,需要大量的操作時候,執行的ad-hoc命令是不適合的,這時最好使用playbook。play
【AtCoder - 4242 】To Infinity(思維)
題幹: Problem Statement Mr. Infinity has a string S consisting of digits from 1 to 9. Each time the date changes, this st
【OpenAI-Gym】學習記錄(一)gym安裝
前言 最近在學習強化學習( Reinforcement Learning ),自學過程包括理論學習部分與演算法學習部分。理論學習部分安利一本書籍 Richard S. Sutton 的 Reinforcement Learning : An Introduction;演算法學習主要為使用
2018.11.07【校內模擬】數獨(模擬)
傳送門 解析: 直接模擬,隨手寫了一個壓位的二進位制優化數獨,並沒有什麼用,好處只有搜尋才能體現出來吧。。。 程式碼: #include<bits/stdc++.h> using namespace std; #define ll long lon
【原創】命令列(2)----一些伺服器命令列
Ls Ps –x Cd server/ Sh stopall.sh Sh fresh.sh Sh runall.sh 命令全部小寫即可 Ls
【POJ 3368】Frequent values(RMQ)
Description You are given a sequence of n integers a1 , a2 , ... , an in non-decreasing order. In addition to that, you a
UVM暫存器篇之二:暫存器模型概覽(下)
本文轉自:http://www.eetop.cn/blog/html/28/1561828-6266219.html 暫存器模型構建 在構建UVM暫存器模型的過程中,讀者需要了解下面這些與模型構建相關的類和它們的功能: 簡化後的MCDF暫存器模
【Short Brain】——mini-story(八)
What The guy named Joe. He wanted to be a famous movie star. So the first he get thin and have the good body. The he stopped eating dairy prod
【機器學習】softmax迴歸(一)
在 softmax迴歸中,我們解決的是多分類問題(相對於 logistic 迴歸解決的二分類問題),類標 可以取 個不同的值(而不是 2 個)。因此,對於訓練集 ,我們有 。(注意此處的類別下標從 1 開始,而不是 0)。例如,在 M
【PP生產訂單】入門介紹(六)
訂單的有效性(可用性)檢查: 是要系統自動幫我們做還是我們手動操作,這個需要後臺進行配置。 可用性檢查這裡有兩個選項: 1、建立時候檢查 2、下達時候檢查 那麼系統以什麼方式進行檢查呢? 這裡是通過“Checking Group檢查群組”和“
-
languages talking to the JVM