[Hbase]HBase架構詳解和資料的讀寫流程

阿新 • • 發佈：2018-12-14

HBase架構圖理解

18.png

HMaster連結Zookeeper的目得：HMaster需要知道哪些HRegionServere是活的及HRegionServer所在的位置，然後管理HRegionServer。
HBase內部是通過DFS client把資料寫到HDFS上的
每一個HRegionServer有多個HRegion，每一個HRegion有多個Store，每一個Store對應一個列簇。
HFile是HBase中KeyValue資料的儲存格式，HFile是Hadoop的二進位制格式檔案，StoreFile就是對HFile進行了封裝，然後進行資料的儲存。
HStore由MemStore和StoreFile組成。

HLog記錄資料的所有變更，可以用來做資料恢復。
hdfs對應的目錄結構為 namespace->table->列簇->列->單元格

17.png

寫資料流程

zookeeper中儲存了meta表的region資訊，從meta表獲取相應region資訊，然後找到meta表的資料
根據namespace、表名和rowkey根據meta表的資料找到寫入資料對應的region資訊
找到對應的regionserver
把資料分別寫到HLog和MemStore上一份
MemStore達到一個閾值後則把資料刷成一個StoreFile檔案。若MemStore中的資料有丟失，則可以總HLog上恢復

當多個StoreFile檔案達到一定的大小後，會觸發Compact合併操作，合併為一個StoreFile，這裡同時進行版本的合併和資料刪除。
當Compact後，逐步形成越來越大的StoreFIle後，會觸發Split操作，把當前的StoreFile分成兩個，這裡相當於把一個大的region分割成兩個region。如下圖：

19.png

讀資料流程

zookeeper中儲存了meta表的region資訊，所以先從zookeeper中找到meta表region的位置，然後讀取meta表中的資料。meta中又儲存了使用者表的region資訊。
根據namespace、表名和rowkey在meta表中找到對應的region資訊

找到這個region對應的regionserver
查詢對應的region
先從MemStore找資料，如果沒有，再到StoreFile上讀(為了讀取的效率)。

HBase Java API基本使用

package org.apache.hadoop.hbase;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.client.Delete;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.ResultScanner;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.filter.Filter;
import org.apache.hadoop.hbase.filter.PrefixFilter;
import org.apache.hadoop.hbase.util.Bytes;

public class HbaseClientTest {
    
    /*
     * 跟去表名獲取表的例項
     */
    public static HTable getTable (String name) throws Exception{
        //get the hbase conf instance
        Configuration conf = HBaseConfiguration.create();
        //get the hbase table instance
        HTable table = new HTable(conf, name);
        
        return table;
    }
    
    /**
     * get the data from the hbase table 
     * 
     * get 'tbname','rowkey','cf:col'
     * 
     * 列簇-》列名-》value-》timestamp
     */
    public static void getData(HTable table) throws Exception {
        // TODO Auto-generated method stub
        Get get = new Get(Bytes.toBytes("20161119_10003"));
        //conf the get 
        //get.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name"));
        get.addFamily(Bytes.toBytes("info"));
        //load the get 
        Result rs = table.get(get);
        //print the data
        for(Cell cell : rs.rawCells()){
            System.out.println(
                    Bytes.toString(CellUtil.cloneFamily(cell))
                    +"->"+
                    Bytes.toString(CellUtil.cloneQualifier(cell))
                    +"->"+
                    Bytes.toString(CellUtil.cloneValue(cell))
                    +"->"+
                    cell.getTimestamp()
                    );
            System.out.println("------------------------------");
        }
        
    }
    
    /**
     * put the data to the hbase table 
     * 
     * put 'tbname','rowkey','cf:col','value'
     *      
     */
    public static void putData(HTable table) throws Exception {
        //get the put instance
        Put put = new Put(Bytes.toBytes("20161119_10003"));
        //conf the put
        put.add(
                Bytes.toBytes("info"), 
                Bytes.toBytes("age"), 
                Bytes.toBytes("20")
                );
        //load the put 
        table.put(put);
        //print
        getData(table);
    }
    
    /**
     * delete the data from the hbase table 
     * 
     * delete 'tbname','rowkey','cf:col'
     *      
     */
    public static void deleteData(HTable table) throws Exception {
        //get the delete instance
        Delete del = new Delete(Bytes.toBytes("20161119_10003"));
        //conf the del
        //del.deleteColumn(Bytes.toBytes("info"),Bytes.toBytes("age"));
        del.deleteColumns(Bytes.toBytes("info"),Bytes.toBytes("age"));
        //load the del
        table.delete(del);
        //print
        getData(table);
    }
    
    /**
     * scan the all table
     * scan 'tbname'
     *      
     */
    public static void scanData(HTable table) throws Exception {
        //get the scan instance
        Scan scan = new Scan();
        //load the scan
        ResultScanner rsscan = table.getScanner(scan);
        for(Result rs : rsscan){
            System.out.println(Bytes.toString(rs.getRow()));
            for(Cell cell : rs.rawCells()){
                System.out.println(
                        Bytes.toString(CellUtil.cloneFamily(cell))
                        +"->"+
                        Bytes.toString(CellUtil.cloneQualifier(cell))
                        +"->"+
                        Bytes.toString(CellUtil.cloneValue(cell))
                        +"->"+
                        cell.getTimestamp()
                        );
            }
            System.out.println("------------------------------");
        }
    }
    
    /**
     * scan the table  with limit
     * 
     * scan 'tbname',{STARTROW => 'row1',STOPROW => 'row2'}
     */
    public static void rangeData(HTable table) throws Exception {
        //get the scan instance
        Scan scan = new Scan();
        //conf the scan
            //scan.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name"));
            //scan.addFamily(family);
            //scan.setStartRow(Bytes.toBytes("20161119_10002"));
            //scan.setStopRow(Bytes.toBytes("20161119_10003"));
        Filter filter = new PrefixFilter(Bytes.toBytes("2016111"));
        scan.setFilter(filter);
        //hbase conf
        //是否啟動快取
        scan.setCacheBlocks(true);
        //設定快取的條數
        scan.setCaching(100);
        //每一次取多少條
        scan.setBatch(10);
        //共同決定了請求RPC的次數
        
        //load the scan
        ResultScanner rsscan = table.getScanner(scan);
        for(Result rs : rsscan){
            System.out.println(Bytes.toString(rs.getRow()));
            for(Cell cell : rs.rawCells()){
                System.out.println(
                        Bytes.toString(CellUtil.cloneFamily(cell))
                        +"->"+
                        Bytes.toString(CellUtil.cloneQualifier(cell))
                        +"->"+
                        Bytes.toString(CellUtil.cloneValue(cell))
                        +"->"+
                        cell.getTimestamp()
                        );
            }
            System.out.println("------------------------------");
        }
    }
    
    public static void main(String[] args) throws Exception {
        HTable table = getTable("test:tb1");
        getData(table);
        putData(table);
        deleteData(table);
        scanData(table);
        rangeData(table);
    }   
}

HBase架構中各個模組的功能再次總結

** Client ** 整個HBase叢集的訪問入口；使用HBase RPC機制與HMaster和HRegionServer進行通訊；與HMaster進行通訊進行管理表的操作；與HRegionServer進行資料讀寫類操作；包含訪問HBase的介面，並維護cache來加快對HBase的訪問
** Zookeeper ** 保證任何時候，叢集中只有一個HMaster；存貯所有HRegion的定址入口；實時監控HRegion Server的上線和下線資訊，並實時通知給HMaster；儲存HBase的schema和table元資料； Zookeeper Quorum儲存表地址、HMaster地址。
** HMaster ** HMaster沒有單點問題，HBase中可以啟動多個HMaster，通過Zookeeper的Master Election機制保證總有一個Master在執行，主負責Table和Region的管理工作。管理使用者對錶的建立、刪除等操作；管理HRegionServer的負載均衡，調整Region分佈； Region Split後，負責新Region的分佈；在HRegionServer停機後，負責失效HRegionServer上Region遷移工作。
** HRegion Server ** 維護HRegion，處理對這些HRegion的IO請求，向HDFS檔案系統中讀寫資料；負責切分在執行過程中變得過大的HRegion。 Client訪問hbase上資料的過程並不需要master參與（定址訪問Zookeeper和HRegion Server，資料讀寫訪問HRegione Server），HMaster僅僅維護這table和Region的元資料資訊，負載很低。

hbase與mapreduce的整合

可以把hbase表中的資料作為mapreduce計算框架的輸入，或者把mapreduce的計算結果輸出到hbase表中。我們以hbase中自帶的mapreduce程式舉例

直接執行會發現報錯缺少jar包，所以執行前需引入環境變數

$ export HBASE_HOME=/opt/modules/hbase-0.98.6-hadoop2 
$ export HADOOP_HOME=/opt/modules/hadoop-2.5.0  
# $HBASE_HOME/bin/hbase mapredcp可以列出hbase在yarn上執行所需的jar包
$ export HADOOP_CLASSPATH=`$HBASE_HOME/bin/hbase mapredcp`

執行示例

$ $HADOOP_HOME/bin/yarn jar lib/hbase-server-0.98.6-hadoop2.jar rowcounter  test:tb1

HBase的資料遷移的importsv的使用

HBase資料來源於日誌檔案或者RDBMS，把資料遷移到HBase表中。常見的有三種方法：（1）使用HBase Put API；（2）使用HBase批量載入工具；（3）自定義MapReduce job實現。 importtsv是HBase官方提供的基於mapreduce的批量資料匯入工具，同時也是hbase提供的一個命令列工具，可以將儲存在HDFS上的自定義分隔符(預設是\t)的資料檔案，通過一條命令方便的匯入到HBase中。 ** 測試 **

準備資料檔案

[[email protected] datas]$ cat tb1.tsv 
10001   zhangsan        20
10002   lisi    22
10003   wangwu  30

把資料檔案上傳到hdsf上

$ bin/hdfs dfs -put /opt/datas/tb1.tsv /

在hbase中建立表> create 'student','info'
將HDFS中的資料匯入到hbase表中

$HADOOP_HOME/bin/yarn jar lib/hbase-server-0.98.6-hadoop2.jar importtsv  -Dimporttsv.separator=\t -Dimporttsv.columns=HBASE_ROW_KEY,info:name,info:age  student  /tb1.tsv

Dimporttsv.columns為指定分隔符 Dimporttsv.columns指定資料檔案中每一列如何對應表中的rowkey和列 /tb1.tsv為hdfs上的資料檔案的路徑

檢視執行結果

hbase(main):010:0> scan 'student'
ROW                       COLUMN+CELL                                                              
 10001                    column=info:age, timestamp=1480123167099, value=20                       
 10001                    column=info:name, timestamp=1480123167099, value=zhangsan                
 10002                    column=info:age, timestamp=1480123167099, value=22                       
 10002                    column=info:name, timestamp=1480123167099, value=lisi                    
2 row(s) in 0.8210 seconds

[Hbase]HBase架構詳解和資料的讀寫流程

HBase架構圖理解 18.png HMaster連結Zookeeper的目得：HMaster需要知道哪些HRegionServere是活的及HRegionServer所在的位置，然後管理HRegionServer。 HBase內部是通過DFS client把資料寫

HBase的Compact引數設定及資料讀寫流程剖析-OLAP商業環境實戰

1 HBase Compact 功能剖析 Compaction會從一個region的一個store中選擇一些hfile檔案進行合併。合併說來原理很簡單，先從這些待合併的資料檔案中讀出KeyValues，

分享《深度學習與計算機視覺演算法原理框架應用》《大資料架構詳解從資料獲取到深度學習》PDF資料集

下載：https://pan.baidu.com/s/12-s95JrHek82tLRk3UQO_w 更多資料分享：http://blog.51cto.com/3215120 《深度學習與計算機視覺演算法原理、框架應用》PDF，帶書籤，347頁。《大資料架構詳解：從資料獲取到深度學習》PDF，帶書籤，3

分享《深度學習與計算機視覺演算法原理框架應用》PDF《大資料架構詳解從資料獲取到深度學習》PDF +資料集

下載：https://pan.baidu.com/s/12-s95JrHek82tLRk3UQO_w 更多分享資料：https://www.cnblogs.com/javapythonstudy/ 《深度學習與計算機視覺演算法原理、框架應用》PDF，帶書籤，347頁。《大資料架構詳解：從資料獲取到深度學

關於dicom引數資訊和資料讀寫的理解

1. 資料位儲存(DCM_BitsStored)、資料位分配(DCM_BitsAllocated)、資料符號型別(DCM_PixelRepresentation)、灰度偏移(DCM_RescaleIntercept) 和資料值（DCM_PixelData）本身的關係：

《Windows驅動開發技術詳解》之讀寫操作

緩衝區方式讀寫操作設定緩衝區讀寫方式：讀寫操作一般是由ReadFile和WriteFile函式引起的，這裡先以WriteFile函式為例進行介紹。WriteFile要求使用者提供一段緩衝區，並且說明緩衝區的大小，然後WriteFile將這段記憶

iOS藍芽開發：藍芽連線和資料讀寫

當下藍芽開發可謂是越來越火，不論是智慧穿戴的興起還是藍芽傢俱，車聯網藍芽等等，很多同學也會接觸到藍芽的專案，我從事藍芽開發也有一段時間了，經手了兩個專案。廢話不多說了，先向大家簡單的介紹有關藍芽開發的知識。藍芽低能耗(BLE)，以下介紹的都是圍繞iOS的框架展開

BCache原始碼淺析之三資料讀寫流程

4. 資料讀寫流程與B+Tree cached_dev_make_request: a. 如果device沒有對應的快取裝置，則直接將向主裝置提交bio,並返回. b.如果有cache device 根據要傳輸的bio, 用search_alloc建立struct sear

Hbase框架詳解和讀寫流程分析

Hbase框架介紹HBase是一個分散式的、面向列的開源資料庫。不同點：l 和一般的關係資料庫不同，hbase是一個適合於非結構化資料儲存的資料庫。l Hbase是基於列而不是基於行的模式。在分散式的生產環境中，HBase 需要執行在 HDFS 之上，以 HDFS 作為其

HBase篇(3)-架構詳解

【每日五分鐘搞定大資料】系列，HBase第三篇聊完場景和資料模型我們來說下HBase的架構，在網上找了張比較清晰的圖，我覺得這張圖能說明很多問題，那這一篇我們就重點來解析下這張圖角色與職責先介紹下上圖中的幾個角色和Ta們的職責： 1.HMaster 為Region server分配region

探祕Hadoop生態5：Hbase讀寫流程詳解

如果將上篇內容理解為一個冗長的"鋪墊"，那麼，從本文開始，劇情才開始正式展開。本文基於提供的樣例資料，介紹了寫資料的介面，RowKey定義，資料在客戶端的組裝，資料路由，打包分發，以及RegionServer側將資料寫入到Region中的全部流程。NoSQL漫談本文整體思路前文內容回顧示例資料HBase可選介

HBase 實現原理以及系統架構詳解

好用的東西，總能找到對應的開源實現，這就是開源得魅力。下面一張圖看下Hbase的前世今生： HBase是一個構建在HDFS上的分散式列儲存系統； HBase是基於Google BigTable模型開發的，典型的key/value系統； HBase是

大白話詳解大資料HBase核心知識點，老劉真的很用心(2)

前言：老劉目前為明年校招而努力，寫文章主要是想用大白話把自己複習的大資料知識點詳細解釋出來，拒絕資料上的生搬硬套，做到有自己的理解！ 01 HBase知識點第6點：HRegionServer架構為什麼要了解HRegionServer的架構呢？因為HBase叢集中資料的儲存和HRegion

大白話詳解大資料HBase核心知識點，老劉真的很用心(3)

老劉目前為明年校招而努力，寫文章主要是想用大白話把自己複習的大資料知識點詳細解釋出來，拒絕資料上的生搬硬套，做到有自己的理解！ 01 HBase知識點(3) 第13點：HBase表的熱點問題什麼是熱點問題？就是我們檢索hbase的資料首先要通過rowkey來定位資料行，但是呢這裡面

全網最詳細的hive-site.xml配置文件裏如何添加達到Hive與HBase的集成，即Hive通過這些參數去連接HBase（圖文詳解）

out 開源精神 http FN image ava ext 必須 .cn 　　不多說，直接上幹貨！　　一般，普通的情況是　　 <configuration> 　　<property> 　　

阿裏巴巴 Sigma 調度和集群管理系統架構詳解

api 崗位渴望 clas 遷移表白 img doc 它的阿裏巴巴 Sigma 調度和集群管理系統架構詳解劃重點阿裏巴巴 9 年雙 11 經歷下來，交易額增長了 280 倍、交易峰值增長 800 多倍、系統數呈現爆發式增長。系統在支撐雙 11 過程中的復雜度和支撐難度

一篇文章詳解大資料技術和應用場景

什麼是大資料說起大資料，估計大家都覺得只聽過概念，但是具體是什麼東西，怎麼定義，沒有一個標準的東西，因為在我們的印象中好像很多公司都叫大資料公司，業務形態則有幾百種，感覺不是很好理解，所以我建議還是從字面上來理解大資料，在維克托邁爾-舍恩伯格及肯尼斯庫克耶編寫的《大資料時代》提到了大資料的4個特徵：

Java架構-詳解分散式系統本質：“分治”和“冗餘”

站在全域性角度看，分散式系統的本質是什麼？其實說白了，就是兩點：“分治”和“冗餘”。分治和冗餘使得分散式系統具備了核心價值，那麼它的價值是什麼？分散式系統的價值談到分散式系統的價值，可能就得從 1953 年說起了。在這一年，埃布·格羅希（Herb Grosch）提

王權富貴：VOC2007資料集格式詳解和下載

VOC2012和VOC2007的下載地址： https://pjreddie.com/projects/pascal-voc-dataset-mirror/ Annotations資料夾該檔案下存放的是

轉：HBase之HFile詳解

HFile是HBase儲存資料的檔案組織形式。HFile經歷了三個版本，其中V2在0.92引入，V3在0.98引入。HFileV1版本的在實際使用過程中發現它佔用記憶體多，HFile V2版本針對此進行了優化，HFile V3版本基本和V2版本相同，只是在cell層面添加了Tag陣列的支援。

[Hbase]HBase架構詳解和資料的讀寫流程

HBase架構圖理解

寫資料流程

讀資料流程

HBase Java API基本使用

HBase架構中各個模組的功能再次總結

hbase與mapreduce的整合

HBase的資料遷移的importsv的使用

相關推薦